「曾错判大模型价值」，杨震原披露字节十年技术路径

“ 大家都在谈论 AGI，但什么是 AGI，应该如何评估是否到达 AGI 了？” 字节跳动技术副总裁杨震原日前出席第五届字节跳动奖学金颁奖典礼时谈及 AGI。

他坦承，团队 2021 年曾误判大模型价值，将早期 LLM 应用于搜索相关性任务时未见显著提升，“ 不过公司调整的很快，在 2022 年，我们在这个方向上开始投入。现在，也取得了一些成果”。

现场在谈及大模型的未来时，杨震原对“ 何为 AGI（通用人工智能）” 这一终极问题提出了一个极具启发性的评估框架。他认为，评估 AGI 的关键在于其完成人类工作的普适性程度。 一个具体的衡量标准是“ 如果 95% 的工作 AI 全部都能完成，我们可能就可以说真的达到 AGI 了。”

他对比了两个极端的例子，如今的大模型已经能够在国际数学奥林匹克竞赛中夺金，这超越了 99.9% 的人类，但在许多看似简单的任务上，比如一个初中生就能胜任的电话客服工作，AI 反而表现不佳。这或许表明， AGI 之路上的核心挑战并非攻克尖端难题，而是补齐作为通用智能基础的“ 短板”。他补充表示，未来技术攻坚的关键方向在于两个“ 能力” 的提升，即提升 AI 的持续学习能力和与现实世界的交互（IO）能力。

杨震原也首次系统回顾了公司近十年四大技术攻坚阶段的探索历程。面对来自清华、北大、新加坡国立大学等高校的 20 名获奖学子，他首度披露 XR 设备自研芯片已实现 12 毫秒超低延迟、科学计算成果正通过比亚迪联合实验室推动电池材料研发等关键进展。其将字节跳动的技术演进划分为四个阶段：

2014 年：“ 激进目标”，启动构建万亿特征推荐系统。

2020 年：用 AI 重构科学计算范式，让 AI 从海量数据中“ 领悟” 底层规律。

2021 年：XR 技术的底层破局，PICO 路线“ 二选一”。

2023 年：大模型的反思与超越。

杨震原表示，2014 年，在仅有 5 人团队时，字节以“ 激进目标” 启动万亿级特征规模的机器学习系统研发。在优化器选择上同时推进 SGD-FTRL 和 CDN 两套方案，最终 FTRL 方案仅用数月成功上线，成为支撑抖音、今日头条等产品爆发的基础架构。

值得注意的是，在早期推荐系统的攻坚中，“CDN 优化器” 这个被“ 预判比较有潜力” 的项目，在长达两年的探索后并未能超越并行的 SGD-FTRL 方案，最终被中止。然而，与许多公司对“ 失败项目” 的常见处理方式不同，字节将这支拥有“ 失败” 经验但能力突出的团队，整体转岗至公司其他重要的机器学习业务方向，这些成员“ 后来负责公司很重要的业务”。

大概 2019 年底到 2020 年，字节内部讨论过未来 AI 还能够如何发展，通过鄂维南院士提出的多尺度计算图谱，字节将机器学习应用于量子化学、分子动力学等领域。在神经网络量子蒙特卡洛 NNQMC 方向实现突破，发现其与大模型相似的 Scaling Law 规律，并首创适用于固体材料的 DeepSolid 方法。当前已实现 GPU 加速 DFT 计算 1GPU≈500-1000CPU 核心的效能提升，相关技术正通过比亚迪联合实验室开展电池材料产业化落地。

字节跳动的发展离不开硬件的革新和进步，大屏手机、高清 camera 是抖音、tiktok 这样产品发展的土壤。那接下来还有什么交互体验可以超过视频呢？字节认为 XR 是有潜力能带来全新的体验。于是，2021 年，字节收购了 Pico 团队。当时有两个产品路线在同时推进。一个是，以当前的产品形态为主，同时投入资源运营视频、直播等内容，较为激进的营销。路线二，是投资基础技术，追求核心体验上一个大台阶。

2023 年，字节最终选择了“ 减少营销投入，强化技术攻坚” 的路径。“ 这个调整当时还带来了一些误解，不少人说字节不做这个方向了。其实恰恰相反，23 年开始，我们在 XR 上的技术投入比以前更多。” 杨震原表示。

后来，通过定制近 4000 PPI MicroOLED 屏幕（达 iPhone 17 Pro Max 的 9 倍），配合微透镜技术攻克亮度难题，使 PPD 提升至 40+。更关键的是自研头显专用芯片于 2024 年回片目前已量产，将系统延迟压至 12 毫秒，较行业软件方案提升一倍以上。为提升交互精度，公司专门建设了高精度 6DoF 测试、手势数据采集系统等基础设施。

以下为杨震原分享全文：

大家好，很高兴在字节技术奖学金，这样一个场合见到大家。我自己是一个技术爱好者，2014 年我加入字节跳动。从最初负责搭建新的推荐系统开始，到现在已经有快 12 年了。这些年来，也一路参与了字节很多的技术探索。

说起字节，多数人比较熟悉的还是我们的产品，比如抖音、今日头条、TikTok 等。

我的视角可能更技术一些，今天这个机会，我来以我的视角分享一些大家可能没那么熟悉的技术故事。

2014，大规模机器学习与推荐系统

第一版就计划做到万亿（T）级别的特征规模。

最初，创始人张一鸣找到我，跟我说，他想用大规模机器学习系统来搭建推荐系统。来解决各种媒体形式，包括图片、文字、视频的推荐。他这个想法很吸引我。

2014 年，工业界最大规模的机器学习系统，是搜索广告中已经成熟使用的大规模离散 LR（Logistic regression）。把这套原理用在推荐系统上，挑战可不小。那时同时熟悉大规模软硬件工程和机器学习的人不多，而且，除了能够挣到很多钱的搜索广告会使用；其他领域，大家都不愿意花这么大的硬件成本去做计算。

我们第一版就定了一个非常激进的目标：计划 2014 年做到万亿（T）级别的特征规模。

这里有非常多的挑战，比如系统建模，处理好推荐的优化目标。工程上，存储和计算是最前期的门槛。另外我们也要做好算法的优化。构建目标，做好存储的挑战，以前都分享过了，今天说说优化算法。

LR 的优化是成熟技术，但不同的方法效率、效果差异巨大。尤其是超大规模之后。今天很多同学可能不知道当年的优化器的情况。今天 SGD 系的方法是主流，但 2014 年，我们搞非常大规模稀疏的逻辑回归的时候，并不是这样。当时 CD 系的一些方法用的更多。另外，百度的搜索广告使用的优化器是 OWL-QN。

我们当时一共就 5 个人，还有人要去做工程，优化器准备了 2 套方案。1、SGD-FTRL；2、CDN（Coordinate Descent Newton）。就选了两个人分别负责，同步进行调研。

CDN 优化器项目，我们当时预判比较有潜力，初期进展也不错，但最初的上线发现又不太行，就一直改进。2 年中，始终有一个小组持续在做。直到 SGD 的方法都开始找到更多的应用方式后，才终于停了这个项目。CDN 优化器项目组里的同学，后来转到了机器学习的其他方向，负责公司很重要的业务。虽然项目并不成功，公司还是很认可他们的探索。

FTRL 现在提到的都比较少了，可以认为是基于累计梯度的，基于 AdaGrad 风格自适应的，L1 正则的 SGD。这个项目我们进展很快，几个月上线，成功实现了稀疏化万亿特征的目标，并且框架非常灵活。

14 年底，我们逐渐引入了 FM 类算法，后来演化成了更通用的 deep learning 体系。而且从我们上线的第一天，它就是一个 streaming training 的系统。

到今天，我们发现 streaming 更新（training only）的、较浅层的神经网络算法在推荐中依然有着不错的效果。它可能和现在 test-time training 中的一些问题相关，也许是更近似 RNN 的一个实现。

2020，科学计算的探索

求解薛定谔方程，就可以模拟世界绝大部分的现象。

大概 2019 年底到 2020 年，我们讨论过一次，未来 AI 还能够怎么发展，如何在全社会发挥更加重要的价值？

当时的思考是，只有很大规模的有价值的数据，才能够产生足够有价值的模型和算法。线上世界，推荐、搜索、广告是主流应用。那么，还有什么场景能够产生很多有价值的数据呢？显而易见是现实世界。但现实世界的数据搜集与应用会比较复杂，涉及到无人车、机器人等领域。除了现实世界，我们还想到一点，那就是科学计算。

我们这个世界虽然纷繁复杂，但底层的物理规律是特别简洁的。从量子力学的角度来讲，如果今天有一台计算能力没有上限的机器，我们确实可以从薛定谔方程中解出当前世界中绝大部分的现象（不考虑重力的情况下）。大量的 simulation 会得到有价值的数据，指导 machine learning 去进步。得到更好的结果，反过来，又可以改进 simulation。

这张图是我们当时的顾问鄂维南院士分享过的一张图，我贴过来了，讲的是不同尺度科学计算的分类。

大家可以看，横坐标代表了空间尺度，纵坐标是时间尺度。这张图代表了物理和科学计算的一些问题。比如最左下角的是第一性原理计算，它包括 CCSD、 QMC 等方法，它需要去计算多电子的波函数。再上走，分别是做了近似的 DFT（密度泛函）。再往上走，不再去描绘波函数。而是使用粒子来做抽象，也就是分子动力学 MD（Molecular dynamics），再往上抽象到粒子团簇；最上面抽象的流体力学、有限元等更高抽象的层次。
那机器学习在其中的价值是什么呢？图中的 L1、L2、L3、L4 的意思是，在这些不同尺度的问题上，都可以通过机器学习的方法更好地求解。例如，在最下面量子化学计算角度，采用神经网络来拟合多电子波函数。尽管这些物理规律描述起来特别简单，但计算起来却异常复杂，所以机器学习能够发挥非常大的价值。

第一性原理计算

我们从 2020 年开始在这个方向持续投入。这里有一张同事提供的图，展示了我们在这方面做的一些工作。

图中的横坐标指的是时间，这个领域早期代表性的工作是 DeepMind 的 FermiNet 等，2019 年我们几个人在会议室里就讨论过这项工作。这个领域叫做 NNQMC（神经网络量子蒙特卡洛方法）。大概是什么意思呢？ QMC 是量子蒙特卡洛，根据变分原理，任何试验波函数计算得到的系统能量总是大于或等于真实基态能量。于是，我们就可以用神经网络去表示一个波函数，然后，在这个波函数上进行采样并计算系统能量。然后，我们就可以按照能量更小方向的梯度去更新神经网络，最终得到一个更优的波函数表示。

粉色部分是我们在 2021 年之后的几项工作，我们基本上在业界已经做到前沿。

这张图的纵坐标指的是仿真精度，就是与物理实验的接近程度。仿真越接近真实，应用前景就越好。圆的大小表明了仿真体系电子的数量，这个圆越大，也就意味着它有更大的实用价值。

最右上角有一个 Scaling Laws with LAVA，这是我们最新的一个成果。我们发现，这个问题和大模型一样表现出 Scaling Law，如果我们使用更多参数，就会看到它的仿真精度是持续上升的。这是一个很好的信号，说明我们可能在实用性方面还有很大的突破潜力。

在处理体系范围上，我们提出了首个能使用于固体体系的 NNQMC 方法，DeepSolid。同时在二维转角材料的研究上也进行了一系列研究。今年的一个重点工作就是将 NNQMC 用于研究拓扑绝缘体。

拓扑绝缘体具有特别的电学性质，通电后，器件内部没有电流，但在器件边缘产生电流。器件几乎不发热。

拓扑绝缘体“ 不发热” 这个电学性质十分诱人。因为现在用的 CPU，GPU 都会大量发热，造成能源损耗。如果真能用拓扑绝缘体替代，也许可以制造超级计算机。

怎么找拓扑绝缘体呢？应用上面的方法，我们就可以根据材料的描述，来仿真计算得到材料的性质。从而大大提高实验的效率。我们具体计算了这种二维材料，发现其在特定的密度和旋转角度下会变为拓扑绝缘体，并且与实验结果一致。

分子动力学

我们在分子动力学上也有很多探索。MD（分子动力学）在鄂维南老师的图中是 classic MD 这个位置。我们的思路是，先改进正问题。使用更高精度的仿真来给机器学习 MD 的力场提供更精准的 label。DFT（密度泛函分析），是一个合理的层次。我们首先做了 DFT 的 GPU 加速工作。我们的 GPU4PySCF，实现了 GPU 加速 DFT 计算的业界 SOTA。相比传统 CPU 计算程序，实现速度 1GPU500~1000CPU core 的加速，完成相同计算任务算力成本降低 1 个数量级。

有了更好的 label，我们就可以获得更准确的力场模型，进而可以做更准的 MD 仿真，来做更好的性质预测。

当我们做了很多正问题后，我们就可以再次训练模型，去直接生成可能满足某些性质的小分子的候选，这就是逆问题。这个问题，就是若干工业领域（能源、制药）的核心问题了。我们的团队开发了 Bamboo-MLFF 和 ByteFF 两类分子动力学力场，对分子、固体体系的性质进行准确预测。其中 ByteFF-Pol 目前在无实验数据 zeroshot 预测电解液性质上实现了业界 SOTA 的精度。

这些工作不仅仅只在我们的实验里。我们今年已经和 BYD 成立了联合实验室，会将高通量自动化实验与科学计算算法结合，探索 AI for Science 在电池材料领域的工业落地应用。目前，GPU 加速 DFT 计算、力场+分子动力学模拟、预测+设计模型均已投入企业合作伙伴的实际应用。

2021，PICO——XR 的探索

更多投资基础技术，追求核心体验上大台阶。

字节跳动的发展离不开硬件的革新和进步。大屏手机、高清 camera 是抖音、tiktok 这样产品发展的土壤。那，接下来还有什么交互体验可以超过视频呢？

XR 是有潜力能带来全新的体验。2021 年，字节收购了 Pico 团队。

收购后，我们有两个产品路线在同时推进。一个是，以当前的产品形态为主，同时投入资源运营视频、直播等内容，较为激进的营销。路线二，是投资基础技术，追求核心体验上一个大台阶。

2023 年，我们决定减少内容和营销投入，更坚定的投入技术路线。这是因为当时产品的硬件体验尚未成熟，无法支撑大规模市场应用。这个调整当时还带来了一些误解，不少人说字节不做这个方向了。其实恰恰相反，23 年开始，我们在 XR 上的技术投入比以前更多。

接下来，我来分享一些路线二中的一些技术探索。

首先是清晰度。

XR 要模拟人眼观察真实世界的体验，关键指标是 PPD（每度像素数），就是说人眼睛看一个度（degree），大概有多少像素。这个指标和观看距离、屏幕 PPI（像素密度）强相关。

PPD 大于 30 大概可以看文字，40 会比较清晰。PPD 到 60 的视觉体验接近视网膜级清晰度。在 2021 年，Pico 3、Quest 2 这些主流产品的 PPD 其实是小于 20 的，而且这还是中心区域，如果到边缘还要更差。如果一个 XR 产品无法看清楚字，那使用场景肯定就很局限，这是要解决的一个重要挑战。

2022 年我们开始研究怎么能做好，最后决定和供应商启动 MicroOLED 定制。MicroOLED 是一种在单晶硅片上制备主动发光型 OLED 器件的新型显示技术。相比于其他显示技术（如高 PPI 的 LCD 液晶屏），microOLED 在实现单眼 4K 等级的超高分辨率时，仍然能够保持更小的面板尺寸。这使得光学显示系统得以进一步缩小，从而让 MR 头显轻便的同时获得更高的 PPI 和整体清晰度。

如果我们去对比 iPhone，iPhone 17 Pro Max 是 6.9 英寸的，它的 PPI 是 460。我们在 2022 年定制 MicroOLED 的目标是什么呢？我们要做到近 4000PPI，大概是 iPhone 17 接近九倍的量级，所以这个事情的挑战是非常大的。

MicroOLED 虽然可以有超高的 PPI，但它每个像素点都特别小，导致屏幕亮度上限较低。我们通过导入微透镜（MLA）来提升亮度，副作用是色亮度均一性变差。这就需要，结合光学设计，通过主光线角（CRA）定制和系统性补偿上的一些工作，让亮度和色亮度均一性同时达到最优状态。

在我们启动的那个时间点，市场上现有的产品在很多维度（比如分辨率、亮度、功耗、成本等等）都无法达到我们的要求。我们只能自己和供应商一起把上面提到的这些硬件、软件、算法的东西都解决好才行。我们大概 2022 年开始启动，到今天，终于解决的比较好了。最终的成品，平均 PPD40，中心区域超过 45，应该说是行业领先了。

MR 也是重要的技术挑战。

传统的 VR 无法看到现实，更无法做到融合。MR（Mixed Reality）代表了新一代的技术：能够看到现实，并且能够把虚拟的物体与现实世界融合。但这也带来巨大的技术挑战。

比如 SLAM 技术，核心是让头显精准感知用户的位置与姿态角度；而为实现运动补偿，还需进一步估算运动速度。同时，微显示屏上的高清图像，通过光学镜头后，会有畸变，比如边缘被拉伸、中心被放大，所以要做逆畸变处理。从源头到输出，整个过程的计算量非常大，而且都是对高清、高帧率的视频做实时的处理，又需要特别低的延迟。在有限的功耗空间里，这个问题就特别困难。

如果这方面做得不好，就会让人产生眩晕感。如何低延迟、高精度的完成这个计算，就是核心问题。这里面，就需要有强大且低功耗的算力，需要专用的芯片才能够做到。

于是，2022 年 6 月我们正式立项，全链路自研了一颗头显专用的消费电子芯片来解决这个处理瓶颈。芯片在 2024 年回片，目前进入量产阶段，各项指标均达到设计要求。

目前在实测中，我们的系统延迟可以做到 12 毫秒左右，这是非常不容易的。即便是世界顶尖的公司，用软件来做的话，也很难在不明显牺牲画质的前提下把延迟压到 25 毫秒以内。

交互的挑战也非常重要。我们如果希望做虚实融合，那需要对现实环境做识别。我们需要非常高精度的 ground truth 进行校准与训练。为此，我们建设了专业的高精度测试系统。

新的 MR 设备交互，需要 eye tracking，hand tracking，这些也都需要高精度的 ground truth。只有搜集到较广泛的数据，才有机会让体验在更广泛的人群上保持鲁棒的高体验。所以我们也做了专门的 3D 重建机制与高精度手势数据采集系统。

XR 的路还很长，挑战也很多。上面只是举了一些技术的例子。26 年我们就会有新的产品发布，期望未来我们通过持续的技术研发，能够给大家带来体验更好的产品。

2023，大模型的时代

2022 年 11 月 30 日，ChatGPT 横空出世，2023 年引起广泛关注。我们在 2021 年，有过一次机会早点关注到。

当时我们一个同事，也训练了一个大语言模型，但我们不知道干什么用。我们想，是否可以用来改进搜索？于是把这个 pretrain 的 LLM，在搜索的 relevance 任务上去 fine tune。结果和 bert 模型做对比。提升幅度很小，计算 cost 又增加很多。于是得到一个结论，这个 LLM 目前没什么用。所以还是很没眼光。

不过公司调整的很快，在 2022 年，我们在这个方向上开始投入。现在，我们也取得了一些成果。应用上大家可能更熟悉一些，豆包是中国最流行的 AI 对话助手，火山引擎的大模型服务也受到客户的认可，根据 IDC 的报告，火山是中国 MaaS 市场的第一名。

技术上我们也有自己的特点。得益之前的一些积累，我们在 Infra 方面做的还是比较好的。我们很早就建设了大规模的稳定训练系统 MegaSacle，在训练任务上，MFU（浮点运算利用率）超过 55% ，这是当时主流开源框架的 1.3 倍以上，效果还是很不错的，有兴趣的可以去看我们 24 年年初发的相关论文。

我们在模型结构、自研服务器上也有很多探索，这也让我们实现了大模型的低调用成本。所以，我们在通过火山引擎提供服务的时候，才能够打破业界价格下限，同时保证自己有不错的毛利。

我们的 GenMedia 模型、VLM、语音模型表现很好，长期属于国际一流水平。另外，在大模型的研究方面还有一些更前沿的探索，我们叫 Seed Edge 计划。我不展开讲了。

对未来大模型如何发展，我也不知道，但是我可以提几个小问题，和大家一起讨论。

大家都在谈论 AGI，但什么是 AGI，应该如何评估是否到达 AGI 了？

大家都有不同的看法，我说说我的。我们可以做一个思想实验。假设把全世界的人类的工作（包括最初级的工作，也包括最顶尖科学家的工作）全部拿出来，让 AI 去做。我们定一个比例，比如 95%，如果 95% 的工作 AI 全部都能完成，我们可能就可以说真的达到 AGI 了。

AI 的能力发展是非常不均衡的，今天大模型可以在国际数学奥林匹克上拿到金牌，这恐怕已经超过了 99.9% 的人类。但对于很多工作，比如，一个初中生可以胜任的电话客服工作，大模型目前还不能完全做好。

那我们从补短板的角度继续去思考一下，为什么会这样？一个比较直观的，是模型的学习能力。

目前的大模型是分阶段的，训练阶段和推理阶段。当模型部署到线上开始服务，就不再被训练，或者说，只能做 in context learning。这和人类是不一样的。人类是持续在学习的。

比如电话客服，一个名校的博士可能刚开始也不知道怎么做好，但人可以很快学习，可能用不了几天就可以把工作做好了。而且人的学习效率很高，并且充分利用社会环境，比如他可以问一下老员工或者经理该怎么做。

所以说，如何让大模型提高学习能力，是一个比较重要的问题。最好是每一个人都可以以他的方式教知识给大模型。

第二个能力是 IO 能力，也就是和这个世界交互的能力。这个也显而易见。即便在数字世界，虽然目前的大模型，在视频、图片合成方面的能力已经超过人类，但是在众多内容理解、界面操作等方面，模型还是和人有比较大的距离。

这些都是非常基础，但非常值得研究的问题。

有人说，2023 年是人类历史上的第 3 个奇迹年，我觉得丝毫不为过。AI 的发展给人类社会预期会带来巨大的变革，这场变革里会有无数的问题，需要技术人去探索，去解决。

字节跳动也会在大模型等前沿领域，持续耐心的探索下去，希望能够为人类社会贡献自己的力量。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

「曾错判大模型价值」，杨震原披露字节十年技术路径

专业财经网站

方舟日历

2026 年 5 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

「曾错判大模型价值」，杨震原披露字节十年技术路径

以下为杨震原分享全文：

2014，大规模机器学习与推荐系统

2020，科学计算的探索

第一性原理计算

分子动力学

2021，PICO——XR 的探索

2023，大模型的时代

专业财经网站

方舟日历

标签