智驾的遮羞布被掀开

「企业做宣传时，讲得天花乱坠，说是端到端、数据驱动，有各种各样的新词，但对普通消费者来说，很简单，上车以后 5 分钟能不能感觉产品是完全与众不同的，是可以信赖的，这样的产品才能去卖。」今年年初，地平线苏箐在媒体交流会中有感而发的这段话，仍旧警示车圈智驾生态。

去年一整年，车企都在做端到端。华为、理想、小鹏和海外的特斯拉已经证明，端到端模型训练出的自动驾驶软件可以上路——至少在大部分时候如此。

端到端是一个黑盒系统，其逻辑是通过神经网络模拟人类行为，通过概率模型总结出来的驾驶策略，存在出现问题的概率，且一旦出现问题可能造成严重的后果。（关于蔚小理华的上一代架构，聚赢方舟汽车团队曾在《抄不了特斯拉的作业，「蔚小理华」可咋整》一文中有过详细解析）

端到端思路来源于人工智能领域的深度学习，本质是把智驾算法简单化，再通过大量的数据训练来补足软件能力。

但一些车企已经发现，端到端无法完全解决问题。当智能驾驶要往更安全、人类干预更少的 L3 方向进阶，就要想办法补上端到端的漏洞。

于是车企们甩出一堆新的名词——世界模型、VLA、基座模型...... 这些词汇意味着什么，真的能解决智能驾驶问题吗？

智驾路线出现分野

进入端到端 2.0 阶段，技术路线没有了标准答案。

理想在 AI TALK 上公布下一代自动驾驶架构 VLA（视觉-语言-行为大模型）；小鹏最新技术架构则是打造一个云端世界基座模型，通过蒸馏方法，生产出小尺寸的车端模型 XVLA；华为乾崑 ADS4 引入了 WEWA 架构——WE 代表云端世界引擎（World Engine），WA 代表了车端的世界行为模型（World Action Model）。

「各家厂商软件架构不一样，其实是各家的硬件研发进度和商业模式导向的结果。」一位业内人士说道。

小鹏和理想都走了 VLA 的路径，上述人士告诉笔者：「这是传统车企转向一个机器人企业，或者说 AI 企业必须要去走的，早走晚走都得走。」

小鹏目前是汽车和机器人两手抓，而理想的机器人业务还只是规划阶段，这种业务布局的差异性让这两家在同一技术路线上又衍生了另一条支线。

小鹏在云端训练了一个 72B 参数量的世界基座模型，是主流车端模型的 35 倍以上。小鹏希望世界基座大模型能够真正理解、认知，甚至改造物理世界，能够用在自动驾驶领域，也能逐步延展到机器人和飞行汽车。

一位业内人士告诉笔者，小鹏最新一代技术架构大概率布局在小鹏自研的图灵芯片上，而不是基于双 OrinX 的硬件配置打造。

据悉，小鹏图灵芯片已于去年 8 月流片成功，或将于今年二季度量产上市，计划用于汽车、机器人和飞行汽车上。图灵芯片对 AI 需求、端到端大模型进行特定设计，集成了 2 个小鹏自研的神经网络处理大脑，并面向神经网络做了特定架构处理，最高能处理 30B 参数的大模型，让世界基座模型蒸馏后部署车端具备了可能性。

理想目前还无暇顾及八字还没一撇的机器人业务，更注重于车端能力的提升，打造了一个司机 Agent 的角色。

理想全新架构的特别之处在于花大力气前训了一个 LLM 基座模型（Large Language Model，大语言模型，简称 LLM），没有采用业内通用的第三方的大语言模型作为基座。

之所以这样，是因为理想在端到端+VLM 阶段发现，VLM 基于千问，使用互联网 2D 图文数据，但对于 3D 世界的理解和驾驶知识存在不足之处，会导致产生大量幻觉；而通过前训专门针对自动驾驶的 LLM 基座模型能够消除部分幻觉的同时，还能够主干网络的参数量压低，减少车端算力的承载。

这背后包含的一个背景因素是，理想自研的芯片项目「舒马赫」进展相对缓慢，现阶段无法给予自研芯片去做定制化开发，只能继续选择英伟达的 Thor 芯片。

华为同样打造了一个原生多模态的基座模型，即「世界行为模型」。华为的做法是，通过获取包括「视觉、听觉、触觉」的多传感器全模态感知信息输入，经过 token 化后生成智驾原生基模型，采用 MoE 多专家能力架构，不同场景调用不同能力，最后输出两类信息——给车用的轨迹生成和给人看的场景意图，从而实现人机共驾。

结合其引入世界引擎模型，华为当下要解决的是往 L3 方向面临的难例场景问题，降低时延、提升预见能力，保障十秒预警能力。华为要达成的，是成为最早一批进入 L3 梯队的玩家。

无论是小鹏「大力出奇迹」的世界基座模型，还是理想的 VLA，或是华为 ADS4，这些路线是否是一个效率最高的方式，是否有效率更高的架构出现，目前还是打问号的阶段。没有人真正证明过这些路线可以提升自动驾驶技术的进步速度，所有厂商都还处在探索阶段。

优质数据成关键

不管是 VLA 还是蔚来采用 NWM 世界模型，车企做自动驾驶的逻辑都是用更多、更好的数据训练模型，用 Scaling law 继续加速技术进步。

在端到端 2.0 阶段，大模型需要更多的优质数据，扩大的需求放大了厂商们的数据困境，主要是两方面：对实车采集的数据进行人工标注，太贵了；找到刚好可以用的难例数据，太难了。

「用于智驾训练的数据，不缺普通数据，缺的是长尾的各种 Corner case 数据。」华为引望靳玉志在 ADS4 发布会上感叹道。

尽管大部分厂商都声称拥有大量用户数据/行车数据，但如何从中找出优质数据则是一大门槛，依赖人工标注去真实场景中挖掘优质数据，背后的成本支出非常大。

在数据难题面前，厂商们想到的办法是，通过世界模型仿真模拟解决数据问题。简言之，如果在现实世界中收集不到足够的数据，就在虚拟世界里生产数据。

据一位做强化学习的工程师透露，目前训练中的真数据跟假数据（人工合成/生成数据）达到 1:2 的程度。

世界模型在自动驾驶领域的作用是，通过大模型生成足够精确甚至拟真的数据，模拟更多更复杂的驾驶场景以训练模型。这种做法的优点是，数据获取成本低，车企不再需要车一遍遍在路上开以采集数据，只需要让 AI 按照要求生成即可；获取的数据种类也会更多。

地平线余凯对仿真的态度更为激进，其认为「在人工智能时代，用户行为数据不重要，99% 的司机行为不值得学习，刹车、拐弯、换道等体验并不好。自动驾驶顶级玩家已不靠司机数据学习，未来仿真可能是最重要的。」

地平线对仿真的重视与其供应商身份离不开关系，相较于车企而言，地平线难以在车端获取大量用户数据，仿真是解决数据瓶颈的一大优解。

余凯把这一思路的终极形态描述为「 AI 教 AI 」，就像 Alpha Zero 在仿真平台左右互搏，棋艺远超人类，下棋方法也是人类历史上没有的。这意味着，这一终极形态这不仅把开车的人类解放了，也把做自动驾驶软件的人类解放了。

不过，在现有技术条件下，仿真模拟和 AI 生成数据的质量都远不如实车行驶收集的数据。数据差别的关键 gap 是，人类还无法教机器充分认识世界，也无法在虚拟世界完整复刻现实。

目前各家厂商在世界模型都停留在探索阶段。这也是技术差距最容易拉大的阶段，其门槛之高，决定了不是所有厂商都有能力迈进。

端到端的「遮羞布」将被掀开

今年以来，多家车企动不动以「高阶智驾」能力标榜自身，在「端到端」等技术名词的包装下，各家厂商似乎被拉到同一水平线，智驾能力的分化变得混沌。随着新的技术架构产生，被统一技术路线拉近的技术差距将因为技术分歧再次拉开。

一位业内人士向笔者表示，智驾已经开始出现分化。「最高阶的是往 L3 方向迈进，包括华为 ADS4、千里浩瀚 H9 等方案都已经明确指向 L3，提供双冗余的硬件配置；中阶版本则是以单 Thor、双 OrinX 的方案为主，采用纯视觉或单激光雷达，基本是往城区辅助驾驶的 L2 方向去做再往下就是高速加部分城市领航功能的方案。」

随之而来的，智驾的商业模式也将发生改变。

L3 将是涉及「重技术+强运营」的一个体系。「L3 的责任归属从用户转移到车企，这要求车企一定要做好更新和维护，那么这就不是一个纯技术问题，而是一个重运营的形态。」一位业内从业者说道。

L2 时期的车企和方案厂商可以在随意切换技术路线后，不对原来的方案进行维护，但进入 L3，无论是技术方案的选择还是双倍硬件配置冗余，以及软件后期维护等都应该具备确定性。

有能力自研的车企已经朝着更难更重要的技术变化前进，能力一般的车企，只能寄希望于供应商解决问题。进入城区自动驾驶这种更难的技术领域后，供应商也需要升级自己的技术。供应商技术能力的好坏在更高门槛的领域，也会更容易被区分。

「从技术层面来看，做到高速 NOA 其实并不困难，但城区的场景比高速难至少 10 到 100 倍。想要把城区辅助驾驶产品做好，我认为是滚雪球一样的过程。雪球不仅会越滚越大，而且越滚越快。」智驾大陆首席执行官厉飚说道。

订单会集中到更少数供应商手中。「量产是非常关键的维度，实际上这个门槛已经非常明显了，没有经过量产的厂商，主机厂基本不会去选。现在量这么大，对安全要求这么高，在这些点上我觉得几乎没有做过量产的，已经基本上是进不去了。」于骞说道。

于骞还指出，量产之外，产品的交付周期、交付成本、交付后的体验等方面都是主机厂在筛选供应商时的考量。层层筛选下来，能被选择的厂商已经不多。

智驾全行业都在往上层能力迈进，高阶的路线仍在探索，但已被验证过的场景和阶段的发展路径已经十分明确，靠「PPT」刷无图 NOA、端到端等技术名词的方式将不再奏效，智驾市场将进入强者更强，弱者淘汰的局面。

文章标题：智驾的遮羞布被掀开

文章链接：https://www.huxiu.com/article/4383692.html

阅读原文：智驾的遮羞布被掀开_聚赢方舟网