2025年的CVPR自动驾驶 Workshop上,小鹏汽车的Liu Xianming先生做了一篇名为《Scaling up Autonomous Driving via Large Foundation Models》的演讲。
之前,网络上有不少小鹏此次CVPR的 VLA演讲信息,但那些是别人想让你看到的广告推文。本文根据Liu Xianming的演讲内容,深度挖掘小鹏辅助驾驶/自动驾驶“基础模型”和VLA大模型的方法论。
提出基础模型的概念
开头Liu Xianming先生引用特斯拉前人工智能总监、OpenAI 研究员?Andrej?Karpathy提出的软件时代三阶段概念(具体可以点击之前文章《特斯拉前人工智能负责人 Andrej Karpathy最新演讲谈 AI和 LLM》分享的内容),引出小鹏VLA的基础模型概念。
自动驾驶软件1.0模型时代就是十年前,大家都在忙于T字形路口等场景,主要依赖于点云和CPU上的集群处理来检测障碍物,并编写大量硬编码的启发式规则来进行操控。在这种情况下,整个栈是由简单的规则定义的时代。
大约六七年前软件2.0开始,随着检测和视觉技术越来越成熟,人们开始用机器学习模型替换感知和预测部分。但大部分栈仍然包含硬编码规则。
现在就是3.0时代了,称之为“AI模型即软件”。自动驾驶可以用数据迭代软件,这个时候整个软件转换为AI模型,并基于以数据为中心的方法进行迭代。
Liu Xianming表示,目前,小鹏正处于将整个自动驾驶软件栈构建为端到端AI模型来驾驶汽车的阶段。
下一阶段,Xianming表示他们需要探索未来如何发展,基于“规模定律”(scaling law)。但?scaling law要的是大量的数据,但小鹏表示对于自动驾驶领域,他们并不受数据限制,因为小鹏可以每天从数十万辆真实世界的车辆中收集大量数据。
所以,小鹏将利用这些数据训练一个非常大的视觉模型,作为“工厂”。一旦有了这个模型,就可以将其蒸馏到较小的硬件上,部署到车辆中。
小鹏将这个原型定义为“软件3.0”,总体的概念是,大数据构建一个基础模型,就可以不要管三维空间中的先验知识和空间问题,这又有点像世界模型的概念,然后可以将这个模型部署到车端。
当然这里涉及到深度裁剪、量化、蒸馏基础模型,使模型能在更小的车端硬件上部署。这是小鹏对下一代自动驾驶的理念。
内外循环,实现自动驾驶
有了基础模型这个理论基础之后,小鹏创建了一个“内循环”概念,为每个模型创建训练流,便于扩展数据,然后进行再训练和SFT(监督微调)以持续提升模型性能。最后,将基础模型进行蒸馏,将模型压缩成更小的版本并部署到汽车中。
“外循环”,就是数据驱动,一旦将模型部署到设备上,数十万辆车就成为现实世界中的数据采样器,持续采样数据进行训练。
这个外循环即根据返回数据持续训练,或者有些人称之为“协同训练”(co-training)。不断地重复这个过程,直到性能足够好以达到L4级自动驾驶。
这几天何小鹏在IAA 2025慕尼黑车展上也表示力争在2026年实现L4级智驾车型量产,估计也是基于这个方法论的基础。
模型训练方法
眼尖的朋友从演讲PPT中可以看到,小鹏在上半年是奔着 VLA模型架构的方向跑的。
所以这个模型的训练方法就是
首先是拿一个 VLM模型,其实行业内都清楚基本上这个原始的 VLM模型就是阿里的Qwen。
然后基于这个模型,采用小鹏整理的驾驶数据进行预训练、对齐,也就是视觉模型的预训练。
下图就是小鹏数据分类好的预训练数据,可以看出将交通数据分为:
- 静态交通元素,例如道路动态交通参与者,车等点到点的轨迹数据占用,应该是用来训Occ网络的数据交通灯 TSL,交通信号灯交通流 TFL,车流信息
下面就是交通流 TFL的数据举例子,可用看到图片信息基本上就是把交通信息语意化,也就是这个图片在交通场景中代表啥意思。
有了对交通流的理解,下一步就是CoT(Chain-of-Thought 思维链),基于对场景流的理解进行思维推理,小鹏做了四步:
- 对齐,提供基本驾驶知识,例如红灯停CoT SFT(监督训练)。强化学习CoT。考虑延迟的CoT SFT。
最后一点是,所有的思维链最后的结果都是要输出动作。动作不是某种语言或文本输出,而是以“动作token”的形式描述。小鹏将动作分解为纵向动作和横向动作,包括加速、停止等
最终VLM识别场景,推理,产生出车辆运动的动作。
所以,可以认为这个预训练就是对通用的 VLM进行专业的交通训练,让模型输入视图,输出动作,训练出一个小鹏智能辅助驾驶可用的 VLA模型。
第二部分,有了基本的动作训练之后就是监督微调(Supervised Fine-tuning, SFT)。因为深度学习只处理数据的统计均值。但开车有很多专用指令,例如导航,或者进行非常舒适的刹车。所以小鹏将SFT建模为一种“指令遵循”任务。整理和筛选出Good case 好数据,用这些数据进行专门指令训练。这个部分基本就输出了一个可用的VLA模型。
之后是后期训练(post-training),这是针对指令跟随或指令反射的微调函数。主要解决的事长尾案例,采用的方法是强化学习。
强化学习就是建立一个奖励模型,然后进行奖励,让模型都遵循相同的行动。最终,对于自动驾驶来说,强化学习使得驾驶更安全。
为了更安全地驾驶,小鹏设计了三个奖励:安全,不碰撞;其次是效率,不卡壳,最后是合规也就是遵守交通规则,比如交通灯。
最终经过总体的三个阶段,从VLM对齐预训练,到VLM+动作和进行监督微调形成可用的VLA,最后进行奖惩强化学习生成可用的VLA。
写在最后
小鹏辅助驾驶/自动驾驶的思路是在云端构建一个 VLA的基础模型,然后进行蒸馏剪枝和微调训练部署到车端。
其实这个论文透露了两个思路,一个是基础模型蒸馏上车的思路,这个思路应该比较妙,可以加速开发和快速不同算力平台部署,但前提条件是要有大算力和高质量的数据。
另外一个思路是VLA,VLA的概念真的很滥了,通过本文看就是VLA的开头肯定是要有一个基础成熟的LLM作为底座,然后基于他去针对交通驾驶行为训。
其实这两个思路对于自动驾驶行业来讲,透露的是底层算法和架构都相通,唯一拉开大家差距的是高质量数据,大算力以及强大算法产品化和工程落地能力。
*未经准许严禁转载和摘录-获取本文参考资料方式:
加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。