揭秘小鹏自动驾驶「基座模型」和「VLA大模型」

2025年的CVPR自动驾驶 Workshop上，小鹏汽车的Liu Xianming先生做了一篇名为《Scaling up Autonomous Driving via Large Foundation Models》的演讲。

之前，网络上有不少小鹏此次CVPR的 VLA演讲信息，但那些是别人想让你看到的广告推文。本文根据Liu Xianming的演讲内容，深度挖掘小鹏辅助驾驶/自动驾驶“基础模型”和VLA大模型的方法论。

提出基础模型的概念

开头Liu Xianming先生引用特斯拉前人工智能总监、OpenAI 研究员?Andrej?Karpathy提出的软件时代三阶段概念（具体可以点击之前文章《特斯拉前人工智能负责人 Andrej Karpathy最新演讲谈 AI和 LLM》分享的内容），引出小鹏VLA的基础模型概念。

自动驾驶软件1.0模型时代就是十年前，大家都在忙于T字形路口等场景，主要依赖于点云和CPU上的集群处理来检测障碍物，并编写大量硬编码的启发式规则来进行操控。在这种情况下，整个栈是由简单的规则定义的时代。

大约六七年前软件2.0开始，随着检测和视觉技术越来越成熟，人们开始用机器学习模型替换感知和预测部分。但大部分栈仍然包含硬编码规则。

现在就是3.0时代了，称之为“AI模型即软件”。自动驾驶可以用数据迭代软件，这个时候整个软件转换为AI模型，并基于以数据为中心的方法进行迭代。

Liu Xianming表示，目前，小鹏正处于将整个自动驾驶软件栈构建为端到端AI模型来驾驶汽车的阶段。

下一阶段，Xianming表示他们需要探索未来如何发展，基于“规模定律”（scaling law）。但?scaling law要的是大量的数据，但小鹏表示对于自动驾驶领域，他们并不受数据限制，因为小鹏可以每天从数十万辆真实世界的车辆中收集大量数据。

所以，小鹏将利用这些数据训练一个非常大的视觉模型，作为“工厂”。一旦有了这个模型，就可以将其蒸馏到较小的硬件上，部署到车辆中。

小鹏将这个原型定义为“软件3.0”，总体的概念是，大数据构建一个基础模型，就可以不要管三维空间中的先验知识和空间问题，这又有点像世界模型的概念，然后可以将这个模型部署到车端。

当然这里涉及到深度裁剪、量化、蒸馏基础模型，使模型能在更小的车端硬件上部署。这是小鹏对下一代自动驾驶的理念。

内外循环，实现自动驾驶

有了基础模型这个理论基础之后，小鹏创建了一个“内循环”概念，为每个模型创建训练流，便于扩展数据，然后进行再训练和SFT（监督微调）以持续提升模型性能。最后，将基础模型进行蒸馏，将模型压缩成更小的版本并部署到汽车中。

“外循环”，就是数据驱动，一旦将模型部署到设备上，数十万辆车就成为现实世界中的数据采样器，持续采样数据进行训练。

这个外循环即根据返回数据持续训练，或者有些人称之为“协同训练”（co-training）。不断地重复这个过程，直到性能足够好以达到L4级自动驾驶。

这几天何小鹏在IAA 2025慕尼黑车展上也表示力争在2026年实现L4级智驾车型量产，估计也是基于这个方法论的基础。

模型训练方法

眼尖的朋友从演讲PPT中可以看到，小鹏在上半年是奔着 VLA模型架构的方向跑的。

所以这个模型的训练方法就是

首先是拿一个 VLM模型，其实行业内都清楚基本上这个原始的 VLM模型就是阿里的Qwen。

然后基于这个模型，采用小鹏整理的驾驶数据进行预训练、对齐，也就是视觉模型的预训练。

下图就是小鹏数据分类好的预训练数据，可以看出将交通数据分为：

通信

下面就是交通流 TFL的数据举例子，可用看到图片信息基本上就是把交通信息语意化，也就是这个图片在交通场景中代表啥意思。

有了对交通流的理解，下一步就是CoT（Chain-of-Thought 思维链），基于对场景流的理解进行思维推理，小鹏做了四步：

对齐,提供基本驾驶知识，例如红灯停CoT SFT（监督训练）。强化学习CoT。考虑延迟的CoT SFT。

最后一点是，所有的思维链最后的结果都是要输出动作。动作不是某种语言或文本输出，而是以“动作token”的形式描述。小鹏将动作分解为纵向动作和横向动作，包括加速、停止等

最终VLM识别场景，推理，产生出车辆运动的动作。

所以，可以认为这个预训练就是对通用的 VLM进行专业的交通训练,让模型输入视图，输出动作，训练出一个小鹏智能辅助驾驶可用的 VLA模型。

第二部分，有了基本的动作训练之后就是监督微调（Supervised Fine-tuning, SFT）。因为深度学习只处理数据的统计均值。但开车有很多专用指令，例如导航，或者进行非常舒适的刹车。所以小鹏将SFT建模为一种“指令遵循”任务。整理和筛选出Good case 好数据，用这些数据进行专门指令训练。这个部分基本就输出了一个可用的VLA模型。