马斯克“掀桌子”，AI 大模型+自动驾驶会诞生什么？

能用最简单的方法，做最复杂的事，才是真正的技术壁垒。

特斯拉的全自动驾驶 FSD（Full-Self Driving）V12新版本，很好诠释了这一点。仅需8个摄像头，无需用上激光雷达、毫米波雷达、超声波摄像头等等其他零部件，就实现了老司机一般的驾驶能力。

对于什么是老司机的驾驶能力，我们想先通过一个短视频来体现：在纽约交通最乱的第五大道拍摄，FSD 可以根据地理位置意识到自己在哪里，从而切换驾驶风格，在西部就佛系跟车，在纽约就一步不让，这是端到端训练时自动学会的。

视频来源：YouTube：Jackson在美国

马斯克甚至颠覆了自己，V12新版本比 V11有极大变化，很多 V11中采取的技术也被一并抛弃（即便这些技术可能是领先的）。一个对 V12最简单的理解是：V11之前都需要告诉 FSD 遇到红灯需要停，但 V12不再需要，而是依靠 V12自己学习，自己“悟”出来。

于是，原本由人工编写的30万行代码，如今骤减到3000行，取而代之的是类似大语言模型的训练芯片矩阵（由上万颗英伟达 H100级芯片组成），全靠 AI 神经网络训练解决。可以说 V11还是手工作坊式的生产方式，V12已经开启了“工业革命”。

今天这篇文章，我们就来分析一下 FSD V12版本背后有哪些颠覆性变化？以及与其他技术路线相比，FSD V12这种纯视觉方案，有哪些优劣势？Enjoy：

01 V12新版本背后，最重要的颠覆性变化是什么？

V12最大的变化，在于部署了“端到端”的 AI 大模型。这里面有两大关键点，一个是端到端，一个是 AI 大模型。

“端到端”是指，一端指输入端，一端指输出端，输入数据的包括摄像头的感知数据、车身的数据等等，中间通过 Transformer 架构的 AI 大模型推演之后，最终直接输出到电门、刹车、方向盘。

而通过 Transforme r架构的 AI 大模型，是在2022年底，特斯拉 Autopilot 部门的一位工程师向马斯克提出的建议，要借鉴 ChatGPT，让神经网络通过学习人类驾驶员的训练素材，来实现路径规划。

马斯克听后大喜，拍板就这么干。由此开始，FSD 的规划部分，就直接放弃了原来普遍采用的 Rule-base（通过人为定义的规则）方案，全面转向神经网络。

在这里我们简短解释一下什么是 Rule-base 方案：Rule-base 就是人为规定的规则式驱动。原来自动驾驶分为几个步骤，分别是感知、规划、控制，先有摄像头、激光雷达、毫米波雷达等等传感器获取信息，然后基于感知结果和人为设定的规则，由自动驾驶软件代码来实现决策。

所以这里面很重要的是，一是怎么获取到足够多维和准确的信息，所以大家都往车上装各种摄像头、雷达；二是决策中，由人为设定的规则需要覆盖所有情况。这些代码的逻辑基本是，如果遇到某种特定情况，算法就会查询代码中预先编写好的应对方案，比如遇到红灯需要停车、直行车道不能转弯等等。

但是日常出现的驾驶情况太多了，并且还会有不常见的边角情况（corner case）出现，它们往往非常危险，因为在算法库里，可能没有编好这种情况下的应对方案。此外，在100种不同的驾驶场景中，你可能需要100种不同的踩刹车和加速的方法，才能达到平滑的驾驶效果，否则就很容易晕车。显然，要想让系统在所有情况下都像人类驾驶那样流畅，这是人类工程师哪怕日以继夜地编写代码，也难以实现的。

特斯拉在以往的方法下，已经是市场领先。特斯拉在感知层面，采用了一个叫做九头蛇（HydraNet）的系统来进行物体识别。HydraNet 首先通过八个摄像头的图像输入，进入到后端的一个基干网络（backbone），每一个任务都由一个专门的头（Head）来负责，比如进行物体检测、红绿灯识别、车道预测等等，特斯拉一共设计了50个 Head，对各种任务的分类很细。

而在规划部分，特斯拉采用的是类似谷歌 AlphaGo 下围棋的方法（蒙特卡洛树搜索，加神经网络辅助），快速穷尽所有可能性，并计算出其中胜率最高的一条路径。围棋要遵守棋规，FSD 要遵守交通规则，这其中就是大量人为定义的规则。简单来说，就是根据预设规则，在所有可能的驾驶轨迹中，计算出一个不会和任何物体碰撞并且不违反交规的最优解。

V12出来掀了桌子，把之前很多技术都丢进了垃圾桶。V12不再需要通过代码写好“遇到红灯需要停下”，而是通过让 AI 观看大量人类驾驶员的驾驶视频，让AI 自己找出成千上万条规律，遇到红绿灯、减速、刹车这是 AI 自己学会的，是自己“悟”出来的。正是因为这样的一个转变，原来负责这一块的30万行C++代码，如今变成了3000行。这也是为什么 V12版本中，FSD 的驾驶表现非常拟人化。

从更底层的角度来说，V12“看”的是像素点。V12不需要先识别画面中的东西是什么、再到决策部门根据这个感知结果做判断，而看的是画面中的最小单位像素点，V12把画面上像素点的位置、组成的形状以及运行的规律，直接输入到神经网络中，通过数以亿计的真实视频来学习经验，把现在输入的像素点，与之前学习时遇到的像素位置进行对比，而这些学习的视频，就是真实人类司机的驾驶反应。然后直接输出一个结果，就是执行所需要的刹车、电门、方向盘。

以往视觉方案中的劣势，比如异形障碍物识别失败的问题，现在几乎不存在了，只要能拍到这个物体，让它出现在画面里，它就会成为画面中的一堆像素点，V12只需要这些像素点就够了，所以 V12所代表的 AI 方案被称为“纯视觉的最终解决方案”。

当然，那如果训练所用的视频数据本身是鲁莽驾驶，那是不是训练出来的 AI 驾驶员就会非常危险？答案确实是，特斯拉的解决办法是开辟汽车保险业务。

比如在美国，特斯拉通过北美的保险业务，延伸出了一套驾驶员行为评分系统，它会对人类驾驶员的驾驶行为严格打分。特斯拉用于训练 FSD 的数据，全部来自于90分以上的驾驶员，可以说是对数据的要求极为苛刻。

当然，V12跟 ChatGPT 这样的大模型很像，都是一个“黑盒模型”，它们需要通过足够多的数据训练，才能涌现出一些惊人的能力，并且设计它的工程师也不知道，为什么会涌现出这些能力。

这也是为何 FSD 需要超过60亿英里的验证里程，只有推理得够多，才能知道如何对模型进行微调和优化，在自动驾驶领域重现大语言模型中 Scaling law 的情况，实现指数级的能力增长。如马斯克所言：当你有100万个视频片段，勉强够用；200万个，稍好一些；300 万个，就会感觉哇塞；1000万个，将变得难以置信。

那么，特斯拉的追赶者能追上吗？这背后需要的是极其庞大的算力。“现在来看，自动驾驶超越人类驾驶就只是时间上的问题。”马斯克说。在今年一季度，特斯拉把总算力又提高了，等同于3.5万块英伟达H100的算力，到年底还要翻倍达到8.5万块算力规模，这令特斯拉成为美国拥有第一流算力规模的科技公司，与微软、Meta 相当。

02 纯视觉方案，有哪些优劣势？

目前自动驾驶领域，主要分为纯视觉和激光雷达两个方案。如今纯视觉通过结合 AI，实现了端到端，有了突飞猛进的变化。在激光雷达方案里，还是依靠 Rule-base 的方法，通过激光雷达、毫米波雷达、超声波摄像头这些复杂的组合方案，现阶段其实也有不错的表现。那么纯视觉+AI 和 Rule-base+激光雷达相比，有何优劣？

一言以蔽之，纯视觉（+AI 大模型）的劣势是起步慢，但成长性更强。原来的 Rule-base 在初期能力增长快，但后期空间严重不足，两者存在一个交点。

Rule-base 也可以通过不断修改来进行迭代。一旦发现问题之后，就可以找到对应的代码，一般都是 if-else 语句，if在什么情况下发生，否则 else 怎么样，这是规则式的核心逻辑。这时候只要修改某个if-else语句的参数量，或者解出错误的行数，把问题修复就解决了。这里面不需要喂大量的数据，直接把修复代码放在车上重新部署即可。

在到达两者的交点之前，意味着 Rule-base 算法优于大模型。这是大模型的特点导致的，当数据量不够的时候，相比于规则式算法稳定性不够。这也是 Rule-base 的核心优势，它的解释性比较强，规则非常明确，当把代码部署到车上之后，会具备最基本的能力表现，能让车实现基本的 ACC、LCC 辅助驾驶功能。但大模型不行，在没有经过足够的数据训练之前，产品是非常弱的。

但在两者的交点之后，纯视觉的端到端模式，则更像是面向未来的终极方案。由于 AI 大模型具有通识能力，它能够理解以前没有看到过的东西。

比如说，某一次从前面的车上掉下来了一个塑料袋，另一次则掉出来了一个啤酒箱，但是在我们的训练数据集里，从来没有出现过这两种情况。作为人类司机，我们知道塑料袋是软的，不需要规避，但啤酒箱是硬的，需要规避。如果没有大模型，自动驾驶系统就相当于一直生活在车上，它只能解决曾经在这个车上看到的场景。但是真正的人类驾驶员肯定不只生活在车上，他还生活在整个世界里，而大模型有通识能力，它能识别出塑料袋和啤酒箱的区别，它更接近人类，能应对各种场景，更何况它还有8颗摄像头。

此外，从硬件角度来说，纯视觉的端到端模式完胜，因为只需要8颗摄像头，这能极大降低整车成本。而且基本无需担心硬件迭代，所带来的技术断层问题。

如果展望未来，从用户体验角度来说，大模型更能和座舱联动。未来的自动驾驶 AI，可能就会和真正有一位司机在开车一样，你可以跟它聊天：比如“刚刚路过的湖叫什么？”，或者给它下达命令，比如“现在靠边停车”或者“我们不太舒服你开稳一点”等等，这是迈向L4级自动驾驶的重要一步，也是提升自动驾驶体验很关键的一点。

当然，虽然说 V12的端到端确实是颠覆性的进步，但我们离真正的完全自动驾驶还有一条明确红线，就是——责任在人类驾驶员还是在汽车系统身上，无论从技术、安全还是产品责任的角度来看，这都是一条最重要的分界线。目前，虽然有这么多进步，但我们还处于L2以下，我们可能需要足够多的安全数据，来证明自动驾驶的事故率小于人类，才有可能真正跨越这条红线。

References：

Morgan Stanley：Tesla Inc Tesla and Nvidia The Journey to AI Supremacy
华泰证券：特斯拉(TSLA.US)如何理解特斯拉的当下与未来？
中信证券：特斯拉 FSD，2023突围之年
西南证券：从特斯拉 FSD 看人工智能
WSJ：Elon Musk Pushes to Increase Use of ‘Full Self-Driving’ Software as Tesla Sales Cool

图｜Unsplash

本文来自微信公众号“经纬创投”，36氪出海经授权转载者。

活动｜聚焦科技创新合作，上交会·日本大阪企业技术推介会即将举办

6月12日，第十届上交会境外主宾城主题日活动——日本大阪企业技术推介会将以“遇见科技世博，共赴未来社会”为主题，在上海市世博展览馆1号会议室举办，为与会企业介绍日本大阪市的商业趋势与出海机遇，并通过项目对接，促进中日企业的交流与合作。此外，本次活动还将围绕节能环保、先进制造、健康医疗等领域，邀请中日企业开展项目对接交流，促进城市间科技经贸合作。欢迎扫描下方二维码，填写表单，报名参加本次活动。我们将根据话题相关度，对报名申请进行筛选。通过活动审核的用户，我们将有专人联系，同步参会信息。活动报名将于2024年6月11日中午12:00截止。

活动｜迪拜商业论坛中国，解锁出海中东机遇

2024年8月21日至22日，迪拜商业论坛中国（Dubai Business Forum China）将在北京开幕。作为享誉全球的峰会，本次论坛将迎来中国顶尖的商界领袖；由迪拜知名企业组成的代表团也将访问中国，与诸多中国企业进行对话、建立联系，共同探索合作的方向和机遇。迪拜商会（Dubai Chambers）将主办本次迪拜商业论坛中国。如果您对这场全球性的峰会感兴趣，您可以扫描下方二维码，填写36氪出海的预约表单，申请参会席位。我们将向迪拜商会提交您的报名信息，并待审核通过后与您联系，确认您的出席。

加入36氪出海学习交流群

目前，36氪出海学习交流群已经吸引超过13000位来自国内外初创企业、行业巨头、投资机构等出海人加入。在出海社群里，我们面向群成员挑选整理每日全球跨境资讯，帮助出海人把握最新动态；定期组织出海交流活动，链接出海生态圈，寻找潜在合作伙伴！欢迎添加36氪出海小助手微信（ID：wow36krchuhai-xzs2）申请入群，一同出海！