出租司机先别慌,智驾行业的程序员们会更早被 AI 抢饭碗

2024-07-21 www.dnxtw.com

智能驾驶的 「GPT 时刻」已经来过了?

作者 | 曹思颀

编辑 | 靖宇

从诞生到推广,每一项新技术都会经历不同的阶段,面临不同的声音。为了找到最佳的技术解决方案,研发人员可能会放弃多年的努力;商业机构更注重判断技术实施的时机,以便在正确的时间获得最大的利益。

关于智能驾驶,国内主机制造商曾经有过深刻的认知差异。支持者认为它可以带来它「遥遥领先」反对者抛出了体验,反对者抛出了体验「臭搞技术的」、「自动驾驶是一种欺骗」等待言论来表达蔑视。

2024 年,有基础「端到端」特斯拉智能驾驶软件 FSD V12 随着版本的正式推送,中国汽车制造商对智能驾驶的态度终于开始趋同。

以新势力造车代表蔚小理为例,各家对「端到端」对技术的追求显然开始发力。

小鹏提出将端到端的大型模型引入智能驾驶系统,并表示今年将投资智能和培训数据 42 亿元的目标是将来能够实现「内部每两天一次 OTA」。这是过去依靠人类维护数十万行智能驾驶代码的工作模式无法想象的效率提高。

威莱最近还重组了智能驾驶研发部,将传统的感知和大型团队合并为大型团队,其核心是推动基于神经网络的范式迭代。

甚至过去也被嘲笑为「抠厂」在不久的将来,智能化R&D也频繁发展理想。CEO 李想亲自为「端到端」R&D平台,搬出诺贝尔经济学家的快慢思维理论,说明自己的团队找到了解决自动驾驶问题的方法 conner case 的方向。

那么,为什么制造商从非共识到共识的端到端有如此大的魔力呢?它如何改变智能驾驶行业的范式,以及它将带来什么机会和调整?

01、智驾的 GPT 时刻已经到来

国内厂商迅速达成共识的重要原因是特斯拉率先交出了令人羡慕的端到端答卷。

今年 3 月,特斯拉正式推出了智能驾驶软件 FSD V12.3 版本。这个版本最大的变化是将整个智能驾驶系统的动力从人类编写的代码转换为基于神经网络的动力 AI 大模型。马斯克用「Video in to Control out」描述这种新的工作范式,即:AI 根据自己「看」到达的路面信息,直接输出驾驶操作,业内常说「端到端」(End-to-End)。

上个月,何小鹏在加州经历过 FSD V12.3.6 版本。用他的话说,FSD「许多路况处理都非常丝滑」。这正是 AI 与代码驱动相比,神经网络具有最大的优势:在不同的城市、不同的路况下,大大提高了智能驾驶系统的泛化学习能力。

翻译成国内消费者更熟悉的广告营销词是:全国(全球)都可以开放。

华为在去年 9 月喊出「全国都能开」的宣传语 | 来源:极客公园

当然,这个结论在这个阶段只是一个美好的愿望。在实际操作过程中,还需要数据、算法、计算能力等 AI 只有全力支持和训练基础设施,才能接近「AI 变得像人类司机一样聪明」这个目标。

但对同龄人来说,FSD V12 这个版本意义重大。它证明了神经网络确实可以取代人类编写的代码,甚至可以做得更好、更有效。

这意味着你不必再等了 N 年,智能驾驶行业 ChatGPT 时刻实际上已经到来了。想想阿里巴巴张勇曾经说过的话:所有的软件都值得使用 AI 重做一遍。FSD V12 正是给了同行一个新的方向和信心:所有的智能驾驶技术栈都可以端到端重做。

在 FSD V12 beta 当版本发布时,马斯克说,这个版本将是前一个版本 30 万行代码压缩到 2000 好的,相当于不到百分之一的水平。

新技术栈中的智能驾驶竞争不会演变成比任何人都更多的反创新内卷游戏。如果 AI 效率真的可以达到何小鹏说的两天一次 OTA,然后逐条写规则,改变 bug 人海战术可以宣布完全过时。

那么,智能驾驶行业还需要这么多程序员吗?作者不能给出准确的答案,但可以肯定的是,智能驾驶程序员的工作内容也会发生一系列的变化。只能写 if else 规则程序员比出租车和网上叫车司机更有可能被提前 AI 取代。

02、困在数据里

在上个月投资机构陈涛资本发布的《端到端自动驾驶行业研究报告》中,30 剩下的自动驾驶行业受访者,只有 13% 表示对端到端技术相对谨慎「观望」态度,其余都表达了更积极的态度「预研」甚至「全力投入」态度。端到端已成为行业从业者的共识。

但事实上,目前还没有企业(包括特斯拉)能够做到这一点「原教旨主义端到端」。也就是说,自动驾驶的所有环节都集中在同一个大模型中,真正实现与人类相同的目标「输入视觉信号,输出踏板和方向盘操作」。

目前国内大多数主机制造商的核心努力是通过感知和决策模块。关键是取消模块之间的人工定义结果,并通过特征向量传输更多无损信息。

端到端自动驾驶架构演变示意图 | 图片来源:陈涛资本

在端到端之前,传统的自动驾驶架构来自机器人领域,分为不同的模块,如感知、规划和控制。不同的模块由不同的团队开发,信息主要通过模块和模块之间的人工界面传输。例如,最简单的例子是,在传统的感知模块中,最简单的计算机二进制语言可以用来表示车辆是否按线行驶。

通过感知和决策模块的最大好处是,它可以涵盖更多现实世界中无法准确描述的规则「灰度场景」。例如,当你开车时,你不需要知道前面的车的准确速度,或者它是否按线,只需要注意相对位置的变化。

在此基础上,基于生成式 AI 预计神经网络模型在大量输入后也会出现智能化,成为理论 AI 智能体。

所有这些基础都来源于数据,即「喂」对模型的培训材料。然而,与基于文本的大型语言模型不同,智能驾驶模型不容易找到足够的公共视频数据作为培训材料。

根据上述端到端自动驾驶行业研究报告,目前最大的公共数据集只有 1200 小时数据。根据马斯克。 2023 据年报道,特斯拉在端到端的早期阶段就投资了近一年 4 一万小时的视频训练。

与其他汽车公司相比,特斯拉数据的主要优势在于大规模生产汽车。

目前,特斯拉已经在全球范围内交付了超过 600 在中国积极布局智能驾驶的新力量中,量产车的数量只是特斯拉的一小部分。再加上一贯的极简主义 SKU 而且全量预埋的智能驾驶硬件,使数据收集更加容易。

在中国,以前的传统做法通常依靠人工获取道路信息。然而,要培养一个聪明的端到端模型,我们还需要尽可能多地覆盖边缘场景(conner case)数据。由于边缘场景的随机出现,一些制造商曾经说过,只有通过人工数据收集,我们才能得到大约 2% 有限数据。

此外,与特斯拉相比,国内制造商往往更复杂 SKU。由于车辆尺寸和传感器布局不同,模型中的相关参数也需要重新对齐。

以华为为例,鸿蒙智行在过去一年里表现出了很强的终端销售能力,但对于华为来说, BU 对于服务于不同品牌和型号的车型,工程师在端到端落地后仍需对齐和交付工作。对于有 2 个品牌 9 蔚来车型也是如此。他们将集成团队重组为交付团队。

在 Sora 发布后,马斯克发推特斯拉 AI 模拟现实世界驾驶 | 图片来源:X 截图

有一种观点是,以 Sora 以文生为代表的视频产品有可能成为端到端模型的素材来源。但即使对马斯克来说,也可以使用 AI 内容训练的生成 AI,尚未得到公开认可。归根结底,数据对模型训练来说太重要了。要知道,人工成本一直是极端的「抠门」那一年,马斯克也在纽约雇佣了他。 1000 人类团队来标记特斯拉的道路视频数据。

03、别被马斯克「带沟里」

转向端到端听起来很自然,但删除它是很自然的 30 对于过去的组织结构来说,万行代码绝对不是一个容易做出的决定。事实上,就连马斯克也半撞大运走上了这条路。那个在 2022 年底第一次向他提出学习 ChatGPT 建立智能驾驶神经网络的工程师几乎被老马调去解决 Twitter 收购后的其他问题。

在培养端到端模型后,相应的支持系统(包括计算能力等)也应该足够高效。威来智能驾驶研发副总裁任少清在接受腾讯深圳网络采访时表示,如果没有基本能力,就强迫上端到端,这相当于使用「毒药」。

他说:「如果你原来的代码架构足够清晰,你的(debug)测量可能只有 1%。最初,你花了三天时间重新测试。 1%,现在对不起,你要花三天时间重新测试。 100%。因此,您的数据验证系统应该足够有效。」

但不要直接被特斯拉带到沟里。目前端到端只证明了提高工作效率的可能性,但并没有证明是自动驾驶的最终解决方案。

这与业界有关 Scaling Law 能否通向物理世界 AGI(通用人工智能)的认知是一致的:可以肯定的是,生成式人工智能可以具有更高的智能性,但学术界还没有规律可以理解物理规律,并应用于自动驾驶、机器人等领域。在《端到端自动驾驶行业研究报告》中,超过一半的从业者不认为端到端是自动驾驶技术的最终解决方案。

对于自主研发智能驾驶的原始设备制造商来说,现阶段最务实的做法是依靠端到端来实现智能驾驶能力。至于智能驾驶软件订阅,可能还有更长的路要走。毕竟,在中国市场,硬件通常比软件和服务更容易销售。

当然,很可能没有那么多人想成为像马斯克这样的创新赌徒。不开发好的廉价车型,去赌博 Robotaxi,推迟市值可以下降数千亿美元。更多的普通玩家只是希望配备端到端的智能驾驶软件,这可以帮助硬件更好地销售。当然,如果你能顺便卖得更贵,那是最好的事情。

广告声明:文本中包含的外部跳转链接(包括不限于超链接、二维码、密码等形式)用于传递更多信息,节省选择时间。结果仅供参考。计算机系统网络上的所有文章都包含了本声明。

相关阅读