自动驾驶纯视觉算法的上限在哪?-思谋资讯中心

自动驾驶纯视觉算法的上限在哪?

网友投稿 453 2024-02-20

2023 年 10 月 27 日，蛰伏了 3 年之久的极越 01 正式上市，相比于已经曝光到几乎明牌的整车，我更对极越 01 所搭载的这套辅助驾驶系统更感兴趣。主要有两个点：

自动驾驶纯视觉算法的上限在哪?

Apollo 高阶自动驾驶能力全面赋能

单挑特斯拉，中国唯一的量产纯视觉方案

这两个点提取一个关键词最终都落在了「纯视觉」上，如果长期研究辅助驾驶技术的对纯视觉辅助驾驶方案都不陌生，这是目前仅有特斯拉一家量产应用上车的智驾方案。

在 2023 年新能源汽车行业如此内卷的态势下，极越 01 作为一个新选手要用什么姿态来夺得大众的目光？

显然智驾是一个比较好的选择，不管是华为、蔚来、理想、小鹏都明确了自家要在智能化这条道上比拼到底，而这中间最核心的部分当属智驾。

智驾比拼是一个确定性的答案，可是在国内没有一家说要完全切换到纯视觉，当然除了极越。

这是一个很有趣的现象，一方面是国内各家不敢切换还是不想切换；另一方面纯视觉究竟有什么魔力，让特斯拉和其他厂商分歧如此之大。

对于中国路况，其他主机厂给出的答案是要用激光雷达解决多复杂场景，实现安全容易，而极越的选择是用「纯视觉」挑战技术极限。

先了解整车

极越 01 目前推出两个版本：

极越 01 MAX

CLTC 续航 550km

后驱电机最大功率 200 kW

标配高通 8295、2 颗 Orin X 等支持城市辅助驾驶的智驾硬件

售价 24.99 万元（1.9 万上市权益包后 23.09 万）

选装 100 度电池包，续航可达 720km

极越 01 MAX Performance

标配 100 度电池包，CLTC 续航 660km

四驱双电机 200kW + 200kW

标配高通 8295、2 颗 Orin X 等支持城市辅助驾驶的智驾硬件

标配可升降尾翼

售价 33.99 万元（1.9 万元上市权益包后 32.09 万元）

从实际体验来看，作为一个新品牌，新产品极越 01 的完成度是不错的，以智能化为整体差异化的方式虽然很难，但路径选择道也合理，整车设计并没有出现过于哗众取宠的点。

可是极越 01 最大的难点在于，一上市就遇到了汽车行业史无前例的价格战，特别是整车的优惠权益让很多潜在用户看不懂的情况下，24.99 万的起售价显得并不是很有冲击力。

但真的如此吗？

先说一个现象：「极越 01 整体优惠后的价格其实非常有诚意，但是极越对于权益的策略制定却非常混乱，这个混乱导致很多真实的潜在用户根本看不懂。」

一个一个说：

一，现金优惠

这个优惠是实打实的现金权益，是直接抵扣在车价里面的，这里面包含两个部分：

1.9 万元上市权益金：9000 元盲订膨胀金 + 5000 元大定立减金 + 5000 元邀请奖励（4000 元京东卡加上 10000 积分）；

1.5 万元选装基金：如果选择收费选装项目可以立减 1.5 万元。

也就是，1.9 万元和 1.5 万元叠加使用后，可综合优惠 3.4 万元。

二，整车权益

在 11 月 30 日之前的定购的用户，均可享受三个非常划算的权益：

终身整车及三电质保、道路救援：价值 8000 元

直流家充桩或 2 年免费充电：价值 7500 元

ROBO Drive MAX 6 个月免费订阅：价值 5880 元

也就是说，购买极越 01 MAX 550km 版叠加完权益后只需要 23.59 万元，同时还能免费拿一套舒享套装。

但智驾权益里面有一个小细节，按照目前的权益策略是买断 1.99 万元、订阅 980 元/月，但如果你用选装基金买断智驾系统的话只需要 4900 元买断。

但你需要注意一个细节，如果你用 1.5 万元选装基金去抵扣智驾买断，那么你也会失去舒享套装。

总结则是，舒享套装和智驾系统你只能白嫖一个。

讲完整车，下面智驾才是极越 01 的核心。

智驾最终要回归到硬件的合理性上

硬件堆叠并不能保证最终的体验

在讲极越 01 的纯视觉方案之前，先说一个背景：

我们都知道市面上将智驾分为「纯视觉」和「激光雷达融合」方案两种，可是对于这两种方案区别性的解释，往往只归结在有无激光雷达硬件这一个维度上。

显然，这么理解对于辅助驾驶的解释即不明确也不立体。

我们先理解辅助驾驶系统包含的核心两个能力，很好理解：一个是硬件，包含计算平台、感知传感器、定位等；另一个则是算法，一个系统运行的基本神经网络系统。

纯视觉和激光雷达方案，除了字面意思理解到的感知传感器的区别，还有就是算法对于摄像头和激光雷达数据处理的方式。

简单说就是，即使使用了激光雷达，但激光雷达数据的融合方式也决定了系统整个能力的表现，有些厂商的方案是视觉数据和激光雷达数据是分别处理的，融合过程在各自输出结果的层面上完成，也就是自动驾驶领域常说的 「后融合」。

这样做可以尽可能地保证两个系统之间的独立性，并为彼此提供安全冗余。

但后融合也导致神经网络，无法充分利用两个异构传感器之间数据的互补性，来学习最有价值的特征。

这也是异构感知传感器系统，为什么大部分都存在「时间上的感知不连续、空间上的感知碎片化」的问题。」

我回想起 2021 年，车企争相宣布摆脱供应商方案，选择自动驾驶「全栈自研」，彼时辅助驾驶赛道还是 Mobileye 的天下，大部分车企的辅助驾驶方案都来自于 MobilEye 的能力，乃至于国内第一个高速导航辅助驾驶量产方案蔚来 NOP 也是基于 MobilEye 视觉方案进行的二次开发。

从供应商切换到自研意味着一切从零开始，但是要很快追平原有方案的体验。

但是新产品的上市，只留给了车企们两年的时间，而 Mobileye 成立于 1999 年，2008 年就提供了 Eye Q1 芯片，目前出货量已经超过一亿片。

到了 2020 年 Eye Q4 已经是全球出货量最大的智驾芯片，Mobileye 的 L2 方案几乎拿下来国内外大部分顶级厂商，蔚来、理想、宝马等等。

这种竞争并不公平。

好在我们有一条清晰的捷径 「激光雷达」，它可以提供珍贵的距离真值，给出了相对直接的世界描述，给开发提供了极大便利。

也正因如此，一切就显得水到渠成，众多车企开始比拼激光雷达的数目。铺天盖地的宣传下「硬件性能不等于最终体验」这件事却被有意忽略了。

硬件只是基础，算法的能力决定了系统的上限。

到 2023 年，消费者开始发现，即使摄像头和激光雷达遍布全车，更高阶的辅助驾驶功能并没有如期而至。

车企的算法能力没有因为硬件的堆叠而得到质的飞跃，而特斯拉依然靠着几乎普通的感知硬件，用纯视觉始终保持在辅助驾驶第一阵营。

纯视觉通往高阶辅助驾驶的最优解？

人靠视觉就能开车，那么视觉就能完成辅助驾驶。这是马斯克的第一性原理，特斯拉死磕纯视觉的理由。

那么技术上是怎么实现的？

我们在路上看到一辆车能够知道，这可能是一个障碍物，同时我们也可以大概估计这辆车离我们有多远。

纯视觉算法也是如此。

本质上是通过对图像信息的特征进行广泛的训练，让神经网络获得视觉估计距离的能力。‍

经过大量数据训练的算法，能够得到前方障碍物的类型，同时得到一个位置估计，提供给下游规划控制算法。

当然，这里最重要的是：「精确的真值标注」和「大量的数据」。

这不是一件简单的事情。

需要用数据压榨算法的能力，在弱硬件上得到足够好的性能，逐渐逼近算法的上限。

纯视觉算法的上限在哪?

纯视觉估计距离具备足够的数学理论基础

这里举一个例子，双目测距，假设我们有一个点 P，但是我们用不同的摄像头去拍摄这个点，那么这个点会分别在左边和右边的图片上分别形成一个点。

如果我们对这两个点的位置寻找得足够准确的话，根据图片上这两个点 p_l，p_r 的位置差别，我们可以按照相似三角形的原理，计算出 P 点在世界中的位置。

当然，这里有许多局限，在图片上的点进行搜索时，我们并不总能如愿找到精确两个点对，所以传统双目测距会有一定的局限性。

但是，这种数学原理也告诉我们，视觉算法的上限是足够高的。

本质原理即：多个摄像头之间的视觉特征互相验证，能够获得相对精确的距离信息。

实际上目前主流的 BEV 的网络，某种程度上也可以看作将视觉特征投影到 BEV 俯视图下，各视角的特征进行互相自动验证，最终得到一个相对精确的结果的。

但即使业界认为视觉的上限很高，但执行量产的动作却是一个地狱级别的难度，那么纯视觉难度在何处？

「纯视觉」企业工程师的噩梦

从传统双目视觉的角度看，我们无法如愿找到精确的两个点对，而从深度学习的角度看，我们无法保证神经网络内部的多个摄像头的视觉互相验证时正确的。

算法一直都在不断演进，例如 BEV 视角去进行自动驾驶感知，Transformer 结构也获得了很多关注。

但是在特斯拉验证可行之前，没有人这么做量产。

因为需要大量的数据进行神经网络的训练，来逐步提升距离估计的精确。

特斯拉用强大的工程能力完成数据闭环，示范这件事情可行。回想起 2021 年看特斯拉 AI Day 那个夜晚，行业惊呼特斯拉的工程能力之强，也惊呼纯视觉的上限竟然如此高。

那么需要怎么做？

为了保证辅助驾驶的可靠性，工程师需要一个对周围障碍物估计的网络，这样就车辆能够看到周围交通参与者，并且能够对它们进行及时的反应。

这就是 BEV 动态网络，本质上俯视图，将所有的摄像头信息都投影到这个俯视图上，由于每个摄像头之间有互相的信息补齐，这样对遮挡的物体也能够较好的识别，并且当引入时序信息。

也就是说，将这一个时间段前面的信息也融合进来也能够多一些信息进行推理，这样会给 PNC 带来更好的障碍物轨迹预测结果，进而带来更安全且顺滑的体验。

视频截图是基于极越 01 前段时间在上海市区，基于 BEV Transformer 的纯视觉架构跑出来的效果，展现出的足够高的精度和足够远的感知距离，可以证明极越的纯视觉方案已经有比较高的完成度。

但是这还不够。

除了障碍物，系统还需要车道线和道路拓扑结构的识别，同样的，将周围的摄像头转换到BEV 空间下，将周围的地图绘制出来，这就是常说的实时绘制地图。

这些部分完成之后，最难的部分来了。

这些本质上到目前所感知到的障碍物还是白名单物体，并且还是物体级的识别。当在城市中驾驶时，很多物体需要被更精确的描述，而且很多物体在并不在常见的白名单中。

这里出现了一个新的词：白名单。

其实你就简单理解成，这个时候系统所感知到的障碍物都是通过标准完成的，工程师将感知到的数据进行数据标准，形成一个可用数据包然后通过云端和实时感知进行数据比对，这样系统在驾驶开启时所感知到的物体都是经过标注后的。

但这有个问题，即使今天自动标注也已经逐步量产，但在真实物理世界里所出现的障碍物也不能被穷尽，同时数据标注的精度不够高，也不能描述具体物体的 3D 信息。

一句话总结则是：白名单里的物体都是工程师标注后系统已知的物体。

那系统不知道的物体呢？

这里就需要一个「占用网络」。

简单来说就是，纯视觉将世界感知分为无数个网格体，每个网格体里面代表被占据的概率。

在极越 01 上市之前，极越官方释放了一个基于 OCC 占用网络的视频 demo，可以看到视频里包含的感知内容：一个常规的周围环境实时显示；另一个通用占用网络。

这便是极越的辅助驾驶方案：动态 BEV + 静态 BEV + 占用网络。

这条路与特斯拉基本一致，不同的是极越的摄像头是 800 万像素，而特斯拉的摄像头是 200 万。对于相对较远的物体，极越这套硬件可以分配到更多的像素理论上限会更高。

BEV 动态识别网络 + BEV 静态网络做地图构建，这是相对常规的内容，头部的几家也基本上完成了 BEV 的量产。

为什么占用网络上车才能证明纯视觉最终能走通？

占用网络将世界感知为相对比较小的占用空间，每个空间里面有被占据的概率。相较于常规的画一个 3D 或者 2D 框来描述某一个具体的物体，占用网格的描述更加细腻。

例如一个两节的大公交车，常规的描述是一个 3D 长宽高，但是当这辆公交正在进行转向的时候描述就显得不够精确了。

如果将这辆公交车分割成很多块，这样即使运动起来，描述也足够精准。

极越这里也展现了不是画一个 2D 框，显示这个是一辆车，而是显示这是一些被占据的空间。

这样更加精细地描述了感知世界之后，逻辑就可以变成：

如果道路上没有被占据就是可行驶空间，这就完全跳脱出原来识别是一个具体物体（人，车，锥桶等），然后再考虑能不能开的逻辑，而是有障碍物影响就需要做绕行或者新的路径规划。

这就规避了穷举道路上所有目标的问题。

为什么纯视觉占用网络不像 BEV 一样，提出之后被大量跟进，到目前国内也只有极越宣布今年 12 月上车？

因为二者的技术迭代路线已经出现了显著的分歧，大部分高度重视激光雷达的算法方案，都在研究如何将激光雷达的真值更好地使用。

激光雷达可以相对天然得到一个占用网格结果，尤其是在前视部分。

比如华为提出的 GOD，从某种意义就是 Lidar 点云作为基础，得出的占用网络结果，通过 3D 点获得 3D 占用网络，再通过视觉进行一定的融合表现也很好。

相较于 Lidar 直接获得真值，纯视觉这条路要靠多摄像头直接推导出距离信息，这中间的难度极大。

但是纯视觉这条路得出占用网络（Occupancy Grid 3D）并不是终局。

之后还会有：

「Occupancy Flow 」：就是对占用网络运动状态相关的估计，这个格子的自身运动状态是什么。例如视频里第二张图中的红色圈出的部分，估计出非刚体的不同部分的运动状态，蓝色运动，红色静止；

Occupancy prediction：对占据网格预测相关的估计，这个格子下一步怎么走

也就是说，以前目标级别的任务，在更细粒度上的占用网格上都可以做一遍，占据网络对周围世界的理解，不是目标级别的感知可以比拟的。

写在最后

极越选了一条非常难并且不一样的路，在选择的过程中一定会伴随着质疑，但是极越还是勇敢地站出来。

当视觉能力足够强时，足够完成城区高阶辅助驾驶。

若无必要，勿增实体，这是互联网产品圈非常流行的一句话。

极越方案里的纯视觉选择就是这么出现的，不看硬件，只关注体验。

纯视觉的核心是：

构建以视觉为中心的辅助驾驶系统，不被其他的传感器分掉研发精力，并且构建出一个非常精简的数据闭环系统，在之后的方案迭代中能够保证数据的高度可复用性。

也期待极越使用纯视觉完成端到端的方案构建。

这条路很难，但是选择最难的这条路，或许是通向未来的最正确的一条路。

编辑：黄飞

智能制造架构，实现未来工业发展的关键

453 2024-02-20

自动驾驶纯视觉算法的上限在哪?

SAP智能制造，为企业带来的无限机遇

世界智能制造，探索智能技术引领下的制造业未来

智能制造架构，实现未来工业发展的关键

最近发表

热评文章

机器视觉软件有哪些品牌？- 您需要了解的最佳选择！

什么是智能工业平台公司？

全自动机器视觉软件有哪些？完全详解与推荐

数智化智能制造工厂解决方案-实现工业智能化的关键

智能制造行业分类 - 了解智能制造行业的各个方面

机器视觉检测系统完整解决方案及应用范围

自动驾驶纯视觉算法的上限在哪?

微信扫一扫：分享

最近发表

热评文章