自动驾驶纯视觉算法的上限在哪?

网友投稿 286 2024-02-20


2023 年 10 月 27 日,蛰伏了 3 年之久的极越 01 正式上市,相比于已经曝光到几乎明牌的整车,我更对极越 01 所搭载的这套辅助驾驶系统更感兴趣。 主要有两个点:

自动驾驶纯视觉算法的上限在哪?

Apollo 高阶自动驾驶能力全面赋能

单挑特斯拉,中国唯一的量产纯视觉方案

这两个点提取一个关键词最终都落在了「纯视觉」上,如果长期研究辅助驾驶技术的对纯视觉辅助驾驶方案都不陌生,这是目前仅有特斯拉一家量产应用上车的智驾方案。

在 2023 年新能源汽车行业如此内卷的态势下,极越 01 作为一个新选手要用什么姿态来夺得大众的目光?

显然智驾是一个比较好的选择,不管是华为、蔚来、理想、小鹏都明确了自家要在智能化这条道上比拼到底,而这中间最核心的部分当属智驾。

智驾比拼是一个确定性的答案,可是在国内没有一家说要完全切换到纯视觉,当然除了极越。

这是一个很有趣的现象,一方面是国内各家不敢切换还是不想切换;另一方面纯视觉究竟有什么魔力,让特斯拉和其他厂商分歧如此之大。

对于中国路况,其他主机厂给出的答案是要用激光雷达解决多复杂场景,实现安全容易,而极越的选择是用「纯视觉」挑战技术极限。

01

先了解整车

极越 01 目前推出两个版本:

极越 01 MAX

CLTC 续航 550km

后驱电机最大功率 200 kW

标配高通 8295、2 颗 Orin X 等支持城市辅助驾驶的智驾硬件

售价 24.99 万元(1.9 万上市权益包后 23.09 万

选装 100 度电池包,续航可达 720km

极越 01 MAX Performance

标配 100 度电池包,CLTC 续航 660km

四驱双电机 200kW + 200kW

标配高通 8295、2 颗 Orin X 等支持城市辅助驾驶的智驾硬件

标配可升降尾翼

售价 33.99 万元(1.9 万元上市权益包后 32.09 万元

从实际体验来看,作为一个新品牌,新产品极越 01 的完成度是不错的,以智能化为整体差异化的方式虽然很难,但路径选择道也合理,整车设计并没有出现过于哗众取宠的点。

可是极越 01 最大的难点在于,一上市就遇到了汽车行业史无前例的价格战,特别是整车的优惠权益让很多潜在用户看不懂的情况下,24.99 万的起售价显得并不是很有冲击力。

但真的如此吗?

先说一个现象:「极越 01 整体优惠后的价格其实非常有诚意,但是极越对于权益的策略制定却非常混乱,这个混乱导致很多真实的潜在用户根本看不懂。」

一个一个说:

一,现金优惠

这个优惠是实打实的现金权益,是直接抵扣在车价里面的,这里面包含两个部分:

1.9 万元上市权益金:9000 元盲订膨胀金 + 5000 元大定立减金 + 5000 元邀请奖励(4000 元京东卡加上 10000 积分)

1.5 万元选装基金:如果选择收费选装项目可以立减 1.5 万元

也就是,1.9 万元和 1.5 万元叠加使用后,可综合优惠 3.4 万元

二,整车权益

在 11 月 30 日之前的定购的用户,均可享受三个非常划算的权益:

终身整车及三电质保、道路救援:价值 8000 元

直流家充桩或 2 年免费充电:价值 7500 元

ROBO Drive MAX 6 个月免费订阅:价值 5880 元

也就是说,购买极越 01 MAX 550km 版叠加完权益后只需要 23.59 万元,同时还能免费拿一套舒享套装。

但智驾权益里面有一个小细节,按照目前的权益策略是买断 1.99 万元、订阅 980 元/月,但如果你用选装基金买断智驾系统的话只需要 4900 元买断。

但你需要注意一个细节,如果你用 1.5 万元选装基金去抵扣智驾买断,那么你也会失去舒享套装。

总结则是,舒享套装和智驾系统你只能白嫖一个。

讲完整车,下面智驾才是极越 01 的核心。

02

智驾最终要回归到硬件的合理性上

硬件堆叠并不能保证最终的体验

在讲极越 01 的纯视觉方案之前,先说一个背景:

我们都知道市面上将智驾分为「纯视觉」和「激光雷达融合」方案两种,可是对于这两种方案区别性的解释,往往只归结在有无激光雷达硬件这一个维度上。

显然,这么理解对于辅助驾驶的解释即不明确也不立体。

我们先理解辅助驾驶系统包含的核心两个能力,很好理解:一个是硬件,包含计算平台、感知传感器、定位等;另一个则是算法,一个系统运行的基本神经网络系统。

纯视觉和激光雷达方案,除了字面意思理解到的感知传感器的区别,还有就是算法对于摄像头和激光雷达数据处理的方式。

简单说就是,即使使用了激光雷达,但激光雷达数据的融合方式也决定了系统整个能力的表现,有些厂商的方案是视觉数据和激光雷达数据是分别处理的,融合过程在各自输出结果的层面上完成,也就是自动驾驶领域常说的 「后融合」

这样做可以尽可能地保证两个系统之间的独立性,并为彼此提供安全冗余。

但后融合也导致神经网络,无法充分利用两个异构传感器之间数据的互补性,来学习最有价值的特征。

这也是异构感知传感器系统,为什么大部分都存在「时间上的感知不连续、空间上的感知碎片化」的问题。」

我回想起 2021 年,车企争相宣布摆脱供应商方案,选择自动驾驶「全栈自研」,彼时辅助驾驶赛道还是 Mobileye 的天下,大部分车企的辅助驾驶方案都来自于 MobilEye 的能力,乃至于国内第一个高速导航辅助驾驶量产方案蔚来 NOP 也是基于 MobilEye 视觉方案进行的二次开发。

从供应商切换到自研意味着一切从零开始,但是要很快追平原有方案的体验。

但是新产品的上市,只留给了车企们两年的时间,而 Mobileye 成立于 1999 年,2008 年就提供了 Eye Q1 芯片,目前出货量已经超过一亿片。

到了 2020 年 Eye Q4 已经是全球出货量最大的智驾芯片,Mobileye 的 L2 方案几乎拿下来国内外大部分顶级厂商,蔚来、理想、宝马等等。

这种竞争并不公平。

好在我们有一条清晰的捷径 「激光雷达」,它可以提供珍贵的距离真值,给出了相对直接的世界描述,给开发提供了极大便利。

也正因如此,一切就显得水到渠成,众多车企开始比拼激光雷达的数目。铺天盖地的宣传下「硬件性能不等于最终体验」这件事却被有意忽略了。

硬件只是基础,算法的能力决定了系统的上限。

到 2023 年,消费者开始发现,即使摄像头和激光雷达遍布全车,更高阶的辅助驾驶功能并没有如期而至。

车企的算法能力没有因为硬件的堆叠而得到质的飞跃,而特斯拉依然靠着几乎普通的感知硬件,用纯视觉始终保持在辅助驾驶第一阵营。

纯视觉通往高阶辅助驾驶的最优解?

人靠视觉就能开车,那么视觉就能完成辅助驾驶。这是马斯克的第一性原理,特斯拉死磕纯视觉的理由。

那么技术上是怎么实现的?

我们在路上看到一辆车能够知道,这可能是一个障碍物,同时我们也可以大概估计这辆车离我们有多远。

纯视觉算法也是如此。

本质上是通过对图像信息的特征进行广泛的训练,让神经网络获得视觉估计距离的能力。‍

经过大量数据训练的算法,能够得到前方障碍物的类型,同时得到一个位置估计,提供给下游规划控制算法。

当然,这里最重要的是:「精确的真值标注」和「大量的数据」

这不是一件简单的事情。

需要用数据压榨算法的能力,在弱硬件上得到足够好的性能,逐渐逼近算法的上限。

03

纯视觉算法的上限在哪?

纯视觉估计距离具备足够的数学理论基础

这里举一个例子,双目测距,假设我们有一个点 P,但是我们用不同的摄像头去拍摄这个点,那么这个点会分别在左边和右边的图片上分别形成一个点。

如果我们对这两个点的位置寻找得足够准确的话,根据图片上这两个点 p_l,p_r 的位置差别,我们可以按照相似三角形的原理,计算出 P 点在世界中的位置。

当然,这里有许多局限,在图片上的点进行搜索时,我们并不总能如愿找到精确两个点对,所以传统双目测距会有一定的局限性。

但是,这种数学原理也告诉我们,视觉算法的上限是足够高的。

本质原理即:多个摄像头之间的视觉特征互相验证,能够获得相对精确的距离信息。

实际上目前主流的 BEV 的网络,某种程度上也可以看作将视觉特征投影到 BEV 俯视图下,各视角的特征进行互相自动验证,最终得到一个相对精确的结果的。

但即使业界认为视觉的上限很高,但执行量产的动作却是一个地狱级别的难度,那么纯视觉难度在何处?

「纯视觉」企业工程师的噩梦

从传统双目视觉的角度看,我们无法如愿找到精确的两个点对,而从深度学习的角度看,我们无法保证神经网络内部的多个摄像头的视觉互相验证时正确的。

算法一直都在不断演进,例如 BEV 视角去进行自动驾驶感知,Transformer 结构也获得了很多关注。

但是在特斯拉验证可行之前,没有人这么做量产。

因为需要大量的数据进行神经网络的训练,来逐步提升距离估计的精确。

特斯拉用强大的工程能力完成数据闭环,示范这件事情可行。回想起 2021 年看特斯拉 AI Day 那个夜晚,行业惊呼特斯拉的工程能力之强,也惊呼纯视觉的上限竟然如此高。

那么需要怎么做?

为了保证辅助驾驶的可靠性,工程师需要一个对周围障碍物估计的网络,这样就车辆能够看到周围交通参与者,并且能够对它们进行及时的反应。

这就是 BEV 动态网络,本质上俯视图,将所有的摄像头信息都投影到这个俯视图上,由于每个摄像头之间有互相的信息补齐,这样对遮挡的物体也能够较好的识别,并且当引入时序信息。

也就是说,将这一个时间段前面的信息也融合进来也能够多一些信息进行推理,这样会给 PNC 带来更好的障碍物轨迹预测结果,进而带来更安全且顺滑的体验。

视频截图是基于极越 01 前段时间在上海市区,基于 BEV Transformer 的纯视觉架构跑出来的效果,展现出的足够高的精度和足够远的感知距离,可以证明极越的纯视觉方案已经有比较高的完成度。

但是这还不够。

除了障碍物,系统还需要车道线和道路拓扑结构的识别,同样的,将周围的摄像头转换到BEV 空间下,将周围的地图绘制出来,这就是常说的实时绘制地图。

这些部分完成之后,最难的部分来了。

这些本质上到目前所感知到的障碍物还是白名单物体,并且还是物体级的识别。当在城市中驾驶时,很多物体需要被更精确的描述,而且很多物体在并不在常见的白名单中。

这里出现了一个新的词:白名单。

其实你就简单理解成,这个时候系统所感知到的障碍物都是通过标准完成的,工程师将感知到的数据进行数据标准,形成一个可用数据包然后通过云端和实时感知进行数据比对,这样系统在驾驶开启时所感知到的物体都是经过标注后的。

但这有个问题,即使今天自动标注也已经逐步量产,但在真实物理世界里所出现的障碍物也不能被穷尽,同时数据标注的精度不够高,也不能描述具体物体的 3D 信息。

一句话总结则是:白名单里的物体都是工程师标注后系统已知的物体。

那系统不知道的物体呢?

这里就需要一个「占用网络」。

简单来说就是,纯视觉将世界感知分为无数个网格体,每个网格体里面代表被占据的概率。

在极越 01 上市之前,极越官方释放了一个基于 OCC 占用网络的视频 demo,可以看到视频里包含的感知内容:一个常规的周围环境实时显示;另一个通用占用网络。

这便是极越的辅助驾驶方案:动态 BEV + 静态 BEV + 占用网络。

这条路与特斯拉基本一致,不同的是极越的摄像头是 800 万像素,而特斯拉的摄像头是 200 万。对于相对较远的物体,极越这套硬件可以分配到更多的像素理论上限会更高。

BEV 动态识别网络 + BEV 静态网络做地图构建,这是相对常规的内容,头部的几家也基本上完成了 BEV 的量产。

为什么占用网络上车才能证明纯视觉最终能走通?

占用网络将世界感知为相对比较小的占用空间,每个空间里面有被占据的概率。相较于常规的画一个 3D 或者 2D 框来描述某一个具体的物体,占用网格的描述更加细腻。

例如一个两节的大公交车,常规的描述是一个 3D 长宽高, 但是当这辆公交正在进行转向的时候描述就显得不够精确了。

如果将这辆公交车分割成很多块,这样即使运动起来,描述也足够精准。

极越这里也展现了不是画一个 2D 框,显示这个是一辆车,而是显示这是一些被占据的空间。

这样更加精细地描述了感知世界之后,逻辑就可以变成:

如果道路上没有被占据就是可行驶空间,这就完全跳脱出原来识别是一个具体物体(人,车,锥桶等),然后再考虑能不能开的逻辑,而是有障碍物影响就需要做绕行或者新的路径规划。

这就规避了穷举道路上所有目标的问题。

为什么纯视觉占用网络不像 BEV 一样,提出之后被大量跟进,到目前国内也只有极越宣布今年 12 月上车?

因为二者的技术迭代路线已经出现了显著的分歧,大部分高度重视激光雷达的算法方案,都在研究如何将激光雷达的真值更好地使用。

激光雷达可以相对天然得到一个占用网格结果,尤其是在前视部分。

比如华为提出的 GOD,从某种意义就是 Lidar 点云作为基础,得出的占用网络结果,通过 3D 点获得 3D 占用网络,再通过视觉进行一定的融合表现也很好。

相较于 Lidar 直接获得真值,纯视觉这条路要靠多摄像头直接推导出距离信息,这中间的难度极大。

但是纯视觉这条路得出占用网络(Occupancy Grid 3D)并不是终局。

之后还会有:

「Occupancy Flow 」:就是对占用网络运动状态相关的估计,这个格子的自身运动状态是什么。例如视频里第二张图中的红色圈出的部分,估计出非刚体的不同部分的运动状态,蓝色运动,红色静止;

Occupancy prediction:对占据网格预测相关的估计,这个格子下一步怎么走

也就是说,以前目标级别的任务,在更细粒度上的占用网格上都可以做一遍,占据网络对周围世界的理解,不是目标级别的感知可以比拟的。

写在最后

极越选了一条非常难并且不一样的路,在选择的过程中一定会伴随着质疑,但是极越还是勇敢地站出来。

当视觉能力足够强时,足够完成城区高阶辅助驾驶。

若无必要,勿增实体,这是互联网产品圈非常流行的一句话。

极越方案里的纯视觉选择就是这么出现的,不看硬件,只关注体验。

纯视觉的核心是:

构建以视觉为中心的辅助驾驶系统,不被其他的传感器分掉研发精力,并且构建出一个非常精简的数据闭环系统,在之后的方案迭代中能够保证数据的高度可复用性。

也期待极越使用纯视觉完成端到端的方案构建。

这条路很难,但是选择最难的这条路,或许是通向未来的最正确的一条路。

编辑:黄飞

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:实现嵌入式视觉应用的解决方案:CV
下一篇:什么是机器学习?机器学习能解决什么问题?(案例分析)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~