自动驾驶迈向3.0时代!车企争抢城市无图NOA,大模型端到端方案加速迭代

2024-06-08

汽车智能化推动了“软件定义汽车”,自动驾驶也同步进入了由软件驱动的2.0时代。发展至今,自动驾驶市场开始迈进3.0时代。那么,什么是自动驾驶3.0时代,在2.0时代向3.0时代的过渡阶段,大模型又有哪些需求?


自动驾驶由2.0


时代迈向3.0


时代

回顾自动驾驶的发展,可以将其总结为三个发展阶段,由硬件驱动转向软件驱动,如今转向数据驱动,也就是业内所说的自动驾驶3.0时代。在硬件驱动的1.0时代,由激光雷达负责感知,到了软件驱动的2.0时代,感知由传感器单独输出结果,应用了部分小模型,数据量较少。如今在3.0时代,感知由多模态传感器联合输出结果,

数据的需求量越来越大,应用了越来越多的大模型。

毫无疑问,大模型正在重塑汽车智能化技术路线,当前进入了自动驾驶2.0时代向3.0时代的技术架构演进的关键阶段。毫末智行认为,在这个过程中,越来越多的分模块出现集中化、模型化,也就是由多个模块变成一个模型,由多个模型变成一个模型,最后会汇聚到这种端到端的大模型,通过

端到端的大模型

在车上或者在云上完成智能驾驶任务。

当前,有多家厂商发布了应用在汽车领域的大模型及其解决方案,例如毫末智行基于自身对技术发展的预判,发布了Drive GPT大模型,商汤绝影则发布了端到端自动驾驶解决方案UniAD等。

不同的企业对自动驾驶任务的定义是不同的。毫末智行将自动驾驶任务分成了两个阶段,一个是感知阶段,另一个是认知阶段。Drive GPT大模型在感知阶段进行传感器的多模态视觉融合,完成感知后,认知大模型再进行理解,认知模型除了输入自动驾驶所需要的目的地、导航信息,还可以用基础大语言模型,对驾驶环境做理解,从而对驾驶的策略进行预测。商汤绝影智能驾驶产品总监赵祥磊表示,Drive GPT还加入了图片、文字等多模态模型,能够更加高效、立体地理解、感知周围的环境。

要知道,智能汽车在驾驶过程中面临很多复杂的场景,例如能否根据道路的环境控制车速,让行驶更安全。因此大模型需要更精准地完成检测工作,这也就需要通过大量数据的训练。

在云端完成感知大模型和认知大模型的能力提升之后,如何将其赋能至车端,是下一个阶段需要突破的难题。


自动驾驶解决方案走向真端到端,由两段式到一段式

目前,大模型上车已经迎来一定进展,并且随着技术的成熟,NOA功能从高速NOA,卷向城市NOA,再到城市无图NOA。2024年,正是城市无图NOA落地的关键节点。

“图”指的是高精度地图,有图意味着需要高精度地图提供交通标志、红绿灯等道路信息,并且要精确到厘米,让车辆进行更加有效的路线规划和智驾行为。但高精度地图存在制作成本高、需要及时更新地图信息、信息采集法规严格等问题。因此,城市无图NOA已经成为下一阶段的技术需求。更重要的是,城市无图NOA还是大模型是否真的支持端到端的标志之一,这也是为什么在现阶段大模型厂商经常提及“端到端”的原因。

在车企中,智己汽车发布的 D.L.P.(深度学习算法)人工智能模型,DDLD+DDOD融合感知大模型也已上车智己L6。智己汽车表示智己L6 Max全系具备无图城市NOA能力。计划在第一季度在上海地区率先推送城市NOA,第二季度开启无图城市NOA公测,第三季度量产无图城市NOA,第四季度实现全国都可开无图城市NOA。

10 年前的 ADAS 功能主要是识别车辆、行人和车道线,让汽车居中行驶。随着技术迭代,增加了响应红绿灯的功能,再接下来,ADAS功能还需要识别更多复杂的道路信息,例如路上的施工区域,让汽车能够绕过障碍物更安全行驶。

商汤绝影智能驾驶产品线总监赵祥磊提及,后面我们发现它要的并不是找一个可通行的空间,而是要去理解这是一个施工的场景,可能需要去左转、右转甚至掉头,这也是我们的理解,我们认为最终的端到端方案,它可能并不是一个感知和决策规划两段式的方案,真端到端应该是一段式的,这样的话它的性能的天花板才会更高。

商汤绝影认为由感知和决策两个模型组成的 “两段式”架构的端到端方案比较容易落地,但存在性能上限瓶颈,因为中间信息的传递主要是人为的,会出现信息传递过滤或丢失的问题。

因此商汤绝影推出UniAD解决方案,公司表示这是真端到端的解决方案,实现了感知决策一体化。具备两大优势,一是性能上限更高,应对非结构化无图道路和多交通参与者交互等复杂能力更强;二是迭代速度更快,针对复杂道路场景,相比于基于规则方案,开发效率提高数倍。目前已经完成实车部署开始路测。

商汤绝影采用了数据驱动、大模型驱动让UniAD更高效地响应复杂道路场景。但是商汤绝影发现,当随着时间周期越来越长,corner case出现概率也在降低,基于车辆采集的数据综合效率逐渐降低。此时需要寻找新的数据驱动引擎。而AIGC的出现恰好能解决一部分问题,大模型能够生成交通事故等长尾场景的数据,再进行训练。

在毫末智行的自动驾驶技术路线中,也规划了将在今年实现通用感知+通用认知,以及端到端训练,打造感知+认知端到端。

当然,端到端的模型开发、基于大模型的数据生成,都是需要算力基础设施作为支撑。算力基础设备的算力规模或许会成为下一阶段大模型厂商的竞争优势。

文章推荐

相关推荐