在智能汽车产业蓬勃发展的当下,智能座舱作为车辆的重要组成部分,正经历着前所未有的变革。清华大学智能绿色车辆与交通全国重点实验室的曹东璞教授在全球智能汽车产业大会(GIV 2024)上指出,国内智能座舱的发展速度惊人,已经从过去的落后状态转变为领先国际。这一转变的背后,AI大模型起到了关键的推动作用。
然而,随着智能座舱市场的快速发展,头部座舱企业已经遇到了瓶颈。为了突破这一困境,多模态成为了智能座舱发展的新热点。多模态是指通过不同的信息来源或形式(如文本、语音、图像、视频等)来传递和接收信息。相较于单一模态,多模态能够更全面、完整地反映真实世界的复杂性和多样性,同时实现不同模态之间的交互和融合。
随着技术的持续迭代和发展,AI大模型正在从单一模态向多模态演进。咨询公司Gartner预测,建立在多模态大模型上的生成式AI应用将在未来几年内实现快速增长。智能汽车作为原生多模态大模型的绝佳落地场景,正引领着这一变革。
商汤绝影和GPT-4V等多模态大模型的发布,标志着AI公司开始在技术框架层将语言模型、视觉模型、声音模型等进行融合。这些模型通过跨模态数据的训练,实现了多模态的对齐和连接,从而能够在更广泛的场景中应用。
商汤绝影将多模态大模型业务分为模型层、引擎层和业务层三层。模型层包括车端侧和云端的模型,用于进行多模态大模型的推理。引擎层则包括座舱大脑和全时驾驶辅助两个产品,分别用于感知座舱内的情况和车外场景。业务层则包括语音助手、ADAS系统、手机运用以及娱乐功能等,与下面的模型层和引擎层进行融合。
然而,多模态大模型在智能座舱中的应用也面临着诸多挑战。首先,车端应用大模型需要强大的算力支持,而如何更优、更好地使用算力是一个亟待解决的问题。其次,集中化跨模态的全链路数据打通和服务接口的标准化等方面也需要进一步努力。此外,多模态大模型在实际应用中的取舍也是一个重要问题。一些新功能虽然看似炫酷,但可能并不符合用户的实际需求,导致资源浪费。
因此,智能座舱的发展需要回归原点,改变车内场景的交互效率。百度智舱业务部总经理李涛指出,如果一个功能频繁被用户使用,可能说明整体车辆设计的智能化程度较低,无法理解用户当前所需。因此,智能座舱的发展应该更加注重用户体验和实际需求,通过多模态大模型等技术手段提高交互效率,为用户带来更加便捷、智能的出行体验。
综上所述,多模态作为智能座舱的新突破口,正引领着智能汽车产业的发展。然而,要实现多模态大模型在智能座舱中的广泛应用,还需要克服诸多技术和市场挑战。未来,随着技术的不断进步和市场的日益成熟,智能座舱将迎来更加广阔的发展前景。