您的位置:首页 → 先让 AI 学会害怕,再让它握紧方向盘

元戎启行研发的VLA模型,将自动驾驶提升至新阶段。从概念到现实,他们凭借坚韧不拔的精神,使自动驾驶从传统模式走向智慧思考的路口。

破局:从路牌困惑到“读懂”世界

的一个酷热下午,周光驾驶着他的测试车穿过公司附近的红绿灯区域。然而,在一处简陋的路口,他发现了一个不起眼的交通指示牌,上面写着“车辆左转不受红绿灯控制”,但测试车仍然需要等待红灯变亮才能继续前行。

那一刻,他看到后视镜中不断鸣笛的车辆,意识到人类司机能在瞬间理解这些特殊场景,然而即便是最接近人类驾驶能力的端到端模型,也无法理解和识别道路标志,因此未能通过测试。

这个问题在他心里种下了一颗种子,后续的内部会议上,他与研发团队几次提起这个问题。

与此同时,元戎启行正在探索通用人工智能的多元路径。在RoadAGI实验室,VLA原型成功展现了其在环境语义理解和执行复杂任务方面的潜力,包括取物、搬运和规避障碍物的行动能力。

在一个演示会中,周光意外地发现了他之前开发的一个可以基于环境和语音指令自主做出反应的模型与其专注于理解和处理复杂道路状况下驾驶辅助功能的智能驾驶系统之间存在惊人的相似之处。然而,区别在于他的模型不仅能理解语言信息,还能进行更深入的理解和语义分析。

这为他提供了巨大的启示,如同密码锁最后齿轨的咬合,思维如迷宫般豁然开朗。随着ChatGPT等大语言模型的涌现,周光和他的团队愈发确信:当端到端模型在特定场景中陷入困境时,融合语言理解的VLA(视觉-语言)技术或许能开辟新的道路。这不是简单的技术叠加,而是让机器真正实现对物理世界的理解和操作能力。

- 9月,元戎启行将VLA模型提升为公司级研发项目。

在技术创新的洪流中,时间成为决定胜负的关键因素。那些走在行业前沿的人,从来不等待“风口”出现,而是主动洞察趋势。

元戎启行为推动AI发展,坚信它将改变生产方式和生产力,引领第四次工业革命。该公司以智能驾驶技术为核心,积极抢占未来科技赛道。

随着辅助驾驶技术的大规模上车应用,元戎启行打造的基座模型将借助驾驶行为与物理世界深度交互,进而洞悉其运作规律。无论是“无图”方案、端到端模型,还是VLA模型,元戎启行始终围绕AI技术解决问题。

但在无人区寻找正确的路径往往比掌握先进技术更难。当VLA模型出现时,智能驾驶实现了从“执行者”到“思考者”的转变,它不仅知道如何驾驶,还理解为何驾驶。这一步骤标志着技术发展的一个重要里程碑。

这是VLA模型的优势,也是研发之路的开始。

攻坚:在荆棘中定义“安全”边界

当你确定了新技术的方向,并满怀期待地期望自己成为行业中的领头羊,致力于开发更先进的智能驾驶解决方案时,实际的过程却远比预期中艰难得多。

尽管在智能驾驶领域,VLA的研究与应用相对有限,缺乏专业的参考资料和经验积累。然而,这一现状促使我们积极学习和研究相关专业知识,力求快速提升自身技能。同时,面对客户量产的紧迫压力,我们的资源被重点倾斜至量产项目上。为了减少风险,研发团队采取保守策略稳步推进,导致进展缓慢。

"最开始,我们都被VLA的'语言天赋'迷住了。"产品经理石杰回忆道。

突破性技术让VLA模型在理解复杂文字和OCR领域大放异彩,专注于解决潮汐车道、可变车道和待转区等难题。

当测试车成功克服了当初困扰大家的车辆左转不受灯控指示牌,并详细解释其驾驶决策过程时,车上的人们感到非常兴奋,这标志着现阶段端到端系统的黑盒问题得到了彻底解决。通过思维链(CoT)技术实现了透明化推理,极大地增强了用户对系统的信任度。

利用VLA模型,用户可以轻松地在网络上获取海量信息,并应对各种复杂的场景,包括区分超重的小货车和监控路面上的轮胎等难题。此外,该系统还具备强大的语音控制功能,使驾驶更加便捷。

然而,一次测试中的惊险一幕,让所有人对VLA的期待有所转变。

测试车穿越桥洞时,正前方空无一物,车辆却意外加速,迫使驾驶员紧急制动。旁观者不禁联想到,如果老司机开车,会提前减速避开潜在的危险区域吗?这一场景引发了人们对驾驶安全和经验价值的深思。

这个引起了所有人的警觉,确保车辆安全性是辅助驾驶的关键。真正的系统应该能准确预测并避免潜在风险,远超过简单的“语音控制”。

随着AI技术的发展,对复杂场景的语义理解正变得越来越重要。然而,在现有端到端系统中,这一能力仍较为薄弱。相比之下,VLA(Verbal Logic Assistant)模型在高级语义推理方面有着显著优势。这一特点使其成为未来自动驾驶系统中的关键领域,特别是防御性驾驶方向的核心目标。

随着科技的发展,技术无限制地追求突破的同时,安全始终是我们最重要的防线。我们在寻求高效与便捷的路上,坚守着安全这条红线。最终目标是将自动驾驶变成用户日常生活中不可或缺的一部分。

技术研发道路上充满了挑战和困难,VLA模型的研发过程中也遇到了不少难题。肖毅正在努力摸索如何突破这些难关。在架构设计阶段,一开始肖毅设想的是将大语言模型部署到云端,并使数据回传至车端控制车辆行驶。然而,当实际上路时,发现云端与车端之间的时间延迟问题非常严重。以m/h的车速为例,如果需要的时间来从云端获取信息,那么在结果到来之前,车就已经行走了,这显然对实时响应和安全行驶产生了极大的威胁。为了改善这一状况,研发团队决定放弃云端推理,转而进行本地部署模型。这个转变带来了很大的挑战,但通过不断优化和调整,他们成功地解决了问题,并最终实现了更稳定的系统运行。总的来说,VLA模型的研发过程充满了技术攻坚,需要不断地探索和创新来克服各种困难。肖毅和他的团队正在努力解决这些问题,朝着实现更高效、更安全的自动驾驶系统的目标迈进。

随着汽车计算能力的增强,如何在有限的算力条件下有效地部署和加速复杂的深度学习模型成为了一个全新的挑战。研发团队对词表进行了压缩,并利用了剪枝技术来减少冗余,同时通过推理引擎团队对VLA(一种具有较高计算效率的视觉表示算法)模型进行了大量的算子优化、显存管理和硬件特性适配等操作,最终实现了在车端上顺利运行的效果。

当然,还有另一个更大的挑战。除了数据本身,数据的质量同样重要。大规模、高质量的数据对VLA模型至关重要,但依靠人工标注效率低下。后来肖毅通过迭代大模型自动给数据打标签,解决了这一难题,目前元戎启行已达到千万级Clips的数据规模。

现在各个领域都在热衷于大模型的研究,但真正稀缺的是对驾驶本质的理解。周光常强调这一点。当行业在忙着增加系统的人工智能数据时,元戎启行的VLA正在深度学习如何在不完美的人类驾驶环境中做出最安全的决策。这才是人工智能司机的灵魂所在。

领航:驶向更安心的AI时代

今年,将有超5款搭载元戎启行VLA模型的车量产,首款车8月即将上路。

周光对VLA持乐观态度,认为它可以应用于Robotaxi,成为一个真正的人工智能驾驶员,让乘客能和它进行自然的交流。它不仅会听从命令,还能主动维护行车安全。

随着VLA模型的升级和完善,我们的目标是使它不仅仅成为每位用户的好伙伴,还能引领整个行业迈向更加安全和透明的智能驾驶新时代。这将使得每一次旅行都更为可靠、自由。

元戎启行以不从众的精神开辟新赛道,其技术研发成就令人瞩目。

穿越行业的波澜起伏,元戎启行明白VLA只是暂时的避风港,唯有持续的技术创新才是稳定前行的关键。在探索未来的道路上,它将不断航行、努力驶向人类智慧的彼岸。

未来的元戎启行不只是专注于汽车平台,而是致力于开发更加高级的人工智能模型,以增强各种智能体的能力,并实现跨越任意地点到地点的移动功能。这一目标是向“道路通用人工智能”迈进的第一步,最终将推动人类生产力迎来质的飞跃。

以上就是先让 AI 学会害怕,再让它握紧方向盘的详细内容,更多请关注其它相关文章!

  • 标签: