
让自动驾驶系统相宜新环境和不同地区的民风和法例是自动驾驶鸿沟遥远濒临的挑战。NVIDIA Research 团队建议的自动驾驶智能体 LLaDA 八成应用 LLM 生成相宜不同环境的驾驶政策和领导,为驾驶员和自动驾驶汽车提供多言语和地区交通国法的及时带领,匡助他们更日常地在生分的方位导航。此外,LLaDA 还能匡助自动驾驶汽车再行指标出与当地环境愈加匹配的绽开轨迹,诊疗自动驾驶汽车的绽开指标政策。有关论文后果收录于 CVPR 2024 。

但是,LLaDA 无法完了场景的自动识别,且对场景描绘的质料有着较高条目。尽管 GPT-4V 八成提供这种描绘,但是却不够准确。为此,NVIDIA Research 建议一个翻新的自动化视频字幕生成框架 Wolf。Wolf 接受众人搀杂设施,应用视觉言语模子(VLMs)的互补上风,八成提高自动驾驶智能体的场景相连才气。

此外,LLaDA 每每是与用户径直交互,并主要处理文本信息。比较之下,自动驾驶系统则需要提供具体的位置和轨迹指标信息。基于这些各别,NVIDIA Research 团队专为自动驾驶鸿沟打算出一种多模态大型言语模子(MM-LLM)TOKEN。TOKEN 通过将复杂的交通环境调度为对象级别的常识单位,增强了自动驾驶车辆在面对长尾事件时的指标才气。该模子还招引了端到端驾驶模子的上风,惩处了数据稀缺和标记化效用低下的问题。有关论文收录于 CoRL 2024 。

在上述布景下,智猩猩与 NVIDIA 筹划推出「智猩猩公开课 NVIDIA 自动驾驶智能体专场」,并将于10月22日以视频直播口头进行。公开课邀请到 LLaDA 论文第一作家、VIDIA Research 自动驾驶标的参议科学家李柏依进行主讲,主题为《探索基于多模态LLM 的自动驾驶智能体》。
李柏依博士最初会重心教学 LLaDA 怎样应用 LLM 生成相宜不同环境的驾驶政策和领导;之后会解读怎样使用 Wolf 框架生成字幕提高智能体的场景相连才气。接下来,李柏依博士会教学怎样基于 TOKEN 瓦解复杂交通场景提高智能体在长尾事件的指标才气,终末会共享在自动驾驶智能体上的往常参议标的,并进行瞻望。