Drivevlm : 自动驾驶与视觉语言模型的融合

Drivevlm

AI自动驾驶 AI模型 #自动驾驶 #视觉语言模型 #场景理解 #分层规划普通产品开源

简介 :

DriveVLM是一个自动驾驶系统，它利用视觉语言模型(VLMs)来增强场景理解和规划能力。该系统通过独特的推理模块组合，包括场景描述、场景分析和分层规划，以提高对复杂和长尾场景的理解。此外，为了解决VLMs在空间推理和计算需求上的局限性，提出了DriveVLM-Dual，这是一个混合系统，结合了DriveVLM的优势和传统自动驾驶流程。在nuScenes数据集和SUP-AD数据集上的实验表明，DriveVLM和DriveVLM-Dual在处理复杂和不可预测的驾驶条件方面非常有效。最终，DriveVLM-Dual在生产车辆上进行了部署，验证了其在现实世界自动驾驶环境中的有效性。

需求人群 :

DriveVLM的目标受众包括自动驾驶领域的研究人员和工程师，以及希望提高自动驾驶系统场景理解和规划能力的企业和组织。该技术特别适合需要处理城市环境中复杂和长尾场景的自动驾驶系统。

总访问量： 2.2K

占比最多地区： US(87.85%)

本站浏览量： 69.0K

使用场景

在城市环境中，DriveVLM能够识别并处理复杂的道路条件和微妙的人类行为。

DriveVLM-Dual在生产车辆上的部署，展示了其在真实世界自动驾驶环境中的实用性。

在nuScenes数据集上的实验，证明了DriveVLM在处理复杂和不可预测的驾驶条件方面的有效性。

产品特色

接受图像序列作为输入，通过基于推理的思考链(CoT)机制输出分层规划预测。

可选地结合传统的3D感知和轨迹规划模块，实现空间推理能力和实时轨迹规划。