LEO
LEO可用于在3D世界中完成多种任务,包括3D字幕、问答、推理、导航和机器人操作等。
总访问量: 19
占比最多地区: US(100.00%)
132
简介
LEO是一个基于大型语言模型的多模态、多任务全能代理人,能够在3D世界中感知、定位、推理、规划和执行任务。LEO通过两个阶段的训练实现:(i)3D视觉语言对齐和(ii)3D视觉语言动作指令调整。我们精心策划和生成了一个包含物体级和场景级多模态任务的大规模数据集,需要对3D世界进行深入的理解和交互。通过严格的实验,我们展示了LEO在3D字幕、问答、推理、导航和机器人操作等广泛任务中的出色表现。
截图
产品特色
3D视觉语言对齐
3D视觉语言动作指令调整
3D字幕
问答
推理
导航
机器人操作
流量来源
直接访问45.64%外链引荐32.45%邮件0.04%
自然搜索12.34%社交媒体8.79%展示广告0.75%
最新流量情况
月访问量
223
平均访问时长
0.00
每次访问页数
1.02
跳出率
42.21%
总流量趋势图
地理流量分布情况
美国
100.00%
地理流量分布全球图