DL3DV 10K
["通用NeRF模型研究","场景级一致性跟踪","视觉语言模型研究","三维重建","虚拟现实","增强现实","自动驾驶视觉感知"]
总访问量: 359
占比最多地区: US(100.00%)
876
简介
DL3DV-10K是一个包含超过10000个高质量视频的大规模实景数据集,每个视频都经过人工标注场景关键点和复杂程度,并提供相机姿态、NeRF估计深度、点云和3D网格等。该数据集可用于通用NeRF研究、场景一致性跟踪、视觉语言模型等计算机视觉研究。
截图
产品特色
提供超过1万个高质量视频
人工标注场景关键点和环境复杂度
配套相机姿态、NeRF深度等数据
支持NeRF、视觉语言模型等前沿算法研究
流量来源
直接访问55.00%外链引荐23.40%邮件0.04%
自然搜索10.13%社交媒体10.59%展示广告0.85%
最新流量情况
月访问量
1304
平均访问时长
0.00
每次访问页数
1.02
跳出率
65.54%
总流量趋势图
地理流量分布情况
美国
100.00%
地理流量分布全球图
替代品
Hallo2
Hallo2是一种基于潜在扩散生成模型的人像图像动画技术,通过音频驱动生成高分辨率、长时的视频。
AI图像生成#音频驱动
Tabled
Tabled是一个用于检测和提取表格的Python库,它使用surya来识别PDF中的表格,识别行列,并能够将单元格格式化为Markdown、CSV或HTML。
AI数据挖掘#PDF处理
Comfygen
ComfyGen 是一个专注于文本到图像生成的自适应工作流系统,它通过学习用户提示来自动化并定制有效的工作流。
AI图像生成#自适应工作流
Comfyui Fluxtapoz
ComfyUI-Fluxtapoz是一个为Flux在ComfyUI中编辑图像而设计的节点集合。
AI图像生成#Flux
Toy Box Flux
Toy Box Flux是一个基于AI生成图像训练的3D渲染模型,它结合了现有的3D LoRA模型和Coloring Book Flux LoRA的权重,形成了独特的风格。
AI图像生成#3D渲染
Knowledge Table
Knowledge Table 是一个开源工具包,旨在简化从非结构化文档中提取和探索结构化数据的过程。
AI数据挖掘#数据提取
Disenvisioner
DisEnvisioner是一种先进的图像生成技术,它通过分离和增强主题特征来生成定制化的图像,无需繁琐的调整或依赖多张参考图片。
AI图像生成#定制化
RF Inversion
RF-Inversion是一个专注于图像生成和编辑的技术,它通过随机微分方程(SDE)来实现图像的反转和编辑。
AI图像生成#语义编辑
Animate X
Animate-X是一个基于LDM的通用动画框架,用于各种角色类型(统称为X),包括人物拟态角色。
AI图像生成#图像动画