# 计算机视觉
计算机视觉
Camerabench
CameraBench 是一个用于分析视频中相机运动的模型,旨在通过视频理解相机的运动模式。
研究工具#相机运动开源
396
Describe Anything
Describe Anything 模型(DAM)能够处理图像或视频的特定区域,并生成详细描述。
图片生成#视频处理开源
1,176
Easycontrol
EasyControl 是一个为 Diffusion Transformer(扩散变换器)提供高效灵活控制的框架,旨在解决当前 DiT 生态系统中存在的效率瓶颈和模型适应性不足等问题。
AI模型#图像生成开源
1,788
LHM
LHM(大规模可动画人类重建模型)利用多模态变压器架构进行高保真 3D 头像重建,支持从单张图像生成可动画的 3D 人类形象。
3D建模#人类模型开源
936
Thera
Thera 是一种先进的超分辨率技术,能够在不同尺度下生成高质量图像。
图片增强#图像处理开源
4,140
MIDI
MIDI是一种创新的图像到3D场景生成技术,它利用多实例扩散模型,能够从单张图像中直接生成具有准确空间关系的多个3D实例。
3D建模#图像处理开源
1,200
Gaussiancity
GaussianCity是一个专注于高效生成无边界3D城市的框架,基于3D高斯绘制技术。
3D建模#高斯绘制
600
Mlgym
MLGym是由Meta的GenAI团队和UCSB NLP团队开发的一个开源框架和基准,用于训练和评估AI研究代理。
模型训练与部署#强化学习开源
660
Pippo
Pippo 是由 Meta Reality Labs 和多所高校合作开发的生成模型,能够从单张普通照片生成高分辨率的多人视角视频。
视频生成#多视角视频开源
2,244
Videoworld
VideoWorld是一个专注于从纯视觉输入(无标签视频)中学习复杂知识的深度生成模型。
视频生成#计算机视觉开源
948
Video Depth Anything
Video Depth Anything 是一个基于深度学习的视频深度估计模型,能够为超长视频提供高质量、时间一致的深度估计。
视频编辑#视频处理开源
696
Vitpose
ViTPose是一系列基于Transformer架构的人体姿态估计模型。
AI模型#计算机视觉开源
564
Tryoffanyone
TryOffAnyone是一个用于从穿着人身上生成平铺布料的深度学习模型。
AI设计工具#图像生成开源
2,580
Flagai
FlagAI是由北京智源人工智能研究院推出的一站式、高质量开源项目,集成了全球各种主流大模型算法技术以及多种大模型并行处理和训练加速技术。
模型训练与部署#大模型
528
Video Analyzer
video-analyzer是一个视频分析工具,它结合了Llama的11B视觉模型和OpenAI的Whisper模型,通过提取关键帧、将它们输入视觉模型以获取细节,并结合每个帧的细节和可用的转录内容来描述视频中发生的事情。
视频编辑#计算机视觉开源
8,940
Megasam
MegaSaM是一个系统,它允许从动态场景的单目视频中准确、快速、稳健地估计相机参数和深度图。
3D建模#单目SLAM开源
444
NVIDIA Jetson Orin Nano Super Developer Kit
NVIDIA Jetson Orin Nano Super Developer Kit是一款紧凑型生成型AI超级计算机,提供了更高的性能和更低的价格。
开发与工具#生成型AI
492
Diffusion Vas
这是一个由卡内基梅隆大学提出的视频非可见物体分割和内容补全的模型。
视频生成#非可见物体开源
312
Stableanimator
StableAnimator是首个端到端身份保留的视频扩散框架,能够在不进行后处理的情况下合成高质量视频。
视频生成#人像动画开源
1,452
CHOIS
Controllable Human-Object Interaction Synthesis (CHOIS) 是一种先进的技术,它能够根据语言描述、初始物体和人类状态以及稀疏物体路径点来同时生成物体运动和人类运动。
3D建模#计算机视觉开源
684
Pshuman
PSHuman是一个创新的框架,它利用多视图扩散模型和显式重构技术,从单张图片中重建出逼真的3D人体模型。
3D建模#人体模型开源
2,148
Text To Pose
text-to-pose是一个研究项目,旨在通过文本描述生成人物姿态,并利用这些姿态生成图像。
图片生成#姿态估计开源
684
Phantomy AI
Phantomy AI是一款利用计算机视觉软件,通过屏幕对象检测和手势识别技术,增强用户交互和演示的先进工具。
#计算机视觉
252
DINO X
中文精选
DINO-X是一个以物体感知为核心的视觉大模型,具备开集检测、智能问答、人体姿态、物体计数、服装换色等核心能力。
#目标检测
1,740
Data Annotation Platform
Data Annotation Platform是一个端到端的数据标注平台,允许用户上传计算机视觉数据,选择标注类型,并下载结果,无需任何最低承诺。
#计算机视觉
1,164
Autoseg SAM2
AutoSeg-SAM2是一个基于Segment-Anything-2(SAM2)和Segment-Anything-1(SAM1)的自动全视频分割工具,它能够对视频中的每个对象进行追踪,并检测可能的新对象。
#对象追踪开源
612
Turbolens
TurboLens是一个集OCR、计算机视觉和生成式AI于一体的全功能平台,它能够自动化地从非结构化图像中快速生成洞见,简化工作流程。
#计算机视觉
564
Llama Mesh
LLaMA-Mesh是一项将大型语言模型(LLMs)预训练在文本上扩展到生成3D网格的能力的技术。
#人工智能
888
Countanything
CountAnything是一个前沿应用,利用先进的计算机视觉算法实现自动、准确的物体计数。
#物体计数
852
NVIDIA AI Blueprint
NVIDIA AI Blueprint for Video Search and Summarization是一个基于NVIDIA NIM微服务和生成式AI模型的参考工作流程,用于构建能够理解自然语言提示并执行视觉问题回答的视觉AI代理。
AI模型#视频分析
696
Genxd
GenXD是一个专注于3D和4D场景生成的框架,它利用日常生活中常见的相机和物体运动来联合研究一般的3D和4D生成。
3D建模#4D生成开源
660
Tencent Hunyuan Large
Tencent-Hunyuan-Large(混元大模型)是由腾讯推出的业界领先的开源大型混合专家(MoE)模型,拥有3890亿总参数和520亿激活参数。
AI模型#自然语言处理开源
900
Flex3d
Flex3D是一个两阶段流程,能够从单张图片或文本提示生成高质量的3D资产。
AI 3D工具#计算机视觉开源
984
Stabledelight
StableDelight是一个先进的模型,专注于从纹理表面去除镜面反射。
AI图像增强#计算机视觉开源
660
Colorful Diffuse Intrinsic Image Decomposition
Colorful Diffuse Intrinsic Image Decomposition 是一种图像处理技术,它能够将野外拍摄的照片分解为反照率、漫反射阴影和非漫反射残留部分。
AI图像编辑#计算机视觉开源
552
Diffusion E2e Ft
diffusion-e2e-ft是一个开源的图像条件扩散模型微调工具,它通过微调预训练的扩散模型来提高特定任务的性能。
AI图像生成#深度学习开源
672
Opencv Contrib
opencv_contrib是OpenCV的额外模块库,用于开发和测试新的图像处理功能。
AI图像编辑#图像处理开源
444
Open Source Computer Vision Library
OpenCV是一个跨平台的开源计算机视觉和机器学习软件库,它提供了一系列编程功能,包括但不限于图像处理、视频分析、特征检测、机器学习等。
AI图像检测识别#机器学习开源
384
GVHMR
GVHMR是一种创新的人体运动恢复技术,它通过重力视角坐标系统来解决从单目视频中恢复世界定位的人体运动的问题。
AI模型#计算机视觉开源
1,368
Shangchen Zhou
Shangchen Zhou 是一位在计算机视觉和机器学习领域有着深厚研究背景的博士生,他的工作主要集中在视觉内容增强、编辑和生成AI(2D和3D)上。
AI设计工具#机器学习
480