# 视频理解
视频理解
Videorag
VideoRAG 是一种创新的检索增强型生成框架,专门用于理解和处理极长上下文视频。
视频编辑#检索增强开源
744
Qwen2.5 VL
中文精选
Qwen2.5-VL 是 Qwen 团队推出的最新旗舰视觉语言模型,是视觉语言模型领域的重要进步。
AI模型#图像识别开源
3,564
Tarsier
Tarsier 是由字节跳动研究团队开发的一系列大规模视频语言模型,旨在生成高质量的视频描述,并具备强大的视频理解能力。
视频生成#视频理解开源
1,848
Videollama3
VideoLLaMA3是由DAMO-NLP-SG团队开发的前沿多模态基础模型,专注于图像和视频理解。
视频生成#视频理解开源
756
Omagent.com
OmAgent是一个多模态原生代理框架,用于智能设备等。
智能体#智能设备
396
Videoprompt.org
videoprompt.org是一个专注于AI视频生成提示的网站,提供了一系列用于生成、编辑或理解视频内容的指令集。
视频生成#视频编辑
996
Apollo LMMs
Apollo是一个专注于视频理解的先进大型多模态模型家族。
视频生成#多模态模型开源
588
Qwen2 VL 7B
Qwen2-VL-7B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。
AI模型#多模态开源
636
Qwen2 VL 2B
Qwen2-VL-2B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。
AI模型#多模态开源
840
Ppllava
PPLLaVA是一个高效的视频大型语言模型,它结合了细粒度视觉提示对齐、用户指令的卷积风格池化的视觉令牌压缩以及CLIP上下文扩展。
视频生成#大型语言模型开源
468
Longvu
LongVU是一种创新的长视频语言理解模型,通过时空自适应压缩机制减少视频标记的数量,同时保留长视频中的视觉细节。
模型训练与部署#时空压缩开源
540
Aria
Aria是一个多模态原生混合专家模型,具有强大的多模态、语言和编码任务性能。
AI模型#混合专家模型开源
780
Llava Video
LLaVA-Video是一个专注于视频指令调优的大型多模态模型(LMMs),通过创建高质量的合成数据集LLaVA-Video-178K来解决从网络获取大量高质量原始数据的难题。
AI模型#多模态学习开源
768
Video CCAM
Video-CCAM 是腾讯QQ多媒体研究团队开发的一系列灵活的视频多语言模型(Video-MLLM),致力于提升视频-语言理解能力,特别适用于短视频和长视频的分析。
AI视频生成#多语言模型开源
888
Goldfish
Goldfish 是一种为理解任意长度视频而设计的方法论。
AI视频搜索#长视频处理开源
732
Internlm XComposer 2.5
优质新品
InternLM-XComposer-2.5是一款支持长上下文输入和输出的多功能大型视觉语言模型。
AI模型#长上下文处理开源
1,560
Sharegpt4video
ShareGPT4Video系列旨在通过密集且精确的字幕来促进大型视频-语言模型(LVLMs)的视频理解以及文本到视频模型(T2VMs)的视频生成。
AI视频生成#文本到视频开源
1,596
Videollama2 7B
VideoLLaMA2-7B是由DAMO-NLP-SG团队开发的多模态大型语言模型,专注于视频内容的理解和生成。
AI视频生成#语言模型开源
1,632
Lvbench
优质新品
LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。
AI模型#基准测试开源
768
Videollama 2
VideoLLaMA 2 是一个针对视频理解任务优化的大规模语言模型,它通过先进的空间-时间建模和音频理解能力,提升了对视频内容的解析和理解。
AI视频理解#空间-时间建模开源
2,100
VILA
VILA是一个预训练的视觉语言模型(VLM),它通过大规模的交错图像-文本数据进行预训练,从而实现视频理解和多图像理解能力。
AI模型#视频理解开源
2,328
Video Mamba Suite
Video Mamba Suite 是一个用于视频理解的新型状态空间模型套件,旨在探索和评估Mamba在视频建模中的潜力。
AI视频生成#状态空间模型开源
1,332
MA LMM
MA-LMM是一种基于大语言模型的大规模多模态模型,主要针对长期视频理解进行设计。
AI视频生成#多模态开源
1,620
Minigpt4 Video
MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。
AI视频生成#视频问答开源
3,000
Videoprism
VideoPrism是一个通用的视频编码模型,能够在各种视频理解任务上取得领先的性能,包括分类、定位、检索、字幕生成和问答等。
AI视频生成#编码器
2,352