# 多模态
Bagel
BAGEL是一款可扩展的统一多模态模型,它正在革新AI与复杂系统的交互方式。
#多模态
24
MNN LLM Android App
MNN-LLM 是一款高效的推理框架,旨在优化和加速大语言模型在移动设备和本地 PC 上的部署。
模型训练与部署#人工智能开源
696
Hunyuancustom
中文精选
HunyuanCustom 是一个多模态定制视频生成框架,旨在根据用户定义的条件生成特定主题的视频。
视频生成#多模态开源
432
Liquid
Liquid 是一个自回归生成模型,通过将图像分解为离散代码并与文本标记共享特征空间,促进视觉理解和文本生成的无缝集成。
AI模型#生成模型开源
120
Internvl3
优质新品
InternVL3是由OpenGVLab开源发布的多模态大型语言模型(MLLM),具备卓越的多模态感知和推理能力。
AI模型#多模态
2,976
Kimi VL
中文精选
Kimi-VL 是一个先进的混合专家视觉语言模型,专为多模态推理、长上下文理解及强大代理能力而设计。
AI模型#推理开源
60
Dreamactor M1
优质新品
DreamActor-M1 是一个基于扩散变换器 (DiT) 的人类动画框架,旨在实现细粒度的整体可控性、多尺度适应性和长期时间一致性。
视频生成#视频生成开源
1,644
Gemini 2.5
国外精选
Gemini 2.5 是谷歌推出的最先进的 AI 模型,具备高效的推理能力和编码性能,能够处理复杂问题,并在多项基准测试中表现出色。
AI模型#编程
2,556
Mistral Small 3.1
国外精选
Mistral-Small-3.1-24B-Base-2503 是一款具有 240 亿参数的先进开源模型,支持多语言和长上下文处理,适用于文本与视觉任务。
AI模型#文本处理开源
3,540
Mistralocr.net
Mistral OCR 是由 Mistral AI 开发的先进光学字符识别 API,旨在以无与伦比的准确性提取和结构化文档内容。
API服务#OCR
1,464
Gemini Robotics
国外精选
Gemini Robotics是Google DeepMind推出的一种先进的人工智能模型,专为机器人应用而设计。
AI模型#机器人
2,736
R1 Omni
R1-Omni 是一个创新的多模态情绪识别模型,通过强化学习提升模型的推理能力和泛化能力。
情感陪伴#情绪识别开源
1,428
GO 1
中文精选
智元通用具身基座大模型GO-1是智元推出的一款革命性的人工智能模型。
AI模型#多模态
2,460
Openai Agents SDK
国外精选
OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包。
开发与工具#智能体开源
3,216
Smolvlm2
SmolVLM2 是一种轻量级的视频语言模型,旨在通过分析视频内容生成相关的文本描述或视频亮点。
视频编辑#文本生成开源
1,680
Inception Labs
国外精选
Inception Labs 是一家专注于开发扩散式大语言模型(dLLMs)的公司。
AI模型#语言模型
1,968
Aya Vision
国外精选
Aya Vision 是 Cohere For AI 团队开发的先进视觉模型,专注于多语言多模态任务,支持 23 种语言。
AI模型#多模态
1,224
Egolife
EgoLife是一个面向长期、多模态、多视角日常生活的AI助手项目。
个人助理#多模态开源
708
Unitok
UniTok是一种创新的视觉分词技术,旨在弥合视觉生成和理解之间的差距。
AI模型#视觉生成开源
732
Vidorag
ViDoRAG 是阿里巴巴自然语言处理团队开发的一种新型多模态检索增强生成框架,专为处理视觉丰富文档的复杂推理任务设计。
AI模型#检索增强生成开源
768
Migician
Migician 是清华大学自然语言处理实验室开发的一种多模态大语言模型,专注于多图像定位任务。
AI模型#图像定位开源
528
Mochii AI
中文精选
Mochii AI 旨在通过自适应记忆、自定义个性和无缝多平台集成,推动人类与人工智能的协作。
个人助理#生产力工具
2,748
M2RAG
M2RAG是一个用于多模态上下文中的检索增强生成的基准测试代码库。
AI模型#检索增强生成开源
624
Theoremexplainagent
TheoremExplainAgent 是一款基于人工智能的模型,专注于为数学和科学定理生成详细的多模态解释视频。
学习教育#教育开源
1,332
Gemini 2.0 Flash Lite
优质新品
Gemini 2.0 Flash-Lite 是 Google 推出的高效语言模型,专为长文本处理和复杂任务优化。
AI模型#语言模型
804
Phi 4 Multimodal Instruct
优质新品
Phi-4-multimodal-instruct 是微软开发的多模态基础模型,支持文本、图像和音频输入,生成文本输出。
AI模型#语音识别开源
1,080
Magma 8B
Magma-8B 是微软开发的一款多模态 AI 基础模型,专为研究多模态 AI 代理而设计。
AI模型#AI开源
1,296
Deepseek Japanese
DeepSeek 是由 High-Flyer 基金支持的中国 AI 实验室开发的先进语言模型,专注于开源模型和创新训练方法。
AI模型#语言模型
1,116
Zerobench
ZeroBench 是一个专为评估大型多模态模型(LMMs)视觉理解能力而设计的基准测试。
AI模型#基准测试开源
552
Magma
Magma 是微软研究团队推出的一个多模态基础模型,旨在通过视觉、语言和动作的结合,实现复杂任务的规划和执行。
智能体#AI开源
876
Grok 3
国外精选
Grok 3是由Elon Musk的AI公司xAI开发的最新旗舰AI模型。
AI模型#推理
10.04k
Clamp 3
CLaMP 3 是一种先进的音乐信息检索模型,通过对比学习对齐乐谱、演奏信号、音频录音与多语言文本的特征,支持跨模态和跨语言的音乐检索。
AI模型#多模态开源
852
Videorag
VideoRAG 是一种创新的检索增强型生成框架,专门用于理解和处理极长上下文视频。
视频编辑#检索增强开源
744
Medrax
MedRAX是一个创新的AI框架,专门用于胸部X光(CXR)的智能分析。
医疗影像分析#医疗开源
1,284
Qwen2.5 VL
中文精选
Qwen2.5-VL 是 Qwen 团队推出的最新旗舰视觉语言模型,是视觉语言模型领域的重要进步。
AI模型#图像识别开源
3,564
Gemini 2.0 Family
国外精选
Gemini 2.0 是谷歌在生成式 AI 领域的重要进展,代表了最新的人工智能技术。
AI模型#编程
516
Gemini 2.0 Pro
国外精选
Gemini Pro 是 Google DeepMind 推出的最先进 AI 模型之一,专为复杂任务和编程场景设计。
代码助手#编程
828
Omnihuman 1
OmniHuman-1 是一个端到端的多模态条件人类视频生成框架,能够基于单张人像和运动信号(如音频、视频或其组合)生成人类视频。
视频生成#视频生成开源
14.59k
MILS
MILS是一个由Facebook Research发布的开源项目,旨在展示大型语言模型(LLMs)在未经过任何训练的情况下,能够处理视觉和听觉任务的能力。
AI模型#多模态开源
564
MNN 大模型 Android App
优质新品
MNN 大模型 Android App 是阿里巴巴开发的一款基于大语言模型(LLM)的安卓应用。
AI模型#多模态开源
9,432