# 多模态学习

Omnitalker
中文精选
OmniTalker 是由阿里巴巴 Tongyi 实验室提出的一种统一框架,旨在实时生成音频和视频,提升人机交互体验。
视频生成#人机交互开源
9,912

Deepseek VL2 Small
DeepSeek-VL2是一系列先进的大型混合专家(MoE)视觉语言模型,相较于前代DeepSeek-VL有显著提升。
AI模型#光学字符识别开源
720

Mmaudio
MMAudio是一种多模态联合训练技术,旨在高质量的视频到音频合成。
视频生成#视频处理开源
888

Internvit 300M 448px V2 5
InternViT-300M-448px-V2_5是一个基于InternViT-300M-448px的增强版本,通过采用ViT增量学习与NTP损失(Stage 1.5),提升了视觉编码器提取视觉特征的能力,尤其是在大规模网络数据集中代表性不
AI模型#多模态学习开源
876

Florence VL
Florence-VL是一个视觉语言模型,通过引入生成式视觉编码器和深度广度融合技术,增强了模型对视觉和语言信息的处理能力。
AI模型#多模态学习开源
528

Llava O1
LLaVA-o1是北京大学元组团队开发的一个视觉语言模型,它能够进行自发的、系统的推理,类似于GPT-o1。
#逐步推理开源
396

Ppllava
PPLLaVA是一个高效的视频大型语言模型,它结合了细粒度视觉提示对齐、用户指令的卷积风格池化的视觉令牌压缩以及CLIP上下文扩展。
视频生成#大型语言模型开源
468

Agent S
Agent S是一个开放的代理框架,旨在通过图形用户界面(GUI)实现与计算机的自主交互,通过自动化复杂多步骤任务来转变人机交互。
智能体#自动化
780

Fakeshield
FakeShield是一个多模态框架,旨在解决图像检测和定位(IFDL)领域中的两个主要挑战:检测原理的黑箱性和在不同篡改方法间的有限泛化能力。
图片编辑#多模态学习开源
828

Llava Video
LLaVA-Video是一个专注于视频指令调优的大型多模态模型(LMMs),通过创建高质量的合成数据集LLaVA-Video-178K来解决从网络获取大量高质量原始数据的难题。
AI模型#多模态学习开源
768

NVLM
NVLM 1.0是一系列前沿级的多模态大型语言模型(LLMs),在视觉-语言任务上取得了与领先专有模型和开放访问模型相媲美的先进成果。
AI模型#大型语言模型开源
396

Longllava
LongLLaVA是一个多模态大型语言模型,通过混合架构高效扩展至1000图像,旨在提升图像处理和理解能力。
AI模型#图像处理开源
396

EAGLE
EAGLE是一个面向视觉中心的高分辨率多模态大型语言模型(LLM)系列,通过混合视觉编码器和不同输入分辨率来加强多模态LLM的感知能力。
AI模型#大型语言模型开源
996

Slowfast LLaVA
SlowFast-LLaVA是一个无需训练的多模态大型语言模型,专为视频理解和推理设计。
AI模型#多模态学习开源
732

Llama3 S V0.2
Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点,专注于提升语音理解能力。
语音识别#自然语言处理
636

Llama3 S
llama3-s是一个开放的、正在进行中的研究实验,旨在将基于文本的大型语言模型(LLM)扩展到具有原生“听力”能力。
AI模型#机器学习开源
456

MAVIS
MAVIS是一个针对多模态大型语言模型(MLLMs)的数学视觉指令调优模型,主要通过改进视觉编码数学图表、图表-语言对齐和数学推理技能来增强MLLMs在视觉数学问题解决方面的能力。
AI模型#多模态学习开源
780

Longva
LongVA是一个能够处理超过2000帧或超过200K视觉标记的长上下文转换模型。
AI模型#视觉模型开源
564

MG LLaVA
MG-LLaVA是一个增强模型视觉处理能力的机器学习语言模型(MLLM),通过整合多粒度视觉流程,包括低分辨率、高分辨率和以对象为中心的特征。
AI模型#视觉处理开源
360

4M
国外精选
4M是一个用于训练多模态和多任务模型的框架,能够处理多种视觉任务,并且能够进行多模态条件生成。
模型训练与部署#Transformer模型
420

Stable Diffusion 3 免费在线
Stable Diffusion 3是由Stability AI开发的最新文本生成图像模型,具有显著进步的图像保真度、多主体处理和文本匹配能力。
图片生成#文本到图像
1,536

Videollama2 7B Base
VideoLLaMA2-7B-Base 是由 DAMO-NLP-SG 开发的大型视频语言模型,专注于视频内容的理解与生成。
AI视频生成#多模态学习开源
1,812

Emo Visual Data
emo-visual-data 是一个公开的表情包视觉标注数据集,它通过使用 glm-4v 和 step-free-api 项目完成的视觉标注,收集了5329个表情包。
AI图像检测识别#多模态学习开源
1,068

Llama3v
llama3v是一个基于Llama3 8B和siglip-so400m的SOTA(State of the Art,即最先进技术)视觉模型。
AI模型#多模态学习开源
1,224

Cumo
CuMo是一种多模态大型语言模型(LLMs)的扩展架构,它通过在视觉编码器和MLP连接器中融入稀疏的Top-K门控专家混合(MoE)块,提高了模型的可扩展性,同时在推理时几乎不增加激活参数。
AI模型#多模态学习开源
648

Bunny
Bunny 是一系列轻量级但功能强大的多模态模型,提供多种即插即用的视图编码器和语言主干网络。
AI模型#机器学习开源
768

Llava Llama 3 8b V1 1
优质新品
llava-llama-3-8b-v1_1是一个由XTuner优化的LLaVA模型,它基于meta-llama/Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336,并通过ShareGPT4
AI模型#多模态学习开源
1,368

Mygo
MyGO是一个用于多模态知识图谱补全的工具,它通过将离散模态信息作为细粒度的标记来处理,以提高补全的准确性。
AI数据挖掘#多模态学习开源
1,644

Stable Diffusion 3 API
Stable Diffusion 3是一款先进的文本到图像生成系统,它在排版和提示遵循方面与DALL-E 3和Midjourney v6等顶尖系统相匹敌或更优。
AI图像生成#图像生成
11.50k

MATHVERSE
MATHVERSE项目旨在评估多模态大型语言模型处理和理解视觉数学问题的能力,特别是如何解析和理解问题中的图表信息。
AI模型#视觉信息处理开源
756

Moe LLaVA
MoE-LLaVA是一种基于大规模视觉-语言模型的专家混合模型,展现出在多模态学习中出色的性能。
AI模型#多模态学习开源
1,140
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k