# 多模态学习
多模态学习
Omnitalker
中文精选
OmniTalker 是由阿里巴巴 Tongyi 实验室提出的一种统一框架,旨在实时生成音频和视频,提升人机交互体验。
视频生成#人机交互开源
9,912
Deepseek VL2 Small
DeepSeek-VL2是一系列先进的大型混合专家(MoE)视觉语言模型,相较于前代DeepSeek-VL有显著提升。
AI模型#光学字符识别开源
720
Mmaudio
MMAudio是一种多模态联合训练技术,旨在高质量的视频到音频合成。
视频生成#视频处理开源
888
Internvit 300M 448px V2 5
InternViT-300M-448px-V2_5是一个基于InternViT-300M-448px的增强版本,通过采用ViT增量学习与NTP损失(Stage 1.5),提升了视觉编码器提取视觉特征的能力,尤其是在大规模网络数据集中代表性不
AI模型#多模态学习开源
876
Florence VL
Florence-VL是一个视觉语言模型,通过引入生成式视觉编码器和深度广度融合技术,增强了模型对视觉和语言信息的处理能力。
AI模型#多模态学习开源
528
Llava O1
LLaVA-o1是北京大学元组团队开发的一个视觉语言模型,它能够进行自发的、系统的推理,类似于GPT-o1。
#逐步推理开源
396
Ppllava
PPLLaVA是一个高效的视频大型语言模型,它结合了细粒度视觉提示对齐、用户指令的卷积风格池化的视觉令牌压缩以及CLIP上下文扩展。
视频生成#大型语言模型开源
468
Agent S
Agent S是一个开放的代理框架,旨在通过图形用户界面(GUI)实现与计算机的自主交互,通过自动化复杂多步骤任务来转变人机交互。
智能体#自动化
780
Fakeshield
FakeShield是一个多模态框架,旨在解决图像检测和定位(IFDL)领域中的两个主要挑战:检测原理的黑箱性和在不同篡改方法间的有限泛化能力。
图片编辑#多模态学习开源
828
Llava Video
LLaVA-Video是一个专注于视频指令调优的大型多模态模型(LMMs),通过创建高质量的合成数据集LLaVA-Video-178K来解决从网络获取大量高质量原始数据的难题。
AI模型#多模态学习开源
768
NVLM
NVLM 1.0是一系列前沿级的多模态大型语言模型(LLMs),在视觉-语言任务上取得了与领先专有模型和开放访问模型相媲美的先进成果。
AI模型#大型语言模型开源
396
Longllava
LongLLaVA是一个多模态大型语言模型,通过混合架构高效扩展至1000图像,旨在提升图像处理和理解能力。
AI模型#图像处理开源
396
EAGLE
EAGLE是一个面向视觉中心的高分辨率多模态大型语言模型(LLM)系列,通过混合视觉编码器和不同输入分辨率来加强多模态LLM的感知能力。
AI模型#大型语言模型开源
996
Slowfast LLaVA
SlowFast-LLaVA是一个无需训练的多模态大型语言模型,专为视频理解和推理设计。
AI模型#多模态学习开源
732
Llama3 S V0.2
Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点,专注于提升语音理解能力。
语音识别#自然语言处理
636
Llama3 S
llama3-s是一个开放的、正在进行中的研究实验,旨在将基于文本的大型语言模型(LLM)扩展到具有原生“听力”能力。
AI模型#机器学习开源
456
MAVIS
MAVIS是一个针对多模态大型语言模型(MLLMs)的数学视觉指令调优模型,主要通过改进视觉编码数学图表、图表-语言对齐和数学推理技能来增强MLLMs在视觉数学问题解决方面的能力。
AI模型#多模态学习开源
780
Longva
LongVA是一个能够处理超过2000帧或超过200K视觉标记的长上下文转换模型。
AI模型#视觉模型开源
564
MG LLaVA
MG-LLaVA是一个增强模型视觉处理能力的机器学习语言模型(MLLM),通过整合多粒度视觉流程,包括低分辨率、高分辨率和以对象为中心的特征。
AI模型#视觉处理开源
360
4M
国外精选
4M是一个用于训练多模态和多任务模型的框架,能够处理多种视觉任务,并且能够进行多模态条件生成。
模型训练与部署#Transformer模型
420
Stable Diffusion 3 免费在线
Stable Diffusion 3是由Stability AI开发的最新文本生成图像模型,具有显著进步的图像保真度、多主体处理和文本匹配能力。
图片生成#文本到图像
1,536
Videollama2 7B Base
VideoLLaMA2-7B-Base 是由 DAMO-NLP-SG 开发的大型视频语言模型,专注于视频内容的理解与生成。
AI视频生成#多模态学习开源
1,812
Emo Visual Data
emo-visual-data 是一个公开的表情包视觉标注数据集,它通过使用 glm-4v 和 step-free-api 项目完成的视觉标注,收集了5329个表情包。
AI图像检测识别#多模态学习开源
1,068
Llama3v
llama3v是一个基于Llama3 8B和siglip-so400m的SOTA(State of the Art,即最先进技术)视觉模型。
AI模型#多模态学习开源
1,224
Cumo
CuMo是一种多模态大型语言模型(LLMs)的扩展架构,它通过在视觉编码器和MLP连接器中融入稀疏的Top-K门控专家混合(MoE)块,提高了模型的可扩展性,同时在推理时几乎不增加激活参数。
AI模型#多模态学习开源
648
Bunny
Bunny 是一系列轻量级但功能强大的多模态模型,提供多种即插即用的视图编码器和语言主干网络。
AI模型#机器学习开源
768
Llava Llama 3 8b V1 1
优质新品
llava-llama-3-8b-v1_1是一个由XTuner优化的LLaVA模型,它基于meta-llama/Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336,并通过ShareGPT4
AI模型#多模态学习开源
1,368
Mygo
MyGO是一个用于多模态知识图谱补全的工具,它通过将离散模态信息作为细粒度的标记来处理,以提高补全的准确性。
AI数据挖掘#多模态学习开源
1,644
Stable Diffusion 3 API
Stable Diffusion 3是一款先进的文本到图像生成系统,它在排版和提示遵循方面与DALL-E 3和Midjourney v6等顶尖系统相匹敌或更优。
AI图像生成#图像生成
11.50k
MATHVERSE
MATHVERSE项目旨在评估多模态大型语言模型处理和理解视觉数学问题的能力,特别是如何解析和理解问题中的图表信息。
AI模型#视觉信息处理开源
756
Moe LLaVA
MoE-LLaVA是一种基于大规模视觉-语言模型的专家混合模型,展现出在多模态学习中出色的性能。
AI模型#多模态学习开源
1,140