# 多模态模型

Awesome GPT 4o Images
Awesome GPT-4o Images 是一个展示 OpenAI 最新多模态模型 GPT-4o 生成的图片和提示的集合。
AI信息平台#图像生成开源
2,892

Starvector
国外精选
StarVector 是一个先进的生成模型,旨在将图像和文本指令转化为高质量的可缩放矢量图形(SVG)代码。
AI设计工具#图像处理开源
3,528

Tablegpt Agent
TableGPT-agent 是一个基于 TableGPT2 的预构建代理模型,专为处理表格数据的问答任务而设计。
数据分析#自然语言处理开源
1,164

Mobile Agent E
Mobile-Agent-E 是一款基于大型多模态模型(LMM)的移动助手,旨在帮助用户高效完成复杂的多步骤任务。
个人助理#移动助手开源
1,512

Aria UI
Aria-UI是一个专为GUI指令视觉定位而设计的大规模多模态模型。
AI设计工具#多模态模型开源
612

Flageval
FlagEval是一个模型评测平台,专注于大语言模型和多模态模型的评测。
AI模型#人工智能
720

Apollo LMMs
Apollo是一个专注于视频理解的先进大型多模态模型家族。
视频生成#多模态模型开源
588

Omniaudio 2.6B
优质新品
OmniAudio-2.6B是一个2.6B参数的多模态模型,能够无缝处理文本和音频输入。
语音识别#边缘计算
936

Ultravox V0 4 1 Mistral Nemo
ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型(LLM)。
#语音翻译开源
480

Ultravox V0 4 1 Llama 3 1 8b
fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。
#语音翻译开源
552

Tablegpt2
TableGPT2是一个大型多模态模型,专门针对表格数据进行预训练和微调,以解决实际应用中表格数据整合不足的问题。
AI模型#多模态模型开源
2,604

Lvbench
优质新品
LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。
AI模型#基准测试开源
768

Minigpt4 Video
MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。
AI视频生成#视频问答开源
3,000

冒泡鸭AI
冒泡鸭AI是基于自研多模态大模型开发的AI互动平台,提供拟人、工具、内容、游戏、娱乐等多个领域的海量智能体。
聊天机器人#多模态模型
6,756

Webvoyager
WebVoyager是一款创新的大型多模态模型(LMM)驱动的网络代理,能够通过与现实世界的网站交互,端到端完成用户指令。
AI Agents#多模态模型开源
864

Adept Fuyu Heavy
Adept Fuyu-Heavy是一款新型的多模态模型,专为数字代理设计。
AI模型#多模态模型
660

Multimodal Maestro
Multimodal-Maestro为您提供更多对大型多模态模型的控制,以获得您想要的输出。
AI工具网址目录#提示策略开源
876
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k