# 多模态模型
多模态模型
Awesome GPT 4o Images
Awesome GPT-4o Images 是一个展示 OpenAI 最新多模态模型 GPT-4o 生成的图片和提示的集合。
AI信息平台#图像生成开源
2,892
Starvector
国外精选
StarVector 是一个先进的生成模型,旨在将图像和文本指令转化为高质量的可缩放矢量图形(SVG)代码。
AI设计工具#图像处理开源
3,528
Tablegpt Agent
TableGPT-agent 是一个基于 TableGPT2 的预构建代理模型,专为处理表格数据的问答任务而设计。
数据分析#自然语言处理开源
1,164
Mobile Agent E
Mobile-Agent-E 是一款基于大型多模态模型(LMM)的移动助手,旨在帮助用户高效完成复杂的多步骤任务。
个人助理#移动助手开源
1,512
Aria UI
Aria-UI是一个专为GUI指令视觉定位而设计的大规模多模态模型。
AI设计工具#多模态模型开源
612
Flageval
FlagEval是一个模型评测平台,专注于大语言模型和多模态模型的评测。
AI模型#人工智能
720
Apollo LMMs
Apollo是一个专注于视频理解的先进大型多模态模型家族。
视频生成#多模态模型开源
588
Omniaudio 2.6B
优质新品
OmniAudio-2.6B是一个2.6B参数的多模态模型,能够无缝处理文本和音频输入。
语音识别#边缘计算
936
Ultravox V0 4 1 Mistral Nemo
ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型(LLM)。
#语音翻译开源
480
Ultravox V0 4 1 Llama 3 1 8b
fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型,能够处理语音和文本输入,生成文本输出。
#语音翻译开源
552
Tablegpt2
TableGPT2是一个大型多模态模型,专门针对表格数据进行预训练和微调,以解决实际应用中表格数据整合不足的问题。
AI模型#多模态模型开源
2,604
Lvbench
优质新品
LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。
AI模型#基准测试开源
768
Minigpt4 Video
MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。
AI视频生成#视频问答开源
3,000
冒泡鸭AI
冒泡鸭AI是基于自研多模态大模型开发的AI互动平台,提供拟人、工具、内容、游戏、娱乐等多个领域的海量智能体。
聊天机器人#多模态模型
6,756
Webvoyager
WebVoyager是一款创新的大型多模态模型(LMM)驱动的网络代理,能够通过与现实世界的网站交互,端到端完成用户指令。
AI Agents#多模态模型开源
864
Adept Fuyu Heavy
Adept Fuyu-Heavy是一款新型的多模态模型,专为数字代理设计。
AI模型#多模态模型
660
Multimodal Maestro
Multimodal-Maestro为您提供更多对大型多模态模型的控制,以获得您想要的输出。
AI工具网址目录#提示策略开源
876