Pixtral Large Instruct 2411
简介
Pixtral-Large-Instruct-2411是由Mistral AI研发的124B参数的大型多模态模型,基于Mistral Large 2构建,展现出前沿级别的图像理解能力。该模型不仅能够理解文档、图表和自然图像,同时保持了Mistral Large 2在文本理解方面的领先地位。它在MathVista、DocVQA、VQAv2等数据集上达到了最先进的性能,是科研和商业应用的强大工具。
截图

产品特色
前沿级多模态性能:在多个图像理解数据集上达到领先成绩。
扩展Mistral Large 2:在不牺牲文本性能的前提下,增加了对图像的理解能力。
123B多模态解码器和1B参数视觉编码器:提供了强大的图像和文本处理能力。
128K上下文窗口:能够适应至少30张高分辨率图像。
系统提示处理:强化了对系统提示的支持,以实现最佳效果。
基础指令模板(V7):提供了标准化的模板,以指导模型的响应。
研究目的使用:模型和衍生产品仅限于研究目的使用。
使用教程
1. 安装vLLM库:确保安装了vLLM >= v0.6.4.post1和mistral_common >= 1.5.0。
2. 启动服务器:使用vLLM serve命令启动Pixtral-Large-Instruct-2411模型的服务。
3. 配置系统提示:根据需要,加载并配置SYSTEM_PROMPT.txt文件,以指导模型的行为。
4. 构建请求:构建包含系统提示和用户消息的请求数据,包括文本和图像URL。
5. 发送请求:使用HTTP POST请求将数据发送到服务器,并接收模型的响应。
6. 处理响应:解析模型返回的响应,提取有用的信息。
7. 离线使用:如果需要,也可以在没有服务器的情况下,使用vLLM库直接在本地运行模型。
流量来源
直接访问 | 48.39% | 外链引荐 | 35.85% | 邮件 | 0.03% |
自然搜索 | 12.76% | 社交媒体 | 2.96% | 展示广告 | 0.02% |
最新流量情况
月访问量
25296.55k
平均访问时长
285.77
每次访问页数
5.83
跳出率
43.31%
总流量趋势图
地理流量分布情况
美国
17.94%
中国
17.08%
印度
8.40%
俄罗斯
4.58%
日本
3.42%
地理流量分布全球图
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k