Minicpm O : MiniCPM-o 2.6：一款GPT-4o级别，可在手机上实现视觉、语音和多模态直播的MLLM。

Minicpm O

简介 :

MiniCPM-o 2.6 是OpenBMB团队开发的最新多模态大型语言模型（MLLM），具有8B参数，能够在手机等端侧设备上实现高质量的视觉、语音和多模态直播功能。该模型基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建，采用端到端的方式训练，性能与GPT-4o-202405相当。其主要优点包括领先的视觉能力、先进的语音能力、强大的多模态直播能力、强大的OCR能力以及优越的效率。该模型免费开源，适用于学术研究和商业用途。

需求人群 :

目标受众包括研究人员、开发者和企业，他们需要在移动设备上实现强大的视觉、语音和多模态交互功能，如智能助手、内容创作、教育应用等。该模型适合需要高效、高性能多模态处理能力的用户和组织。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 76.2K

使用场景

在教育领域，教师可以利用MiniCPM-o 2.6创建互动式教学内容，通过语音和视觉辅助提高学生的学习体验。

内容创作者可以使用该模型生成创意视频脚本，结合视觉和语音元素，提升内容的吸引力。

企业可以部署MiniCPM-o 2.6来开发智能客服系统，通过多模态交互提高客户服务质量和效率。

产品特色

领先的视觉能力：在OpenCompass等8个流行基准测试中平均得分70.2，超越多个知名模型。

先进的语音能力：支持双语实时语音对话，具备可配置的声音，语音理解任务表现优异。