Llava
简介 :
LLaVA是一种新型的端到端训练的大型多模态模型,将视觉编码器和Vicuna相结合,实现了令人印象深刻的聊天能力,模仿多模态GPT-4的精神,并在科学问答方面取得了新的最高准确率。LLaVA的使用场景包括日常用户应用的多模态聊天和科学领域的多模态推理。LLaVA的数据、代码和检查点仅限于研究用途,并遵循CLIP、LLaMA、Vicuna和GPT-4的许可协议。
需求人群 :
LLaVA适用于需要进行多模态聊天和科学问答的场景,例如日常用户应用和科学领域的推理。
总访问量: 81.0K
占比最多地区: US(22.84%)
本站浏览量 : 188.5K
使用场景
LLaVA可以回答关于蒙娜丽莎的问题,包括画作的作者、画作的特点和保存在哪里等。
LLaVA可以进行光学字符识别(OCR),并提供有关识别结果的详细描述。
LLaVA可以进行视觉推理,例如在OpenAI GPT-4技术报告中的两个示例。
产品特色
将视觉编码器和Vicuna相结合,实现多模态聊天和科学问答
使用语言-only GPT-4生成多模态语言-图像指令跟随数据
通过两个阶段的指令调整过程,实现预训练和微调
在视觉聊天和科学问答方面取得了令人印象深刻的表现
提供数据、代码和检查点的开源
AIbase
智启未来,您的人工智能解决方案智库
简体中文