Llava : 大型语言和视觉助手，实现多模态聊天和科学问答

Llava

AI模型 AI聊天机器人 #多模态 #聊天 #科学问答 #视觉编码器 #GPT-4 普通产品开源

简介 :

LLaVA是一种新型的端到端训练的大型多模态模型，将视觉编码器和Vicuna相结合，实现了令人印象深刻的聊天能力，模仿多模态GPT-4的精神，并在科学问答方面取得了新的最高准确率。LLaVA的使用场景包括日常用户应用的多模态聊天和科学领域的多模态推理。LLaVA的数据、代码和检查点仅限于研究用途，并遵循CLIP、LLaMA、Vicuna和GPT-4的许可协议。

需求人群 :

LLaVA适用于需要进行多模态聊天和科学问答的场景，例如日常用户应用和科学领域的推理。

总访问量： 81.0K

占比最多地区： US(22.84%)

本站浏览量： 188.5K

使用场景

LLaVA可以回答关于蒙娜丽莎的问题，包括画作的作者、画作的特点和保存在哪里等。

LLaVA可以进行光学字符识别（OCR），并提供有关识别结果的详细描述。

LLaVA可以进行视觉推理，例如在OpenAI GPT-4技术报告中的两个示例。

产品特色

将视觉编码器和Vicuna相结合，实现多模态聊天和科学问答

使用语言-only GPT-4生成多模态语言-图像指令跟随数据