Aria Base 64K
Aria Base 64K
目标受众为研究人员和开发者,特别是那些需要处理长文本和多模态数据集的专业人士。Aria-Base-64K提供了强大的预训练模型,可以用于视频问答、长文档问答等场景,帮助他们提高处理效率和准确性。
总访问量: 29,742,941
占比最多地区: US(17.94%)
264
简介
Aria-Base-64K是Aria系列的基础模型之一,专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成,经过33B个token(21B多模态,12B语言,69%为长文本)的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调,即使在资源有限的情况下,也可以通过短指令调优数据集进行后训练,并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像,并在语言和多模态场景中保持强大的基础性能。
截图
产品特色
- 长文本预训练:经过33B个token的训练,适合长视频问答和长文档问答数据集的继续预训练或微调。
- 多模态理解:能够理解多达250张高分辨率图像或多达500张中等分辨率图像。
- 强大的基础性能:在语言和多模态场景中保持与Aria-Base-8K相同的强大基础性能。
- 低比例聊天模板训练:仅用约3%的数据进行了聊天模板格式的训练,可能不适合直接用于聊天模板。
- 快速启动支持:提供了快速安装和推理的代码示例,便于用户快速开始使用模型。
- 高级推理和微调:提供了代码库,支持更高级的推理、示例和自定义数据集上的微调。
使用教程
1. 安装必要的库:使用pip安装transformers、accelerate、sentencepiece等库。
2. 加载模型:通过AutoModelForCausalLM.from_pretrained加载Aria-Base-64K模型。
3. 处理输入:使用AutoProcessor.from_pretrained处理输入文本和图像。
4. 进行推理:将处理好的输入传递给模型,执行生成操作。
5. 解码输出:使用处理器解码模型输出的token,得到最终结果。
6. 高级使用:根据需要,可以访问GitHub上的代码库,进行更高级的推理和微调。
流量来源
直接访问48.39%外链引荐35.85%邮件0.03%
自然搜索12.76%社交媒体2.96%展示广告0.02%
最新流量情况
月访问量
25296.55k
平均访问时长
285.77
每次访问页数
5.83
跳出率
43.31%
总流量趋势图
地理流量分布情况
美国
17.94%
中国
17.08%
印度
8.40%
俄罗斯
4.58%
日本
3.42%
地理流量分布全球图