简介
VARAG是一个支持多种检索技术的系统,优化了文本、图像和多模态文档检索的不同用例。它通过将文档页面作为图像嵌入,简化了传统的检索流程,并使用先进的视觉语言模型进行编码,提高了检索的准确性和效率。VARAG的主要优点在于它能够处理复杂的视觉和文本内容,为文档检索提供强大的支持。
截图

产品特色
支持多种检索技术,包括文本、图像和多模态文档检索。
Simple RAG:通过OCR技术提取文档中的文本并进行检索。
Vision RAG:结合视觉信息进行检索,使用JinaCLIP模型进行跨模态编码。
ColPali RAG:直接将文档页面作为图像嵌入,使用PaliGemma模型进行编码。
Hybrid ColPali RAG:结合图像嵌入和ColPali的晚期交互机制进行检索。
提供交互式游乐场,可以比较不同的RAG解决方案。
支持本地运行和Google Colab上的演示。
使用教程
克隆仓库:使用git命令克隆VARAG的GitHub仓库。
设置环境:使用Conda创建并激活虚拟环境。
安装依赖:使用pip或poetry安装所需的Python包。
运行演示:执行demo.py脚本,通过--share参数在本地或Google Colab上运行。
索引数据源:使用VARAG提供的类和方法对数据源进行索引。
执行搜索:输入查询并执行搜索,获取检索结果。
使用结果:将检索结果用于进一步的分析或生成响应。
流量来源
直接访问 | 0.00% | 外链引荐 | 0.00% | 邮件 | 0.00% |
自然搜索 | 0.00% | 社交媒体 | 0.00% | 展示广告 | 0.00% |
最新流量情况
月访问量
0
平均访问时长
0.00
每次访问页数
0.00
跳出率
0
总流量趋势图
同类开源产品

Tabled
Tabled是一个用于检测和提取表格的Python库,它使用surya来识别PDF中的表格,识别行列,并能够将单元格格式化为Markdown、CSV或HTML。
AI数据挖掘#PDF处理

Dropbox Dash
Dropbox Dash是一个结合了人工智能搜索、组织和内容访问控制的商业工具。
AI搜索引擎#内容管理

Datamonkey
DataMonkey是一个创新的数据可视化平台,它允许用户通过聊天的方式调用公共数据集,实现Map式的数据分析和展示。
AI数据挖掘#Map

Bilin AI
中文精选
Bilin AI是一个利用人工智能技术,致力于提供无偏见和无幻觉的全球信息搜索服务的网站。
AI搜索引擎#信息过滤

Knowledge Table
Knowledge Table 是一个开源工具包,旨在简化从非结构化文档中提取和探索结构化数据的过程。
AI数据挖掘#数据提取

Parseflow
Parseflow是一个数据自动化平台,专注于通过先进的OCR和AI技术实现文档数据的自动提取和结构化。
AI数据挖掘#数据提取

Perplexity For Mac
国外精选
Perplexity是一个基于人工智能的搜索和发现工具,旨在为用户提供可信、最新的答案。
AI搜索引擎#搜索

Sheetbot AI
优质新品
SheetBot AI是一个利用人工智能技术,为用户提供数据分析、可视化和数据转换的一体化平台。
AI数据挖掘#AI

Kuration AI
Kuration AI是一个利用人工智能技术帮助用户进行B2B研究的工具,它通过智能筛选和数据丰富化,帮助用户快速从大量信息中提炼出有价值的商业线索。
AI数据挖掘#数据丰富化
替代品

Tabled
Tabled是一个用于检测和提取表格的Python库,它使用surya来识别PDF中的表格,识别行列,并能够将单元格格式化为Markdown、CSV或HTML。
AI数据挖掘#PDF处理

Knowledge Table
Knowledge Table 是一个开源工具包,旨在简化从非结构化文档中提取和探索结构化数据的过程。
AI数据挖掘#数据提取

Colpali
ColPali 是一种基于视觉语言模型的高效文档检索工具,它通过直接嵌入文档页面图像的方式来简化文档检索流程。
AI搜索引擎#视觉语言模型

VARAG
VARAG是一个支持多种检索技术的系统,优化了文本、图像和多模态文档检索的不同用例。
AI搜索引擎#生成

Docai
docai 是一个利用人工智能技术从非结构化文档中提取结构化数据的模型。
AI数据挖掘#信息提取

Semantic Search On Wikipedia With Upstash Vector
这是一个使用Next.js构建的项目,利用Upstash Vector提供维基百科的语义搜索功能。
AI搜索引擎#语义

Miniperplx
MiniPerplx是一个基于AI的极简搜索引擎,旨在帮助用户快速在互联网上找到所需信息。
AI搜索引擎#搜索引擎

Data Juicer
Data-Juicer 是一个一站式的多模态数据处理系统,旨在为大型语言模型(LLMs)提供更高质量、更丰富、更易消化的数据。
AI数据挖掘#data-science

Openperplex Backend Os
OpenPerPlex是一个开源AI搜索引擎,利用尖端技术提供网络搜索功能。
AI搜索引擎#搜索引擎
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k