简介
wdoc 是由 Olicorne(一名医学生)开发的 RAG 系统,旨在通过检索增强生成技术解决文档查询和总结问题。它支持多种文件类型(如 PDF、网页、YouTube 视频等),并结合多种语言模型提供高召回率和高特异性的查询结果。wdoc 的主要优点包括强大的多文件类型支持、高效的检索能力和灵活的扩展性。它适用于研究人员、学生和专业人士,帮助他们快速处理大量信息。wdoc 目前处于开发阶段,开发者欢迎用户反馈和功能请求,以不断完善产品。
截图

产品特色
支持 15+ 种文件类型(如 PDF、网页、YouTube 视频等),并能同时查询多种文件类型。
使用 LangChain 处理文档,支持超过 100 种语言模型,包括本地和私有 LLM。
采用高级 RAG 技术,通过嵌入式检索和语义聚类生成高质量答案。
提供强大的总结功能,将文档的推理过程和论点压缩为易于阅读的 Markdown 格式。
支持本地和私有模式,确保数据安全,不泄露任何信息。
支持多种任务,如查询、搜索、总结以及总结后查询。
提供详细的文档和命令行帮助,方便用户快速上手。
可扩展性强,支持作为工具或库集成到其他项目中。
使用教程
1. 安装 wdoc:使用 pip 安装 wdoc,例如 `pip install wdoc`。
2. 设置环境变量:添加所选语言模型的 API 密钥作为环境变量。
3. 启动 wdoc:运行 `wdoc --task=query --path=文档路径 --filetype=文件类型` 进行查询。
4. 使用总结功能:运行 `wdoc --task=summarize --path=文档路径 --filetype=文件类型` 生成总结。
5. 保存和加载索引:使用 `--save_embeds_as` 保存索引,使用 `--load_embeds_from` 加载索引,以加快查询速度。
6. 使用高级功能:结合 `--query_retrievers` 和 `--top_k` 等参数优化查询效果。
7. 查看帮助文档:运行 `wdoc --help` 查看详细命令和参数说明。
流量来源
直接访问 | 35.04% | 外链引荐 | 43.69% | 邮件 | 0.24% |
自然搜索 | 13.59% | 社交媒体 | 5.15% | 展示广告 | 1.19% |
最新流量情况
月访问量
111
平均访问时长
0.00
每次访问页数
1.01
跳出率
99.58%
总流量趋势图
地理流量分布情况
加拿大
100.00%
地理流量分布全球图
同类开源产品

MIT MAIA
优质新品
MAIA(Multimodal Automated Interpretability Agent)是由MIT计算机科学与人工智能实验室(CSAIL)开发的一个自动化系统,旨在提高人工智能模型的解释性。
研究工具#自动化

Sigmanote
SigmaNote是一款AI记忆工具,能将各种文件、链接转化为可编辑的AI笔记,帮助用户随时随地搜索、交流和组织信息。
知识管理#笔记

Terabox
TeraBox是一个提供1TB免费云存储和在线文件传输服务的平台,通过先进的算法和自然语言处理技术,提供专业的论文、在线演示等解决方案,提高工作和学习效率。
知识管理#file transfer

Arxiv Summarizer
该产品是一个 Python 脚本,利用 Gemini API 从 arXiv 获取和总结研究论文。
研究工具#论文摘要

Openmemory MCP
OpenMemory 是一个开放源代码的个人记忆层,为大型语言模型(LLMs)提供私密、可携带的记忆管理。
知识管理#开源

Surfsense
SurfSense 是一款开源的 AI 研究助手,它将多种外部资源(如搜索引擎、Slack、Notion 等)整合在一起,帮助用户高效地进行研究和信息管理。
研究工具#信息管理

Deerflow
DeerFlow 是一个深度研究框架,旨在结合语言模型与如网页搜索、爬虫及 Python 执行等专用工具,以推动深入研究工作。
研究工具#开源

Smartpdf
优质新品
SmartPDF 是一个基于 Llama 3.3 的在线工具,能够快速将 PDF 文件进行汇总和分块。
知识管理#文档处理

Camerabench
CameraBench 是一个用于分析视频中相机运动的模型,旨在通过视频理解相机的运动模式。
研究工具#相机运动
替代品

Arxiv Summarizer
该产品是一个 Python 脚本,利用 Gemini API 从 arXiv 获取和总结研究论文。
研究工具#论文摘要

Openmemory MCP
OpenMemory 是一个开放源代码的个人记忆层,为大型语言模型(LLMs)提供私密、可携带的记忆管理。
知识管理#开源

Surfsense
SurfSense 是一款开源的 AI 研究助手,它将多种外部资源(如搜索引擎、Slack、Notion 等)整合在一起,帮助用户高效地进行研究和信息管理。
研究工具#信息管理

Deerflow
DeerFlow 是一个深度研究框架,旨在结合语言模型与如网页搜索、爬虫及 Python 执行等专用工具,以推动深入研究工作。
研究工具#开源

Smartpdf
优质新品
SmartPDF 是一个基于 Llama 3.3 的在线工具,能够快速将 PDF 文件进行汇总和分块。
知识管理#文档处理

Camerabench
CameraBench 是一个用于分析视频中相机运动的模型,旨在通过视频理解相机的运动模式。
研究工具#相机运动

微信读书 MCP 服务器
中文精选
微信读书 MCP 服务器是一个桥接微信读书数据和 Claude Desktop 的轻量级服务器,旨在实现阅读笔记与 AI 的深度交互。
知识管理#MCP

Wiki Go
LeoMoon Wiki-Go 是一款快速、现代的平面文件 Wiki,使用 Go 语言构建。
知识管理#Markdown

Basic Memory
Basic Memory是一款知识管理系统,借助与LLM的自然对话构建持久知识,并保存于本地Markdown文件。
知识管理#LLM
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k