Mineru
Mineru
目标受众为需要处理大量PDF文档的用户,如科研人员、数据分析师、文档编辑等。MinerU适合他们因为它可以快速准确地从PDF中提取信息,支持多种语言和格式,提高工作效率。
总访问量: 474,564,576
占比最多地区: US(19.34%)
2,232
简介
MinerU是一个开源工具,专注于将PDF文件转换成机器可读的格式,如Markdown和JSON,便于内容的提取和进一步处理。它在科学文献中解决符号转换问题,支持多种输出格式,并兼容多种操作系统。MinerU的主要优点包括去除页眉、页脚、脚注等,保持文档原有结构,自动识别和转换文档中的公式和表格,支持OCR功能,并且支持多达84种语言的检测和识别。
截图
产品特色
去除PDF中的页眉、页脚、脚注、页码等,确保语义连贯性。
输出文本顺序适合人类阅读,适用于单栏、多栏和复杂布局。
保持原始文档结构,包括标题、段落、列表等。
提取图像、图像描述、表格、表格标题和脚注。
自动识别并转换文档中的公式为LaTeX格式。
自动识别并转换文档中的表格为HTML格式。
自动检测扫描PDF和乱码PDF并启用OCR功能。
OCR支持84种语言的检测和识别。
支持多种输出格式,如多模态和NLP Markdown、按阅读顺序排序的JSON等。
支持CPU和GPU环境。
兼容Windows、Linux和Mac平台。
使用教程
1. 安装MinerU:根据官方文档指导,创建Python虚拟环境并安装MinerU。
2. 下载模型权重文件:根据文档中的说明下载必要的模型文件。
3. 修改配置文件:根据需要调整配置文件中的参数,如启用或禁用表格识别功能。
4. 运行MinerU:使用命令行工具或API处理本地PDF文件。
5. 查看输出结果:MinerU会将处理后的文件保存在指定的输出目录中,包括Markdown文件、图像文件夹等。
6. 进一步处理:根据需要对输出的Markdown或JSON文件进行进一步的编辑或分析。
流量来源
直接访问51.61%外链引荐33.46%邮件0.04%
自然搜索12.58%社交媒体2.19%展示广告0.11%
最新流量情况
月访问量
4.92m
平均访问时长
393.01
每次访问页数
6.11
跳出率
36.20%
总流量趋势图
地理流量分布情况
美国
19.34%
中国
13.25%
印度
9.32%
俄罗斯
4.28%
德国
3.63%
地理流量分布全球图