Gmft
gmft的目标受众是数据分析师、研究人员和任何需要从PDF文档中提取表格数据的用户。由于其轻量级和高性能的特性,gmft特别适合需要处理大量PDF文件并快速转换数据的场合。
总访问量: 474,564,576
占比最多地区: US(19.34%)
540
简介
gmft是一个用于将PDF中的表格转换为多种格式的工具包。它轻量级、模块化且性能优越。gmft依赖于微软的Table Transformers,这是众多替代方案中性能最好、最可靠的。gmft无需GPU即可运行,具有高吞吐量,并且安装简便,仅需一行代码即可完成安装。它使用PyPDFium2,因其高吞吐量和宽松的许可证而受到青睐。gmft使用的训练模型TATR在多样化的数据集PubTables-1M上训练,具有高可靠性。
截图
产品特色
支持将PDF表格转换为Pandas DataFrame等多种格式
能够输出表格的文本和位置列表
支持输出表格的裁剪图像
支持表格标题的提取
无需OCR即可快速提取表格,适用于图像和扫描PDF
通过PyPDFium2实现高吞吐量的PDF处理
可配置性强,支持自定义模型和提取方法
使用教程
安装gmft:在命令行中输入`pip install gmft`进行安装
导入必要的模块:在Python脚本中导入`CroppedTable, TableDetector, AutoTableFormatter`等
创建PyPDFium2Document对象:使用待提取表格的PDF文件路径创建文档对象
使用TableDetector进行表格检测:遍历文档的每一页,使用detector提取表格
使用AutoTableFormatter格式化表格:将检测到的表格进行格式化处理
将提取的表格数据转换为所需格式:例如转换为Pandas DataFrame或其他支持的格式
关闭文档对象:完成提取后,调用文档对象的close方法释放资源
流量来源
直接访问51.61%外链引荐33.46%邮件0.04%
自然搜索12.58%社交媒体2.19%展示广告0.11%
最新流量情况
月访问量
4.92m
平均访问时长
393.01
每次访问页数
6.11
跳出率
36.20%
总流量趋势图
地理流量分布情况
美国
19.34%
中国
13.25%
印度
9.32%
俄罗斯
4.28%
德国
3.63%
地理流量分布全球图
同类开源产品
Awesome LLM Resourses
awesome-LLM-resourses是一个汇总了全球大语言模型(LLM)资源的平台,提供了从数据获取、微调、推理、评估到实际应用等一系列资源和工具。
AI工具网址目录#资源汇总
Geekits
中文精选
Geekits是一个由YGeeker出品的开源和免费的平台,提供了一系列实用工具,包括人工智能、生活常用、图片视频处理、编程开发等多个领域。
AI工具网址目录#免费
Hoody AI
Hoody AI是一个注重隐私的统一界面,旨在提供匿名访问多种大型语言模型(LLMs)的功能。
AI工具网址目录#匿名访问
Aibase
中文精选
AIbase是一个综合性平台,它拥有一个全面的国内外AI产品数据库,收录了超过7000个出色的人工智能网站和产品,覆盖了40多个不同的领域,如Ai绘画生成、Ai文案写作、Ai视频编辑、Ai智能营销等。
AI工具网址目录#智能匹配
Query Key
优质新品
QAbot-zh/query-key是一个纯前端API检测工具,它支持多种API格式的测活,如oneapi/newapi等,并且能够检测openai格式的API。
AI工具网址目录#数据安全
Gmft
gmft是一个用于将PDF中的表格转换为多种格式的工具包。
AI工具网址目录#表格提取
Transformer Explainer
Transformer Explainer是一个致力于帮助用户深入理解Transformer模型的在线可视化工具。
AI工具网址目录#Transformer模型
Zerox OCR
Zerox OCR是一个基于gpt-4o-mini的PDF文档转换工具,它通过将PDF文件转换为图像,然后利用GPT模型将图像内容转换为Markdown格式,从而实现对文档的高效OCR处理。
AI PDF#PDF转换
Awesome Cluade Artifacts
Awesome-Cluade-Artifacts 是一个GitHub仓库,致力于收集和展示由Anthropic的AI助手Claude在对话中生成的有趣、实质性的内容。
AI工具网址目录#社区分享
替代品
Query Key
优质新品
QAbot-zh/query-key是一个纯前端API检测工具,它支持多种API格式的测活,如oneapi/newapi等,并且能够检测openai格式的API。
AI工具网址目录#数据安全
Gmft
gmft是一个用于将PDF中的表格转换为多种格式的工具包。
AI工具网址目录#表格提取
Transformer Explainer
Transformer Explainer是一个致力于帮助用户深入理解Transformer模型的在线可视化工具。
AI工具网址目录#Transformer模型
Zerox OCR
Zerox OCR是一个基于gpt-4o-mini的PDF文档转换工具,它通过将PDF文件转换为图像,然后利用GPT模型将图像内容转换为Markdown格式,从而实现对文档的高效OCR处理。
AI PDF#PDF转换
Awesome Cluade Artifacts
Awesome-Cluade-Artifacts 是一个GitHub仓库,致力于收集和展示由Anthropic的AI助手Claude在对话中生成的有趣、实质性的内容。
AI工具网址目录#社区分享
Beyondpdf
优质新品
BeyondPDF是一款致力于提高用户在PDF文件中搜索内容效率的智能应用程序。
AI PDF#PDF
Pdfdeal
pdfdeal是一个Python封装的Doc2X API工具,它提供了本地PDF处理功能,旨在提高PDF在RAG中的召回率。
AI PDF#OCR
Brainyai
BrainyAI是一个完全免费的Chrome浏览器扩展,用户只需登录一次即可使用各种AI网站。
AI工具网址目录#浏览器扩展
Awesome ChatTTS
Awesome-ChatTTS是一个开源项目,旨在为ChatTTS项目提供常见问题解答和相关资源汇总,帮助用户快速入门并解决在使用过程中可能遇到的问题。
AI工具网址目录#开源项目