Tabled : 检测并提取表格到Markdown和CSV格式的工具

Tabled

Tabled

AI数据挖掘 AI工具和服务 #表格检测 #PDF处理 #数据提取 #自动化 #机器学习普通产品开源

简介 :

Tabled是一个用于检测和提取表格的Python库，它使用surya来识别PDF中的表格，识别行列，并能够将单元格格式化为Markdown、CSV或HTML。这个工具对于数据科学家和研究人员来说非常有用，他们经常需要从PDF文档中提取表格数据以进行进一步的分析。Tabled的主要优点包括高准确性的表格检测和提取能力，支持多种输出格式，以及易于使用的命令行界面。此外，它还提供了一个交互式的APP，允许用户直观地尝试在图像或PDF文件上使用Tabled。

需求人群 :

Tabled的目标受众主要是数据科学家、研究人员和开发者，他们需要从PDF文档中提取表格数据以进行数据分析或进一步处理。这个工具适合他们，因为它提供了高准确性的表格检测和提取，支持多种输出格式，并且易于集成到现有的工作流程中。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 71.8K

使用场景

研究人员使用Tabled从学术论文的PDF中提取数据，以便进行统计分析。

数据科学家利用Tabled将市场研究报告中的表格数据转换为CSV格式，用于经济预测模型。

开发者将Tabled集成到他们的软件产品中，以提供自动化的PDF表格数据处理功能。

产品特色

检测PDF中的表格并识别行列

将表格数据格式化为Markdown、CSV或HTML

支持命令行工具和交互式APP两种使用方式

自动下载模型权重，无需额外配置

提供额外的行和列信息的JSON文件保存选项

能够保存显示检测到的行、列和单元格的调试图像

支持从Python代码中直接调用，便于集成到更大的工作流程中

使用教程

1. 安装Python 3.10+和PyTorch。

2. 使用pip安装Tabled：'pip install tabled-pdf'。

3. 运行Tabled，指定数据路径：'tabled DATA_PATH'。

4. 使用--format选项指定输出格式（Markdown、HTML或CSV）。

5. 如果需要，使用--save_json选项保存额外的行和列信息。

6. 使用--save_debug_images选项保存调试图像。

7. 如果图像已经是裁剪过的表格，使用--skip_detection选项。

8. 查看生成的'results.json'文件，它包含了提取的表格数据。

精选AI产品推荐

Excel Formula Bot

Formula Bot是一款AI数据分析工具，集成了智能公式生成、数据准备和数据分析功能。它可以帮助用户快速生成Excel公式、理解不同公式的解释，并且支持在Excel或Google Sheets中应用这些公式。此外，Formula Bot还提供了创建各种情况下的电子表格模板、生成SQL查询、执行基本任务指令、获取VBA或Apps Script代码以及获取正则表达式等功能。通过Formula Bot，用户可以更智能、更高效地处理数据和电子表格。

AI数据挖掘数据分析

FineChatBI是帆软推出的一款AI驱动的对话式业务分析工具，它利用Text2DSL技术将用户的自然语言问题转化为可理解、可干预的指令，从而提供可控、结果可信、分析闭环、交互友好的业务分析体验。该产品基于企业级BI能力底座，结合AI技术，大幅降低业务分析门槛，提升企业决策效率。

AI数据挖掘数据分析

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24