Databonsai
["数据科学家:可以快速对大量数据进行分类和清洗,以便于进一步分析。","开发人员:能够集成到应用程序中,自动化数据预处理流程。","企业用户:通过自动化数据清洗,提高数据处理效率,降低成本。"]
总访问量: 474,564,576
占比最多地区: US(19.34%)
1,488
简介
databonsai是一个Python库,利用大型语言模型(LLMs)执行数据清洗任务。它提供了一系列工具,包括数据分类、转换和提取,以及对LLM输出的验证,支持批量处理以节省令牌,并且具备重试逻辑以处理速率限制和瞬时错误。
截图
产品特色
数据分类:使用LLMs将数据分入预定义的类别。
数据转换:通过提示对数据进行转换。
数据提取:根据模式将数据提取成结构化格式。
批量处理:节省令牌,通过只发送一次模式和示例来分类一批数据。
重试逻辑:内置重试逻辑,用于处理API相关错误。
进度条:在处理大量数据时提供进度反馈。
自动批处理:自动调整批处理大小以最优化令牌使用和错误处理。
使用教程
1. 安装databonsai库。
2. 在项目根目录下创建一个包含API密钥的.env文件。
3. 设置LLM提供程序和类别。
4. 使用categorize函数对单条数据进行分类。
5. 使用categorize_batch函数对数据批量进行分类。
6. 使用apply_to_column_autobatch函数对DataFrame或列表进行自动批处理。
7. 监控进度条以了解当前处理进度。
8. 在遇到错误时,根据需要调整批处理大小或使用更好的LLM模型。
流量来源
直接访问51.61%外链引荐33.46%邮件0.04%
自然搜索12.58%社交媒体2.19%展示广告0.11%
最新流量情况
月访问量
4.92m
平均访问时长
393.01
每次访问页数
6.11
跳出率
36.20%
总流量趋势图
地理流量分布情况
美国
19.34%
中国
13.25%
印度
9.32%
俄罗斯
4.28%
德国
3.63%
地理流量分布全球图