简介
ReaderLM v2是由Jina AI推出的参数量为1.5B的小型语言模型,专门用于HTML转Markdown转换和HTML转JSON提取,具有卓越的准确性。该模型支持29种语言,能处理高达512K个token的输入和输出组合长度。它采用了新的训练范式和更高质量的训练数据,较前代产品在处理长文本内容和生成Markdown语法方面有重大进步,能熟练运用Markdown语法,擅长生成复杂元素。此外,ReaderLM v2还引入了直接HTML转JSON生成功能,允许用户根据给定的JSON架构从原始HTML中提取特定信息,消除了中间Markdown转换需求。
截图

产品特色
支持HTML转Markdown转换,能保留完整信息并巧妙使用Markdown语法构建内容。
可处理高达512K个token的输入和输出组合长度,有效解决长文本处理中的退化问题。
具备直接HTML转JSON生成功能,根据给定JSON架构提取特定信息,提高数据清理和提取效率。
支持29种语言,包括英语、中文、日语等,适用范围广泛。
在定量和定性基准测试中,表现优于多个更大的模型,参数量却明显更少。
使用教程
1. 通过Reader API使用:在请求头中指定`x-engine: readerlm-v2`并通过`-H 'Accept: text/event-stream'`启用响应流式传输。
2. 在Google Colab上使用:通过Colab notebook进行HTML转Markdown转换、JSON提取和指令遵循测试。
3. 生产环境使用:在AWS SageMaker、Azure和GCP marketplace上部署使用ReaderLM v2模型。
4. 对于HTML转Markdown转换,使用`create_prompt`辅助函数创建提示,然后调用模型生成结果。
5. 使用JSON Schema进行HTML转JSON提取时,先定义好Schema,再创建提示并调用模型生成JSON格式结果。
流量来源
直接访问 | 49.48% | 外链引荐 | 39.37% | 邮件 | 0.08% |
自然搜索 | 8.96% | 社交媒体 | 1.83% | 展示广告 | 0.27% |
最新流量情况
月访问量
571.00k
平均访问时长
128.13
每次访问页数
2.90
跳出率
43.57%
总流量趋势图
地理流量分布情况
中国
18.57%
美国
14.14%
印度
8.09%
中国台湾
6.84%
越南
3.95%
地理流量分布全球图
同类开源产品

Jules AI
国外精选
Jules 是一个异步编码代理,可以自动处理你不想做的编码任务,从而让你有更多时间专注于核心编程。
代码助手#开发编程

Minion Agent
优质新品
Minion Agent 是一个简单而强大的代理框架,能够与浏览器交互,支持深度研究、自动规划等功能,适用于需要进行复杂任务和研究的用户。
开发与工具#深度研究

Scrapybara
Scrapybara为开发者提供统一的API,以执行任何模型的代理,并访问浏览器、文件系统和代码沙箱等低级控制。
开发与工具#AI代理

Basin MCP
Basin是首款为AI代码编辑器设计的可靠性MCP工具,通过即时识别和标记问题,停止代码生成幻觉,让您轻松高效地进行编码。
代码助手#可靠性

Tokenomy.ai
Tokenomy是一款高级AI令牌计算器和成本估算工具,可用于LLMs。
开发与工具#令牌管理

Windsurf Wave 9
SWE-1 是windsurf_ai首个为整个软件工程流程优化的模型家族,旨在加速软件开发 99%。
代码助手#模型

CodeBuddy
中文精选
腾讯云代码助手 CodeBuddy 是一款辅助编码工具,基于混元代码大模型,提供技术对话、代码补全、代码诊断和优化等能力。
代码助手#编程工具

Bugster
Bugster是一款AI驱动的测试解决方案,能够将用户流程转化为自动化测试,帮助开发人员快速发布无bug的软件。
开发与工具#AI测试

Mendel Lab
Mendel利用AI优化工作流程,自动化代码审查,跟踪团队绩效,提高部署效率。
开发与工具#工程指标
替代品

Minion Agent
优质新品
Minion Agent 是一个简单而强大的代理框架,能够与浏览器交互,支持深度研究、自动规划等功能,适用于需要进行复杂任务和研究的用户。
开发与工具#深度研究

Seed Coder
Seed-Coder 是字节跳动 Seed 团队推出的开源代码大型语言模型系列,包含基础、指令和推理模型,旨在通过最小的人力投入,自主管理代码训练数据,从而显著提升编程能力。
代码助手#大型语言模型

Agent As A Judge
Agent-as-a-Judge 是一种新型的自动化评估系统,旨在通过代理系统的互相评估来提高工作效率和质量。
开发与工具#奖励信号

Firecrawl MCP Server
Firecrawl MCP Server 是一款集成了强大网页抓取功能的插件,支持多种 LLM 客户端如 Cursor 和 Claude。
开发与工具#数据提取

MCP SuperAssistant
MCP SuperAssistant 是一个 Chrome 扩展,集成了模型上下文协议(MCP)工具,使用户能够直接从 AI 平台执行 MCP 工具,并将结果插入对话中。
开发与工具#AI 助手

Xcodebuildmcp
XcodeBuildMCP 是一个实现模型上下文协议(MCP)的服务器,旨在通过标准化接口与 Xcode 项目进行程序化交互。
开发与工具#开发工具

Easevoice Trainer
EaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。
开发与工具#机器学习

Fastapi MCP
FastAPI-MCP是一个专为FastAPI设计的工具,旨在无缝集成模型上下文协议(MCP)。
开发与工具#MCP

MCP Gateway
MCP Gateway 是一个高级的中介解决方案,用于管理和增强模型上下文协议(MCP)服务器。
开发与工具#安全
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k