简介
PengChengStarling 是一个专注于多语言自动语音识别(ASR)的开源工具包,基于 icefall 项目开发。它支持完整的 ASR 流程,包括数据处理、模型训练、推理、微调和部署。该工具包通过优化参数配置和集成语言 ID 到 RNN-Transducer 架构中,显著提升了多语言 ASR 系统的性能。其主要优点包括高效的多语言支持、灵活的配置设计以及强大的推理性能。PengChengStarling 的模型在多种语言上表现出色,且模型规模较小,推理速度极快,适合需要高效语音识别的场景。
截图

产品特色
支持多语言 ASR 模型开发,覆盖中文、英语、俄语、越南语、日语、泰语、印尼语和阿拉伯语。
采用灵活的参数配置设计,解耦配置与功能代码,支持多种语言任务。
集成语言 ID 到 RNN-Transducer 架构,提升多语言 ASR 性能。
提供完整的 ASR 流程支持,包括数据处理、模型训练、推理、微调和部署。
支持流式 ASR 模型,推理速度比 Whisper-Large v3 快 7 倍,模型大小仅为 20%。
使用教程
1. 安装依赖:根据官方文档安装必要的依赖项。
2. 数据准备:使用 `zipformer/prepare.py` 脚本将原始数据预处理为所需格式。
3. BPE 模型训练:使用 `zipformer/prepare_bpe.py` 脚本训练 BPE 模型,支持多语言文本。
4. 模型训练:配置训练参数后,运行 `zipformer/train.py` 脚本开始训练多语言 ASR 模型。
5. 模型微调:设置 `do_finetune` 参数为 `true`,使用特定数据集对模型进行微调。
6. 模型评估:使用 `zipformer/streaming_decode.py` 脚本对训练好的模型进行评估。
7. 模型导出:使用 `zipformer/export.py` 或 `zipformer/export-onnx-streaming.py` 脚本将模型导出为 PyTorch 或 ONNX 格式,用于部署。
流量来源
直接访问 | 51.61% | 外链引荐 | 33.46% | 邮件 | 0.04% |
自然搜索 | 12.58% | 社交媒体 | 2.19% | 展示广告 | 0.11% |
最新流量情况
月访问量
4.92m
平均访问时长
393.01
每次访问页数
6.11
跳出率
36.20%
总流量趋势图
地理流量分布情况
美国
19.34%
中国
13.25%
印度
9.32%
俄罗斯
4.28%
德国
3.63%
地理流量分布全球图
同类开源产品

Minion Agent
优质新品
Minion Agent 是一个简单而强大的代理框架,能够与浏览器交互,支持深度研究、自动规划等功能,适用于需要进行复杂任务和研究的用户。
开发与工具#深度研究

Scrapybara
Scrapybara为开发者提供统一的API,以执行任何模型的代理,并访问浏览器、文件系统和代码沙箱等低级控制。
开发与工具#AI代理

Tokenomy.ai
Tokenomy是一款高级AI令牌计算器和成本估算工具,可用于LLMs。
开发与工具#令牌管理

Bugster
Bugster是一款AI驱动的测试解决方案,能够将用户流程转化为自动化测试,帮助开发人员快速发布无bug的软件。
开发与工具#AI测试

Mendel Lab
Mendel利用AI优化工作流程,自动化代码审查,跟踪团队绩效,提高部署效率。
开发与工具#工程指标

Plugin Pal
Plugin Pal是一个AI驱动的WordPress插件生成器,为自由职业者、机构和WordPress从业者提供了简化开发流程、记录时间内建立MVP和提升技能的终极工具。
开发与工具#WordPress插件生成器

Agent As A Judge
Agent-as-a-Judge 是一种新型的自动化评估系统,旨在通过代理系统的互相评估来提高工作效率和质量。
开发与工具#奖励信号

Packfiles Warp
Packfiles是一个旨在帮助企业加快迁移速度并简化配置管理任务的工具。
开发与工具#迁移

Firecrawl MCP Server
Firecrawl MCP Server 是一款集成了强大网页抓取功能的插件,支持多种 LLM 客户端如 Cursor 和 Claude。
开发与工具#数据提取
替代品

Minion Agent
优质新品
Minion Agent 是一个简单而强大的代理框架,能够与浏览器交互,支持深度研究、自动规划等功能,适用于需要进行复杂任务和研究的用户。
开发与工具#深度研究

Agent As A Judge
Agent-as-a-Judge 是一种新型的自动化评估系统,旨在通过代理系统的互相评估来提高工作效率和质量。
开发与工具#奖励信号

Firecrawl MCP Server
Firecrawl MCP Server 是一款集成了强大网页抓取功能的插件,支持多种 LLM 客户端如 Cursor 和 Claude。
开发与工具#数据提取

Parakeet Tdt 0.6b V2
parakeet-tdt-0.6b-v2 是一个 600 百万参数的自动语音识别(ASR)模型,旨在实现高质量的英语转录,具有准确的时间戳预测和自动标点符号、大小写支持。
语音识别#深度学习

MCP SuperAssistant
MCP SuperAssistant 是一个 Chrome 扩展,集成了模型上下文协议(MCP)工具,使用户能够直接从 AI 平台执行 MCP 工具,并将结果插入对话中。
开发与工具#AI 助手

Kimi Audio
Kimi-Audio 是一个先进的开源音频基础模型,旨在处理多种音频处理任务,如语音识别和音频对话。
语音识别#音频处理

Xcodebuildmcp
XcodeBuildMCP 是一个实现模型上下文协议(MCP)的服务器,旨在通过标准化接口与 Xcode 项目进行程序化交互。
开发与工具#开发工具

Easevoice Trainer
EaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。
开发与工具#机器学习

Fastapi MCP
FastAPI-MCP是一个专为FastAPI设计的工具,旨在无缝集成模型上下文协议(MCP)。
开发与工具#MCP
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k