Hertz Dev
目标受众为研究人员、开发者和对音频处理、语音识别和生成感兴趣的企业。hertz-dev因其开源特性、低延迟和高效率,非常适合需要进行音频模型研究和开发的专业人士。
总访问量: 2,897
占比最多地区: US(100.00%)
816
简介
hertz-dev是Standard Intelligence开源的全双工、仅音频的变换器基础模型,拥有85亿参数。该模型代表了可扩展的跨模态学习技术,能够将单声道16kHz语音转换为8Hz潜在表示,具有1kbps的比特率,性能优于其他音频编码器。hertz-dev的主要优点包括低延迟、高效率和易于研究人员进行微调和构建。产品背景信息显示,Standard Intelligence致力于构建对全人类有益的通用智能,而hertz-dev是这一旅程的第一步。
截图
产品特色
hertz-codec:一个卷积音频自动编码器,将单声道16kHz语音转换为8Hz潜在表示,具有约1kbps的比特率。
hertz-vae:一个18亿参数的变换器解码器,具有8192个采样潜在表示的上下文,并预测下一个编码音频帧。
hertz-dev:一个66亿参数的变换器堆栈,主要检查点部分从预训练的语言模型权重初始化,并在2000万小时的音频上训练一个周期。
理论延迟65ms,实际平均延迟120ms,比任何公共模型的延迟都要低,适合实时交互。
开源模型,易于研究人员进行微调和构建,是实时语音交互的未来。
提供了样本音频生成,包括单通道和双通道音频以及模型与人类之间的实时对话。
使用教程
1. 访问hertz-dev的GitHub页面,克隆或下载代码。
2. 根据文档说明,安装必要的依赖和环境。
3. 运行hertz-dev模型,进行音频数据的编码和解码测试。
4. 根据需要,对模型进行微调,以适应特定的应用场景。
5. 使用hertz-dev生成的音频样本进行效果评估。
6. 在实际应用中部署和使用微调后的模型。
流量来源
直接访问46.38%外链引荐17.20%邮件0.04%
自然搜索14.97%社交媒体20.47%展示广告0.94%
最新流量情况
月访问量
2503
平均访问时长
34.09
每次访问页数
1.60
跳出率
52.96%
总流量趋势图
地理流量分布情况
美国
100.00%
地理流量分布全球图
同类开源产品
MNN LLM Android App
MNN-LLM 是一款高效的推理框架,旨在优化和加速大语言模型在移动设备和本地 PC 上的部署。
模型训练与部署#人工智能
Parakeet Tdt 0.6b V2
parakeet-tdt-0.6b-v2 是一个 600 百万参数的自动语音识别(ASR)模型,旨在实现高质量的英语转录,具有准确的时间戳预测和自动标点符号、大小写支持。
语音识别#深度学习
Kimi Audio
Kimi-Audio 是一个先进的开源音频基础模型,旨在处理多种音频处理任务,如语音识别和音频对话。
语音识别#音频处理
Search R1
Search-R1 是一个强化学习框架,旨在训练能够进行推理和调用搜索引擎的语言模型(LLMs)。
模型训练与部署#自然语言处理
Genprm
GenPRM 是一种新兴的过程奖励模型(PRM),通过生成推理来提高在测试时的计算效率。
模型训练与部署#生成推理
Amazon Nova Sonic
Amazon Nova Sonic 是一款前沿的基础模型,能够整合语音理解和生成,提升人机对话的自然流畅度。
语音识别#人工智能
Arthur Engine
Arthur Engine 是一个旨在监控和治理 AI/ML 工作负载的工具,利用流行的开源技术和框架。
模型训练与部署#机器学习
Cohere Command
Cohere Command 是一个高可扩展性的语言模型系列,旨在为企业提供可靠的人工智能解决方案,助力团队专注于重要工作。
模型训练与部署#人工智能
Factorio学习环境
Factorio Learning Environment(FLE)是基于《Factorio》游戏构建的新型框架,用于评估大型语言模型(LLMs)在长期规划、程序合成和资源优化方面的能力。
模型训练与部署#Factorio游戏
替代品
MNN LLM Android App
MNN-LLM 是一款高效的推理框架,旨在优化和加速大语言模型在移动设备和本地 PC 上的部署。
模型训练与部署#人工智能
Parakeet Tdt 0.6b V2
parakeet-tdt-0.6b-v2 是一个 600 百万参数的自动语音识别(ASR)模型,旨在实现高质量的英语转录,具有准确的时间戳预测和自动标点符号、大小写支持。
语音识别#深度学习
Kimi Audio
Kimi-Audio 是一个先进的开源音频基础模型,旨在处理多种音频处理任务,如语音识别和音频对话。
语音识别#音频处理
Search R1
Search-R1 是一个强化学习框架,旨在训练能够进行推理和调用搜索引擎的语言模型(LLMs)。
模型训练与部署#自然语言处理
Arthur Engine
Arthur Engine 是一个旨在监控和治理 AI/ML 工作负载的工具,利用流行的开源技术和框架。
模型训练与部署#机器学习
Factorio学习环境
Factorio Learning Environment(FLE)是基于《Factorio》游戏构建的新型框架,用于评估大型语言模型(LLMs)在长期规划、程序合成和资源优化方面的能力。
模型训练与部署#Factorio游戏
Light R1
Light-R1 是一个由 Qihoo360 开发的开源项目,旨在通过课程式监督微调(SFT)、直接偏好优化(DPO)和强化学习(RL)训练长链推理模型。
模型训练与部署#长链推理
Awesome LLM Post Training
Awesome-LLM-Post-training 是一个专注于大型语言模型(LLM)后训练方法的资源库。
模型训练与部署#后训练
Bytedance Flux
Flux 是由字节跳动开发的一个高性能通信重叠库,专为 GPU 上的张量和专家并行设计。
模型训练与部署#并行计算