# 低延迟
Cloudflare AI Agents
国外精选
Cloudflare AI Agents 是一个基于 Cloudflare Workers 和 Workers AI 的平台,旨在帮助开发者构建能够自主执行任务的 AI 代理。
开发与工具#自动化
1,080
Deepep
优质新品
DeepEP 是一个专为混合专家模型(MoE)和专家并行(EP)设计的通信库。
开发与工具#混合专家模型开源
444
Mistral Small 3
优质新品
Mistral Small 3 是由 Mistral AI 推出的一款开源语言模型,具有 24B 参数,采用 Apache 2.0 许可证。
AI模型#低延迟
1,068
Hibiki
Hibiki 是一款专注于流式语音翻译的先进模型。
翻译#实时翻译开源
960
Gemini 2.0 Family
国外精选
Gemini 2.0 是谷歌在生成式 AI 领域的重要进展,代表了最新的人工智能技术。
AI模型#编程
516
Speechgpt 2.0 Preview
SpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。
语音转文本#人工智能
636
RAIN
RAIN是一种实时动画无限视频流技术,能够在消费级设备上实现高质量、低延迟的实时动画。
视频生成#视频流开源
1,044
Elevenlabs Flash
国外精选
Flash是ElevenLabs最新推出的文本转语音(Text-to-Speech, TTS)模型,它以75毫秒加上应用和网络延迟的速度生成语音,是低延迟、会话型语音代理的首选模型。
文本转声音#TTS
1,128
Cosyvoice 2
CosyVoice 2是由阿里巴巴集团的SpeechLab@Tongyi团队开发的语音合成模型,它基于监督离散语音标记,并结合了两种流行的生成模型:语言模型(LMs)和流匹配,实现了高自然度、内容一致性和说话人相似性的语音合成。
语音克隆#流媒体开源
2,076
Toolhouse
Toolhouse是一个为AI应用提供高效动作和知识的一键部署平台,通过优化的云基础设施,减少推理时间,节省令牌使用,提供低延迟工具,并在边缘提供最佳延迟的服务。
#云基础设施
312
Videochat
VideoChat是一个实时语音交互数字人项目,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。
聊天机器人#数字人开源
2,196
Realtime API
国外精选
Realtime API 是 OpenAI 推出的一款低延迟语音交互API,它允许开发者在应用程序中构建快速的语音到语音体验。
AI语音识别#低延迟
2,268
Groq
Groq是一家提供高性能AI芯片和云服务的公司,专注于为AI模型提供超低延迟的推理服务。
开发与工具#云服务
10.14k
Llama Omni
LLaMA-Omni是一个基于Llama-3.1-8B-Instruct构建的低延迟、高质量的端到端语音交互模型,旨在实现GPT-4o级别的语音能力。
AI模型#端到端模型开源
1,104
Tavus CVI
优质新品
Tavus Conversational Video Interface (CVI) 是一个创新的视频对话平台,它通过数字孪生技术提供面对面的互动体验。
AI视频生成#低延迟
768
Voicechat2
voicechat2是一个基于WebSocket的快速、完全本地化的AI语音聊天应用程序,使用户能够在本地环境中实现语音到语音的即时通讯。
AI语音聊天#语音聊天开源
1,692
Sensevoice
SenseVoice是一个包含自动语音识别(ASR)、语音语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等多语音理解能力的语音基础模型。
AI语音识别#情感分析开源
3,468
Carteisa Sonic
国外精选
Sonic是由Carteisa团队开发的低延迟语音模型,旨在为各种设备提供逼真的语音生成能力。
语音克隆#低延迟
1,236