# 低延迟

Cloudflare AI Agents
国外精选
Cloudflare AI Agents 是一个基于 Cloudflare Workers 和 Workers AI 的平台,旨在帮助开发者构建能够自主执行任务的 AI 代理。
开发与工具#自动化
1,080

Deepep
优质新品
DeepEP 是一个专为混合专家模型(MoE)和专家并行(EP)设计的通信库。
开发与工具#混合专家模型开源
444

Mistral Small 3
优质新品
Mistral Small 3 是由 Mistral AI 推出的一款开源语言模型,具有 24B 参数,采用 Apache 2.0 许可证。
AI模型#低延迟
1,068

Hibiki
Hibiki 是一款专注于流式语音翻译的先进模型。
翻译#实时翻译开源
960

Gemini 2.0 Family
国外精选
Gemini 2.0 是谷歌在生成式 AI 领域的重要进展,代表了最新的人工智能技术。
AI模型#编程
516

Speechgpt 2.0 Preview
SpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。
语音转文本#人工智能
636

RAIN
RAIN是一种实时动画无限视频流技术,能够在消费级设备上实现高质量、低延迟的实时动画。
视频生成#视频流开源
1,044

Elevenlabs Flash
国外精选
Flash是ElevenLabs最新推出的文本转语音(Text-to-Speech, TTS)模型,它以75毫秒加上应用和网络延迟的速度生成语音,是低延迟、会话型语音代理的首选模型。
文本转声音#TTS
1,128

Cosyvoice 2
CosyVoice 2是由阿里巴巴集团的SpeechLab@Tongyi团队开发的语音合成模型,它基于监督离散语音标记,并结合了两种流行的生成模型:语言模型(LMs)和流匹配,实现了高自然度、内容一致性和说话人相似性的语音合成。
语音克隆#流媒体开源
2,076

Toolhouse
Toolhouse是一个为AI应用提供高效动作和知识的一键部署平台,通过优化的云基础设施,减少推理时间,节省令牌使用,提供低延迟工具,并在边缘提供最佳延迟的服务。
#云基础设施
312

Videochat
VideoChat是一个实时语音交互数字人项目,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。
聊天机器人#数字人开源
2,196

Realtime API
国外精选
Realtime API 是 OpenAI 推出的一款低延迟语音交互API,它允许开发者在应用程序中构建快速的语音到语音体验。
AI语音识别#低延迟
2,268

Groq
Groq是一家提供高性能AI芯片和云服务的公司,专注于为AI模型提供超低延迟的推理服务。
开发与工具#云服务
10.14k

Llama Omni
LLaMA-Omni是一个基于Llama-3.1-8B-Instruct构建的低延迟、高质量的端到端语音交互模型,旨在实现GPT-4o级别的语音能力。
AI模型#端到端模型开源
1,104

Tavus CVI
优质新品
Tavus Conversational Video Interface (CVI) 是一个创新的视频对话平台,它通过数字孪生技术提供面对面的互动体验。
AI视频生成#低延迟
768

Voicechat2
voicechat2是一个基于WebSocket的快速、完全本地化的AI语音聊天应用程序,使用户能够在本地环境中实现语音到语音的即时通讯。
AI语音聊天#语音聊天开源
1,692

Sensevoice
SenseVoice是一个包含自动语音识别(ASR)、语音语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等多语音理解能力的语音基础模型。
AI语音识别#情感分析开源
3,468

Carteisa Sonic
国外精选
Sonic是由Carteisa团队开发的低延迟语音模型,旨在为各种设备提供逼真的语音生成能力。
语音克隆#低延迟
1,236
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k