
Openai Realtime Api
目标受众主要是开发者和软件工程师,特别是那些需要在项目中集成实时语音功能的专业人士。由于它支持多种环境,因此对于需要跨平台解决方案的开发者来说,它是一个理想的选择。此外,由于其强类型的特性,它也适合那些注重代码质量和维护性的开发者。
总访问量: 492,133,528
占比最多地区: US(19.34%)
828
简介
openai-realtime-api是一个TypeScript客户端,用于与OpenAI的实时语音API进行交互。它提供了强类型的特性,并且是OpenAI官方JavaScript版本的完美替代品。该客户端修复了许多小错误和不一致性,并且完全兼容官方和非官方事件。它支持Node.js、浏览器、Deno、Bun、CF workers等多种环境,并且已发布到NPM。该技术的重要性在于它能够为开发者提供一种更安全、更便捷的方式来集成和使用OpenAI的实时语音功能,特别是在需要处理大量数据和请求时。
截图

产品特色
支持Node.js、浏览器、Deno、Bun、CF workers等多种环境。
提供了一个简单的中继服务器,方便在不支持直接API调用的环境中使用。
包含了Node.js CLI示例,便于本地测试。
支持所有事件的完全类型化,提高代码的可读性和可维护性。
修复了多个小错误和不一致性,提升了API的稳定性和可靠性。
提供了一个OpenAI实时控制台演示,展示了该包的功能。
允许自定义事件处理,提供了更灵活的API使用方式。
使用教程
1. 克隆该项目到本地环境。
2. 安装依赖项,使用命令 `pnpm install`。
3. 设置 `.env` 文件,填入你的 `OPENAI_API_KEY`。
4. 根据需要运行不同的示例,例如使用命令 `npx tsx examples/node/basic.ts` 运行基本的Node.js示例。
5. 如果需要在浏览器中使用,可以创建一个指向中继服务器的 `RealtimeClient` 实例。
6. 如果需要在Node.js环境中直接使用API密钥,可以在创建 `RealtimeClient` 实例时传入 `apiKey` 和 `dangerouslyAllowAPIKeyInBrowser: true`。
7. 参考官方文档和示例代码,根据项目需求进行相应的API调用和事件处理。
流量来源
直接访问 | 51.61% | 外链引荐 | 33.46% | 邮件 | 0.04% |
自然搜索 | 12.58% | 社交媒体 | 2.19% | 展示广告 | 0.11% |
最新流量情况
月访问量
4.92m
平均访问时长
393.01
每次访问页数
6.11
跳出率
36.20%
总流量趋势图
地理流量分布情况
美国
19.34%
中国
13.25%
印度
9.32%
俄罗斯
4.28%
德国
3.63%
地理流量分布全球图
同类开源产品

GPTACG
GPTACG中转API提供OpenAI官方api转发服务,主打稳定性,适合对稳定性有高要求的应用场景。
AI API工具和服务#稳定性

Openai Realtime Api
openai-realtime-api是一个TypeScript客户端,用于与OpenAI的实时语音API进行交互。
AI API工具和服务#OpenAI

派欧算力云
中文精选
派欧算力云是一个一站式AIGC云服务平台,提供高性价比的GPU基础设施和无缝集成的最前沿AI推理技术。
AI API工具和服务#云服务

派欧算力云大模型 API
优质新品
派欧算力云大模型 API 提供易于集成的各模态 API 服务,包括大语言模型、图像、音频、视频等,旨在帮助用户轻松构建专属的 AIGC 应用。
AI API工具和服务#API

Message Batches API
国外精选
Message Batches API是Anthropic推出的一款API,它允许开发者异步处理大量查询,每个批次最多可包含10,000个查询。
AI API工具和服务#异步查询

Reverb
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。
AI语音识别#说话人分割

Whisper Large V3 Turbo
优质新品
Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。
AI语音识别#语音翻译

Realtime API
国外精选
Realtime API 是 OpenAI 推出的一款低延迟语音交互API,它允许开发者在应用程序中构建快速的语音到语音体验。
AI语音识别#低延迟

Omnisensevoice
OmniSenseVoice是基于SenseVoice优化的语音识别模型,专为快速推理和精确时间戳设计,提供更智能、更快速的音频转录方式。
AI语音识别#时间戳
替代品

Openai Realtime Api
openai-realtime-api是一个TypeScript客户端,用于与OpenAI的实时语音API进行交互。
AI API工具和服务#OpenAI

Reverb
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。
AI语音识别#说话人分割

Whisper Large V3 Turbo
优质新品
Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。
AI语音识别#语音翻译

Omnisensevoice
OmniSenseVoice是基于SenseVoice优化的语音识别模型,专为快速推理和精确时间戳设计,提供更智能、更快速的音频转录方式。
AI语音识别#时间戳

Crisperwhisper
CrisperWhisper是基于OpenAI的Whisper模型的高级变体,专为快速、准确、逐字的语音识别设计,提供准确的词级时间戳。
AI语音识别#逐字转录

Seed ASR
优质新品
Seed-ASR是由字节跳动公司开发的基于大型语言模型(Large Language Model, LLM)的语音识别模型。
AI语音识别#大型语言模型

Whisper Diarization
whisper-diarization是一个结合了Whisper自动语音识别(ASR)能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。
AI语音识别#说话人分割

RTVI AI
RTVI-AI是一个旨在简化构建AI语音到语音和实时视频应用的开放标准。
AI API工具和服务#实时多媒体

Sensevoicesmall
SenseVoiceSmall是一款具备多种语音理解能力的语音基础模型,包括自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。
AI语音识别#情感分析
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k