Voice Cursor : 一个展示Gemini 2.0原生音频能力的实验性文本编辑器

开发与工具

Voice Cursor

Voice Cursor

开发与工具 AI模型 #Gemini 2.0 #文本到语音 #实验性项目 #Google Creative Lab #无障碍技术普通产品开源

简介 :

Voice Cursor是一个基于Gemini 2.0原生音频能力的实验性文本编辑器，它展示了如何将Gemini的新文本到语音API集成到文本编辑器中，以实现流畅、上下文的声音生成。这个项目不仅展示了Gemini 2.0的强大新功能，还提供了一个实际应用的示例，允许开发者和用户探索和利用这一新技术。产品背景信息包括Google Creative Lab的创新项目，旨在推动技术边界并提供新的交互方式。产品目前是免费的，主要面向开发者和技术爱好者，适合那些寻求创新解决方案以提高生产力和无障碍访问的个人或团队。

需求人群 :

目标受众为开发者和技术爱好者，特别是那些对自然语言处理和语音合成技术感兴趣的群体。Voice Cursor提供了一个实验平台，让他们可以探索和利用Gemini 2.0的原生音频能力，创造新的应用场景，提高文本内容的可访问性和互动性。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 61.5K

使用场景

开发者可以利用Voice Cursor创建具有语音反馈的文本编辑器，提高视障人士的写作体验。

内容创作者可以使用Voice Cursor将文本内容转换为音频，为视频和播客制作提供素材。

教育工作者可以利用Voice Cursor将教学材料转换为音频，为有阅读障碍的学生提供辅助学习工具。

产品特色

集成Gemini 2.0文本到语音能力

提供8种不同的Gemini声音选项，具有独特特征

支持15种不同的情感语调，以塑造文本的表达方式

视觉集成，通过颜色编码高亮显示使用的声音和语调

即时生成，由Gemini的最新模型提供快速的音频合成

克隆仓库并安装依赖以开始使用

创建包含AI Studio API密钥的.env.local文件以启用功能

启动开发服务器以在本地测试和体验

使用教程

1. 克隆Voice Cursor的GitHub仓库到本地环境。

2. 安装项目所需的依赖。

3. 创建一个.env.local文件，并填入从Google AI Studio获取的API密钥。

4. 启动开发服务器，通常通过运行命令`npm run dev`。

5. 在浏览器中打开`http://localhost:3000`，开始体验Voice Cursor。

6. 高亮显示文本，Voice Cursor将根据选择的声音和语调生成音频。

7. 探索不同的情感语调选项，通过修改`src/lib/tone-options.ts`文件来自定义音频输出。

精选AI产品推荐

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。

AI模型多模态

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AI模型图像生成

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24