# 实时处理
实时处理
RF DETR
RF-DETR 是一个基于变压器的实时目标检测模型,旨在为边缘设备提供高精度和实时性能。
目标检测#深度学习开源
4,524
Sesame AI
Sesame AI 代表了下一代语音合成技术,通过结合先进的人工智能技术和自然语言处理,能够生成极其逼真的语音,具备真实的情感表达和自然的对话流程。
语音克隆#人工智能
2,196
Soundlabs AI
国外精选
Soundlabs AI 是一款面向音乐制作人的音频工具,专注于实时声音和乐器转换。
音乐生成#音乐制作
1,872
Verizon AI Connect
Verizon AI Connect 是 Verizon 推出的一套面向企业的 AI 解决方案,旨在帮助企业充分利用强大的 AI 能力。
开发平台#网络
888
SAMURAI
SAMURAI是一种基于Segment Anything Model 2 (SAM 2)的视觉对象跟踪模型,专门设计用于处理快速移动或自遮挡对象的视觉跟踪任务。
#零样本学习开源
1,200
Segment Anything Model 2
优质新品
Segment Anything Model 2 (SAM 2)是Meta公司AI研究部门FAIR推出的一个视觉分割模型,它通过简单的变换器架构和流式内存设计,实现实时视频处理。
AI图像检测识别#视觉分割开源
924
Sensevoice
SenseVoice是一个包含自动语音识别(ASR)、语音语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等多语音理解能力的语音基础模型。
AI语音识别#情感分析开源
3,468
Indexify
国外精选
Indexify是一个开源数据框架,具有实时提取引擎和预构建的提取适配器,能够可靠地从各种非结构化数据(文档、演示文稿、视频和音频)中提取数据。
数据分析#实时处理
936
PAB
PAB 是一种用于实时视频生成的技术,通过 Pyramid Attention Broadcast 实现视频生成过程的加速,提供了高效的视频生成解决方案。
AI视频生成#实时处理开源
2,424
Streamv2v
优质新品
StreamV2V是一个扩散模型,它通过用户提示实现了实时的视频到视频(V2V)翻译。
AI视频生成#扩散模型开源
2,472
Lookoncetohear
LookOnceToHear 是一种创新的智能耳机交互系统,允许用户通过简单的视觉识别来选择想要听到的目标说话者。
AI语音识别#实时处理开源
2,244
Streamvoice
StreamVoice是一种基于语言模型的零唇语音转换模型,可实现实时转换,无需完整的源语音。
AI语音合成#上下文感知开源
1,776
谷歌AI
MediaPipe是一个由Google开发的开源跨平台机器学习框架,它能够帮助开发者通过简单的API轻松地在不同设备(手机、平板、浏览器、IoT设备等)上构建复杂的机器学习模型和应用。
开发与工具#开发编程
3,756