# 实时处理

RF DETR
RF-DETR 是一个基于变压器的实时目标检测模型,旨在为边缘设备提供高精度和实时性能。
目标检测#深度学习开源
4,524

Sesame AI
Sesame AI 代表了下一代语音合成技术,通过结合先进的人工智能技术和自然语言处理,能够生成极其逼真的语音,具备真实的情感表达和自然的对话流程。
语音克隆#人工智能
2,196

Soundlabs AI
国外精选
Soundlabs AI 是一款面向音乐制作人的音频工具,专注于实时声音和乐器转换。
音乐生成#音乐制作
1,872

Verizon AI Connect
Verizon AI Connect 是 Verizon 推出的一套面向企业的 AI 解决方案,旨在帮助企业充分利用强大的 AI 能力。
开发平台#网络
888

SAMURAI
SAMURAI是一种基于Segment Anything Model 2 (SAM 2)的视觉对象跟踪模型,专门设计用于处理快速移动或自遮挡对象的视觉跟踪任务。
#零样本学习开源
1,200

Segment Anything Model 2
优质新品
Segment Anything Model 2 (SAM 2)是Meta公司AI研究部门FAIR推出的一个视觉分割模型,它通过简单的变换器架构和流式内存设计,实现实时视频处理。
AI图像检测识别#视觉分割开源
924

Sensevoice
SenseVoice是一个包含自动语音识别(ASR)、语音语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等多语音理解能力的语音基础模型。
AI语音识别#情感分析开源
3,468

Indexify
国外精选
Indexify是一个开源数据框架,具有实时提取引擎和预构建的提取适配器,能够可靠地从各种非结构化数据(文档、演示文稿、视频和音频)中提取数据。
数据分析#实时处理
936

PAB
PAB 是一种用于实时视频生成的技术,通过 Pyramid Attention Broadcast 实现视频生成过程的加速,提供了高效的视频生成解决方案。
AI视频生成#实时处理开源
2,424

Streamv2v
优质新品
StreamV2V是一个扩散模型,它通过用户提示实现了实时的视频到视频(V2V)翻译。
AI视频生成#扩散模型开源
2,472

Lookoncetohear
LookOnceToHear 是一种创新的智能耳机交互系统,允许用户通过简单的视觉识别来选择想要听到的目标说话者。
AI语音识别#实时处理开源
2,244

Streamvoice
StreamVoice是一种基于语言模型的零唇语音转换模型,可实现实时转换,无需完整的源语音。
AI语音合成#上下文感知开源
1,776

谷歌AI
MediaPipe是一个由Google开发的开源跨平台机器学习框架,它能够帮助开发者通过简单的API轻松地在不同设备(手机、平板、浏览器、IoT设备等)上构建复杂的机器学习模型和应用。
开发与工具#开发编程
3,756
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k