Pixelplayer
["进行无监督的音频视觉分离","分析视听关系"]
总访问量: 0
2,136
简介
PixelPlayer是一个能够通过观看大量无标注视频学会定位产生声音的图像区域并分离输入声音成一组表示每个像素声音的组件的系统。我们的方法利用视觉和听觉双模态的自然同步特点,在不需要额外人工标注的情况下学习联合解析声音和图像的模型。该系统使用大量包含不同乐器组合独奏和二重奏演奏的训练视频进行训练。对每个视频没有提供出现了哪些乐器、它们在哪里以及它们是什么声音的监督。在测试阶段,系统的输入是一个展示不同乐器演奏的视频和单声道听觉输入。系统执行音频视觉源分离和定位,将输入声音信号分离成N个声音通道,每个通道对应不同的乐器类别。此外,系统可以定位声音并为输入视频中的每个像素分配不同的音频波形。
截图
产品特色
音频视觉源分离与定位
将声音信号分离成表示每个像素声音的组件
为输入视频的每个像素分配不同的音频波形
流量来源
直接访问0.00%外链引荐0.00%邮件0.00%
自然搜索0.00%社交媒体0.00%展示广告0.00%
最新流量情况
月访问量
0
平均访问时长
0.00
每次访问页数
0.00
跳出率
0
总流量趋势图
同类开源产品
Livideo AI
Livideo是一个提供无限面部交换视频的平台,使用AI技术,无需订阅费用,保护用户隐私。
视频编辑#无限
Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
Tiktok AI Alive
AI Alive是TikTok推出的创新功能,利用智能编辑工具将静态照片转换为生动的视频,为用户提供丰富多彩的创作可能性,强调简单易用,提升视觉叙事体验。
视频编辑#照片
Audio SDS
Audio-SDS 是一个将 Score Distillation Sampling(SDS)概念应用于音频扩散模型的框架。
音频生成#生成模型
Audiox
Audiox是一款利用AI技术生成专业音频的工具,无需音乐知识,可快速创建令人惊叹的音乐和声音效果。
音频生成#音乐制作
Twelvelabs
TwelveLabs是一个强大的视频智能平台,通过能够看、听、推理的人工智能,发现深度见解,分析、重组和自动化工作流程。
视频编辑#人工智能
Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理
Coverr
Coverr是一个提供免费高清和4K库存视频素材的网站,用户可以在个人和商业项目中免费下载并使用。
视频编辑#免费
123videotool
123VideoTool是一个强大的在线视频下载工具,可以轻松下载高质量的视频,主要优点是多功能且易于使用。
视频编辑#音频转换
替代品
Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理
Bilive
bilive 是一个专为 B 站直播录制而设计的工具,支持自动切片、弹幕渲染与字幕生成,兼容低配置设备,适合广泛用户群体。
视频编辑#B 站
AI 视频图文创作助手
AI 视频图文创作助手是一个开源工具,旨在将视频和音频内容转化为多种格式的文档,帮助用户进行二次阅读和思考。
视频编辑#视频处理
VACE
优质新品
VACE(Video All-in-One Creation and Editing)是由 Tongyi Lab 团队开发的一款多功能视频创作与编辑模型。
视频编辑#视频创作
Videopainter
VideoPainter 是一款基于深度学习的视频修复和编辑工具,采用预训练的扩散变换器模型,结合轻量级背景上下文编码器和 ID 重采样技术,能够实现高质量的视频修复和编辑。
视频编辑#文本引导
Trajectorycrafter
TrajectoryCrafter 是一种先进的相机轨迹重定向工具,利用扩散模型技术,将单目视频中的相机运动重新设计,提升视频的表现力和视觉吸引力。
视频编辑#相机轨迹
Smolvlm2
SmolVLM2 是一种轻量级的视频语言模型,旨在通过分析视频内容生成相关的文本描述或视频亮点。
视频编辑#文本生成
Videograin
VideoGrain 是一种基于扩散模型的视频编辑技术,通过调节时空注意力机制实现多粒度视频编辑。
视频编辑#扩散模型
Light A Video
Light-A-Video 是一种创新的视频重光照技术,旨在解决传统视频重光照中存在的光照不一致和闪烁问题。
视频编辑#AI 技术