FLOAT : 基于流匹配的音频驱动说话人像视频生成方法

FLOAT

FLOAT

视频生成 AI模型 #人工智能 #人像动画 #音频驱动 #情感增强 #流匹配普通产品开源

简介 :

FLOAT是一种音频驱动的人像视频生成方法，它基于流匹配生成模型，将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间，实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器，并具有简单而有效的逐帧条件机制。此外，FLOAT支持语音驱动的情感增强，能够自然地融入富有表现力的运动。广泛的实验表明，FLOAT在视觉质量、运动保真度和效率方面均优于现有的音频驱动说话人像方法。

需求人群 :

目标受众为需要生成逼真说话人像视频的开发者、研究人员和内容创作者。FLOAT因其高效的运动设计和情感增强功能，特别适合需要在视频中融入自然表情和情感的专业人士。

总访问量： 2.1K

占比最多地区： US(52.37%)

本站浏览量： 64.3K

使用场景

1. 使用FLOAT生成具有特定情感表达的公众演讲视频。

2. 利用FLOAT技术为电影制作逼真的对话场景。

3. 在虚拟现实中，使用FLOAT技术创建具有自然表情的虚拟角色。

产品特色

- 音频驱动的人像视频生成：使用单个人像图像和驱动音频合成说话人像视频。

- 运动潜在空间编码：通过运动潜在自编码器将给定的人像图像编码为身份-运动潜在表示。

- 流匹配生成：通过流匹配（具有最优传输轨迹）生成音频条件的说话人像运动潜在。

- 情感增强：支持语音驱动的情感标签，提供情感感知的说话人像运动生成的自然方法。

- 情感重定向：在推理阶段可以重定向说话人像的情感，通过简单的独热情感标签进行操作。

- 与最新技术的比较：与非扩散基础方法和扩散基础方法进行比较，展示FLOAT的优势。

- 消融研究：对逐帧AdaLN（和门控）和流匹配进行消融研究，验证其效果。

- 不同数量的功能评估（NFEs）：展示少量NFEs对时间一致性的影响，并展示FLOAT在大约10 NFEs下生成合理视频结果的能力。

使用教程

1. 访问FLOAT项目页面并下载相关代码。

2. 准备单个人像图像和相应的驱动音频。

3. 根据文档说明，配置音频条件和情感标签。

4. 运行FLOAT模型，生成说话人像运动潜在。

5. 通过流匹配生成具有时间一致性的视频。

6. 调整情感重定向和NFEs以优化视频结果。

7. 导出并查看生成的逼真说话人像视频。

精选AI产品推荐

Pika是一个视频制作平台,用户可以上传自己的创意想法,Pika会自动生成相关的视频。主要功能有:支持多种创意想法转视频,视频效果专业,操作简单易用。平台采用免费试用模式,定位面向创意者和视频爱好者。

视频生成人工智能

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。

AI模型多模态

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24