VLOGGER : 文本和语音驱动的人体视频生成，从单张人物输入图像生成视频。

VLOGGER

VLOGGER

适用于需要从单张静态图像生成动态视频的场景，如视频编辑、形象替换等。

AI视频生成 AI图像生成 #视频生成 #人体合成 #文本到视频 #音频到视频普通产品开源

总访问量： 1,606

占比最多地区： US(54.43%)

12.64k

简介

VLOGGER是一种从单张人物输入图像生成文本和音频驱动的讲话人类视频的方法，它建立在最近生成扩散模型的成功基础上。我们的方法包括1)一个随机的人类到3D运动扩散模型，以及2)一个新颖的基于扩散的架构，通过时间和空间控制增强文本到图像模型。这种方法能够生成长度可变的高质量视频，并且通过对人类面部和身体的高级表达方式轻松可控。与以前的工作不同，我们的方法不需要为每个人训练，也不依赖于人脸检测和裁剪，生成完整的图像（而不仅仅是面部或嘴唇），并考虑到正确合成交流人类所需的广泛场景（例如可见的躯干或多样性主体身份）。

截图

产品特色

文本和音频驱动的视频生成

高质量视频生成

可控性高

身体运动模拟

面部和姿势控制

流量来源

直接访问	44.56%	外链引荐	36.39%	邮件	0.09%
自然搜索	9.56%	社交媒体	8.26%	展示广告	0.95%

最新流量情况

月访问量

2813

平均访问时长

0.07

每次访问页数

1.11

跳出率

46.69%

总流量趋势图

地理流量分布情况

美国

54.43%

印度

24.68%

德国

18.60%

加拿大

2.28%

地理流量分布全球图

同类开源产品

Hallo2是一种基于潜在扩散生成模型的人像图像动画技术，通过音频驱动生成高分辨率、长时的视频。

AI图像生成#音频驱动

AI Sketchnotes Generator

AI Sketchnotes Generator是一款在线工具，能够将文本内容自动转换成吸引人的草图笔记。

AI图像生成#AI生成

Flux AI是一个利用先进AI算法来生成高质量图像的平台。

AI图像生成#深度学习

ComfyGen 是一个专注于文本到图像生成的自适应工作流系统，它通过学习用户提示来自动化并定制有效的工作流。

AI图像生成#自适应工作流

京亦智能AI视频生成

京亦智能AI视频生成神器是一款利用人工智能技术，将静态的老照片转化为动态视频的产品。

AI视频生成#老照片

薯图宝是一款旨在提升图文制作效率的批量生成工具，它通过个性化模板和文案数据组合，快速生成大量图片，适用于小红书、抖音、视频号等全平台图文制作。

AI图像生成#批量处理

AnimeGen是一个利用先进AI模型将文本提示转化为动漫风格图片的在线工具。

AI图像生成#动漫

AnyPhoto.co是一个利用人工智能技术提供图片风格化和艺术效果的在线平台。

AI图像生成#艺术效果

Comfyui Fluxtapoz

ComfyUI-Fluxtapoz是一个为Flux在ComfyUI中编辑图像而设计的节点集合。

AI图像生成#Flux

替代品

Hallo2是一种基于潜在扩散生成模型的人像图像动画技术，通过音频驱动生成高分辨率、长时的视频。

AI图像生成#音频驱动

ComfyGen 是一个专注于文本到图像生成的自适应工作流系统，它通过学习用户提示来自动化并定制有效的工作流。

AI图像生成#自适应工作流

Comfyui Fluxtapoz

ComfyUI-Fluxtapoz是一个为Flux在ComfyUI中编辑图像而设计的节点集合。

AI图像生成#Flux

Toy Box Flux是一个基于AI生成图像训练的3D渲染模型，它结合了现有的3D LoRA模型和Coloring Book Flux LoRA的权重，形成了独特的风格。

AI图像生成#3D渲染

DisEnvisioner是一种先进的图像生成技术，它通过分离和增强主题特征来生成定制化的图像，无需繁琐的调整或依赖多张参考图片。

AI图像生成#定制化

RF-Inversion是一个专注于图像生成和编辑的技术，它通过随机微分方程（SDE）来实现图像的反转和编辑。

AI图像生成#语义编辑

Animate-X是一个基于LDM的通用动画框架，用于各种角色类型（统称为X），包括人物拟态角色。

AI图像生成#图像动画

TANGO是一个基于层次化音频-运动嵌入和扩散插值的共语手势视频重现技术。

AI视频生成#手势识别

Meissonic是一个非自回归的掩码图像建模文本到图像合成模型，能够生成高分辨率的图像。

AI图像生成#高分辨率

精选AI产品推荐

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。

开发平台#应用开发

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。

音频生成#AI

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。

AI设计工具#创意工具

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。

AI模型#图像处理开源

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。

文章摘要#AI

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。

视频编辑#视频处理开源

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。

音频生成#文本转语音

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。

AI模型#图像生成

AIbase

AIbase是一个专注于MCP服务的平台，为AI开发者提供高质量的模型上下文协议服务，助力AI应用开发。

简体中文

热门AI产品

Deepseek R1 0528

Migo AI文献阅读助手

热门AI产品分类

开发与工具

聊天机器人

热门标签

生产力工具

© 2025AIbase 备案号：闽ICP备08105208号-24