简介
GameGen-X是专为生成和交互控制开放世界游戏视频而设计的扩散变换模型。该模型通过模拟游戏引擎的多种特性,如创新角色、动态环境、复杂动作和多样事件,实现了高质量、开放领域的视频生成。此外,它还提供了交互控制能力,能够根据当前视频片段预测和改变未来内容,从而实现游戏玩法模拟。为了实现这一愿景,我们首先从零开始收集并构建了一个开放世界视频游戏数据集(OGameData),这是第一个也是最大的开放世界游戏视频生成和控制数据集,包含超过150款游戏的100多万个多样化游戏视频片段,这些片段都配有GPT-4o的信息性字幕。GameGen-X经历了两阶段的训练过程,包括基础模型预训练和指令调优。首先,模型通过文本到视频生成和视频续集进行预训练,赋予了其长序列、高质量开放领域游戏视频生成的能力。进一步,为了实现交互控制能力,我们设计了InstructNet来整合与游戏相关的多模态控制信号专家。这使得模型能够根据用户输入调整潜在表示,首次在视频生成中统一角色交互和场景内容控制。在指令调优期间,只有InstructNet被更新,而预训练的基础模型被冻结,使得交互控制能力的整合不会损失生成视频内容的多样性和质量。GameGen-X代表了使用生成模型进行开放世界视频游戏设计的一次重大飞跃。它展示了生成模型作为传统渲染技术的辅助工具的潜力,有效地将创造性生成与交互能力结合起来。
截图

产品特色
- 高质量游戏生成:能够生成包括角色、环境、动作和事件在内的高质量游戏视频。
- 角色生成:支持生成Geralt of Rivia、Arthur Morgan、Eivor、Jin Sakai等角色。
- 环境生成:能够模拟春夏秋冬四季以及湖泊、海洋、薰衣草田、金字塔等环境。
- 动作生成:包括摩托车(第一人称和第三人称)、驾驶、飞行、航行等多种动作。
- 事件生成:能够生成下雨、下雪、打雷、日出、开火、沙尘暴、海啸、龙卷风等事件。
- 开放领域生成:支持生成如中国城漫游的Cybermonk、站在另一个维度的TimeMaster等开放领域视频。
- 多模态交互控制:包括结构化指令提示、操作信号和视频提示,实现对游戏视频的交互控制。
使用教程
1. 访问GameGen-X的GitHub页面以获取模型和数据集。
2. 根据文档说明安装和配置所需的环境和依赖。
3. 使用OGameData数据集训练基础模型,以获得高质量的游戏视频生成能力。
4. 通过InstructNet进行指令调优,以实现交互控制能力。
5. 根据需要生成或控制游戏视频,例如生成特定角色或环境,或根据用户输入改变游戏事件。
6. 分析和评估生成的视频内容,以确保其质量和多样性。
7. 将GameGen-X集成到游戏开发流程中,以提高游戏设计的创新性和交互性。
流量来源
直接访问 | 4.06% | 外链引荐 | 43.32% | 邮件 | 0.00% |
自然搜索 | 52.62% | 社交媒体 | 0.00% | 展示广告 | 0.00% |
最新流量情况
月访问量
671
平均访问时长
24.57
每次访问页数
1.68
跳出率
56.27%
总流量趋势图
地理流量分布情况
波兰
100.00%
地理流量分布全球图
同类开源产品

AI Dance Generator
VideoPlus.ai是一款AI舞蹈生成器,利用AI技术快速生成引人注目的舞蹈视频,用户可定制舞蹈风格、人物和主题,无水印,适用于舞蹈爱好者、社交媒体影响者等。
视频生成#AI

Veo3video
Veo3 Video是一款利用Google Veo3模型生成高质量视频的平台。
视频生成#AI技术

Veo3
Veo 3是最新的AI视频生成工具,可添加音效、对话和环境噪音,将您的故事栩栩如生。
视频生成#AI

Veo 3
国外精选
Veo 3 是最新的视频生成模型,旨在通过更高的现实主义和音频效果,提供 4K 输出,能更准确地遵循用户的提示。
视频生成#深度学习

Flow AI
Flow 是一个为创作者打造的 AI 电影制作工具,利用 Google DeepMind 的先进模型,用户可以轻松创建出色的电影片段、场景和故事。
视频生成#视频制作

Index AniSora
优质新品
Index-AniSora是由B站开源的顶尖动画视频生成模型,基于AniSora技术实现,支持多种二次元风格视频镜头的一键生成,如番剧、国创、漫改动画、VTuber、动画PV和鬼畜动画等。
视频生成

Hunyuancustom
中文精选
HunyuanCustom 是一个多模态定制视频生成框架,旨在根据用户定义的条件生成特定主题的视频。
视频生成#多模态

Reel Rabbit
Reel Rabbit是一款AI视频制作平台,利用AI技术快速生成病毒级视频,帮助用户提高流量和品牌曝光。
视频生成#AI技术

Hyperpad
hyperPad是一款在iPad上创建和发布游戏的工具,无需编码。
游戏生成#游戏开发
替代品

Index AniSora
优质新品
Index-AniSora是由B站开源的顶尖动画视频生成模型,基于AniSora技术实现,支持多种二次元风格视频镜头的一键生成,如番剧、国创、漫改动画、VTuber、动画PV和鬼畜动画等。
视频生成

Hunyuancustom
中文精选
HunyuanCustom 是一个多模态定制视频生成框架,旨在根据用户定义的条件生成特定主题的视频。
视频生成#多模态

Pixverse MCP
PixVerse-MCP 是一个工具,允许用户通过支持模型上下文协议(MCP)的应用程序访问 PixVerse 最新的视频生成模型。
视频生成#AI 工具

Avatarfx
国外精选
AvatarFX 是一个尖端的 AI 平台,专注于互动故事讲述。
视频生成#视频生成

Skyreels V2
优质新品
SkyReels-V2 是昆仑万维 SkyReels 团队发布的全球首个使用扩散强迫框架的无限时长电影生成模型。
视频生成#视频生成

Wan2.1 FLF2V 14B
中文精选
Wan2.1-FLF2V-14B 是一个开源的大规模视频生成模型,旨在推动视频生成领域的进步。
视频生成#深度学习

Pusa
Pusa 通过帧级噪声控制引入视频扩散建模的创新方法,能够实现高质量的视频生成,适用于多种视频生成任务(文本到视频、图像到视频等)。
视频生成#开源

Skyreels A2
SkyReels-A2 是一个基于视频扩散变换器的框架,允许用户合成和生成视频内容。
视频生成#深度学习

Pokemongym
PokemonGym 是一个基于服务器 - 客户端架构的平台,专为 AI 代理设计,能够在 Pokemon Red 游戏中进行评估和训练。
游戏生成#游戏
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k