DeepMind推出Genie 2：革命性的3D游戏世界生成模型

谷歌的人工智能（AI）研究机构DeepMind最近发布了一款名为Genie 2的模型，这款模型在生成游戏3D世界方面展现出了巨大的潜力。作为DeepMind早期Genie模型的升级版，Genie 2能够从一张图片和相关的文字描述中创建一个互动的实时场景，例如描述为“一个可爱的类人机器人在树林中”的场景。

3D世界的无限可能

DeepMind指出，Genie 2能够创造多种不同的3D环境，玩家可以通过键盘或鼠标进行互动，如跳跃、游泳等。这一模型经过大量视频数据的训练，具备模拟物体互动、动画、光照、物理效应、反射以及非玩家角色（NPC）行为的能力。这使得由Genie 2生成的场景，很多都呈现出接近AAA游戏的画面效果，反映了其使用了不少热门游戏的视觉数据作为训练素材。

然而，DeepMind出于商业竞争及其他原因，未公开具体的数据来源，这引发了外界对版权问题的关注。作为谷歌的子公司，DeepMind有能力访问YouTube，而谷歌曾表示其使用条款允许利用YouTube的视频进行模型训练。当前尚需法律解读以判断Genie 2是否未经授权“观看”并复制了某些游戏内容。

互动体验与智能反应

Genie 2的亮点之一在于其生成的世界可以支持多个视角，包括第一人称和等距视角。最长可以持续一分钟的副本让玩家体验，这一时间决定在大多数情况下为10到20秒内。同时，Genie 2能够根据玩家的键盘输入做出智能反应，灵活控制角色的移动，避免误操作。

尽管Genie 2在模拟游戏环境方面表现出色，但它仍然面临着分辨率低、场景一致性差及生成失真等挑战。与其他模型类似，例如Decart的Minecraft模拟器Oasis，Genie 2也需要通过不断进行更新和优化来提高其效能。不过，值得一提的是，Genie 2具备记忆视野外场景的能力，当这些场景重新出现在视野中时，它能够准确地呈现出来，这在世界模型中是一项非常实用的功能。

创意工具的未来

由于Genie 2每分钟都会重置玩家的进度，因此它并不是一个特别好玩的游戏，而是被DeepMind视为研究和创作工具。凭借这一技术，创意人员如概念艺术家等可以通过将艺术作品与图纸转化为互动环境，加速AI智能体的评估。DeepMind表示，利用Genie 2，研究人员能够设计出训练中未见过的评估任务，从而推动更广泛的AI研究。

虽然此项技术令游戏开发者感到复杂，但谷歌在世界模型领域持续加大投入的态度不容忽视。DeepMind近期还引入了曾在OpenAI从事视频生成技术开发的Tim Brooks，并在不久前从Meta引入了因“开放性”实验而闻名的Tim Rocktäschel。这种人才的汇聚和技术研发预示着，AI在为视频游戏行业创造价值的同时，也可能引领未来更多行业的技术变革。

随着AI技术的不断进步，像Genie 2这样的模型不仅改变了游戏开发的方式，也预示着更广泛的应用前景。未来，DeepMind可能会在AI游戏开发的道路上带来更多惊喜，您准备好迎接这一变化了吗？