资讯 - 济南通悟人工智能科技有限公司

在科技发展的浪潮中，DeepMind 犹如一颗璀璨的明星，不断照亮人工智能的前行之路。就在不久前的 2024 年 12 月 05 日 03:15:00，DeepMind 最强「基础世界模型」——Genie 2 震撼诞生！它就像一把神奇的钥匙，开启了下一代智能体的大门。

Genie 2 拥有令人惊叹的能力，只要一张图，就能生成长达 1 分钟的游戏世界。这仿佛是一位魔法大师，轻轻挥动魔杖，便创造出一个充满奇幻色彩的世界。从第一人称的真实世界场景，到第三人称的驾驶环境，Genie 2 生成的 720p 世界犹如一幅绚丽的画卷，徐徐展开在我们眼前。

给定一幅图像，它能模拟出世界动态，创建一个可通过键盘和鼠标输入的、可操作的一致环境。在这个世界里，具身智能体的潜力得到了充分的展现。研究者们在 Imagen 3 生成的世界中进行测试，结果令人惊喜。智能体可以遵循语言指令，走到红门或蓝门，为我们打开了一扇通往无限可能的大门。

Genie 2 作为一种基础世界生成模型，能生成无限多样的、可操控且可玩的 3D 环境，用于训练和评估具身智能体。它就像是一个无穷无尽的宝藏，为未来的通用智能体提供了丰富多样的训练环境。

在 Genie 2 的世界里，我们可以看到各种神奇的景象。它能够智能响应通过键盘按键采取的动作，识别角色并正确移动。它还能生成反事实，为 AI 训练提供各种「如果这样做会怎样」的场景。同时，Genie 2 具有长时间记忆的能力，能够记住那些暂时离开画面的场景，并在它们重新进入视野时，精确地还原出来。此外，它还能持续生成新场景，在长达一分钟的时间内保持整个世界的一致性。

Genie 2 不仅能够生成多种不同的观察视角，还能创建复杂的 3D 视觉场景，建模各种物体交互，为不同类型的角色制作动画，为其他智能体建模，甚至模拟出水面的动效、烟雾、重力、光照和反射等物理效果。它还可以将真实世界的图像作为提示词输入，并模拟出草叶在风中摇曳或河水流动等场景。

凭借强大的离散泛化能力，Genie 2 可以将概念设计图和手绘草图转化为可实际交互的场景，让艺术家和设计师能够快速验证创意。借助 Genie 2，研究人员能够快速构建出丰富多样的虚拟环境，并创造全新的评估任务，来测试 AI 智能体在从未接触过的场景中的表现。

虽然这项研究还处于起步阶段，但 DeepMind 团队相信，Genie 2 是解决安全训练具身智能体这一结构性问题的路径，同时也能够实现通向通用人工智能所需的广度和通用性。

DeepMind 推出超强基础世界模型 Genie 2