DeepMind 推出超强基础世界模型 Genie 2

发布时间:2024-12-06 来源:时事 作者:通悟AI

在科技发展的浪潮中,DeepMind 犹如一颗璀璨的明星,不断照亮人工智能的前行之路。就在不久前的 2024 年 12 月 05 日 03:15:00,DeepMind 最强「基础世界模型」——Genie 2 震撼诞生!它就像一把神奇的钥匙,开启了下一代智能体的大门。


Genie 2 拥有令人惊叹的能力,只要一张图,就能生成长达 1 分钟的游戏世界。这仿佛是一位魔法大师,轻轻挥动魔杖,便创造出一个充满奇幻色彩的世界。从第一人称的真实世界场景,到第三人称的驾驶环境,Genie 2 生成的 720p 世界犹如一幅绚丽的画卷,徐徐展开在我们眼前。


给定一幅图像,它能模拟出世界动态,创建一个可通过键盘和鼠标输入的、可操作的一致环境。在这个世界里,具身智能体的潜力得到了充分的展现。研究者们在 Imagen 3 生成的世界中进行测试,结果令人惊喜。智能体可以遵循语言指令,走到红门或蓝门,为我们打开了一扇通往无限可能的大门。


Genie 2 作为一种基础世界生成模型,能生成无限多样的、可操控且可玩的 3D 环境,用于训练和评估具身智能体。它就像是一个无穷无尽的宝藏,为未来的通用智能体提供了丰富多样的训练环境。


在 Genie 2 的世界里,我们可以看到各种神奇的景象。它能够智能响应通过键盘按键采取的动作,识别角色并正确移动。它还能生成反事实,为 AI 训练提供各种「如果这样做会怎样」的场景。同时,Genie 2 具有长时间记忆的能力,能够记住那些暂时离开画面的场景,并在它们重新进入视野时,精确地还原出来。此外,它还能持续生成新场景,在长达一分钟的时间内保持整个世界的一致性。


Genie 2 不仅能够生成多种不同的观察视角,还能创建复杂的 3D 视觉场景,建模各种物体交互,为不同类型的角色制作动画,为其他智能体建模,甚至模拟出水面的动效、烟雾、重力、光照和反射等物理效果。它还可以将真实世界的图像作为提示词输入,并模拟出草叶在风中摇曳或河水流动等场景。


凭借强大的离散泛化能力,Genie 2 可以将概念设计图和手绘草图转化为可实际交互的场景,让艺术家和设计师能够快速验证创意。借助 Genie 2,研究人员能够快速构建出丰富多样的虚拟环境,并创造全新的评估任务,来测试 AI 智能体在从未接触过的场景中的表现。


虽然这项研究还处于起步阶段,但 DeepMind 团队相信,Genie 2 是解决安全训练具身智能体这一结构性问题的路径,同时也能够实现通向通用人工智能所需的广度和通用性。