DeepMind已经解决了另一个AI问题:
一个叫DreamerV3的AI在什么都不知道的情况下被扔进了我的世界。经过17天的奋斗,他真正学会了从零开始挖钻石。
是从树开始的那种。
要知道,为了克服这个问题,CMU、微软、DeepMind和OpenAI还联手在NeurIPS上拉了一场名为MineRL的比赛。
结果过了三四年,AI人没有参考人类经验,没能完成挖钻石的任务。
之前最好的VPT玩家,为了取得这个成绩,看了7万+小时的我的世界视频,用了720 V100……...
这还不是DeepMind的最新成果,研究人员好开心。
MineRL创始人之一、前OpenAI研究科学家威廉·古斯(William Guss)第一时间前来发表贺词:
四年后,“钻石挑战”终于被攻克了!
刚刚获得今年NeurIPS杰出数据集和基准论文奖的《MineDojo》作者、来自Nvidia的AI科学家范林西说:
AI玩MineCraft的背后,是一个莫拉维克悖论:有些任务对人类来说很难,但对AI来说很简单。但是像MineCraft这样的人玩的游戏数不胜数,反倒是真的。
DreamerV3不需要任何人工数据就可以采集钻石,这让我很兴奋。
怎么做
那么,这个0基础的钻石挖掘任务的难度到底有多大呢?
首先,在我的世界里,初始世界完全是随机生成的。
即使是人类玩家,想要快速挖到钻石也需要大量的经验。比如知道如何计算钻石的位置,掌握一些采矿技巧。
排除经验这个因素,对于AI来说,挖钻石的过程也是相当复杂的,至少有七个步骤。
第一步,玩家空手进入我的世界,需要滚树才能拿到方块:
第二步,用木块合成工作台:
第三步,在工作台上合成木镐挖漂石:
第四步,获得圆石后,需要合成一个石镐快速挖铁矿石:
第五步,为了将铁矿石合成铁锭,需要造一个炉子来烧铁:
第六步,合成鹤嘴锄挖钻石:
第七步,寻找钻石,然后用镐把它们挖出来:
P.S .经过玩家测试,在AI知道钻石等各种资源坐标的情况下,2-3分钟就搞定了。
所以既然不能参考人类大师的经验,自然需要加强学习。
具体来说,DeepMind的研究人员提出了一种基于世界模型的通用算法。
在整体架构上,DreamerV3由世界模型、裁判和演员三个神经网络组成。
世界模型需要做的是将环境输入编码成离散的表示,通过预测来指导下一步的操作。
评委和演员会根据抽象的表象来学习。其中,陪审团网络会输出一个标量值来表示动作值,从而帮助演员网络选择最佳动作。
这里的一个核心点是,DeepMind的研究人员希望DreamerV3不仅能处理同类型的问题,还能掌握固定超参数的跨领域任务。
因此,研究人员需要系统地解决世界模型、法官和演员、目标的稳定平衡等各种组件中不同信号大小的问题。
研究人员发现:
在以前的世界模型中,表征损失需要根据复杂3D环境的视觉输入进行不同的缩放,在训练过程中要调整很多超参数,但实际上有很多不必要的细节。
如果将自由位与KL平衡相结合,DreamerV3可以在不调整超参数的情况下学习不同的领域。
KL balance是上一代DreamerV2中提出的新技术。它能使预测移向表征的速度快于表征移向预测的速度,带来更准确的预测。
自由位避免了简单环境下的过拟合。
DreamerV3的所有三个块都使用固定超参数,如下所示:
实验结果
换句话说,DreamerV3现在已经成为世界上第一个只需要靠自己摸索就能在我的世界里快速挖到钻石的AI。
而DreamerV3能做的不仅仅是玩MC。
在其他七项基准测试中,DreamerV3取得了成功,并在BSuite和Crafter中获得了SOTA。
值得一提的是,在这些任务中,用于训练代理的GPU资源只有一个V100。研究人员表示,这意味着更多的实验室可以运行这种模式。
此外,DreamerV3还可以在需要时空推理的三维空间中快速学习。
在DeepMind专门为强化学习打造的3D平台DMLab上,DreamerV3在任务中只使用了1/130次的交互。
目前DreamerV3的代码是即将到来的状态。
感兴趣的朋友可以蹲一会儿~
参考链接:
免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。