创新性AI系统SoG:在众多游戏中战胜人类,并持续学习新游戏
在人工智能领域,游戏一直被广泛用作评估算法性能的基准。近期,EquiLibre Technologies、Sony AI、Amii和Midjourney等研究团队与Google DeepMind合作推出了一项名为“Student of Games”(SoG)的算法,该算法通过结合定向搜索、自我博弈学习和博弈理论,实现了一个通用的算法框架,将早期的工作统一起来。
SoG在完美信息游戏和非完美信息游戏中展现出了卓越的性能,这标志着通用算法的发展迈出了重要的一步。随着计算能力和逼近能力的不断提升,研究团队展示了SoG的稳健性,并最终实现了无懈可击的游戏表现。在国际象棋、围棋等复杂游戏中,SoG的表现尤为出色,甚至在无限制德州扑克等不完美信息游戏中,它也击败了最强大的公开可用代理。同时,该算法也在Scotland Yard等先进的游戏中击败了最先进的代理。这些不完美信息游戏进一步凸显了引导式搜索、学习和博弈理论的价值。
为了展示人工智能的最新进展,研究团队教授了一台计算机玩棋盘游戏,并将其改进到可以击败人类的水平。通过这项最新研究,团队在创建人工通用智能方面取得了重大进展,使计算机能够执行以前被认为对机器而言不可能的任务。与大多数只设计玩一个游戏的棋盘游戏计算机不同,该项目的研究人员开发了一个智能系统,可以参与需要广泛能力的游戏。
SoG,即“Student of Games”,将搜索、学习和博弈理论分析融入一个单一算法中,具有许多实际应用价值。它采用了一种先进的GT-CFR技术,这是一种可以在任何时候执行的本地搜索方法,涉及非均匀构建子游戏以增加与最重要未来状态相关的子游戏的权重。此外,SoG还采用了一种声学自我博弈的学习技术,该技术基于游戏结果和递归子搜索训练值和策略网络。作为通向可以在任何情境中学习的通用算法的重要一步,SoG在完美和非完美信息的多个问题领域中表现出色。
SoG方法的独特之处在于它采用了GT-CFR(增长树对策反悔最小化)技术,这是一种可以在任何时候执行的本地搜索方法。它以当前公共状态为起点,通过模拟扩展轨迹来构建一棵成熟的树。在悔反更新阶段,使用CVPN生成的当前状态策略进行CFR更新。在扩展阶段,根据模拟的扩展轨迹向树中添加新的子游戏。每个玩家在做出选择时都会使用经过良好调整的GT-CFR搜索,并结合CVPN生成当前状态的策略来随机抽样一个动作。
此外,研究团队还利用自我博弈过程生成值和策略网络的训练数据。搜索查询(由CVPN查询的公共信念状态)和完整的游戏轨迹是更新值网络的重要依据。这些搜索查询需要解决以根据反事实值目标更新值网络。同时,可以根据完整游戏轨迹的目标调整策略网络。演员在创建自我博弈数据(并回答问题)的同时,培训者发现并实施新网络,并偶尔刷新演员。
虽然该研究取得了显著的成果,但仍存在一些局限性。例如,在德州扑克中使用投注抽象可能会被放弃以利用对广泛动作空间的通用动作减少政策。此外,在某些游戏中对公共状态信息进行枚举可能会过于昂贵,而生成模型可以在采样子集上运行以近似SoG。目前在一些游戏中需要枚举每个公共状态的信息,这可能成本过高。
研究团队相信,由于其自学习几乎可以玩任何游戏的能力,SoG具有在其他类型的游戏中取得成功的潜力,并且已经在围棋、国际象棋、Scotland Yard和德州扑克等游戏中击败了竞争对手的AI系统和人类。这项研究的成功归功于该项目的研究人员。同时不要忘记加入我们的ML SubReddit、Facebook社区、Discord频道和电子邮件通讯等渠道,以便分享最新的人工智能研究新闻、酷炫的人工智能项目等资讯。