微软研究人员创建了一个人工智能的系统,这个系统能够在20世纪80年代风靡全球的电子游戏吃豆人小姐(Ms. Pac-Man)中获得最高分,系统使用了分治策略来更大程度地影响AI代理,从而完美地通关游戏。
本年年初,微软收购了一家人工智能初创公司Maluuba。Maluuba公司团队运用强化学习技术(机器学习的分支),在吃豆人小姐游戏Atari 2600版本中表示完美。使用这种方法,该团队在这个游戏中得到的分数高达999,990。
位于加拿大蒙特利尔的麦吉尔大学(McGill University)、从事计算机科学研究的Doina Precup副教授体现,AI研究人员的常常使用各种电子游戏来测试他们研发的系统,但研究人员发现吃豆人小姐游戏是最难并吞的。
但是,Precup体现,比拟于研究人员所取得的成就而言,她对于研究人员获得成果的过程更加感兴趣。为了在吃豆人小姐游戏中获得更高的分数,Maluuba公司团队将操控吃豆人小姐游戏的大问题分解成若干个小问题,然后将小问题分发给AI代理解决。
Precup说:“这个分治策略的想法让Maluuba公司的研究人员使用差别的系统来实现同一个目标,这是一件非常有趣的事情”。
她还说到:“这个想法类似于一些大脑如何工作的理论,它可以更大程度地影响AI代理教学,从而利用有限的信息来完成更为复杂的任务。倘若能够完美利用分治策略,那人工智能将向前跨越一大步,这真的令人感到尤为兴奋。”
Maluuba团队将这种分治策略称之为混合式奖赏架构(Hybrid Reward Architecture),这个方法使用了150多名人工智能代理,每个代理与其他代理彼此独立地精通吃豆人小姐游戏。好比,一些代理成功找到一个豆子将获得的奖励,而别的一些代理由于幽灵的存在必需呆在原处。
然后,研究人员在吃豆人小姐游戏中创建了一个顶级代理,就像一家公司的高级经理一样,顶级代理能够获得所有代理的建议,综合分析后由顶级代理来决定吃豆人小姐该如何移动。
顶级代理会按照选择各个标的目的前进的代理数量的大小来决定移动标的目的,但同时也需要考虑到代抱负要往某个标的目的移动的反应强度。
例如,如果100个代抱负向右边移动,因为向右边走是他们的最佳路径,但有3个人想要向左边移动,因为右边有一个致命的幽灵,那这3个代理向左边移动的反应强度明显强于其他代理,考虑到幽灵的存在,顶级代理应该决定向左移动。
Maluuba公司的研究室经理Harman Van Seijen,对于他们的最新研究成果颁发了一篇文章,文章中写到,当每位代理都果断地做出选择,顶级代理综合利用每个代理的信息后做出最佳选择,那么在吃豆人小姐游戏中就可以获得最好的结果。Harman Van Seijen说:“虽然每个代理只关心一个特定的问题,但是他们之间有很好的彼此作用”。
Harman Van Seijen为什么AI主要研究并吞吃豆人小姐游戏
需要运用最先进的AI研究方法来击莠民似于上世纪80年代Atari吃豆人小姐游戏这样的简单游戏,,这看上去很匪夷所思。
但是Maluuba公司的项目经理RahulMehrotra体现,使用算法来博得这些简单的电子游戏其实非常困难,因为在玩游戏的过程中可能会遇到的各种各样的情况。
Mehrotra体现:“许多从事人工智能的公司构建游戏智能算法,因为公司希望人工智能能够像人类一样拥有打游戏的技能。”
SteveGolson是吃豆人小姐游戏街机版的创始人之一,他说到,吃豆人小姐最初定位是街机游戏,希望游戏对人们有持续吸引力而走出宿舍,所以吃豆人小姐游戏必需掌握人类不成完全征服的游戏程序。
Steve Golson运营咨询公司Trilobyte Systems的Golson说到,他们故意设计了吃豆人小姐游戏比普通吃豆人游戏更加不成预测,所以玩家们很难打通关。复杂的游戏使得研究人员试图使用AI代理来对随机环境做出抱负的反应。
Golson还说到:“使用AI代理来通关吃豆人小姐游戏是可行的,但由于游戏的随机性,所需要设计的AI程序将尤为复杂。”
强化学习
对于在不停发展的强化学习领域工作的研究人员来说,这种不成预测性极有价值。在AI研究中,强化学习是监督学习的副本,是一种更常用的人工智能方法,它能够让系统在做任务时变得更好。
通过强化学习,代理对其每个动作都采取积极或消极的反应,通过不停地试验和犯错误来最大限度地获得积极反应或奖赏。