好奇心帮助人工智能成为更棒的水管工
还记得我们第一次玩超级玛丽的时候吗?或许我们中很多人玩的都是小霸王学习机里的超级玛丽式英语学习软件。不管是什么,进入游戏的第一时间,我们通常都是试一试手柄上的每一个按键是做什么的,然后跳来跳去,尝试触碰游戏里的每一个小方块。这就是好奇心最基本的表现。
那么人工智能在玩超级玛丽时是怎样的呢?通常情况下是应用了增强学习算法,用正负反馈机制帮助人工智能快速通关。踩死一只乌龟,获得正向反馈,掉入悬崖,获得反向反馈。问题时,只要能够继续过关,人工智能很难学会新的动作,这也就造成了遇到新的关卡时,人工智能常常需要耗费很大力气才能通过。
超级玛丽
在一篇关于人工智能好奇心的论文中提到,人工智能利用传统的增强学习方法训练,在超级玛丽的游戏过程中,人工智能卡在了游戏的30%处,因为人工智能需要越过一个坑,而想要越过那个坑,需要15到20个特定顺序的按键操作。由于在坠落进坑里时已经获得了反向反馈,人工智能常常在坑的位置止步不前。
上述论文的作者,来自UC Berkeley的研究团队提出了一种新的思路,为人工智能加入了内部好奇心构型。以自监督的方式,预测自身行动会造成何种结果,并将这种算法称作自监督预测算法。
当外部反馈减少时,内部好奇心构型会激励人工智能通过探索环境去检验自我对于行动的预测。结果是,采取内部好奇心构型的人工智能不会盲目重复那些有正向反馈的动作,而是开始了解游戏环境,把握整体游戏进程。最终战胜了那个坑。
好奇心不仅会害死猫,还会让人工智能得多动症
接下来,在DeepMind计算机科学家Hester和德州大学奥斯汀分校的Peter Stone的研究中,同样的概念被进一步的具象化。
在强化学习的基础上,他们开发了一种名为TEXPLORE-VANIR的算法。和自监督预测算法不同的是,TEXPLORE-VANIR为人工智能设立了内部奖励机制,当人工智能探索环境时,即使这种行为对达到最终目标没有好处,人工智能也会因为减少了外部环境的未知性而获得来自内部的正向反馈。同时,在探索环境中发现了新事物时,人工智能也会获得正向反馈。
Copyright © 2017 当下游戏系统玩法网 All rights reserved. 皖ICP备17004448号-2