近日打败柯洁的消息再次拨动人们的神经,作为人类目前世界排名第一的围棋选手,柯洁与比赛的胜负已定,目前的焦点集中在是否突破了监督学习,真正实现了增强学习。

AlphaGo

下面我们就来分析一下监督学习和增强学习。

所谓的监督学习就是由经验生成样本集,然后机器通过算法运行,从而得到一个最优模型,这种方法依赖于已有的训练样本,目前的深度学习基本还处在这个阶段,就连此次与柯洁对弈的未完全实现增强学习。

而增强学习是在没有任何样本的情况下,只要给定规则,机器就能完全自主地完成学习。如果这种算法能够实现,也就是说人工智能可以完全脱离人的经验,在既定的规则下,直接根据结果来不断修正,从而会找到很多最优的方式。

目前的只是1.0的升级版,AlphaGo的核心作者之一AjaHuang在首站后就申明“此次AlphaGo是单机版,但仍有人类知识的训练。”不过,即便是在目前的这种状况下,AlphaGo还是走出很多超出人类认知的走法,他的横空出世立即推翻了人类在围棋方面上千年的积累。

Deepmind主页信息

赛程安排

其实我们在很多现实情况中,并非像围棋那样是完全信息博弈,因为我们在现实生活中不可能拥有上帝视角,这就会造成当局者迷的状况,而若可以实现增强学习,就可以完美解决这个问题。

正因为围棋是全信息博弈,所以它是最好的检验AI能力的对象。此番的虽说未能实现增强学习,不过还是用单机版就打败了人类顶尖围棋高手,让人类意识到我们本身认知也有局限性,而且未来更多的将会是人机结合,目前尚未正在来到对抗的位置。

关于增强学习,你有什么观点呢?

欢迎留言告诉我。

期待你的赞赏、留言和点赞,你的肯定就是我前行的动力。