AlphaGo2.0离增强学习有多远

编辑：admin 时间： 2025-03-06 122 人浏览

近日打败柯洁的消息再次拨动人们的神经，作为人类目前世界排名第一的围棋选手，柯洁与比赛的胜负已定，目前的焦点集中在是否突破了监督学习，真正实现了增强学习。

AlphaGo

下面我们就来分析一下监督学习和增强学习。

所谓的监督学习就是由经验生成样本集，然后机器通过算法运行，从而得到一个最优模型，这种方法依赖于已有的训练样本，目前的深度学习基本还处在这个阶段，就连此次与柯洁对弈的未完全实现增强学习。

而增强学习是在没有任何样本的情况下，只要给定规则，机器就能完全自主地完成学习。如果这种算法能够实现，也就是说人工智能可以完全脱离人的经验，在既定的规则下，直接根据结果来不断修正，从而会找到很多最优的方式。

目前的只是1.0的升级版，AlphaGo的核心作者之一AjaHuang在首站后就申明“此次AlphaGo是单机版，但仍有人类知识的训练。”不过，即便是在目前的这种状况下，AlphaGo还是走出很多超出人类认知的走法，他的横空出世立即推翻了人类在围棋方面上千年的积累。

Deepmind主页信息

赛程安排

其实我们在很多现实情况中，并非像围棋那样是完全信息博弈，因为我们在现实生活中不可能拥有上帝视角，这就会造成当局者迷的状况，而若可以实现增强学习，就可以完美解决这个问题。

正因为围棋是全信息博弈，所以它是最好的检验AI能力的对象。此番的虽说未能实现增强学习，不过还是用单机版就打败了人类顶尖围棋高手，让人类意识到我们本身认知也有局限性，而且未来更多的将会是人机结合，目前尚未正在来到对抗的位置。

关于增强学习，你有什么观点呢?

欢迎留言告诉我。

期待你的赞赏、留言和点赞，你的肯定就是我前行的动力。

【申明：本文由第三方发布，内容不代表本网站的观点和立场。请读者仅作参考，并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。我们重在分享，尊重原创，如因作品内容或者其它问题，请联系在线客服删除。】

推荐阅读