应用错误收集

AlphaGo改善自己

时间：2016-04-21 15:32:42

标签： algorithm neural-network

我已经阅读了几篇关于AlphaGo的新闻文章，他们都提到AlphaGo从首次玩人类游戏变得更好，然后玩自己的游戏。我很好奇的一件事是，AlphaGo如何改进自己？它是否修改了代码中的变量？或者它改变了它的代码完全自己编写它？或者创作者是否添加了它？它是如何实际学习的？一般的答案很好，因为它只是为了我的一般知识。

也许我误解了整个概念，新闻文章倾向于给予广泛而有时错误的理解。一些清晰度会很好或链接到有用的信息。

1 个答案:

答案 0 :(得分：0)

AlphaGo使用机器学习。

在机器学习中，你有一个函数（比如ax +b）给你一个结果，你调整那个函数的参数（a和b），以便结果匹配更多以及你拥有的更多例子。在AlphaGo的情况下，他们有2个功能，一个用于选择下一步，另一个用于说明谁赢了，两者都非常复杂，有数千个参数。

当他们在两个AlphaGo实例之间玩游戏时，他们会记录结果，并以此为例训练功能，以便下一个版本播放得更好。

如果您想了解更多内容，网上有关于机器学习如何运作的精彩教程。