我已经阅读了几篇关于AlphaGo的新闻文章,他们都提到AlphaGo从首次玩人类游戏变得更好,然后玩自己的游戏。我很好奇的一件事是,AlphaGo如何改进自己?它是否修改了代码中的变量?或者它改变了它的代码完全自己编写它?或者创作者是否添加了它?它是如何实际学习的?一般的答案很好,因为它只是为了我的一般知识。
也许我误解了整个概念,新闻文章倾向于给予广泛而有时错误的理解。一些清晰度会很好或链接到有用的信息。
答案 0 :(得分:0)
AlphaGo使用机器学习。
在机器学习中,你有一个函数(比如ax +b
)给你一个结果,你调整那个函数的参数(a
和b
),以便结果匹配更多以及你拥有的更多例子。在AlphaGo的情况下,他们有2个功能,一个用于选择下一步,另一个用于说明谁赢了,两者都非常复杂,有数千个参数。
当他们在两个AlphaGo实例之间玩游戏时,他们会记录结果,并以此为例训练功能,以便下一个版本播放得更好。
如果您想了解更多内容,网上有关于机器学习如何运作的精彩教程。