天才棋士_第121章_天才棋士_玄幻小说

到底靠的什么？
    当天晚上，谢榆从美国的某个计算机大牛那里，获知了他想要的答案。
    AlphaGo团队在蒙特卡洛树搜索上加装了策略网络和价值网络两个模块。
    这两个模块让AlphaGo不是单纯地计算，而是深度学习、模仿人类！
    策略网络，顾名思义是决策下一步走子。AlphaGo会检索KCS围棋服务器上所有真人在线对弈，进而判断：如果是人类棋手处于它当前的位置，他最有可能走哪一步？它只对那些解进行计算！然后，它就自我对弈上千万局，看看这一步是否真的是最优解！
    遵循策略网络，蒙特卡洛树搜索的树宽将大量减少，但深度依旧存在。上千万局博弈，每一局都走到最后，依旧是可怕的计算量。
    计算深度的减少用上了价值网络。它以AlphaGo产生的大量自我博弈作为样本，检索这种棋形在历史上的胜率，把好坏、优劣变成了一个概率问题！那么每一回，AlphaGo计算到一定深度就可以停下来，直接估算当前胜率！
    经验的本质是概率，从本质上来说，以概率判断局面的AlphaGo，就是以“经验判断现状”的人类大脑运行模式！AlphaGo的走子，也完全遵循了人类棋手的

天才棋士_第121章(4/6)