AlphaZero完爆棋类游戏AI，它的价值大不大？_

原标题：AlphaZero完爆棋类游戏AI，它的价值大不大？

谷歌旗下人工智能公司DeepMind 发布了一篇新论文，它讲述了团队如何利用AlphaGo 的机器学习系统，构建了新的项目AlphaZero。AlphaZero 使用了名为「强化学习」（reinforcement learning）的AI 技术，它只使用了基本规则，没有人的经验，从零开始训练，横扫了棋类游戏AI。

AlphaZero 首先征服了围棋，又完爆其他棋类游戏：相同条件下，该系统经过8 个小时的训练，打败了第一个击败人类的AI——李世石版AlphaGo；经过4 个小时的训练，打败了此前最强国际象棋AI Stockfish，2 个小时打败了最强将棋（又称日本象棋）AI Elmo。连最强围棋AlphaGo 也未能幸免，训练34 个小时的AlphaZero 胜过了训练72 小时的AlphaGo ZeroAlphaZero完爆棋类游戏AI，它的价值大不大？。

梦幻诛仙生产	征途战士加点	回忆冒险岛	冒险岛角色名
蜀门配置	征途2动作版	征途怀旧版新手卡	热血江湖补丁下载

?图/ AlphaZero 视角下，在比赛中赢，平局或输的局数（来自DeepMind 团队论文）

强化学习这么强大，它是什么？

知名AI 博主Adit Deshpande 来自加利福尼亚大学洛杉矶分校（UCLA），他曾在博客中发表过「深度学习研究评论」系列文章，解读了AlphaGo 胜利背后的力量。他在文章中介绍到，机器学习领域可以分为三大类：监督学习、无监督学习和强化学习。强化学习可以在不同的情景或者环境下学习采取不同的行动，以此来获得最佳的效果。

?图/Adit Deshpande 的博客《Deep Learning Research Review Week 2: Reinforcement Learning》

dnf徽章	冒险岛游戏下载	奇迹暖暖裤装	魔兽世界盗贼幻化
梦幻诛仙神兽	梦幻诛仙能用的符号	冒险岛online	魔兽世界猎人幻化

我们想象一个小房间里的一个小机器人AlphaZero完爆棋类游戏AI，它的价值大不大？。我们没有编程这个机器人移动或走路或采取任何行动。它只是站在那里。我们希望它移动到房间的一个角落，走到那里会得到奖励分数，每走一步将会损失分数。我们希望机器人尽可能到达制定地点，机器人可以向东、南、西、北四个方向运动。机器人其实很简单，什么样的行为最有价值呢，当然是指定地点。为了获得最大的奖励，我们只能让机器人采用最大化价值的行动。

?图/Adit Deshpande 的博客《Deep Learning Research Review Week 2: Reinforcement Learning》

AlphaZero 完爆人类棋类游戏，它的价值有多大？

AlphaGo Zero 是个突破性的进展，AlphaZero 也是吗？国外专家分析，后者在技术上有四点突破：

一、AlphaGo Zero 根据胜率进行优化，只考虑胜、负两种结果；而AlphaZero 则是根据结果进行优化，考虑到了平局等可能AlphaZero完爆棋类游戏AI，它的价值大不大？。

二、AlphaGo Zero 会改变棋盘方向进行强化学习，而AlphaZero 则不会。围棋的棋盘是堆成的，而国际象棋和将棋则不是，因此AlphaZero 更通用。

冒险岛打豆豆技巧	魔兽世界皮甲幻化	奇迹2官网	魔兽世界坐骑攻略
征途2新职业	魔兽世界英雄榜	诛仙烈山完美加点	完美国际木蝴蝶坐标

三、AlphaGo Zero 会不断选择胜率最好的版本替换，而AlphaZero 则只更新一个神经网络，减少了训练出不好结果的风险。

四、AlphaGo Zero 中搜索部分的超参数是通过贝叶斯优化得到的，选取会对估计结果产生很大影响。而AlphaZero 所有对弈都重复使用相同的超参数，因此无需针对游戏进行特定调整。

第四范式资深机器学习架构师涂威威告诉极客公园，AlphaZero 有突破也有局限：

一、DeepMind 这篇论文核心是证明了AlphaGo Zero 策略在棋类问题上的通用性；在方法上并没有特别亮眼的地方。AlphaZero 其实是AlphaGo Zero 策略从围棋往其他类似棋类游戏的拓展版，并战胜了基于其他技术的棋类游戏AI，它们在此之前是最好的AlphaZero完爆棋类游戏AI，它的价值大不大？。

二、AlphaZero 也只是解决规则明确、完美信息博弈的类似棋类游戏的「通用」引擎，对于更复杂的其他问题，AlphaZero 依然会遇到困难。

此前，旷世科技孙剑解读AlphaGo Zero 时曾表示，「强化学习就算可以扩展很多别的领域，用到真实世界中也没有那么容易。比如说强化学习可以用来研究新药品，新药品很多内部的结构需要通过搜索，搜索完以后制成药，再到真正怎么去检验这个药有效，这个闭环代价非常昂贵，非常慢，你很难像下围棋这么简单做出来。」

三、AlphaZero 也需要非常多的计算资源才能解决相对更为「简单」的棋类问题，成本非常高。据极客公园了解，DeepMind 在论文中称，他们使用了5000 个第一代TPU 生成自对弈棋谱，并用了64 个第二代TPU 来训练神经网络AlphaZero完爆棋类游戏AI，它的价值大不大？。此前有专家向某媒体表示，TPU 虽然性能很惊艳，但是成本也会很高，有某国际风投机构的投资人对此还发过朋友圈，其中的一句话就是：「这么贵的芯片，我也就是看看......」

魔兽世界盗贼天赋	热血江湖游戏下载	热血江湖官方首页	冒险岛网吧经验
诛仙2三西贝	冒险岛论坛	dnf大枪吧	魔兽世界考古学攻略

四、目前的AlphaZero 在围棋上离「围棋上帝」可能还有距离，赢了人不代表就是上帝，目前的网络结构、训练策略是不是最优的，其实还是值得进一步研究的。

虽然有一定的局限，但其应用场景值得深挖。在让机器学习更为通用的研究方向上，有很多其他研究领域值得关注，比如AutoML、迁移学习等等。同时，如何进一步以更少的代价（计算代价、领域专家代价）获得更为通用的AI 引擎，让AI 在实际应用中产生更大的价值也是非常值得关注的。

滴滴出行就是一个特别的领域，据极客公园了解，滴滴在匹配司机和乘客的过程中，就使用了人工智能技术，从不合理的直线距离匹配（可能隔着河），到指派到乘客处用时最少的车，经历了很多技术优化。他们也遇到了问题，并为之努力：在训练人工智能系统时，可以使用GPU 集群等技术，但当让司机和乘客匹配时，要求实时性，配置也会降低，因此如何保证准确，也是研究人员一直在探讨的问题AlphaZero完爆棋类游戏AI，它的价值大不大？。

但涂威威对DeepMind 在「通用人工智能」方向上的努力表示肯定。

图/ 北大AI公开课《胡郁：人工智能+，共创新时代》

第四范式首席科学家、国际人工智能协会（IJCAI）主席、香港科技大学计算机系系主任杨强教授曾提到，计算机真正可以思维的「强」人工智能（通用人工智能）其实是想实现「从0 到1」的突破，而目前包括工业界和计算机应用学科等领域，其实只是想让计算机的行为表现像智能一样，这可以称为「从1 到N」。

但是，科学家们一直在不断探索通用人工智能。DeepMind 就是这方面的先行者之一，好像登山一样，只要一步步攀登，有一天人类必然登顶。

dnf不知火刷图加点	dnf副职业哪个最赚钱	完美国际9军	dnf暗帝吧
魔兽世界战网打不开	dnf物品合成系统	dnf基友网	冒险岛双弩技能

。