德扑“人机大战”争夺200万奖金,李开复:人类这次还有10%胜率
黑智 黑智

德扑“人机大战”争夺200万奖金,李开复:人类这次还有10%胜率

但是,这或许是人类最后一次战胜人工智能的机会了。

AlphaGo战胜了人类围棋国手。今年1月,AI程序击败了德扑人类顶级职业玩家。面对人工智能,人类还有多少次可以战胜的机会?

明天,亚洲的顶尖德扑牌手将再次迎战人工智能。这次出战的人工智能“冷扑大师”,是基于卡内基梅隆大学开发的Libratus,就是在1月在美国宾夕法尼亚,击败了四名顶尖人类高手,一举获得了20万美元将近和177万美元筹码的德州扑克人工智能系统。

它将面对的是,是华人牌手“龙之队”,由2016年世界德州扑克大赛WSOP金手链冠军得主、常春藤资本合伙人杜悦领军,战队成员由许朝军、张淮、童舟、朱亚希、王天建六位扑克玩家圈内熟知的高手组成。这次比赛由创新工场、海南生态软件园联合主办。

“胜率大约有10%。”杜悦在出征前坦承,“我希望中国龙之队是最后一支能够战胜人工智能的团队。”

“如果人类还有战胜AI的可能,也许就是这次。”创新工场CEO李开复说。“当下次AlphaGo对战柯洁,我认为,人类的胜出概率,基本为零。”

这次赛事,将在海南进行5天,长达45小时。获胜一方,将获得200万元的奖金。而当人类面对机器已然胜算逐步下降的今天,这场人机对战,又将代表什么样的意义?

突破“不完美信息”游戏

创新工场之所以参与主办这一赛事,或许与李开复的“人机对弈”情结息息相关。1988年,李开复在母校卡内基梅隆大学开发了“奥赛罗”,成为第一个击败黑白棋世界冠军的人机对弈系统。而这次,他不仅为活动牵线,更为Libratus专门起了一个中文名“冷扑大师”。

2016年,卡耐基梅隆大学的Tuomas Sandholm教授曾领导开发了一个打扑克的程序Claudico,但是在一场面对数位高手的比赛中惨败。这也是Libratus的前身。2017年,Sandholm 教授联同Noam Brown博士开发完成了Libratus。

德扑和AlphaGo所擅长的围棋不同。此前的20年里,被人工智能所攻克的围棋、国际象棋和西洋双陆,都是“完美信息”游戏。也即是,所有玩家在游戏中,能够获得公开和对称的确定信息。游戏中需要作出的决策点的数量,决定了机器的计算量。

而与之相比,德扑则是“不完整信息”游戏。其中包含了更多的隐藏信息,每个玩家掌握的信息都是不对称的,他只能看到自己的牌,却不知道对手的牌,需要根据直觉推测对手手牌,选择下注和放弃,并判断对手的打法,想得到理想化的战略,是非常困难的。因此,“不完整信息”博弈,就成为难以攻克的计算机难题。

冷扑大师Libratus,基于在匹兹堡超级计算中心大约1500万核心小时的计算,用算法分析德扑规则,预测所有步骤的胜率,来进行自己的下一步。和AlphaGo用大量棋局做训练不同,它的策略并非基于专业玩家的经验,没有用专业牌局进行神经网络训练,而是用随机生成的牌局(随机产生公共牌、底池筹码、玩家拿牌概率)和尝试性的动作带来的结果(在随机生成的输入情况下模拟玩家跟牌后的结果)来作为训练数据。Libratus还采用了博弈论,它通过纳什均衡来计算如何应对对手的招数,通过平衡风险和收益,对自身的下一步进行修正,以期达到收益最大化。其程序名Libratus,就是来源于拉丁文“制衡”。

也因此,德扑被认为是人类博弈心理、智商和情商的高度体现,其中信息具有不透明性和不确定性,可以“诈唬”,甚至还带有一定的运气成分。打德扑所需的推理能力和心理战术,是机器很难模仿的。也正因此,Libratus之前取得的成绩,才在人工智能领域引起了巨大关注。

而在李开复看来,现实中,这种“不完整信息”才是常态。“世界上大部分的决策问题、商业问题,都不是单纯靠强力的搜索和人工智能就可以解决的。”

高“情商”的AI

启动2


根据赛制,在4月6日-10日巅峰表演赛期间,中国龙之队的六位牌手每人同时打两手牌,进行每天上下午两场共10小时的人机对战,全程估计长达45小时达到36,000手牌。

表演赛为求降低发牌中的运气因素,机器人将采用复式对称发牌,两两成对的牌手其中一人将拿到与配对牌手对打的机器人底牌,因此六名牌手将拆分于两个房间和冷扑大师对阵,比赛过程中还必须确保配对牌手彼此不能碰面交流。4月10日完赛时,将以人机各自积累的总计分牌数计算成绩,决定最终200万元奖励花落谁家。

对于这次的德扑“人机大赛”,他和杜悦仍然“大胆”地把人类胜率预测为大约10%。“第一个毕竟这次的表演赛不如上次的对决那么长,这次是36000手牌,上次是12万,运气成分会增加一些,人类的机会会有一些。第二,这次出战的‘龙之队’有计算机专业的学霸,他们对于计算机的理解更为深刻。”尽管如此,他也仍旧认为,迟早机器在符合以下三个前提的领域里,将全面战胜人类:

第一,有海量的数据;

第二,数据有标准;

第三,单一领域。

“人工智能从AlPhaGo和冷扑大师所提炼出来的想法、技术和先进已经远远超过人类。”李开复说。“我们可以把AlphaGo理解为高‘智商’,但是冷扑大师是高‘情商’的。而且这样的技术可以在很多商业的领域里面应用,因为大部分人类的信息都不是彼此公开的。”

同时,李开复表示:“另外一点就是,冷扑大师并非运用深度学习,而我们会由此认识到,未来会有更多的科学家发明更多的技术,让AI给人类带来更多的价值。”截止到目前为止,创新工场已经投资了Face++、驭势科技、小鱼儿科技等人工智能创新公司,但在李开复看来,更多地垂直领域的人工智能应用,仍将出现。他预计,现今这套人工智能扑克程序背后的模型,将适用于需要用到战略推理和多方谈判的场景,从企业谈判、商务谈判、外交谈判、甚至到生活面的房屋买卖谈判,十年内都将会部分或全面被人工智能所取代。

值得一提的是,这次表演赛,将在海南生态软件园落地。而海南也将借此启动人工智能产业基地。据了解,腾讯、乐视、360等1500家企业,也已经在海南生态软件园落户。助理总经理唐尧表示,人工智能产业得到了海南省的高度重视和扶持,海南生态软件园也配套专项政策、政务及服务,积极布局人工智能产业。看来,业界对海南的认知,也在重构。

人工智能 李开复 德扑大赛 Libratus
赞(...)
文章评论
匿名用户
发布