AI 全自动玩斗地主,靠谱吗?Douzero算法教程

你觉得,AI 全自动玩斗地主,胜率能有多高?

真就有100%胜率,实现欢乐豆自由?

我让这个 AI 自己玩了一小时,结果出乎意料。 先不着急说最终结果,我们先来看看这个 AI 有多强。

01

Ai斗地主,就是通过 AI 算法分析游戏画面,获取玩家角色、手牌等信息。

完全自主决策这把是否叫地主,是否加倍,以及如何出牌。

设定好程序,不需要我们参与,AI 自己就能玩一下午。

算法名字是 DouZero,快手团队开发的。

不是要把欢乐豆归零的意思——

意思是像 AlphaZero 一样从零开始训练,不需要你教他怎么打,完全自己学习。

系统只需要给出正负反馈,算法就会自我强化,做出最有效的行为决策。

跟训狗是一个道理。

斗地主的所有牌型总共有27472种。相对与围棋上亿万种的走法,算是小巫见大巫了。

那实现的难点在哪呢?

围棋是所有棋子都摆在棋盘上,对弈双方都能看到,这属于"完全信息博弈"。

而斗地主每个玩家都看不到其他人的手牌,从博弈论的角度看,斗地主是“不完全信息博弈”。

并且还要综合考虑合作机制。

两个农民玩家对抗地主玩家。不仅要保证自己赢,也要辅助队友赢。

对于AI来说就更有挑战性了。

02

这里简述一下算法原理。

DouZero 是一个基于深度蒙特卡罗算法来打斗地主的强化学习算法。

所谓的蒙特卡罗就是通过不断的重复实验来估计真实价值的方法。

而在DouZero中,引入了Deep Monte-Carlo (DMC)方法。所谓DMC,就是用神经网络替换Q表,并使用均方误差 (MSE) 更新Q网络。

让q价值最大化,q价值指的是在某个状态做某个动作预期的价值是多少。

感觉屏幕对面的你,已经在打哈欠了,我们不多说了,具体的大家可以看看算法论文。

论文


比丘资源网 » AI 全自动玩斗地主,靠谱吗?Douzero算法教程

发表回复

提供最优质的资源集合

立即查看 了解详情