俄罗斯方块强化学习实验报告

基本信息

源码名称：俄罗斯方块强化学习实验报告

源码大小：18.50M

文件格式：.rar

开发语言：Python

更新时间：2020-09-27

友情提示：（无需注册或充值，赞助后即可获取资源下载链接）

嘿，亲！知识可是无价之宝呢，但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下，绝对物超所值哦！如有下载和支付问题，请联系我们QQ(微信同号)：813200300

本次赞助数额为： 4 元　

源码介绍

一、俄罗斯方块DQN算法实验报告

1. 网络结构

图1 DQN网络结构

2. 超参数

 GAMMA = 0.99  # decay rate of past observations 设置增强学习更新公式中的累计折扣因子 OBSERVE = 500.  # timesteps to observe before training 设置观察期的迭代次数 EXPLORE = 500.  # frames over which to anneal epsilon 设置探索期的观察次数 FINAL_EPSILON = 0.002  # final value of epsilon 设置ε的最终最小值 INITIAL_EPSILON = 10.0  # starting value of epsilon 设置ε的初始值 REPLAY_MEMORY = 5900  # number of previous transitions to remember 设置replay memory的容量 BATCH = 32  # size of mini batch 设置每次网络参数更新世用的样本数目 K = 1  # only select an action every Kth frame, repeat prev for others，设置几帧图像进行一次动作， # K越大让控制台输出的速度变慢，游戏画面速度变快，机器人动作的速度变越迟缓。

ACTIONS = 6  # number of valid actions 游戏动作数

3.实验结果

训练前期的self.score分数很低150左右，EPSILON=1.0，Q_MAX= 2.061341e-02：

图2 EPSILON=1.0

设置超参数EPSILON=0.05

在1000步迭代之后：

EPSILON固定在0.04999999999999416 Q_MAX = -1.163765e-01

Self.score有明显的提升，但是之后无论训练多久都没有明显提升了。

图3 EPSILON=0.05

设置超参数EPSILON= 0.002

在1001步迭代之后：

EPSILON固定在0.000004 Q_MAX = 1.728995e 02

Self.score可以轻松达到200以上。

图4 EPSILON=0.000004

设置超参数EPSILON= 0.000001

在1001步迭代之后：

EPSILON固定在-0.001998997999987482 Q_MAX = 1.899879e 03

Self.score可以轻松达到200以上。

图5 EPSILON=-0.002

用DQN来玩俄罗斯方块

tetrix_DQN

├── Wrapped Game Code
│ └── tetris_fun.py
├── deep_q_network.py
├── logs_tetris
│ ├── hidden.txt
│ └── readout.txt
└── saved_networks
├── tetris-dqn-10000.data-00000-of-00001
├── tetris-dqn-10000.index
├── tetris-dqn-10000.meta
└── tetris-dqn-31660000

3 directories, 8 files