阿里强化学习.pdf - A8源码实例

基本信息
源码名称：阿里强化学习.pdf
源码大小：19.70M
文件格式：.pdf
开发语言：Python
更新时间：2020-05-09
友情提示：（无需注册或充值，赞助后即可获取资源下载链接）
嘿，亲！知识可是无价之宝呢，但咱这精心整理的资料也耗费了不少心血呀。小小地破费一下，绝对物超所值哦！如有下载和支付问题，请联系我们QQ(微信同号)：78630559
本次赞助数额为： 2 元　
源码介绍
目 录
第一章 基于强化学习的实时搜索排序策略调控 1
1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 强化学习简介 . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 奖赏函数设定 . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 策略函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 值函数的学习 . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 奖赏塑形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 DDPG 与梯度融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.7 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
第二章 延迟奖赏在搜索排序场景中的作用分析 18
2.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 搜索排序问题回顾 . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 数据统计分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 搜索排序问题形式化 . . . . . . . . . . . . . . . . . . . . . . . . . 24
. II . ⽬ 录
2.5 理论分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.1 马尔可夫性质 . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.2 折扣率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 实验分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
第三章 基于多智能体强化学习的多场景联合优化 34
3.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.1 相关背景简介 . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 建模⽅法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 应⽤ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.1 搜索与电商平台 . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.2 多排序场景协同优化 . . . . . . . . . . . . . . . . . . . . . 45
3.4 实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.1 实验设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.2 对⽐基准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4.3 实验结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.4 在线⽰例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
第四章 强化学习在淘宝锦囊推荐系统中的应用 55
4.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.1 淘宝锦囊 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.2 锦囊的类型调控 . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.3 ⼯作摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2 系统框架及问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.1 系统框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3 算法及模型设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
⽬ 录 . III .
4.3.1 主体框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.2 分层采样池 . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3.3 基准约减 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.4 算法流程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4 实验与总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
第五章 基于强化学习的引擎性能优化 65
5.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2.1 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.2 动作空间设计 . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.3 状态转移函数 . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2.4 奖赏函数的设计 . . . . . . . . . . . . . . . . . . . . . . . . 70
5.3 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3.1 Loss Function . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3.2 Actor-crtitic ⽅法 . . . . . . . . . . . . . . . . . . . . . . . . 72
5.4 理论分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.5 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.6 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
第六章 基于强化学习分层流量调控 75
6.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.2.1 Dynamic Action Boundary by CEM . . . . . . . . . . . . . . 78
6.3 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.4 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
第七章 风险商品流量调控 81
7.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.1.1 为什么进⾏风险商品流量调控 . . . . . . . . . . . . . . . . 81
. IV . ⽬ 录
7.1.2 为什么使⽤强化学习调控 . . . . . . . . . . . . . . . . . . 82
7.2 基于强化学习的问题建模 . . . . . . . . . . . . . . . . . . . . . . . 82
7.2.1 状态空间的定义 . . . . . . . . . . . . . . . . . . . . . . . . 82
7.2.2 动作空间的定义 . . . . . . . . . . . . . . . . . . . . . . . . 84
7.2.3 奖赏函数的定义 . . . . . . . . . . . . . . . . . . . . . . . . 84
7.2.4 模型选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.2.5 奖赏函数 scale . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.3 流量调控系统架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.4 线上效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
第八章 虚拟淘宝 89
8.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.1.1 强化学习⾯临的问题 . . . . . . . . . . . . . . . . . . . . . 89
8.1.2 虚拟淘宝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.2 学习⽤户⾏为：监督学习 . . . . . . . . . . . . . . . . . . . . . . . 89
8.3 学习⽤户意图：逆强化学习 . . . . . . . . . . . . . . . . . . . . . 90
8.3.1 逆强化学习概述 . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3.2 学习⽤户意图 . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3.3 ⽣成对抗式模仿学习 . . . . . . . . . . . . . . . . . . . . . 92
8.4 构建⽤户⾏为模拟器 . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4.1 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4.2 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.4.3 实验结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
第九章 组合优化视角下基于强化学习的精准定向广告 OCPC 业务优化 96
9.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
9.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
9.2.1 奖赏 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
9.2.2 动作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
⽬ 录 . V .
9.2.3 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9.3 建模粒度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
9.4 模型选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
9.5 探索学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
9.6 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
9.6.1 系统设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
9.6.2 奖赏设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
9.6.3 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.7 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
第十章 策略优化方法在搜索广告排序和竞价机制中的应用 111
10.1 业务背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
10.2 ⼴告排序和竞价的数学模型和优化⽅法 . . . . . . . . . . . . . . . 112
10.3 ⾯向⼴告商、⽤户和平台收益的排序公式设计 . . . . . . . . . . . 114
10.4 系统简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
10.4.1 离线仿真模块 . . . . . . . . . . . . . . . . . . . . . . . . . 115
10.4.2 离线强化学习进⾏排序策略模型初始化 . . . . . . . . . . 117
10.5 在线排序策略模型优化 . . . . . . . . . . . . . . . . . . . . . . . . 118
10.6 实验分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10.7 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
第十一章 TaskBot －阿里小蜜的任务型问答技术 124
11.1 背景和问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
11.2 模型设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
11.2.1 Intent Network . . . . . . . . . . . . . . . . . . . . . . . . . 125
11.2.2 Belief Tracker . . . . . . . . . . . . . . . . . . . . . . . . . 126
11.2.3 Policy Network . . . . . . . . . . . . . . . . . . . . . . . . . 127
11.2.4 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
11.3 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
. VI . ⽬ 录
11.4 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
第十二章 DRL 导购－阿里小蜜的多轮标签推荐技术 131
12.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
12.2 算法框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
12.3 深度强化学习模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
12.3.1 强化学习模块 . . . . . . . . . . . . . . . . . . . . . . . . . 136
12.3.2 最终模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
12.4 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
12.5 总结和展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138