¾¦Éʸ¡º÷
¥«¥Æ¥´¥ê¡¼
²ñ°÷ÀìÍÑ¥Ú¡¼¥¸
¥í¥°¥¤¥ó
¥á¡¼¥ë¥Þ¥¬¥¸¥ó
¥Õ¥ê¡¼¥Ú¡¼¥¸
rss atom
¥Û¡¼¥à ¡ä ¼«Á³¡¦²Ê³Ø¡¦µ»½Ñ¡¦»º¶È ¡ä AI¡¦¿Í¹©ÃÒǽ
¶¯²½³Ø½¬ Reinforcement Learning¡ÊÂè2ÈÇ¡Ë

¾¦ÉÊ̾¡§¶¯²½³Ø½¬ Reinforcement Learning¡ÊÂè2ÈÇ¡Ë
¾¦ÉÊÈֹ桧N1_9894
ÊÔÃø¼Ô¡§[²Ã] RichardS.Sutton¡¤[Èþ] AndrewG.Barto Ãø
¸À¸ì¡§Ãæ¹ñ¸ì
¥Ú¡¼¥¸¡§548P
¥µ¥¤¥º¡§B5
½ÐÈÇ¡§ÅŻҹ©¶È½ÐÈǼÒ
½ÐÈÇǯ·î¡§2019ǯ9·î
ISBN¡§9787121295164

ÆâÍƾҲ𡧡Ô强²½³Ø习¡ÊÂè2ÈÇ¡Ë¡Õºî为强²½³Ø习»×ÁÛŪ¿¼ÅÙ²ò˶Ƿºî¡¤Èï业Æâ¸ø认为À§°ìËÜ强²½³Ø习´ð础Íý论Ū经ŵÃøºî¡£Õàк强²½³Ø习Ū´ðËÜ»×ÁÛ½Ð发¡¤¿¼ÆþÀõ½ÐËô严谨细Ã×Ãϲð绍λ马尔²ÄÉ×ÑÓºö过Äø¡¢ÌØÆÃ卡ÍìÊýË¡¡¢时½øº¹Ê¬ÊýË¡¡¢Æ±轨离轨ºöάÅù强²½³Ø习Ū´ðËܳµÇ°ÏÂÊýË¡¡¤Öõ°ÊÂçÎÌŪ实Îã帮½õ读¼ÔÍý²ò强²½³Ø习Ū问题·úÌÏ过Äø°ÊµÚ³Ë¿´Åª»»Ë¡细节¡£ ¡Ô强²½³Ø习¡ÊÂè2ÈÇ¡Ë¡Õ适¹ç½êÍ­对强²½³Ø习´¶兴¼ñŪ读¼Ô阅读¡¢ÚÀ鶡£

¡¡¡¡

ÌÜÏ¿

Âè1¾Ï 导论 1
1.1 强²½³Ø习 1
1.2 ¼¨Îã 4
1.3 强²½³Ø习Í×ÁÇ 5
1.4 ¶É¸ÂÀ­Í¿适ÍÑç÷围 7
1.5 扩Ÿ实Î㡧°æ»ú´ý 8
1.6 ËܾϾ®结 12
1.7 强²½³Ø习ŪÁá´ü历»Ë 13

ÂèIÉôʬ ɽ³Ê·¿µá²òÊýË¡ 23

Âè2¾Ï ¿ç¾赌Çî´ù 25
2.1 °ìФ k ç¾赌Çî´ù问题 25
2.2 动ºî-ÐÃ值ÊýË¡ 27
2.3 10 ç¾测试Ê¿Âæ 28
2.4 ùáÎ̼°实现 30
2.5 ìðí©°ìФÈóÊ¿稳问题 32
2.6 乐观½é»Ï值 34
2.7 ´ðвÃÖ¿®Åپ峦Ū动ºî选择 35
2.8 ÄôÅÙ赌Çî´ù»»Ë¡ 37
2.9 关联ÙÓº÷ (¾å²¼Ê¸Áê关Ū赌Çî´ù) 40
2.10 ËܾϾ®结 41

Âè3¾Ï Í­¸Â马尔²ÄÉ×ÑÓºö过Äø 45
3.1 ¡ÈÃÒǽÂÎ-环¶­¡É¸ò¸ßÀܸý 45
3.2 ÌÜ标ÏÂÚÀ±× 51
3.3 ²ó报ÏÂʬËë 52
3.4 ʬËë¼°Ï»ý续À­Ç¤务Ū统°ìɽ¼¨Ë¡ 54
3.5 ºöάÏÂÐÃ值È¡¿ô 55
3.6 ºÇ优ºöάϺÇ优ÐÃ值È¡¿ô 60
3.7 ºÇ优À­Ï¶á»÷»»Ë¡ 65
3.8 ËܾϾ®结 66

Âè4¾Ï 动态规划 71
4.1 ºöά评ÐÆ (预测) 72
4.2 ºöά²þ进 75
4.3 ºöάųÂå 78
4.4 ÐÃ值ųÂå 80
4.5 异步动态规划 83
4.6 Öø义ºöάųÂå 84
4.7 动态规划ŪÚÃΨ 85
4.8 ËܾϾ®结 86

Âè5¾Ï ÌØÆÃ卡ÍìÊýË¡ 89
5.1 ÌØÆÃ卡Íì预测 90
5.2 动ºîÐÃ值ŪÌØÆÃ卡ÍìÐÆ计 94
5.3 ÌØÆÃ卡Íì¹µÀ© 95
5.4 Ë×Í­试õÀ­½Ð发Ðñ设ŪÌØÆÃ卡Íì¹µÀ© 98
5.5 ´ðв½ÅÍ×ÅÙºÓ样Ū离轨ºöά 101
5.6 ùáÎ̼°实现 107
5.7 离轨ºöάÌØÆÃ卡Íì¹µÀ© 108
5.8 ? ÀÞÙ«ÉÒ´¶Åª½ÅÍ×ÅÙºÓ样 110
5.9 ? 每¼¡ÑÓºö·¿½ÅÍ×ÅÙºÓ样 112
5.10 ËܾϾ®结 113

Âè 6 ¾Ï 时½øº¹Ê¬³Ø习 117
6.1 时½øº¹Ê¬预测 117
6.2 时½øº¹Ê¬预测ÊýˡŪ优势 122
6.3 TD(0) ŪºÇ优À­ 124
6.4 Sarsa¡§Æ±轨ºöά²¼Åª时½øº¹Ê¬¹µÀ© 127
6.5 Q ³Ø习¡§离轨ºöά²¼Åª时½øº¹Ê¬¹µÀ© 129
6.6 ´ü˾ Sarsa 131
6.7 ºÇÂç²½Êк¹Í¿ÁгØ习 133
6.8 Þâ戏¡¢¹¡°Ì¾õ态϶¾ÆüìÎã»Ò 135
6.9 ËܾϾ®结 136

Âè7¾Ï n 步¼«举Ë¡ 139
7.1 n 步时½øº¹Ê¬预测 140
7.2 n 步 Sarsa 144
7.3 n 步离轨ºöά³Ø习 146
7.4 ? 带¹µÀ©变ÎÌŪ每¼¡ÑÓºö·¿ÊýË¡ 148
7.5 ÉÔ¼ûÍ×»ÈÍѽÅÍ×ÅÙºÓ样Ū离轨ºöά³Ø习ÊýË¡¡§n 步树²óÞ껻ˡ 150
7.6 ? °ìФ统°ìŪ»»Ë¡¡§n 步 Q(¦Ò) 153
7.7 ËܾϾ®结 155

Âè8¾Ï ´ðвɽ³Ê·¿ÊýˡŪ规划ϳØ习 157
8.1 ÌÏ·¿ÏÂ规划 157
8.2 Dyna¡§½¸À®ºß°ìµ¯Åª规划¡¢动ºîϳØ习 159
8.3 ÅöÌÏ·¿错误Ū时¸õ 164
8.4 优ÀèÊ×历 166
8.5 ´ü˾¹¹¿·Í¿ºÓ样¹¹¿·Åª对Èæ 170
8.6 轨íñºÓ样 173
8.7 实时动态规划 176
8.8 ÑÓºö时规划 179
8.9 启发¼°ÙÓº÷ 180
8.10 预±é»»Ë¡ 182
8.11 ÌØÆÃ卡Íì树ÙÓº÷ 184
8.12 ËܾϾ®结 187
8.13 ÂèIÉôʬ总结 188

ÂèIIÉôʬ ɽ³Ê·¿¶á»÷µá²òÊýË¡ 193

Âè9¾Ï ´ðвȡ¿ôɯ¶áŪƱ轨ºöά预测 195
9.1 ÐÃ值È¡¿ôɯ¶á 195
9.2 预测ÌÜ标 (VE ) 196
9.3 ¿ï´ùÄôÅÙÏÂȾÄôÅÙÊýË¡ 198
9.4 线À­ÊýË¡ 202
9.5 线À­ÊýˡŪÆÃÀ¬构¤ 207
9.5.1 ¿项¼°´ð 208
9.5.2 ÐüΩ³ð´ð 209
9.5.3 ÁÆ编码 212
9.5.4 ´¤ÊÒ编码 214
9.5.5 ·Â¸þ´ðÈ¡¿ô 218
9.6 ¼ê动选择步长»²¿ô 219
9.7 Èó线À­È¡¿ôɯ¶á¡§¿Í¹©¿À经æ¦络 220
9.8 ºÇ¾®ÆóЫ时½øº¹Ê¬ 225
9.9 ´ðв记忆Ūȡ¿ôɯ¶á 227
9.10 ´ðв³ËÈ¡¿ôŪȡ¿ôɯ¶á 229
9.11 ¿¼Æþλ²òƱ轨ºöά³Ø习¡§¡È兴¼ñ¡ÉÍ¿¡È强调¡É 230
9.12 ËܾϾ®结 232

Âè10¾Ï ´ðвȡ¿ôɯ¶áŪƱ轨ºöά¹µÀ© 239
10.1 ʬË뼰ȾÄôÅÙ¹µÀ© 239
10.2 ȾÄôÅÙ n 步 Sarsa 242
10.3 Ê¿¶ÑÚÀ±×¡§»ý续À­Ç¤务ÃæŪ¿·Åª问题设Äê 245
10.4 ×±ÍÑÀÞÙ« 249
10.5 º¹Ê¬È¾ÄôÅÙ n 步 Sarsa 251
10.6 ËܾϾ®结 252

Âè11 ¾Ï ? ´ðвȡ¿ôɯ¶áŪ离轨ºöάÊýË¡ 253
11.1 ȾÄôÅÙÊýË¡ 254
11.2 离轨ºöά发»¶ÅªÎã»Ò 256
11.3 Ã×Ì¿»°Í×ÁÇ 260
11.4 线À­ÐÃ值È¡¿ôŪÑܲ¿À­质 262
11.5 对贝尔ÒØ误º¹ÐöÄôÅÙ²¼¹ß 266
11.6 贝尔ÒØ误º¹À§ÉԲijØ习Ū 270
11.7 ÄôÅÙ TD ÊýË¡ 274
11.8 强调 TD ÊýË¡ 278
11.9 减¾®Êýº¹ 279
11.10 ËܾϾ®结 280

Âè12¾Ï 资³Êíñ 283
12.1 ¦Ë-²ó报 284
12.2 TD(¦Ë) 287
12.3 n-步Ù£ÃÇ ¦Ë- ²ó报ÊýË¡ 291
12.4 ½ÅÐö¹¹¿·¡§ºß线 ¦Ë-²ó报»»Ë¡ 292
12.5 ¿¿实Ūºß线 TD(¦Ë) 294
12.6 ? ÌØÆÃ卡Íì³Ø习ÃæŪ²Ù兰íñ 296
12.7 Sarsa(¦Ë) 298
12.8 变ÎÌ ¦Ë Ï ¦Ã 303
12.9 带Í­¹µÀ©变ÎÌŪ离轨ºöά资³Êíñ 304
12.10 к Watkins Ū Q(¦Ë) Åþ树²óÞê TB(¦Ë) 308
12.11 ºÓÍÑ资³ÊíñÊݾã离轨ºöάÊýˡŪ稳ÄêÀ­ 310
12.12 实现ÃæŪ问题 312
12.13 ËܾϾ®结 312

Âè13¾Ï ºöάÄôÅÙÊýË¡ 317
13.1 ºöά¶á»÷µÚ¶优势 318
13.2 ºöάÄôÅÙÄêÍý 320
13.3 REINFORCE¡§ÌØÆÃ卡ÍìºöάÄôÅÙ 322
13.4 带Í­´ð线Ū REINFORCE 325
13.5 ¡È¹Ô动´ï-评Ƚ´ï¡ÉÊýË¡ 327
13.6 »ý续À­问题ŪºöάÄôÅÙ 329
13.7 针对连续动ºîŪºöά»²¿ô²½ÊýË¡ 332
13.8 ËܾϾ®结 333

ÂèIIIÉôʬ ɽ³Ê·¿¿¼Æþ¸¦µæ 337

Âè14¾Ï ¿´Íý³Ø 339
14.1 预测Í¿¹µÀ© 340
14.2 经ŵ¾ò·ïÈ¿¼Í 341
14.2.1 Á˺ÉÍ¿¹â级¾ò·ïÈ¿¼Í 342
14.2.2 Rescorla-Wagner ÌÏ·¿ 344
14.2.3 TD ÌÏ·¿ 347
14.2.4 TD ÌÏ·¿ÌÏ拟 348
14.3 ¹©¶ñÀ­¾ò·ïÈ¿¼Í 355
14.4 ±ä迟强²½ 359
14.5 认ÃÎ图 361
14.6 习惯¹Ô为Í¿ÌÜ标导¸þ¹Ô为 362
14.7 ËܾϾ®结 366

Âè15¾Ï ¿À经²Ê³Ø 373
15.1 ¿À经²Ê³Ø´ð础 374
15.2 ÚÀ±×¿®¹æ¡¢强²½¿®¹æ¡¢ÐÃ值ÏÂ预测误º¹ 375
15.3 ÚÀ±×预测误º¹Ðñ说 377
15.4 ¿ÇÃ胺 379
15.5 ÚÀ±×预测误º¹Ðñ说Ū实验»Ù»ý 382
15.6 TD 误º¹/¿ÇÃ胺对应 385
15.7 ¿À经¡È¹Ô动´ï-评Ƚ´ï¡É 390
15.8 ¹Ô动´ïÍ¿评Ƚ´ï³Ø习规则 393
15.9 µý乐¼ç义¿À经¸µ 397
15.10 ½¸ÂÎ强²½³Ø习 399
15.11 Âç脑ÃæŪ´ðвÌÏ·¿Åª»»Ë¡ 402
15.12 À®瘾 403
15.13 ËܾϾ®结 404

Âè 16 ¾Ï 应ÍѵڰÆÎãʬÀÏ 413
16.1 TD-Gammon 413
16.2 Samuel Ūķ´ýÄø½ø 418
16.3 Watson Ū每ÆüÁÐÇÜÅêÃí 421
16.4 优²½Æ⸹µÀ© 424
16.5 ¿Í类级别Ū视频Þâ戏 428
16.6 ¼çºË围´ýÞâ戏 433
16.6.1 AlphaGo 436
16.6.2 AlphaGo Zero 439
16.7 ФÀ­²½æ¦络Éþ务 442
16.8 热Ýãή³êæÆ 446

Âè17¾Ï Á°±èµ»术 451
17.1 Öø义ÐÃ值È¡¿ôÏÂ辅½õǤ务 451
17.2 ´ðв选项Íý论Ū时½øŦÍ× 453
17.3 观测ÎÌϾõ态 456
17.4 设计ÚÀ±×¿®¹æ 460
17.5 遗α问题 464
17.6 ¿Í¹©ÃÒǽṲ̄Íè 467

»²¹Íʸ¸¥ 473

¡¡ ¶¯²½³Ø½¬ Reinforcement Learning¡ÊÂè2ÈÇ¡Ë

¶ä¹Ô¿¶¹þ¤È͹Ãù¶ä¹Ô¿¶¹þµÚ¤Ó PayPay»Ùʧ¤¤¤¬¤´ÍøÍѲÄǽ¤Ç¤¹¡£Æþ¶âÀè¤Ï¤´Ãíʸ¸å¥á¡¼¥ë¤Ë¤Æ¤ª¤»¤é¤»Ãפ·¤Þ¤¹¡£¿¶¹þ¼ê¿ôÎÁ¤Ï¤ªµÒÍÍÉéô¤È¤µ¤»¤Æ夭¤Þ¤¹¡£
¾¦ÉʤÎÇÛÁ÷¤Ë¤Ï¡¢´ðËÜŪ¤ËÃæ¹ñ͹ÊضɤιñºÝ¹Ò¶õÊؤˤÆË̵þ¤«¤éľÁ÷¤¤¤¿¤·¤Þ¤¹¡£Á÷ÎÁ¤Ï¡¢Á´¹ñ°ìΧ880±ß¡£Ê£¿ô¾¦ÉʤΤ´Ãíʸ¤Ï¡¢Æ±°ìº­Êñ¤¬½ÐÍè¤Ê¤¤¾ì¹ç¤âÁ÷ÎÁ1ÅÀʬ¤È¤µ¤»¤Æ¤¤¤¿¤À¤­¤Þ¤¹¡£
JCCBOOKSÃæ¹ñ½ñÀҥͥåȥ·¥ç¥Ã¥×
¡¡¡¡