2024-03-29T11:24:46Z
https://repository.dl.itc.u-tokyo.ac.jp/oai
oai:repository.dl.itc.u-tokyo.ac.jp:00004875
2022-12-19T03:46:31Z
6:209:271
9:233:234
A New Learning Method for Policies Based on Analysis of the Monte-Carlo Tree Search in Shogi
将棋におけるモンテカルロ木探索の特性の解明にもとづいた方策の学習手法の提案
関, 栄二
10580
修士(工学)
モンテカルロ木探索は2006 年の登場以降,囲碁を中心として大きな成功を収め,ゲーム・非ゲームを問わず様々な応用が模索されている.一方で,モンテカルロ木探索には未解決の課題も数多く,適用範囲の拡大の中で問題になっていくと考えられる.本研究ではその中でも,木探索を行う上でどのようなシミュレーションが有効であるかが不明確な点と,モンテカルロ木探索自体が従来のミニマックス探索と比べ何を得意とし不得意とするのかが不明確な点に着目する.このため,複数のシミュレーション方策の比較や,チェスや将棋で成果を挙げているミニマックス探索との比較を通じた,モンテカルロ木探索の特性の解明を目的とする.さらに,その結果をもとに新たなシミュレーション方策の学習手法の提案を行う.解析においては,異なる性質を持った二種類の方策の得失を将棋において明らかにし,ミニマックス探索との比較ではモンテカルロ木探索が最善手の「明確な」局面を苦手とすることを明らかにした.学習手法の提案において,将棋では従来手法と同程度の性能にとどまったものの,両方策の利点を共に有するような方策を学習することができた.
thesis
2013-03-25
2013-03-25
application/pdf
https://repository.dl.itc.u-tokyo.ac.jp/record/4875/files/37116454.pdf
jpn