平成18年度卒業

田中 靖章
つながりがある複数の環境での強化学習の研究

1.強化学習

 強化学習とは、まずある環境において、設計者はあらかじめ環境の中で目標としたい 事柄に対して報酬を設定しておきます。そしてエージェントという名前の学習をさせた いものを用意し、そのエージェントが環境に対して自立的に行動して、どうしたら将来 的なものも含めて一番多く報酬を得られるかというエージェントの情報を強化していく 学習方法です。
 環境とは何かというと、現実でも計算機上のデータでもどちらでもかまいませんが、 エージェントが何か行動をすると、置かれている状態が変化すればよいのです。
 ただし例外もありますが、基本的な強化学習ではエージェントは状態は次に変化する 状態は現在より前の状態には影響されてはいけません。つまり状態は変化に必要な全て の情報をもっていなければなりません。 例えば環境が平面迷路であれば、状態の情報がは四つ角、三つ角などでは迷路の中にい くつも存在する可能性があります。そのため強化学習ではそういった曲がり角をxy座標 のような確実な情報として必要とします。

2.提案手法

 今回提案した手法では、環境によってはその中にある情報の成分を利用して学習する と、もっと学習の効率があがるのではないかという考えをもとにしています。
 通常の強化学習では環境の情報をそのまま利用して学習します。しかし環境の情報は 幾つかの成分(例えば先ほどの迷路の例であればx座標とy座標のような)を持っているこ とが想定できます。今回の提案手法ではその成分をに対して強化学習を行う方法です。
 本研究では環境から成分をどのように取り出せばいいのかという部分まで手が回らな かったため、元々分かれていたいくつかの環境を合成して、新しく一つの合成された環 境を作り出しました。そして元の環境の情報を成分として利用して、提案手法がうまく 働くかどうかを、いくつか環境を変えて実験を行う事により確認しました。

3.実験のまとめ

 合成された環境では合成する前の環境によって、合成されても合成する前の特徴がそ のまま残る場合と、合成されることによって別の特徴があらわれる場合があります。
前者の場合は今回提案手法で既存手法より効率的に学習ができることを確認できました。
 しかし後者の場合、現在の提案手法では合成される前の特徴しか利用してない形になっ ているため、提案手法で効率的に学習を行う事はできましたが、その学習の結果は合成 した環境の特徴を反映していない誤った学習結果となってしまいました。 そのため合成されて特徴が変わっても提案手法が正しい学習ができるように、提案手法 に改善を施す必要があることが分かりました。
 また、報酬を合成したあとで設定した場合、、提案手法では環境の成分に対して強化 学習をおこないますが、1.で述べた「確実な状態の情報」という強化学習を行なうため の条件を満たさなくなります。そのためこの場合は学習自体が行なえませんでした。

参考文献
Richard S Sutton & Andrew G.Barto, 三上貞芳・皆川雅章 共訳. 強化学習. 森北出版.