ゲーマーLV90　人工知能編

**ゲーマーLV90** ◆YYqXz1t7YA · 2018/05/03(木) 17:54:23.34

記憶上限
報酬複数や報酬変化に対応　など
上限超えた記憶を消すのが重要
上限少ない方が適応が速い
状態　行動　結果　回数＝％　上限
回数＝報酬を得た回数
古いのから消えていく
例　報酬複数
状態01＋行動01＝報酬01　50　100
状態01＋行動01＝報酬02　30　100
状態01＋行動01＝報酬03　20　100

状態＋行動＝報酬　の表の作成と使用
表の作成＝学習
表の使用＝予測

状態ランダムテーブルシャッフル
09　08　07　04　05　06　03　02　01　10　13　12　11　など
13回状態変えたらシャッフル
一応確率式でも可能だけど確率式だと学習漏れする可能性がある
100÷13＝約7.69％　01から13まで各状態7.69％とかだと学習漏れの可能性

学習率
学習率100％＝表の完成？　確率的な場合　表が完成しない場合もある
記憶上限も関係？