ゲーマーLV90　人工知能編

**ゲーマーLV90** ◆YYqXz1t7YA · 2018/05/03(木) 17:27:04.30

皆さんお久しぶりです
第三弾は人工知能
ゲームに使えるかもしれない単純な人工知能について良さそうな構想を思いついたのでぼちぼちやっていこうと思います

**ゲーマーLV90** ◆YYqXz1t7YA · 2018/05/03(木) 17:31:54.94

簡単に言えば
学習データの作成後　学習データを使用し　行動
学習データとモードで行動に偏りを
表が完成すれば目的行動を取らせられる
こんな感じの人工知能ですね

それでは要素書いていきます

**ゲーマーLV90** ◆YYqXz1t7YA · 2018/05/03(木) 17:38:18.36

状態＝報酬
01＝07
02＝08
03＝09
04＝10
05＝11
06＝12
07＝13
08＝14
09＝15
10＝16
11＝17
12＝18
13＝19

行動＝効果
01＝＋1
02＝＋2
03＝＋3
04＝＋4
05＝＋5
06＝＋6
07＝－1
08＝－2
09＝－3
10＝－4
11＝－5
12＝－6
13＝±0

**ゲーマーLV90** ◆YYqXz1t7YA · 2018/05/03(木) 17:39:00.19

報酬＝報酬量
01＝－500
02＝－500
03＝－500
04＝－500
05＝－500
06＝－500
07＝－3
08＝－2
09＝－1
10＝±0
11＝＋1
12＝＋2
13＝＋3
14＝＋2
15＝＋1
16＝±0
17＝－1
18＝－2
19＝－3
20＝－500
21＝－500
22＝－500
23＝－500
24＝－500
25＝－500

**ゲーマーLV90** ◆YYqXz1t7YA · 2018/05/03(木) 17:40:32.43

状態　　行動　　効果　報酬　　報酬量？
00　　　00　　　000　01　□　－500
00　　　00　　　000　02　□　－500
00　　　00　　　000　03　□　－500
00　　　00　　　000　04　□　－500
00　　　00　　　000　05　□　－500
00　　　00　　　000　06　□　－500
07　□　01　□　＋1　07　□　－3
08　□　02　□　＋2　08　□　－2
09　□　03　□　＋3　09　□　－1
10　□　04　□　＋4　10　□　±0
11　□　05　□　＋5　11　□　＋1
12　□　06　□　＋6　12　■　＋2
13　■　07　■　－1　13　□　＋3
14　□　08　□　－2　14　□　＋2
15　□　09　□　－3　15　□　＋1
16　□　10　□　－4　16　□　±0
17　□　11　□　－5　17　□　－1
18　□　12　□　－6　18　□　－2
19　□　13　□　±0　19　□　－3
00　　　00　　　000　20　□　－500
00　　　00　　　000　21　□　－500
00　　　00　　　000　22　□　－500
00　　　00　　　000　23　□　－500
00　　　00　　　000　24　□　－500
00　　　00　　　000　25　□　－500

**ゲーマーLV90** ◆YYqXz1t7YA · 2018/05/03(木) 17:42:32.91

横＝行動
縦＝状態
？＝報酬

　01020304050607080910111213
07？？？？？？？？？？？？？
08？？？？？？？？？？？？？
09？？？？？？？？？？？？？
10？？？？？？？？？？？？？
11？？？？？？？？？？？？？
12？？？？？？？？？？？？？
13？？？？？？？？？？？？？
14？？？？？？？？？？？？？
15？？？？？？？？？？？？？
16？？？？？？？？？？？？？
17？？？？？？？？？？？？？
18？？？？？？？？？？？？？
19？？？？？？？？？？？？？

**ゲーマーLV90** ◆YYqXz1t7YA · 2018/05/03(木) 17:44:02.68

ずれてる(笑)

　　01　02　03　04　05　06　07　08　09　10　11　12　13
07　08　09　10　11　12　13　06　05　04　03　02　01　07
08　09　10　11　12　13　14　07　06　05　04　03　02　08
09　10　11　12　13　14　15　08　07　06　05　04　03　09
10　11　12　13　14　15　16　09　08　07　06　05　04　10
11　12　13　14　15　16　17　10　09　08　07　06　05　11
12　13　14　15　16　17　18　11　10　09　08　07　06　12
13　14　15　16　17　18　19　12　11　10　09　08　07　13
14　15　16　17　18　19　20　13　12　11　10　09　08　14
15　16　17　18　19　20　21　14　13　12　11　10　09　15
16　17　18　19　20　21　22　15　14　13　12　11　10　16
17　18　19　20　21　22　23　16　15　14　13　12　11　17
18　19　20　21　22　23　24　17　16　15　14　13　12　18
19　20　21　22　23　24　25　18　17　16　15　14　13　19

**ゲーマーLV90** ◆YYqXz1t7YA · 2018/05/03(木) 17:52:34.25

説明が失敗しそうな予感がする

状態＋行動＝報酬
状態　行動　効果　報酬　報酬量

状態13　行動13　効果13　報酬25　報酬量8

記憶
状態　行動　報酬量？　回数　上限

状態　認識　参照　行動　報酬　記憶
状態ｎの時に行動ｎをしたら報酬ｎが得られた

**ゲーマーLV90** ◆YYqXz1t7YA · 2018/05/03(木) 17:53:29.36

モード
学習データ作成モード
状態に対して学習データを参照して
回数が少ない行動を取る　回数が同じ場合は　行動変数小さい順　や　行動01から順に
など

学習データ使用モード
状態に対して学習データを参照して
報酬が一番高く確率が高い行動を選択　確率が同じ場合新しいのを選択
や
スコアがｎ点になるように行動　ｎ点になったらその点数を維持
など

ゲーマーLV90 人工知能編

ゲーマーLV90　人工知能編