ゲーマーLV90 人工知能編

1ゲーマーLV90 ◆YYqXz1t7YA
垢版 |
2018/05/03(木) 17:27:04.30ID:aC7LfhT5
皆さんお久しぶりです
第三弾は人工知能
ゲームに使えるかもしれない単純な人工知能について良さそうな構想を思いついたのでぼちぼちやっていこうと思います
2018/05/03(木) 17:31:54.94ID:aC7LfhT5
簡単に言えば
学習データの作成後 学習データを使用し 行動
学習データとモードで行動に偏りを
表が完成すれば目的行動を取らせられる
こんな感じの人工知能ですね

それでは要素書いていきます
2018/05/03(木) 17:38:18.36ID:aC7LfhT5
状態=報酬
01=07
02=08
03=09
04=10
05=11
06=12
07=13
08=14
09=15
10=16
11=17
12=18
13=19

行動=効果
01=+1
02=+2
03=+3
04=+4
05=+5
06=+6
07=−1
08=−2
09=−3
10=−4
11=−5
12=−6
13=±0
2018/05/03(木) 17:39:00.19ID:aC7LfhT5
報酬=報酬量
01=−500
02=−500
03=−500
04=−500
05=−500
06=−500
07=−3
08=−2
09=−1
10=±0
11=+1
12=+2
13=+3
14=+2
15=+1
16=±0
17=−1
18=−2
19=−3
20=−500
21=−500
22=−500
23=−500
24=−500
25=−500
2018/05/03(木) 17:40:32.43ID:aC7LfhT5
状態  行動  効果 報酬  報酬量?
00   00   000 01 □ −500
00   00   000 02 □ −500
00   00   000 03 □ −500
00   00   000 04 □ −500
00   00   000 05 □ −500
00   00   000 06 □ −500
07 □ 01 □ +1 07 □ −3
08 □ 02 □ +2 08 □ −2
09 □ 03 □ +3 09 □ −1
10 □ 04 □ +4 10 □ ±0
11 □ 05 □ +5 11 □ +1
12 □ 06 □ +6 12 ■ +2
13 ■ 07 ■ −1 13 □ +3
14 □ 08 □ −2 14 □ +2
15 □ 09 □ −3 15 □ +1
16 □ 10 □ −4 16 □ ±0
17 □ 11 □ −5 17 □ −1
18 □ 12 □ −6 18 □ −2
19 □ 13 □ ±0 19 □ −3
00   00   000 20 □ −500
00   00   000 21 □ −500
00   00   000 22 □ −500
00   00   000 23 □ −500
00   00   000 24 □ −500
00   00   000 25 □ −500
2018/05/03(木) 17:42:32.91ID:aC7LfhT5
横=行動
縦=状態
?=報酬

 01020304050607080910111213
07?????????????
08?????????????
09?????????????
10?????????????
11?????????????
12?????????????
13?????????????
14?????????????
15?????????????
16?????????????
17?????????????
18?????????????
19?????????????
2018/05/03(木) 17:44:02.68ID:aC7LfhT5
ずれてる(笑)

  01 02 03 04 05 06 07 08 09 10 11 12 13
07 08 09 10 11 12 13 06 05 04 03 02 01 07
08 09 10 11 12 13 14 07 06 05 04 03 02 08
09 10 11 12 13 14 15 08 07 06 05 04 03 09
10 11 12 13 14 15 16 09 08 07 06 05 04 10
11 12 13 14 15 16 17 10 09 08 07 06 05 11
12 13 14 15 16 17 18 11 10 09 08 07 06 12
13 14 15 16 17 18 19 12 11 10 09 08 07 13
14 15 16 17 18 19 20 13 12 11 10 09 08 14
15 16 17 18 19 20 21 14 13 12 11 10 09 15
16 17 18 19 20 21 22 15 14 13 12 11 10 16
17 18 19 20 21 22 23 16 15 14 13 12 11 17
18 19 20 21 22 23 24 17 16 15 14 13 12 18
19 20 21 22 23 24 25 18 17 16 15 14 13 19
2018/05/03(木) 17:52:34.25ID:aC7LfhT5
説明が失敗しそうな予感がする

状態+行動=報酬
状態 行動 効果 報酬 報酬量

状態13 行動13 効果13 報酬25 報酬量8

記憶
状態 行動 報酬量? 回数 上限

状態 認識 参照 行動 報酬 記憶
状態nの時に行動nをしたら報酬nが得られた
2018/05/03(木) 17:53:29.36ID:aC7LfhT5
モード
学習データ作成モード
状態に対して学習データを参照して
回数が少ない行動を取る 回数が同じ場合は 行動変数小さい順 や 行動01から順に
など

学習データ使用モード
状態に対して学習データを参照して
報酬が一番高く確率が高い行動を選択 確率が同じ場合新しいのを選択

スコアがn点になるように行動 n点になったらその点数を維持
など
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況