説明が失敗しそうな予感がする
状態+行動=報酬
状態 行動 効果 報酬 報酬量
状態13 行動13 効果13 報酬25 報酬量8
記憶
状態 行動 報酬量? 回数 上限
状態 認識 参照 行動 報酬 記憶
状態nの時に行動nをしたら報酬nが得られた
探検
ゲーマーLV90 人工知能編
8ゲーマーLV90 ◆YYqXz1t7YA
2018/05/03(木) 17:52:34.25ID:aC7LfhT59ゲーマーLV90 ◆YYqXz1t7YA
2018/05/03(木) 17:53:29.36ID:aC7LfhT5 モード
学習データ作成モード
状態に対して学習データを参照して
回数が少ない行動を取る 回数が同じ場合は 行動変数小さい順 や 行動01から順に
など
学習データ使用モード
状態に対して学習データを参照して
報酬が一番高く確率が高い行動を選択 確率が同じ場合新しいのを選択
や
スコアがn点になるように行動 n点になったらその点数を維持
など
学習データ作成モード
状態に対して学習データを参照して
回数が少ない行動を取る 回数が同じ場合は 行動変数小さい順 や 行動01から順に
など
学習データ使用モード
状態に対して学習データを参照して
報酬が一番高く確率が高い行動を選択 確率が同じ場合新しいのを選択
や
スコアがn点になるように行動 n点になったらその点数を維持
など
10ゲーマーLV90 ◆YYqXz1t7YA
2018/05/03(木) 17:54:23.34ID:aC7LfhT5 記憶上限
報酬複数や報酬変化に対応 など
上限超えた記憶を消すのが重要
上限少ない方が適応が速い
状態 行動 結果 回数=% 上限
回数=報酬を得た回数
古いのから消えていく
例 報酬複数
状態01+行動01=報酬01 50 100
状態01+行動01=報酬02 30 100
状態01+行動01=報酬03 20 100
状態+行動=報酬 の表の作成と使用
表の作成=学習
表の使用=予測
状態ランダムテーブルシャッフル
09 08 07 04 05 06 03 02 01 10 13 12 11 など
13回状態変えたらシャッフル
一応確率式でも可能だけど確率式だと学習漏れする可能性がある
100÷13=約7.69% 01から13まで各状態7.69%とかだと学習漏れの可能性
学習率
学習率100%=表の完成? 確率的な場合 表が完成しない場合もある
記憶上限も関係?
報酬複数や報酬変化に対応 など
上限超えた記憶を消すのが重要
上限少ない方が適応が速い
状態 行動 結果 回数=% 上限
回数=報酬を得た回数
古いのから消えていく
例 報酬複数
状態01+行動01=報酬01 50 100
状態01+行動01=報酬02 30 100
状態01+行動01=報酬03 20 100
状態+行動=報酬 の表の作成と使用
表の作成=学習
表の使用=予測
状態ランダムテーブルシャッフル
09 08 07 04 05 06 03 02 01 10 13 12 11 など
13回状態変えたらシャッフル
一応確率式でも可能だけど確率式だと学習漏れする可能性がある
100÷13=約7.69% 01から13まで各状態7.69%とかだと学習漏れの可能性
学習率
学習率100%=表の完成? 確率的な場合 表が完成しない場合もある
記憶上限も関係?
11ゲーマーLV90 ◆YYqXz1t7YA
2018/05/03(木) 17:56:08.21ID:aC7LfhT5 フェーズ 学習データ作成モード ざっくり
モード=状態に対して学習データを参照して
回数が少ない行動を取る 回数が同じ場合は 行動変数小さい順 や 行動01から順に
状態ランダムテーブルシャッフル
状態 テーブルの1番
状態認識
モード参照
行動
報酬獲得
記憶
状態 テーブルの2番
状態認識
モード参照
行動
報酬獲得
記憶
テーブル13まで終わったら
状態ランダムテーブルシャッフル
状態 テーブルの1番
状態認識
モード参照
行動
報酬獲得
記憶
13×13=169 で表完成
フェーズ 学習データ使用モード ざっくり
モード=状態に対して学習データを参照して
報酬が一番高く確率が高い行動を選択 確率が同じ場合新しいのを選択
状態nに対して作成した表の行動13を選択でモードの表現
モード=状態に対して学習データを参照して
回数が少ない行動を取る 回数が同じ場合は 行動変数小さい順 や 行動01から順に
状態ランダムテーブルシャッフル
状態 テーブルの1番
状態認識
モード参照
行動
報酬獲得
記憶
状態 テーブルの2番
状態認識
モード参照
行動
報酬獲得
記憶
テーブル13まで終わったら
状態ランダムテーブルシャッフル
状態 テーブルの1番
状態認識
モード参照
行動
報酬獲得
記憶
13×13=169 で表完成
フェーズ 学習データ使用モード ざっくり
モード=状態に対して学習データを参照して
報酬が一番高く確率が高い行動を選択 確率が同じ場合新しいのを選択
状態nに対して作成した表の行動13を選択でモードの表現
12ゲーマーLV90 ◆YYqXz1t7YA
2018/05/03(木) 17:58:49.65ID:aC7LfhT5 とりあえず要素はこんな感じです
説明なしでも伝わるか時間置いてみようと思います
説明なしでも伝わるか時間置いてみようと思います
2018/05/03(木) 18:50:39.41ID:lR8Sdj6R
報酬はどうやって決定するの?
2018/05/04(金) 22:18:50.88ID:n9JbwOr3
学習データとは?ざっくりしすぎでは・・・
2018/05/08(火) 12:51:01.99ID:k5dyx4p9
レコメンドエンジンみたいだな
18ゲーマーLV90 ◆YYqXz1t7YA
2018/05/08(火) 14:12:50.03ID:IzTxC8ab レコメンドエンジンちょっと調べてみた
レコメンド
ALS(Alternative Least Squares=交互最小二乗法)とは行列分解の手法の1つ
を用いる
このスレも行列分解の手法の1つ?
協調フィルタリング
チェックまたは購入 類似性 相関分析 関連付け 提示
状態+行動=評価 このスレ
ユーザー+アイテム=レーティング レコメンド
人の評価をすり合わせて評価の予測? レコメンド
ユーザー1=ユーザー2と類似性がありアイテム1の評価がされていない
ユーザー2=ユーザー1と類似性がありアイテム1が高評価
ユーザー1にアイテム1を提示
過去の結果とのすり合わせ このスレ
他ユーザーとのすり合わせ レコメンド
合ってるか分からないけどこんな感じかな?
相関分析で敵の行動予測とかできそう
敵の行動=敵のモード
レコメンド
ALS(Alternative Least Squares=交互最小二乗法)とは行列分解の手法の1つ
を用いる
このスレも行列分解の手法の1つ?
協調フィルタリング
チェックまたは購入 類似性 相関分析 関連付け 提示
状態+行動=評価 このスレ
ユーザー+アイテム=レーティング レコメンド
人の評価をすり合わせて評価の予測? レコメンド
ユーザー1=ユーザー2と類似性がありアイテム1の評価がされていない
ユーザー2=ユーザー1と類似性がありアイテム1が高評価
ユーザー1にアイテム1を提示
過去の結果とのすり合わせ このスレ
他ユーザーとのすり合わせ レコメンド
合ってるか分からないけどこんな感じかな?
相関分析で敵の行動予測とかできそう
敵の行動=敵のモード
19名前は開発中のものです。
2018/05/19(土) 21:41:48.21ID:XUCzaMwj 今回はウディタでサンプル作らないの?
2018/05/22(火) 20:56:33.45ID:z5Z1yyt2
張り切って酉まで付けたのにまた終わっちゃったねwwwww
2018/06/01(金) 20:58:45.43ID:ty3Sqiwe
゚ ・ 。: .゚:. 。* o・ :゚゚ 。゚ :∴゚ ・ 。: . ゚:. 。* o・:゚゚ 。 ゚:∴。: ゚。
∴ 。o .゚ :. 。 o ・ :゚゚ ・ : ゚゚ 。゚ : ゚∴ ゚ ・ 。 : . *゚
o・ 。 ゚: .゚ ・ 。 *: o・ :゚゚ 。 / ゚∴.゚ :. 。 o・ :゚゚ 。゚: ゚∴ ゚:
。 :゚。 ゚ ・o゚ ・ 。: .゚:. 。* / o・: ゚゚ 。゚ :∴。: ゚。 ゚∵: 。o゚ ・ 。
。 o・ :゚゚ 。゚: ゚ / ∴゚ ・ 。: *∵ ゚∵ *。 :。 o゜゚
∴ 。 o・ :゚゚ 。 ゚: ゚ / ∴゚ 。: . *゚:.。 ゚∵* :
。゚: ゚∴. ゚:. / 。 o゚ ・ o・。 ゚: .゚ ・ ・: ゚゚ 。゚:
・ 。:.゚: / .。 o・:゚゚ 。゚:゚ ∴ ゚ : ゚ ∵
゚ ・ 。゚ ・ 。 : ☆ . ゚* ・ ゚。 :. 。 *o・: ゚ ゚ 。゚: ゚。 。゚:゚ *゚ ゚
∵ ゚∵: o・:゚゚ 。 ゚:゚∴ 。o *゚ ・ 。: . ゚:.。 o・: ゚゚*: o・
。゚:゚ ∴ ゚ ゚: ゚ ∵゚。゚∵o:。o゚ ・ o・。 ゚: .゚ ・ 。∴。: ゚。
。: .゚:.。 o ・:゚゚∴ 。o・: ゚゚ 。゚: ゚ ∴゚ ・ 。: . *゚: .。 o・:゚ 。 ゚: ゚。
・ ゜ 。 .
. ゜
. 。 ・ .
゜ \ ゜ .
゜ ・ 。 ゜
. \ ゜ .
. 。 ・
。 ☆ | . そして彼らは星になった
. ・ 。 ゜
゜・ / .
。 . 。 ゜
. . \ .
゜ ゜ \/゜
. . ゜
∴ 。o .゚ :. 。 o ・ :゚゚ ・ : ゚゚ 。゚ : ゚∴ ゚ ・ 。 : . *゚
o・ 。 ゚: .゚ ・ 。 *: o・ :゚゚ 。 / ゚∴.゚ :. 。 o・ :゚゚ 。゚: ゚∴ ゚:
。 :゚。 ゚ ・o゚ ・ 。: .゚:. 。* / o・: ゚゚ 。゚ :∴。: ゚。 ゚∵: 。o゚ ・ 。
。 o・ :゚゚ 。゚: ゚ / ∴゚ ・ 。: *∵ ゚∵ *。 :。 o゜゚
∴ 。 o・ :゚゚ 。 ゚: ゚ / ∴゚ 。: . *゚:.。 ゚∵* :
。゚: ゚∴. ゚:. / 。 o゚ ・ o・。 ゚: .゚ ・ ・: ゚゚ 。゚:
・ 。:.゚: / .。 o・:゚゚ 。゚:゚ ∴ ゚ : ゚ ∵
゚ ・ 。゚ ・ 。 : ☆ . ゚* ・ ゚。 :. 。 *o・: ゚ ゚ 。゚: ゚。 。゚:゚ *゚ ゚
∵ ゚∵: o・:゚゚ 。 ゚:゚∴ 。o *゚ ・ 。: . ゚:.。 o・: ゚゚*: o・
。゚:゚ ∴ ゚ ゚: ゚ ∵゚。゚∵o:。o゚ ・ o・。 ゚: .゚ ・ 。∴。: ゚。
。: .゚:.。 o ・:゚゚∴ 。o・: ゚゚ 。゚: ゚ ∴゚ ・ 。: . *゚: .。 o・:゚ 。 ゚: ゚。
・ ゜ 。 .
. ゜
. 。 ・ .
゜ \ ゜ .
゜ ・ 。 ゜
. \ ゜ .
. 。 ・
。 ☆ | . そして彼らは星になった
. ・ 。 ゜
゜・ / .
。 . 。 ゜
. . \ .
゜ ゜ \/゜
. . ゜
22名前は開発中のものです。
2019/06/19(水) 04:15:47.60ID:qVadzKwr 【出資】松本卓朗 人工知能詐欺【注意】
https://rio2016.5ch.net/test/read.cgi/rikei/1560859403/
https://rio2016.5ch.net/test/read.cgi/rikei/1560859403/
2023/08/01(火) 14:29:41.01ID:UcyQJijg
公園で寝てるおっさんが蚊のドリンクバーと化しててわろた
2023/09/23(土) 23:23:56.37ID:aLog1Q6o
あーもう、なんかうまくいかないこと続きだよね。
2023/10/16(月) 15:53:28.87ID:bXUSg8ad
レスを投稿する
ニュース
- ネット殺到「高市総理の責任」「完全に高市リスク」「負けるな」中国が水産物輸入停止→流石に総理批判の声も「どう責任取る?」 ★4 [樽悶★]
- 【🐼🇨🇳】「高市総理VS中国」で日本からパンダはゼロに? 上野動物園「パンダ返還期限」まであと3カ月… [BFU★]
- 「“なり得る”って言っただけだから…」高市早苗“存立危機”答弁後に漏らした本音 ★3 [Hitzeschleier★]
- 【速報】 米大使声明 「日本を支えていく」「中国が威圧的手段に訴えるのは断ち難い悪癖」 [お断り★]
- 歩道で93歳男性が女子大学生の自転車にはねられ意識不明 坂を下った先「気付いたときには目の前に」 [七波羅探題★]
- 中国外務省局長 「ポケットに手を入れていたのは寒いから」 日本との局長級会談で ★4 [お断り★]
- テレビ局各社が高市首相を一切批判せず中国批判を展開 安倍時代の報道完全復活 [633746646]
- 🍣にゃっはろ🌸~スシろ~🏡
- 高市有事、今度はパンダに飛び火wwwwwwwwwwwwwww [834922174]
- ドラクエ7プロデューサー「リメイク版でエピソードを大幅カットしたのは忙しい現代人に配慮した結果です」 [153736977]
- 海外大手メディア、高市が中国に宣戦布告したと次々報道し始める。どんどん外堀が埋められる [931948549]
- 中国人観光客のキャンセル率、ついに7割越えwwwwwwwwwwwwwwww [329329848]
