4文字ひらかなキャプチャの例でいくと
強化学習の過程で、正解のご褒美与えるタイミングのルールってほぼ無し?
50音×50×50×50の確率で正解
だけだとめちゃくちゃ時間掛かりそうな気がする
「画像のこの部分から探してね」「薄かったり途切れすぎなやつは文字じゃないぞ」
みたいなヒントを与えるのも強化学習的には好ましくないってことかな

まずは、先頭の文字っぽい場所だけ当てたら褒めて学習終了
つぎのステップは、先頭の文字をドンピシャで当てたら褒めて学習終了
ってやれば少なくとも先頭の文字は行けそうだけど
これも作為的だよね
2番目、3番目であろうがどこから当てても、当てたら褒めてエサを与えて
ヒントは与えずひたすら見守る
だと思うけどめっちゃ時間かかりそう・・