ライブラリの中身知りたいならゼロから作るdeep learningがCNNまでをライブラリ無しで実装しているのでオススメ
MLやってる絶対に研究室ならあるだろう

強化学習は結果をもとにそれまでの手の評価を行うから最初モンテカルロになるのは仕方ない
alphagoも同じようにランダムに打って結果から評価してるのは同じだけど
評価関数をあらかじめプロの棋譜で学習してるから途中の手筋である程度の収束させてる