ドクター・ゲロのTweetが面白かった

-----------------------------
深いdepthで生成した教師局面でelmo絞りすると、短時間対局だと
その力を発揮しないのはずっと言われて来た。elmo絞りは先の方まで
考えて指した手の勝敗を手前のほうの手にまで反映させていくから、
本来なら短時間しか読まなくても深い手を指せるので強いはず。
でも、以前のそんなに深くない教師で学習させて作られた評価関数にコロッと負ける。なんでか?

深い教師のほう(Aとしよう)は、近くでは一旦悪くなっても、
その先で良くなる手があるとプラスの評価になるため、短時間でもその手を指す。
で、浅い教師のほう(Bとしよう)は、その手は悪い手と認識して、これ幸いとその筋に飛び込む。
Bの指し手がAのPonderの第一候補ならその先まで読めているので無事にその筋に誘導できるのだが、
Bの手が次善手だったりすると、またそこから考えはじめ、狙った筋とは違う筋に入ってしまうことがある。
違う筋だと逆転する筋が見つからなくて、そこで大反省してしまうことが往々にしてあるのだ。

Hefeweizenの評価関数はこのことを逆用し、学習時に最善だと習った手を次善手に格下げして、
そんなに評価値の変わらない次善手を最善として指させるようにした。
こちらはMulti Ponderで、どんな手が飛んできても先までお見通しの状態で待ち受けているので、
大抵の変化にも問題なく対応できるため、相手のPonderを外しながらどんどん悪い筋に誘導していくことができるのだ。

depth12で学習させた評価関数が異常に弱くなったので、その原因を分析している時にこの手法を思いつき、
18号の新コマンドでチョチョイといじったら、狙い通りの手を指してくれるようになった。

HefeweizenはMulti Ponderと最善手外しの複合技で戦っていたというお話でした。