AlphaZeroは、全くの自力の学習で強くなるよと示す論文であって、縛りプレイしてるから、
もっと効率的に学習することそのものは可能。
たとえば、最初はElmoの出す教師局面の評価値から学習して、その後自己対戦で学習、
とするだけで基本的な戦略の獲得のところはすっ飛ばせて、
最終レート到達までの時間やステップ数は早められる。
ただ、学術的にはそんな将棋ソフト用の特殊な学習の仕方をしても意味が無くて、むしろ、汎用的に学習できるよと示すために
あえて多少非効率でも自己対戦のみという縛りプレイでやってるんだよ。
強くすることそのものが目的の各種将棋ソフトとはその点で成り立ちが違う。