Anthropicはo1より前から、<antThinking>タグを使って回答前の思考過程を(ユーザーには表示しないようにして)出力するということをやっている
(<>の代わりに例えば$$を使うように指示すればユーザーも思考過程を見ることができる)
それを発展させて強化学習でトレーニングすれば、推論モデルはすぐ作れそう