違うね
俺もそこに引っかかったのよ
実際モデル見たら全然違うじゃねーかと
推論時に1トークンづつ出力するからそこがデコーダっぽいってことなんだろうけどね
エンコーダデコーダで考えるものではない