Transformerの資料はNLPを想定して書かれてるから余計に混乱する
GPTなら解るが、Transformerは汎用性が高いのに