実績あるモデルからの転移学習とか、学習率調整したりとか、そういうのはわかるんだけど、例えばtransformerとかああいう新しい発想のがどうやって考え出されたのかサッパリ理解ができない。