GPT-nとBERTの違いがイマイチあやふやなんだけど
TransformerのEncoderを使って事前学習して特徴量を生成するのがBERT
TransformerのDecoderを使ってBERTが生成した特徴量をもとに自然言語を生成するのがGPT-nって理解であってるのかな?

GPT-4も学習時はBERT使って学習してるのよね?