結局キャプションは学習させたい要素だけ書けばいいのか
それ+画像の情報を極力入れたほうがいいのかいまだにわからん