ここに書いても無駄だろうけど
Attentionした時間順を特徴に埋め込んでから
CNNでその時間を考慮しつつ、初期層含め各層の時間情報を参照しながら畳み込む
ってモデルさっさとでないかなぁ
sota必至だから早く論文出てほしい

脳はやってる
https://www.eurekalert.org/pub_releases/2018-08/nuos-hyb082818.php

でも既存の機械学習では、初期の特徴に時間を付与することはほとんどやってない
RNNやLSTMが上手くいってないのは、初期から時間情報を連続的に把握して時間変化率を学習できないからだよ
いくら微分しても変化率とっても、初期状態からの時間情報を連続的に把握できないから学習できてない

一方、音声を特徴とする場合、ほとんどシークタイムが特徴に自動的に含まれるから
処理はクソ重くなるけど、高品質な結果が得られる

人間に置き換えても一緒
感覚器官は注意と畳み込みを同時に行いながら、それらの順でシーケンスを伝えて
脳はこの順番を記憶している