あれそんな目くじらたてて批判するほどのことか?
softmaxだって誤差を二乗しないだけで理屈は大して変わらんだろう。
最尤推定で導出するとか正則化項をつけるのをベイズで理屈付けするとかあるが
あんなもん後付けだし。
そもそも誤りと断定するほどDNNのロスとしてどれほど差が出るか
まともな実験をしてる奴なんてほとんどおらんだろ。
cifer10でうまくいきました〜みたいなカス論文ばっかでさ。(松尾研もそんなんばっかだが)