でも出力と教師信号の差を小さくするっていう点では
最小二乗法と同じじゃね?

多層にする事でより精度よく
複雑な問題に対応可能になっているけど
もっとシンプルな構造で
同様の出力をできれば
学習の計算力も少なくて済む