>>876
GPUは基本FP32に最適化されている。
NPUは低精度(FP8,INT4etc)の混合精度に最適化されている。
大雑把にはこんなもん。

NPUの方がパイプライン処理が重要視されるもあるが枝葉っちゃ枝葉。
それをどうやって実装するかの方法は色々あって(メモリをニアにとかある程度決まってきたが)試行錯誤中。