しらんけど、fp32ユニットでfp16を2つ束ねて出来たらスループット2倍みたいやつ???
コンシューマ向けGTXでは出来ないっぽい
HPC向け一部の製品ではfp16がfp32の二倍になるので不思議な手品が使えるっぽいが詳細が不明
TensorCoreでもfp16演算できるのでそれとは別枠らしいけど詳細がry

コロナ以降カンファレンスに出向いてアーキテクチャの記事書く記者がいなくなっちゃったんだよね
だからここ4年くらいは全くアーキテクチャ解説がない状態が続いてる 何も分からない