中華AIのDeepSeekか。
OpenAIのLLMはおそらく32ビット浮動小数点で単精度浮動総数点と言われているFP32で動いている
最近はその半分のFP16で動かすLLMもある。半分だと32bitのCUDAコア1つが2つ分になる。半分のGPUで同じ推論が可能
DeepSeekはFP6なんだよね、符号1ビット、浮動小数点3ビット、仮数部2ビット
32bitのCUDAコア1個で、同時に5個の推論画が可能だし1個の推論がめちゃくちゃ早い
GPUを1/5に削減できる
アメリカでもFP8で大丈夫か?と言っている段階だったのに