生成AIでGPUがいらなくなる? 業界を揺るがす「1ビットLLM」とは何か、識者に聞いた
※LLM:大規模言語モデル
https://www.itmedia.co.jp/aiplus/articles/2404/16/news064.html
量子化は、1個1個のパラメータをどういう数字で持っているかというところに注目します。
普通は1つのパラメータは16bitとか32bitの情報量を持っているんですが、
この桁数をぐっと丸めてしまうんです。
例えば、0.34567という値だったら、0.35と丸めるわけです。
LLMの領域では、最近は32bitや16bitから、8bitや4bitといった低bit化がトレンドになってきていますが、
それをさらに1bitまで減らしてしまおうというのが1bit LLMの考え方です。
1bit LLMでは、桁をとことん丸めて、-1か1の2値にしてしまおうという発想なんです。
具体的には、ニューラルネットの中の重みパラメータの数値を、大胆に-1か1にしてします。
この基本アイデアに対して今回の論文では1つ工夫があって、-1か1だけでなく、0も加えて、
0、1、-1の3値を使っています。3通りというのは、2の1.58乗に相当するんですよ。
だから実際は1.58bitになります。
ニューラルネットは計算を行列計算で行っているんですが、ノード間をつないでいる
エッジの重みを3値にすると、積算ではなく和算になるんです。
そうなると、CPUとGPUの計算効率がそこまで変わらなくなる。
これによって、GPUがいらなくなるんじゃないか、といわれているんですよ。