@bioshok3
Google DeepMindのGemini予想まとめ
・Wired記事によるとChatGPTを超える
https://wired.jp/article/google-deepmind-demis-hassabis-chatgpt/
・GPT4より優れているかどうかの予測市場は現在76%
https://manifold.markets/YoavTzfati/will-gemini-be-widely-considered-be
・SemisnalysisによるとGPT4の計算量2×10^25の5倍の10^26FLOPsでトレーニングされる推定
https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini

@bioshok3
・MoEでGPT4の約4倍のパラメータ数の7-10兆と推定
https://lifearchitect.ai/gemini/
・マルチモーダルで視覚言語モデル(Flamingo)、画像生成モデル(Parti)をベースに統合してる可能性があり、RT2やGATOのようにロボットやゲームアクションの学習も考えられる。
(Life architect Gemini レポート内)

@bioshok3
・デミス・ハサビス氏はニューヨーク・タイムズのインタビューに対して、Geminiは既存のソフトウェアや既存のAIシステム(AlphaFoldやAlphaGo)を強化学習を使用して使い方を学習するとコメントしている。
https://www.nytimes.com/2023/07/11/podcasts/transcript-ezra-klein-interviews-demis-hassabis.html

@bioshok3
注意が必要なのは5倍の計算量だからといって性能も5倍になるわけではなく、10^26FLOPsの計算量をChinchilla論文の最適なスケーリングローにあてはめるとテキストでの推論能力はGPT4より少し性能が良い程度の印象が想定されると思われる。
https://twitter.com/bioshok3/status/1698317681358000483
https://pbs.twimg.com/media/F5Gi7lTa8AA5Wzq.jpg

@bioshok3
一方でツールの使用にこの半年で10本以上の強化学習の論文を出し続けているDeepMindが取り組んだ場合どの程度の印象深さになるのかは期待できる気がしている。また、画像生成、視覚言語モデルの能力が開放されるとマルチモーダルへの道が開けて昨年のChatGPTのお祭りのような状態になるかもしれない。
https://twitter.com/5chan_nel (5ch newer account)