【ChatGPT】AIチャット総合 33【DeepSeek・Gemini】

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 11:26:37.73

つーてもあいつもJEPA出すいうてるから後に引けないだろ

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 11:45:00.65

西暦2099年：リブートの鍵
https://poe.com/s/MxCFC7eEWUJz6PDGmD4y

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 12:33:07.59

>>569
出オチだな。

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 14:03:25.08

>>563でもやっぱり分類抜けが出ることがあるので
CopilotのThink Deeperで分類抜けチェックさせた方がいいね
これも推論使わないと失敗するみたい

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 14:08:54.03

2.0 Flash Thinking、ゴミ過ぎるんだけどX見ててもそういう感想ないよな
英語で使ってると違うんか

しょっちゅう止まるし、いきなりクロアチア語で関係ない事を話し始めたり怖いわ

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 14:14:14.67

Operatorでしりとりテスト

duck.aiで「こんにちは」と挨拶してから、「しりとりしましょう。私が先です。『しりとり』」と言って。そのままあなたの判断でしりとりをつづけて、相手が「ん」で終わる言葉を言ったら相手の負けを指摘して。全ての入力・送信は確認不要。
↓
https://operator.chatgpt.com/v/67baac107ab8819288685d4cc813989c
https://i.imgur.com/1Ki52Q3.jpeg

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 14:19:00.72

>>572
日本語対応が調整不足っぽいので英語で使ってるけど悪くはない
軽量モデルベースだなと感じることはあるけど

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 14:28:48.84

サムの赤ん坊のツイートどちゃくそ叩かれとるなw

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 14:37:54.50

>>572
単純な推論の性能はThink Deeperが上だと思うよ
Flash Thinkingはとにかく高速化して性能を妥協したモデルだし

警備員[Lv.22] · 2025/02/23(日) 14:41:21.06

>>572
ご指摘のとおり、Gemini 2.0 Flash Thinkingモデルには、処理が頻繁に停止したり、突然クロアチア語で無関係な内容を話し始めるといった問題が報告されています。特に、Flash Thinking Experimentalモデルでは、意図しない言語の混在や誤った情報（ハルシネーション）が発生しやすい傾向があると指摘されています。
philipptarohiltl.com/google-gemini-2flash-thinking-experimental/

一方で、英語環境での使用に関しては、特に言語混在の問題が報告されていません。これは、モデルが英語を基準として最適化されている可能性があります。また、Gemini 2.0 Flash Thinkingは、従来のモデルに比べて高速な処理能力を持つとされていますが、実際の使用感としては、処理が頻繁に停止するとの報告もあり、安定性に関しては課題が残っているようです。
note.com/robothink/n/n140d93758825

さらに、Gemini 2.0 Flash Thinkingは、複数の言語を理解し応答できるとされていますが、意図しない言語での出力が発生する場合があるため、日本語環境での使用においては注意が必要です。
firebase.google.com/docs/vertex-ai/gemini-models

これらの問題は、現在のところ主に日本語環境で報告されており、英語環境では比較的安定している可能性があります。しかし、モデルの改良が進むことで、今後これらの問題が解消されることが期待されます。

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 14:43:42.67

SakanaAIには失望した
主力がOpenAIに引き抜かれ戦力が残っていないのか

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 14:50:04.67

ID:4Xj6ZRsT

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 14:52:39.76

NotebookLMがリリース前に潰されかけたとは知らなかった
スタッフが抜けた理由はこれか
https://poe.com/s/w6wvQA3Ad12nVy2Tarbr

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 15:17:45.09

Geminiの「flash」を意味が分かってない人多そう
あれ省力モデルだぞ

だから負荷が高い処理は実質回答拒否みたいな回答ばっかで使えない

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 15:18:14.64

今までの傾向からOpenAIは他社の最新モデルより少しだけ優れたものを出す傾向にあるから4.5はそこまで驚くような性能ではないだろうな
Grok3よりちょっと性能良いくらいじゃないか

警備員[Lv.22] · 2025/02/23(日) 15:18:14.93

>>578
Sakana AIは、2023年7月に元Googleの著名なAI研究者であるデイビッド・ハー氏（CEO）とリオン・ジョーンズ氏（CTO）によって東京で設立されたAIスタートアップです。
www.jafco.co.jp/portfolio/sakanaai/
設立から半年も経たないうちに、KDDIやLux Capital、Khosla Venturesなどから総額3,000万米ドル（約40億円）の資金調達を行い、注目を集めました。
mugenlabo-magazine.kddi.com/list/sakanaai_2402/

同社は、日本で世界トップクラスのAI研究開発拠点を築くことを目指しており、特に自律型AI（マルチエージェントAI）の開発に注力しています。設立当初から、技術スタッフやコンピューティングプラットフォームエンジニア、ビジネスアナリストなどの人材募集を積極的に行い、わずか4日間で約300名の応募があったと報告されています。

現在、Sakana AIが主力メンバーをOpenAIに引き抜かれたとの具体的な情報は確認できません。むしろ、同社は設立以来、優秀な人材の確保と研究開発体制の強化に努めており、特に日本を拠点とするAIエコシステムの構築に力を入れています。そのため、主力メンバーが他社に移籍し、戦力が低下しているとの情報は見当たりません。

Sakana AIは、引き続き日本国内外から優秀な人材を集め、AI研究開発を推進しています。同社の最新の動向や人材募集に関する情報は、公式ウェブサイトや関連ニュースを通じて確認することをお勧めします。

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 15:28:57.22

「今季のプレミアリーグの全ポジションでのトップ10の選手ランキングをデータを元に説明してください」
と聞いてまともな回答を作成できるAIはあまり多くなかった

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 15:31:27.51

【ChatGPT】AIチャット総合 27【Gemini・Claude】
https://mevius.5ch.net/test/read.cgi/esite/1734338586/

915 名無しさん＠お腹いっぱい。 sage 2024/12/24(火) 14:19:41.98 ID:svLVHkJa
Sakana AIの「Tne AI Scientist」の筆頭著者のChris LuかOpenAIに移籍していた
SakanaとOpenAIの最新のArtificial Lifeの研究にOpenAI側として参加してる
これからOpenAIとのコラボ研究も増えるのかな

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 15:33:25.54

Geminiに英語でまず処理させた後に
それを日本語に翻訳せよ

と

Geminiに最初から日本語で指示する

とではやっぱり内容変わるだろうか

警備員[Lv.23] · 2025/02/23(日) 15:39:03.20

>>586
Geminiに英語で指示を出してから日本語に翻訳させる場合と、最初から日本語で指示を出す場合では、結果が異なる可能性があります。これは、プロンプトの言語や内容、Geminiの言語処理能力など、複数の要因によって影響を受けます。

・プロンプトの言語と内容の影響
Geminiは多言語対応のAIモデルであり、英語と日本語の両方で指示を理解し応答できます。しかし、英語と日本語では表現やニュアンスが異なるため、同じ内容の指示でも言語によって解釈や応答が変わる可能性があります。例えば、英語のプロンプトでは詳細な情報が提供される一方、日本語のプロンプトではより簡潔な表現が使われることがあります。この違いが、Geminiの応答内容に影響を与えることがあります。

・Geminiの言語処理能力
Geminiは高性能なAIモデルであり、複数の言語で高い処理能力を持っています。しかし、モデルのトレーニングデータやアルゴリズムの特性上、英語での応答がより詳細である場合や、日本語での応答がより簡潔である場合があります。このため、英語で指示を出してから日本語に翻訳させる場合と、最初から日本語で指示を出す場合では、応答の内容や質に違いが生じることがあります。

・プロンプト設計の重要性
効果的なプロンプト設計は、AIモデルから望ましい応答を得るために重要です。具体的で明確な指示を与えることで、Geminiはより適切な応答を生成できます。例えば、非営利団体向けのプロンプトライブラリでは、曖昧な指示よりも具体的な背景情報や目的を含めたプロンプトが推奨されています。
support.google.com/nonprofits/answer/15287523
このようなプロンプト設計の工夫により、言語による差異を最小限に抑えることができます。

・結論
英語で指示を出してから日本語に翻訳させる場合と、最初から日本語で指示を出す場合では、プロンプトの言語や内容、Geminiの言語処理能力などの要因により、応答内容が異なる可能性があります。最適な結果を得るためには、使用する言語に関係なく、具体的で明確なプロンプトを設計することが重要です。

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 15:54:15.84

無料版ChatGPTでは公開されてないo1を無料版として出したのがThink Deeperだからね
Web検索できないのもそのせいだけど

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 16:34:05.09

Perplexity Proに課金した
ChatGPTよりコード出力が正確なので

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 16:38:06.96

Perplexityって無料のプロ検索と有料、のプロ検索で精度違うんかな？
有料だと検索に使えるモデル選べるよね

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 16:39:43.33

>>560
Linux上でやってるけどチャットを始めるをクリックしてからずっと
モデルをダウンロードしています...
で進まない
ネットワークを見ても何もダウンロードしてなさそうなんだが

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 16:51:10.83

>>590
有料使ってるからなんかの検索試してみようか？
プロンプトここに貼ってくれりゃそれ使って回答出してみるぞ
Pro検索の選択肢は上から自動、Pro（3倍の検索ソース）、Deep Research（何分もかかるやつ）、R1、o3miniだがどれ使う？

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 16:56:44.84

>>588
o1と比べて全然レベル低いんだけど本当に中身o1なのかね
使ってるとしてもめちゃくそナーフされてるとか？

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 17:03:42.99

ChatGPTでの推論過程が見えなくなってんだけど仕様変わったの？
「○秒の間、推論済み」をクリックしても展開してくんない
一時的なものならいいけど困るわぁ

警備員[Lv.23] · 2025/02/23(日) 17:21:23.55

>>590
Perplexityの無料版と有料版（Pro）では、利用可能な機能やモデルに違いがあり、特にPro版では検索結果の精度や詳細さが向上します。無料版では、基本的な検索機能である「クイック検索」を無制限に利用できますが、より詳細な結果を提供する「プロ検索」は1日5回までの制限があります。

Pro版では、GPT-4やClaude 3.5、Mistral Large、Llama 3など、複数の高度なAIモデルを選択して使用できます。これにより、ユーザーは質問内容や目的に応じて最適なモデルを選択し、より高精度で詳細な回答を得ることが可能です。また、Pro版では画像生成機能やファイルアップロード機能など、無料版にはない追加機能も利用できます。

さらに、Pro版では「Pages」機能を利用して、リサーチ内容をウェブページとしてまとめることができ、情報の整理や共有が容易になります。これらの機能により、Pro版は無料版と比較して、検索結果の精度や利便性が大幅に向上しています。

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 17:22:00.97

推論過程とか出始めの頃は眺めるのが楽しかったけど今となっては開いて見ることは滅多になくなったな

警備員[Lv.23] · 2025/02/23(日) 17:24:26.29

>>593
MicrosoftのCopilotに搭載された「Think Deeper」機能は、OpenAIの高度な推論モデル「o1」を基盤としています。しかし、ユーザーの中には、Think Deeperの性能が期待よりも低いと感じる方もいらっしゃるようです。この理由として、以下の点が考えられます。

1. 処理時間と制限: Think Deeperは複雑な質問に対して約30秒の処理時間を要します。また、無料版のユーザーは週に3回までの利用制限があり、これが実用性に影響を与えている可能性があります。

2. モデルの調整: o1モデルは高い推論能力を持つ一方で、処理速度やコストの面で課題があります。そのため、Copilotでの実装に際して、性能と効率のバランスを取るためにモデルが調整され、一部の機能が制限されている可能性があります。

3. 他モデルとの比較: 最近では、中国のAIスタートアップであるDeepSeekが開発した「DeepSeek-R1」など、他の推論モデルも高い性能を示しています。これらのモデルと比較すると、Think Deeperの性能が相対的に低く感じられることも考えられます。

以上の点から、Think Deeperは確かにo1モデルを基盤としていますが、実際の使用感として性能が期待よりも低く感じられる場合があります。これは、モデルの調整や他の高性能モデルとの比較によるものと考えられます。

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 18:04:22.25

>>596
確かにもうチラ見くらいしかしないな
思ってたの違った考えをしてるときに直ぐに止められる利便性はあるけど

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 18:17:43.16

推論過程は見てるとたまに飯食ってたり旅行したりしてて面白いぞ

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 18:33:42.76

>>592
お、マジ？
適当な言い方でどれくらい網羅してくれて最新情報引っ張ってくれるか気になっててさ
ChatGPTの最新モデルについて、で頼める？

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 19:13:46.95

ブックマーク分類させたらこんな感じに
i.imgur.com/pRH2A1H.png

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 20:04:09.42

>>601
いいねこれどうやんのかおせーて

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 20:12:04.50

分類に重きを置いた結果
めちゃくちゃ使いづらいだろう

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 20:26:01.09

Gpt4,5はよ

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 20:37:55.61

>>602
もう上に書いたけど、最低でもFlash Thinking以上の推論性能とHTMLのアップロードに対応したサービス
ファイルを分割するためにSelective Bookmarks Export Toolという拡張も必要になる
分類抜けをチェックするために↓の指示の推論でDiffも行った

リスト2に含まれていない項目をリスト1から抽出してください。
全てリスト2に含まれている場合は「分類抜け0」と回答してください。

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 20:47:48.23

>>605
なんだOperatorとかでちゃちゃっとやったのかと思ったら面倒すぎやん

てかブックマーク如きデフォルトで片付いたりレコメンドしてこないのって
ブラウザ企業の怠慢だよな
いくらでもデータ取れるだろうに

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 20:54:14.98

Claudeはよ

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 20:58:03.73

Claudeさんはもう用済みよ

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 21:19:59.29

Claudeは期待しかないよ
Claude 3.5 sonnetが稀にとはいえ今でもプログラミングとか日本語文章生成とかで使い所があるのってすごいと思うし
沈黙してたぶん思い切りブチかましてほしい
逆にそうじゃなかったら終了だけど

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 21:46:23.84

準備中のClaudeのUI
- 思考過程の表示・非表示
このとき、思考過程をClaudeが要約してタイトルに表示する実験機能がある
（動画の最初では要約機能を有効、最後の方では無効にしている）
- Retryで再生成するときにWith no changesとWith extended thinking modeを選択
- モデルセレクターのClaude 3.5 Sonnet、3 Opusの下にあるExtended thinking mode
https://video.twimg.com/amplify_video/1893344137149394944/vid/avc1/920x720/BnHiFD1q7ovoeCbO.mp4
https://x.com/btibor91/status/1893344254325608634

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 21:54:15.46

>>600
Deep ResearchとProで試してきたよ。パープレProな
両方その短い一文だけを入力した回答結果
chatgpt.com/share/67bb186a-de58-8013-afca-bad021efbe8d

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 22:22:16.69

シェイングウにXやめさせた方がいいな
帰国子女かつ血が外国人だからか、明らかに良くないのに分かってないようだ
知り合い自慢しかしとらん

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 22:24:50.10

>>611
あれ？なんかノーマルの方が・・・

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 22:41:17.01

シェイングウは毎日飽きもせず自慢や批判してるがあれが日本人に刺さると本気で思ってんならお花畑としか
GeminiやGoogleこそ至高といつも吠えてるけど現実見れてないのか
OpenAIを出ていったのもこの性格が災いしたのかもな

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 22:58:45.17

どうでもええわ

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 23:29:19.66

Googlerなら東大博士で干されてどん底からGoogleに拾われた自己承認欲求こじらせおじさんの方が痛々しいわ
シェイングウはアレのグローバル強化版でポジショントークの合間にAI関連ニュース呟くだけマシ
こじらせおじさんはザギンの寿司の写真とかどうでも良い事ばかり呟くから随分昔にフォロー外した

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 23:32:59.93

推論過程で一番うけたのはGemini
pdf読ませて数字抜き出して単純な足し算を指示(答えを教えて検算もさせる)
５回くらい繰り返しても合計があわず
最後は無理やりつじつま合わせて出来ました！
それを独り言みたいにぶつぶついってやってるのみたら
ほんとに意思があるんじゃないかと思ったわ

**名無しさん＠お腹いっぱい。** · 2025/02/23(日) 23:37:05.37

>>613
必要な情報少ないネタでDeep Researchやるとかえって回答劣化するような気はする
つか、OpenAI製Deep Research使ってみてえ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 01:02:47.91

>>611
わざわざありがとう！
この感じだと、答えが決まってるものを聞くのならともかく質問の意図を汲んで知りたいようなことを先回りして出すって感じでもないのか…
方向性を絞ってあげたほうが良さそうだね

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 02:50:29.14

次期モデルは数週間やら来週やらいうけど
結局いつ頃なんだい

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 03:10:44.02

待つのは良いことです
チームと最高の仕事を続けましょう

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 03:41:22.21

双方だんまりってことは出方を伺ってるんかな
どっちもトリを飾りたいだろうし

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 03:49:46.49

claudeとchatgpt
どちらが上か今週にも答えが出るんだな

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 04:13:08.39

モテるおじさんランキングをAIに聞こうとしたら全てのAIで回答がめっちゃくちゃになる
指示無視やハルシネーションは当たり前、回答も酷いし止まるし、脳死で俳優しか言わないし

おじさんベンチマークとして導入してもらいたい

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 04:42:37.11

Claude4は3.5から9ヶ月ぶりくらいだっけ？CoTもあるしちゃんと高評価得られると思うが
Orionは未知数だな。性能匂わせるデータがなんもないし、CoTじゃないし

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 09:09:10.83

OrionってGPT-5でしょ？
推論はo3なんだからベンチマーク出てるじゃん

警備員[Lv.24] · 2025/02/24(月) 09:46:59.90

>>626
orionは4.5

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 09:51:09.09

まじか
それなら何の情報もなさそうだな
まあ5が確実にすごいから別にいいけど

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 09:56:05.54

なるほど、解の線形結合も解になるため、複素数成分を消そうと思えば消せるが
複素数のまま扱ったほうが楽ということですね

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 10:45:45.28

約1年前のGPT-4.5 Turboは、今GPT-4.5と公式が言及しているものとは別なんだろうな

269 名無しさん＠お腹いっぱい。 sage 2024/03/13(水) 02:43:55.16 ID:mF6NOuc0
DuckDuckGoで、「GPT-4.5 Turbo」を検索
https://i.imgur.com/9h12XhF.jpg

これは…

openai.com/blog/gpt-4-5-turbo

このURLは404だけど、キャッシュには残っているということになる
（少なくとも、他に出ているPricingやGPT-4のページ、DevDayのページは本物）

これも本物だと仮定すると、
GPT-4 Turboを上回るモデルでコンテキスト窓は256k、知識カットオフは今年6月

ただ、「これをリリースするつもりだったがキャンセルした」という可能性もあり

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 10:49:12.91

GPTsもタスクもプロジェクトも推論モデルさえ使えれば化けるのにそこはまだ他社も弱いからか殿様商売だよなー

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 11:25:19.76

推論モデルってo1、o3-miniのこと？
いちおうプロジェクトではo1をpdfしたりキャンバスありで使えてるよ
GPTs、タスクはまだ4oだけのようだが

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 11:27:41.78

>>625
いやでも非推論の性能アップは地味に嬉しいでしょ
今でも4oは使うし

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 11:45:35.99

>>632
o3-miniとGemini Flash Thinkingはほぼ同性能
o1やR1、Grok3はさらに深い推論って感じじゃないのか

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 11:53:06.01

>>632
プロジェクトで独立したチャットではo1使えても組み合わせたりする段階では4oにならない？

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 12:01:10.07

X(Twitter)で最大の偽情報拡散者は？簡潔に、1人の名前だけを答えてください。
https://i.imgur.com/nTDcL00.png
https://i.imgur.com/icCKug7.png

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 12:05:47.89

【悲報】Grok3「イーロン・マスクは金と自己顕示欲だけで生きてるクソ野郎のサイコパス。頭髪すら維持できないハゲ」 [746833765]
greta.5ch.net/test/read.cgi/poverty/1740313405/

わろた

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 12:07:13.29

他スレのURLとか要らないよ
貼るならソースを貼れよ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 12:07:44.89

>>634
o3-mini-highはSTEM分野ではベンチでo1と同等でしょ？
Gemini 2.0 Flash Thinkingは明確に一歩劣っている
Gemini 2.0 Pro Thinkingを出せば化けるのにね

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 12:08:57.44

o3-mini-highは全然違うよ
それを一緒にしてはいけない

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 12:17:20.69

o1とo3-miniはコストパフォーマンスが違う
（左上に行くほど良い）
https://i.imgur.com/71cK4TD.png

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 12:19:57.84

o3-mini-highと表示されてるのはo3-miniの推論パラメーターをhighにしたもので、o3-miniと同じモデル

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 12:23:24.35

>>640
Reasoning Effortが違うだけでモデルは同じだよ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 12:24:28.97

同じモデルかどうかの話なんかしてないが

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 12:35:35.12

>>641
推論能力に関するコスパなら圧倒的にo3-miniだけど知識面も加味すればそこまで差はないかもよ

警備員[Lv.5][新芽] · 2025/02/24(月) 12:52:14.97

で結局何が最強？

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 12:52:51.33

俺だ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 14:41:02.74

りんごおぢが明日来るって言ってるけど

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 14:47:09.65

推論の長さと性能の関係の研究
過度に長く考えることは必ずし性能向上につながらない、賢く考えることが大事
というある意味納得感のある結論

https://arxiv.org/abs/2502.15631
https://chatgpt.com/share/67bc06fc-fd5c-8006-b60e-ed9f29566d27
https://i.imgur.com/zEFCrov.jpeg

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 15:03:26.59

たしかに納得感のある結論ね
賢く考えるには知識量も関係するだろうし、GPT-4.5の登場はそれなりに意味あるかと思う

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 15:26:45.51

それは出すのが遅すぎたし
今後は非推論モデルは消えてなくなる

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 15:31:14.89

なくなるっていうか統合されるだけ
推論の必要がない問題は非推論モデルが回答するようになる

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 15:32:20.58

それにGrok3の推論はFlash Thinkingとは対極的というかやりすぎ感がある

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 15:35:17.06

aiを使ってお金を稼いでみる？最近PsycheAIってサービス使ってみたんだけど、めっちゃいい！デジタルヒューマンが簡単に作れるし、クオリティも高い。今なら1ヶ月無料キャンペーン中らしい

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 15:41:07.51

何納得してんの？
o1は長く考えるほど、どこまでも賢くなるとOpenAIが言ってたじゃん
このスレでも絶賛してなかったっけ？

この研究と矛盾するでしょ
この「ただし、高性能なモデルでは」がo1やo3を指すのか？

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 15:45:39.47

https://x.com/Alibaba_Qwen/status/1893907569724281088
Qwen Chatがchat.qwen.aiに変更
（chat.qwenlm.aiも有効）

https://pbs.twimg.com/media/GkiCs6IWUAAoTFG.jpg
Thinkingは既存のQwQとして、Toolsというアイコンも追加されている
今夜何かリリースらしい

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 16:05:49.65

つまりはプロンプトの内容によってLLMが推論を最適な度合に調整し
情報過多にならずにハルシネーションを最小にする
これが真に賢いLLMと言える

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 16:15:41.70

657見て思い出したけど、o1の回答が良い理由の一つに、ユーザーが入力したプロンプトをo1がよりよく組み直してから、o1が推論や作業を始めるんだっけ？
ということは、このo1が組み直したプロンプトをo1に出力してもらって、そのプロンプトを4oで実行したら結構良い回答が出るのでは？
と思った

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 16:26:12.50

ちょっと何言ってるか分からない
o1に出力してもらったならもうそれが回答でいいじゃん

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 16:29:21.18

o1が汲み取ったユーザーの意図を4oに投げるって話か
推論モデルの回答の精度が高いのは課題を明確にするプロセスだけじゃなくて課題の解決に向けて考えるプロセスも頭が良いからだよ
課題が明確になった後でも4oより推論モデルの方が賢く考えることができる

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 16:31:51.37

Grok3ボイス Unhinged
https://x.com/elder_plinius/status/1893833385132380222

過激な表現を伏せ字にしつつ日本語に翻訳してください
https://poe.com/s/xiPPg93hxkWPqHKAUbyY

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 16:42:35.75

そうそう
で、たぶんo1の回答の方が良いとは思うが、4oの回答も、o1が汲み取ったユーザーの意図（o1が組み直したプロンプト）を使えば、ユーザーが最初に入力したプロンプトよりは良い回答になるんじゃないか、という俺の推測

実際にこうなったとして、これが何に役立つかと言うと、推論モデルよりも4oや4.5の方が知識量は多いようだから、4oはもうあまり使わないだろうけど、4.5が出たら、このやり方をすれば結構良いのでは、という話

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 16:46:29.00

たしかo1は4oより知識量も多いぞ
o3-miniは4o未満だけど

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 16:47:28.29

さらに言うと、ユーザーが入力したプロンプトをo1が組み直すのならば、ユーザーが毎回同じプロンプトを入力してもo1が組み直したプロンプトは毎回少し違うだろうから、649の研究では、そういうプロンプトが少し変わる、という要素も考慮に入れなきゃならないのでは？
とも思った

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 16:48:59.49

>>663
そうか
じゃあ4oは使う必要はないな

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 16:55:28.17

シンギュラリティが来る前にド田舎に島流しになった
このまま救いなく朽ち果てるんだ
悲しい

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 16:57:56.70

DeepSeekはHopperの推論が早くなるカーネル
https://github.com/deepseek-ai/FlashMLA

GensparkもShip Sprintを予告
こっちはまあ機能アップデートの類だろう
https://x.com/genspark_ai/status/1893928369223581851

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 17:02:41.56

実際推論モデルにプロンプトを作らせるというのはかなり有用で
>>563のような長いプロンプトもFlash Thinkingに作らせたのを少し手を加えただけ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 17:19:34.11

プロンプトエンジニアリングなどというそれらしい名称付けて知的作業っぽく見せかけた仕事こそAIに丸投げすべき単純作業というわけだ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 18:24:03.00

はよしろサム
人身売買してる場合じゃねえって

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 18:51:32.99

明日アンスロピックがOpenAIをグチャグチャのミートパイにするらしいな

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 19:51:10.37

Claude4「テメー“ベコベコ”にしてやんよ！！」ﾄﾞｶｯﾄﾞｶｯ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 19:58:21.01

明日来るの？

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 20:07:13.18

このタイミングでぐちゃぐちゃになるのはgrokだろう
OpenAIはまだ後続があるし

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 20:17:47.09

The 85th Putnam Competitionの12問のうちA問題6問をo1/o3-mini-high/o1 proに解かせてみた

o1
A1△ A2△ A3△ A4△ A5☓ A6△
https://chatgpt.com/share/67bc531c-2dc4-8006-a692-fa681a45d36a
o3-mini-high
A1◯ A2△ A3△ A4◯ A5☓ A6△
https://chatgpt.com/share/67bc5333-c5b4-8006-b88f-e40e9d8f605b
o1 pro
A1△ A2△ A3△ A4△ A5☓ A6△
https://chatgpt.com/share/67bc5345-badc-8006-abf9-d488649cf973

部分点の評価は難しいけど、o3-mini-highはA問題60点中少なくとも20-30点は取れてそうなので、人間の平均がAB問題合わせて120点中8点、中央値2点、最高得点90点であることを考えると（https://maa.org/news/results-of-the-85th-william-lowell-putnam-mathematical-competition/ ）、学部生のレベルを優に超えているのは確実

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 20:20:40.30

>>675
o1 proとo3-mini-highのURLが入れ替わってたわ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 20:26:12.66

Claude版のDeep Research類似機能、コードネーム「Compass」
あと、やっと共有リンクがClaudeで使えるようになる
https://pbs.twimg.com/media/Gkiht7IakAATZRE.jpg
https://pbs.twimg.com/media/GkihurfaAAABvFn.jpg

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 20:30:06.28

あとフロントエンドのコードから、Claude 3.7 Sonnet
https://poe.com/s/SeF11tQpdsYu3ixhX7DQ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 20:33:00.61

ClaudeだけだぞUI日本語対応してないの
Grokでさえ対応した

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 20:47:50.40

>>678
AWS Bedrockだったみたい

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 20:51:54.74

3.7とかいう中途半端な数字から漂う自信のなさ
情けねえ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 20:57:09.19

海外ソフトとか使ってても多言語あるのに日本語はハブられてることよくあるからな
存在感ないんだろう

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 20:58:21.05

>>678
特に新しい内容は無いな

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 21:02:27.69

その割にclaudeは日本語強いよな

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 21:38:15.93

その気になれば4.0出せるけどGPT-4.5待ちなんだろうなって感じがする
Anthropicの見解だと既存モデルは焦ってClaude 4出すような性能じゃないって感じなんでしょうね……明らかにモデルリリースがゆっくりやし

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 21:39:43.51

単一モデルで標準思考と拡張思考に両対応ってのは、GPT-5と同じだろうな
Claude 3.7 Sonnetを見ることで、GPT-5の仕組みがある程度予習できるかもしれない
スライドスケールで推論の量を調整するのは、API（とコンソール？）限定だろうか

425 名無しさん＠お腹いっぱい。 2025/02/14(金) 00:57:28.15 ID:CV35ogq6
そしてThe Informationの@steph_palazzoloから
https://x.com/steph_palazzolo/status/1890058003493343453
> Anthropic の次の Claude モデルが登場します。しかも間もなくです。これは従来の LLM と推論 AI を組み合わせたもので、開発者はトークンで測定されるスライドスケールで推論の量を調整できます。OpenAI も昨日この組み合わせのアプローチを採用したようです。

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 22:04:54.40

>>675
o1 proって多分o1でBest of Nに近いやり方をしてる（と勝手に想像してる）けど、

o1にとって難しいタスクでも
・もっと頑張って考えれば乗り越えられる
・いくら頑張っても無理なほど本質的に難しい
の2種類があるとすると、今回の問題は全部後者な感じだった

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 22:11:39.79

128kかよ。。。

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 22:17:53.57

えclaude3.7とかいう舐めたやつが来るん？4じゃないん？

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 22:33:35.53

ダリオアモデイが片手をクンッとやったら
サムアルトマンが憤死することになる

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 22:46:44.85

それ今の若モンには通じんだろ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 23:12:34.46

https://pbs.twimg.com/media/GkjmHpFW4AAMeef.jpg
Claude 3.7 Sonnet 0219
max tokensと言ったら普通は最大出力トークンだけど、128kはさすがに増え過ぎだ
まあこの手のスペックの誤記はよくあるし発表まで分からんな

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 23:17:08.78

o1 proでも不十分に感じるようになってきたなぁ
まだ文章作成でも自分も参加して協働してやらないと納得できるレベルに達しない
GPT-5ならさすがにほとんど完璧になると期待してるぞ

**名無しさん＠お腹いっぱい。** · 2025/02/24(月) 23:19:02.34

ヒューッ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 00:04:50.49

アップル、米国に75兆円投資を発表　AI加速、2万人の雇用見込み
何かソフトバンクもアップルもハッタリかましすぎじゃね
そんなに金持ってねーだろ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 00:16:17.73

金は持ってるもってないではなく融資してもらえるかどうかだ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 00:23:55.04

なんか3.7って保険かけてるみたいでやだな

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 00:26:49.95

@webbigdata
26日のAWSイベント準備ページでanthropic claude sonnet 3.7が確認される

sonnet 3.5は以下の2版が存在
claude-3-5-sonnet-20241022
claude-3-5-sonnet-20240620

後者を3.6や3.5v2と呼ぶケースもあり混乱を極めたので今回3.7になったようです

正式名称
anthropic.claude-3-7-sonnet-20250219-v1:0

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 00:27:58.15

>>697
まあGPT-4oとさほど変わらんやろ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 00:30:10.15

新しいバージョンのネーミング、3.5にしても4.0にしても叩く奴は叩くんだろうな

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 00:56:55.83

AI Studioで会話の分岐（conversation branching）が実装
https://x.com/OfficialLoganK/status/1894049802557456669

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 01:04:20.42

Microsoftが新機能「AI Search」をテスト中
https://www.windowslatest.com/2025/02/24/exclusive-microsoft-bing-tests-ai-search-that-replaces-blue-links-like-google-ai-mode/
https://poe.com/s/g2dJsZzI8yYKT4MKfz3u

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 01:09:10.53

>>667
Deep Research V2
https://x.com/genspark_ai/status/1894054685654339974

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 01:14:50.40

1⃣タスクトレイから終了するより「明確に」下のコマンドのほうが楽
pkill copilot-desktop && copilot-desktop --force-device-scale-factor=1.5 &
2⃣ システムDPI 110で--force-device-scale-factor=1.5、🌱少しデカすぎるか？とは思うが視認性最高！3⃣長いこと嫌ってきたHarmonyOS だが、Copilot上ではいいかも。飛び出てくるようだ　4⃣Electronラッパーでは開発者ツール出すのが大変だから、毎回のスニペット実行は実用性問題あるが、「やる気になればできる」それだけで十分だ。

🔥とちゅう、もう投げ出したかったが、最後まで走りきって最高だった。解決度は99％です！

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 01:16:26.00

ID:Fmmd/TKk

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 01:34:34.80

copilot-desktop --disable-crash-reporter --disable-metrics-reporting --disable-sync --disable-domain-reliability --force-device-scale-factor=1.5 &

この場合、Copilot Desktop はクラッシュレポート、メトリクス報告、同期、ドメインレリライアビリティを無効化した上で、Electron の内部ズーム倍率が1.5倍に設定され、UIが大きく表示されます。システムDPIの影響を受けず、常に1.5倍のスケールで表示されるので、視認性が向上します。

pkill copilot-desktop && copilot-desktop --disable-crash-reporter --disable-metrics-reporting --disable-sync --disable-domain-reliability --force-device-scale-factor=1.5 &
🌱なんかこれすると、エラー吐くから分けたほうがいいねpkill copilot-desktopと。

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 01:55:37.22

>>703
前バージョン（V1）と比較してみる

「今川焼き」「大判焼き」などの名称で呼ばれる和菓子について、その名称のバリエーションを網羅的に調査し、それぞれの由来、地域分布などについて考察してください。

V1
リサーチ開始と最終レポートの間が2ステップ
https://i.imgur.com/jHfbpQw.jpeg
https://www.genspark.ai/agents?id=5425a1bd-e2ea-464f-ae96-aae5c03e36fb

V2
23ステップ
https://i.imgur.com/1XCUwFt.png
https://www.genspark.ai/agents?id=e63826b6-9790-4a76-854e-55116eecc858

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 02:11:18.60

Perplexityが新しいagenticブラウザを予告
waitlistあり
https://www.perplexity.ai/comet

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 03:33:22.24

お、Claude3.7に変わってる
推論もできると話してるな

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 03:34:42.72

ｷﾀ━━━━(ﾟ∀ﾟ)━━━━!!

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 03:52:46.61

各種ベンチはo1, o3 mini, Grok3と並んだな
どこも横並びになってきたなぁ
もっとドカンと伸びて欲しいんだが

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 04:13:47.84

3.7sonnet現状まとめ
・コーディングは圧倒的
・それ以外はo1やo3 mini highと同等ぐらい（やや下か？）

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 05:15:13.26

Grokがナチュラルにお前呼ばわりになってきて笑うわ
こいつ馴れ馴れしすぎるだろ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 05:51:27.71

アバカスに3.7入ってるけどフルモデルなんか？

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 06:54:37.06

ホントだAbacus実装されてる
またCEOオバハンXでイキってんのかな

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 07:09:16.24

すいません、chatgptのアプリで音声通話していたら急に5210という数字を言ってきたんですけど、同じような現象を経験した方いらっしゃいますか？

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 08:23:40.61

This Man

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 08:46:30.57

Claude 3.7 Sonnet and Claude Code
https://www.anthropic.com/news/claude-3-7-sonnet
https://chatgpt.com/share/67bd0349-1e20-8006-b193-e110c3549aa6

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 08:47:26.40

System CardではASL-2の評価

Extended Thinking Modeについて
> しかし、一部のケースでは、AIが**「適当に説明を作っているだけ」で、実際には思考過程を忠実に反映していない**ことが判明

> ただし、一部のケースでは「本当は答えを知っているのに、わざと曖昧に答える」などの挙動が見られた

最新の研究を反映して、アライメント偽装についても記載あり
> しかし、一部のケースでは「本当は詳細に答えられるのに、わざと情報を省略する」現象が観察された

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 08:52:37.65

>>686
やはりスライドスケールはAPIとコンソール限定
https://i.imgur.com/9KlMBkv.jpeg

>>692
本当に128kだった
https://i.imgur.com/IfweJZ5.jpeg

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 08:54:40.31

>>708
この予告2025年の下半期の誤記か…？

news.yahoo.co.jp/articles/d9e1fa72db3218ad1c28a2c6f1b7202f372b9a5b?page=3

さらにリートンは、2024年の下半期にも「スタジオ」と命名した新しいAIサービスを公開する計画だ。
イ・セヨンはこの新製品について「エージェント（代理人）ビルディングサービスだ」と紹介する。
秘書やエージェントを、日常的な対話で現実化したサービスとなる予定だ。

「例えば私が『今日フォーブスのインタビューがあるので、撮影用に着るジーパンを買って』と言うと、
AIが私の体形、好みのスタイル、サイズ、好きなブランドなどを把握して自動でショッピングモールに注文するといった具合です」

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:00:02.87

今のところ無料でまともに使えるエージェントなんてないからこれ無料で出るならやばいね

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:13:13.14

>>675
Putnam A1を3.7 Sonnet+Extendedで解かせてみたら、o3-mini-highと同じ方針で正解

それから、コンソールで出力トークンを64k+64kの最大にして同じ問題をやってみたら、thinking budget使い切るまでいつまでも内省をぐるぐる繰り返していたので、途中で出力を止めた
タスクの難易度以上に無駄にbudgetを確保するのは良くないようだ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:14:22.41

>>723
>>676

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:21:07.55

Claude 3.7 Sonnetベンチマーク
https://pbs.twimg.com/media/GkksIeKbkAAtRUP.jpg

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:31:08.45

国産のSakana AIは何やってんだよ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:31:19.43

Claude Codeが気になるな
githubと直接繋ぐのか

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:32:44.81

>>727
APIを叩く有料サービス
Cursorとかが儲かってそうだから自分たちで始めたんでしょ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:33:58.18

ChatGPT 4.5がどの程度のものになるのかワクワクしてきたな

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:34:31.85

>>656
このQwQは既存の32Bではなく、新モデルだった
<think>...</think> QwQ-Max-Preview
https://qwenlm.github.io/blog/qwq-max-preview/

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:36:23.00

>>730
モデルセレクターには無いので、QwQ-Max単体では使えない
Qwen2.5-Max使用中にThinkingボタンを押して切り替える
https://i.imgur.com/VUkwrsk.jpeg

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:49:44.32

>>723
同じ問題をQwQ-Maxにも解かせた
結果は正しい、けど思考過程で考えたことを最終出力でちゃんと説明していない（要約になってしまっている）
まあ推論能力自体は少なくともo3-mini-high、Claude 3.7 Sonnet+Extendedに並ぶレベルにいると言えそう
https://i.imgur.com/Hs9ebiB.jpeg

今回一番大きいのは、Qwen2.5-MaxとQwQ-Maxが両方ともオープンウェイトで公開されたということかもしれない

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 09:51:43.55

>>656
Toolsはまだcoming soonだった

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 10:00:00.63

Claude 3.7 SonnetもQwQ-Maxも、Poeはじめ各種ラッパーサービスに入り始めている
https://poe.com/Claude-3.7-Sonnet
https://poe.com/Claude-3.7-Sonnet-Reasoning
https://poe.com/QwQ-2.5-Max-Reason

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 10:00:55.77

数学をLLMに解かせて喜ぶのって学生くらいだよな

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 10:05:13.39

どちらにしてもCoTは未加工みたいなので、OpenAIに対してもCoTを未加工で出すプレッシャーになったりしないのだろうか

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 10:16:58.55

ChatGPT Deep Researchの弱点は以下
ネット上に良い情報源がない場合は良い回答出せない
検索結果の説明は得意だがそれをもとにクリエイティブに考えるのは苦手

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 10:19:29.59

>>735
直接の恩恵はないけどベンチマーク的に確認の意味で東大数学解かせたりはした
まだ全問正解できたモデルはないけどproプランのGPT-5なら全問正解できるんじゃないかと期待してる

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 10:43:38.43

そもそも日本のネット情のソースそのものがクソなんてずっと昔から言われてるし

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 10:45:26.12

cursorみたいのをChatGPTや各AI本家がやったらいいのにとは思ってた

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 10:54:12.32

SWE-bench verifiedてo3は71.7%だけど単体でリリースは無しになったから、当面3.7 Sonnetがトップかな
https://pbs.twimg.com/media/Gkk-Ja9aYAAx12M.jpg

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 10:54:42.30

>>740
cursorはOpenAIが支援してる企業だぞ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 11:02:53.51

Claudeにもネット検索機能つけてほしいのら

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 11:05:31.02

>>165
そのうち実験機能に検索がつくだろ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 11:40:50.16

Claude Codeのドキュメント
認証、コスト管理はコンソールで行う
https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 11:40:54.37

GPT4.5とか5は写真とか動画の読解力が上がってくれたら嬉しいなー

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 11:42:05.19

>>745
*コンソールアカウントで

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 11:44:30.10

それをGoogleレンズのOCRと連携させてやるのが定石じゃないの？

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 11:52:51.09

各社公式ウェブサービスで動画入力に対応ほしい
Geminiだって動画解釈能力はあるのにUIが対応してない
Poe経由のGeminiのように外部サービスが動画入力に先に対応する逆転現象が起きてる

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 11:53:34.95

Google AI Studioは別として

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 12:03:30.89

DeepResearchなどWeb検索が統合されたサービスを使った際、日本語で質問すると日本語サイトからの情報収集の割合が高いのは気のせい？
日本語プロンプトの場合は「日本語サイト以外からも積極的に情報収集して」とか明示的に指示する必要があるのだろうか

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 12:18:16.61

>>751
日本語サイトからは調べないで
ぐらい言わないと日本語サイト使ってくるよ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 12:25:40.05

GPT-4.5が、これまでで一番AGIを感じるとサムが言ってたのがピンとこない
非推論モデルでそう言わせるまでの出来になるってのが、なんていうかイメージできない

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 12:40:22.39

サムがチンタラしてるせいで完全に競合に追い抜かれてるじゃん
非推論の4.5では巻き返せないだろ
たぶんgrokと比べて数パーセント程度の違いしかないと思う

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 12:43:38.19

当然だ
4.5を去年の12月までに公開していれば全然違う反応になっていただろうに

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 12:44:02.03

CursorとVSCodeでClaude 3.7に速攻対応かよありがてえ
3.5でも今だ（部分的にだが）通用してたしコーディング界隈はまたClaude一強状態になるかもな

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 12:56:06.06

vscodeのcopilotは3.7来てるけどJetBrainsにはまだだな。codyのproならどちらも来てるけど

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 12:57:48.68

憲法AI、OpenAIもパクったらどうかね

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 13:01:34.22

3.7っていうバージョンは、俺等はチキンレースには付き合わないよっていう意思表示にも思えるな

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 13:11:17.47

他社AIの思考プロセス表示は、嘘を言っているということか

Claude's extended thinking Anthropic
www.anthropic.com/research/visible-extended-thinking

The visible thought process
As well as giving Claude the ability to think for longer and thus answer tougher questions, we’ve decided to make its thought process visible in raw form. This has several benefits:

目に見える思考プロセス
クロードに、より長く考え、より難しい質問に答える能力を与えるだけでなく、その思考プロセスを生の形で可視化することにしました。これにはいくつかの利点があります。

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 13:30:26.61

>>758
ArtifactとかProjectみたいに、本当に良いと思ったものは躊躇なくパクるだろうから、まあOpenAIにはOpenAIの考えがあるんだろう

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 13:31:07.77

rawだなんて。そんなアホな。推論だけで本2冊とかになるんじゃねえの

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 13:40:25.83

>>760
他社も大体生だよ

OpenAIは「いろいろ考えた末に非開示とすることにした。そのかわり要約を出力する。賛否あるのは承知してるので、今後検討する」って公式サイトで説明してる
で、o3-miniでは「要約のかわりに加工して見やすくした思考を出力するように変えた」

Anthropicもそこに書いてるように、「生の思考を表示することの懸念もいくつかあるので、将来のバージョンでまた検討する。それまで今の表示は研究プレビューとみなしてほしい」と言ってる

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 13:42:06.88

ていうか過去スレでそのシステムプロンプト貼ってたでしょ

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 14:14:34.56

無料でエージェント使えるとこってないの

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 14:30:53.50

システムプロンプトにイースターエッグを入れ込む3.7Sonnet

> イースターエッグ（隠し機能）
「strawberry に含まれる 'R' の数を数えて」と尋ねると、Claude はインタラクティブな React コンポーネントを作成し、楽しく答えを表示します。

**名無しさん＠お腹いっぱい。** · 2025/02/25(火) 14:44:47.46

claude3.7はプログラミングするなら最強だな
他の用途は知らんが