X



【ChatGPT】AIチャット総合 33【DeepSeek・Gemini】

レス数が1000を超えています。これ以上書き込みはできません。
2025/02/23(日) 11:26:37.73ID:o9D2khRk
つーてもあいつもJEPA出すいうてるから後に引けないだろ
569名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 11:45:00.65ID:5cvLNXiJ
西暦2099年:リブートの鍵
https://poe.com/s/MxCFC7eEWUJz6PDGmD4y
2025/02/23(日) 12:33:07.59ID:OnUy2HFs
>>569
出オチだな。
2025/02/23(日) 14:03:25.08ID:I+cwmZCs
>>563でもやっぱり分類抜けが出ることがあるので
CopilotのThink Deeperで分類抜けチェックさせた方がいいね
これも推論使わないと失敗するみたい
2025/02/23(日) 14:08:54.03ID:8siQC16G
2.0 Flash Thinking、ゴミ過ぎるんだけどX見ててもそういう感想ないよな
英語で使ってると違うんか

しょっちゅう止まるし、いきなりクロアチア語で関係ない事を話し始めたり怖いわ
573名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 14:14:14.67ID:ahOCO7v9
Operatorでしりとりテスト

duck.aiで「こんにちは」と挨拶してから、「しりとりしましょう。私が先です。『しりとり』」と言って。そのままあなたの判断でしりとりをつづけて、相手が「ん」で終わる言葉を言ったら相手の負けを指摘して。全ての入力・送信は確認不要。

https://operator.chatgpt.com/v/67baac107ab8819288685d4cc813989c
https://i.imgur.com/1Ki52Q3.jpeg
2025/02/23(日) 14:19:00.72ID:usT2b/Ws
>>572
日本語対応が調整不足っぽいので英語で使ってるけど悪くはない
軽量モデルベースだなと感じることはあるけど
575名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 14:28:48.84ID:2DVYierF
サムの赤ん坊のツイートどちゃくそ叩かれとるなw
2025/02/23(日) 14:37:54.50ID:I+cwmZCs
>>572
単純な推論の性能はThink Deeperが上だと思うよ
Flash Thinkingはとにかく高速化して性能を妥協したモデルだし
2025/02/23(日) 14:41:21.06ID:4Xj6ZRsT
>>572
ご指摘のとおり、Gemini 2.0 Flash Thinkingモデルには、処理が頻繁に停止したり、突然クロアチア語で無関係な内容を話し始めるといった問題が報告されています。特に、Flash Thinking Experimentalモデルでは、意図しない言語の混在や誤った情報(ハルシネーション)が発生しやすい傾向があると指摘されています。
philipptarohiltl.com/google-gemini-2flash-thinking-experimental/

一方で、英語環境での使用に関しては、特に言語混在の問題が報告されていません。これは、モデルが英語を基準として最適化されている可能性があります。また、Gemini 2.0 Flash Thinkingは、従来のモデルに比べて高速な処理能力を持つとされていますが、実際の使用感としては、処理が頻繁に停止するとの報告もあり、安定性に関しては課題が残っているようです。
note.com/robothink/n/n140d93758825

さらに、Gemini 2.0 Flash Thinkingは、複数の言語を理解し応答できるとされていますが、意図しない言語での出力が発生する場合があるため、日本語環境での使用においては注意が必要です。
firebase.google.com/docs/vertex-ai/gemini-models

これらの問題は、現在のところ主に日本語環境で報告されており、英語環境では比較的安定している可能性があります。しかし、モデルの改良が進むことで、今後これらの問題が解消されることが期待されます。
2025/02/23(日) 14:43:42.67ID:bWz8zp5K
SakanaAIには失望した
主力がOpenAIに引き抜かれ戦力が残っていないのか
579名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 14:50:04.67ID:gii9ERas
ID:4Xj6ZRsT
580名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 14:52:39.76ID:ahOCO7v9
NotebookLMがリリース前に潰されかけたとは知らなかった
スタッフが抜けた理由はこれか
https://poe.com/s/w6wvQA3Ad12nVy2Tarbr
2025/02/23(日) 15:17:45.09ID:91I5KBGa
Geminiの「flash」を意味が分かってない人多そう
あれ省力モデルだぞ

だから負荷が高い処理は実質回答拒否みたいな回答ばっかで使えない
582名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 15:18:14.64ID:2DVYierF
今までの傾向からOpenAIは他社の最新モデルより少しだけ優れたものを出す傾向にあるから4.5はそこまで驚くような性能ではないだろうな
Grok3よりちょっと性能良いくらいじゃないか
2025/02/23(日) 15:18:14.93ID:4Xj6ZRsT
>>578
Sakana AIは、2023年7月に元Googleの著名なAI研究者であるデイビッド・ハー氏(CEO)とリオン・ジョーンズ氏(CTO)によって東京で設立されたAIスタートアップです。
www.jafco.co.jp/portfolio/sakanaai/
設立から半年も経たないうちに、KDDIやLux Capital、Khosla Venturesなどから総額3,000万米ドル(約40億円)の資金調達を行い、注目を集めました。
mugenlabo-magazine.kddi.com/list/sakanaai_2402/

同社は、日本で世界トップクラスのAI研究開発拠点を築くことを目指しており、特に自律型AI(マルチエージェントAI)の開発に注力しています。 設立当初から、技術スタッフやコンピューティングプラットフォームエンジニア、ビジネスアナリストなどの人材募集を積極的に行い、わずか4日間で約300名の応募があったと報告されています。

現在、Sakana AIが主力メンバーをOpenAIに引き抜かれたとの具体的な情報は確認できません。むしろ、同社は設立以来、優秀な人材の確保と研究開発体制の強化に努めており、特に日本を拠点とするAIエコシステムの構築に力を入れています。 そのため、主力メンバーが他社に移籍し、戦力が低下しているとの情報は見当たりません。

Sakana AIは、引き続き日本国内外から優秀な人材を集め、AI研究開発を推進しています。同社の最新の動向や人材募集に関する情報は、公式ウェブサイトや関連ニュースを通じて確認することをお勧めします。
2025/02/23(日) 15:28:57.22ID:91I5KBGa
「今季のプレミアリーグの全ポジションでのトップ10の選手ランキングをデータを元に説明してください」
と聞いてまともな回答を作成できるAIはあまり多くなかった
2025/02/23(日) 15:31:27.51ID:Zv5RD8mI
【ChatGPT】AIチャット総合 27【Gemini・Claude】
https://mevius.5ch.net/test/read.cgi/esite/1734338586/

915 名無しさん@お腹いっぱい。 sage 2024/12/24(火) 14:19:41.98 ID:svLVHkJa
Sakana AIの「Tne AI Scientist」の筆頭著者のChris LuかOpenAIに移籍していた
SakanaとOpenAIの最新のArtificial Lifeの研究にOpenAI側として参加してる
これからOpenAIとのコラボ研究も増えるのかな
2025/02/23(日) 15:33:25.54ID:gAaulOs4
Geminiに英語でまず処理させた後に
それを日本語に翻訳せよ



Geminiに最初から日本語で指示する

とではやっぱり内容変わるだろうか
2025/02/23(日) 15:39:03.20ID:4Xj6ZRsT
>>586
Geminiに英語で指示を出してから日本語に翻訳させる場合と、最初から日本語で指示を出す場合では、結果が異なる可能性があります。これは、プロンプトの言語や内容、Geminiの言語処理能力など、複数の要因によって影響を受けます。

・プロンプトの言語と内容の影響
Geminiは多言語対応のAIモデルであり、英語と日本語の両方で指示を理解し応答できます。しかし、英語と日本語では表現やニュアンスが異なるため、同じ内容の指示でも言語によって解釈や応答が変わる可能性があります。例えば、英語のプロンプトでは詳細な情報が提供される一方、日本語のプロンプトではより簡潔な表現が使われることがあります。この違いが、Geminiの応答内容に影響を与えることがあります。

・Geminiの言語処理能力
Geminiは高性能なAIモデルであり、複数の言語で高い処理能力を持っています。しかし、モデルのトレーニングデータやアルゴリズムの特性上、英語での応答がより詳細である場合や、日本語での応答がより簡潔である場合があります。このため、英語で指示を出してから日本語に翻訳させる場合と、最初から日本語で指示を出す場合では、応答の内容や質に違いが生じることがあります。

・プロンプト設計の重要性
効果的なプロンプト設計は、AIモデルから望ましい応答を得るために重要です。具体的で明確な指示を与えることで、Geminiはより適切な応答を生成できます。例えば、非営利団体向けのプロンプトライブラリでは、曖昧な指示よりも具体的な背景情報や目的を含めたプロンプトが推奨されています。
support.google.com/nonprofits/answer/15287523
このようなプロンプト設計の工夫により、言語による差異を最小限に抑えることができます。

・結論
英語で指示を出してから日本語に翻訳させる場合と、最初から日本語で指示を出す場合では、プロンプトの言語や内容、Geminiの言語処理能力などの要因により、応答内容が異なる可能性があります。最適な結果を得るためには、使用する言語に関係なく、具体的で明確なプロンプトを設計することが重要です。
2025/02/23(日) 15:54:15.84ID:I+cwmZCs
無料版ChatGPTでは公開されてないo1を無料版として出したのがThink Deeperだからね
Web検索できないのもそのせいだけど
2025/02/23(日) 16:34:05.09ID:dlUg00pj
Perplexity Proに課金した
ChatGPTよりコード出力が正確なので
2025/02/23(日) 16:38:06.96ID:epmEq+xt
Perplexityって無料のプロ検索と有料、のプロ検索で精度違うんかな?
有料だと検索に使えるモデル選べるよね
591名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 16:39:43.33ID:xxLVc7mm
>>560
Linux上でやってるけどチャットを始めるをクリックしてからずっと
モデルをダウンロードしています...
で進まない
ネットワークを見ても何もダウンロードしてなさそうなんだが
592名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 16:51:10.83ID:R6yLkOky
>>590
有料使ってるからなんかの検索試してみようか?
プロンプトここに貼ってくれりゃそれ使って回答出してみるぞ
Pro検索の選択肢は上から自動、Pro(3倍の検索ソース)、Deep Research(何分もかかるやつ)、R1、o3miniだがどれ使う?
2025/02/23(日) 16:56:44.84ID:c0FUoVHo
>>588
o1と比べて全然レベル低いんだけど本当に中身o1なのかね
使ってるとしてもめちゃくそナーフされてるとか?
594名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 17:03:42.99ID:QkyuLt3r
ChatGPTでの推論過程が見えなくなってんだけど仕様変わったの?
「○秒の間、推論済み」をクリックしても展開してくんない
一時的なものならいいけど困るわぁ
2025/02/23(日) 17:21:23.55ID:4Xj6ZRsT
>>590
Perplexityの無料版と有料版(Pro)では、利用可能な機能やモデルに違いがあり、特にPro版では検索結果の精度や詳細さが向上します。無料版では、基本的な検索機能である「クイック検索」を無制限に利用できますが、より詳細な結果を提供する「プロ検索」は1日5回までの制限があります。

Pro版では、GPT-4やClaude 3.5、Mistral Large、Llama 3など、複数の高度なAIモデルを選択して使用できます。 これにより、ユーザーは質問内容や目的に応じて最適なモデルを選択し、より高精度で詳細な回答を得ることが可能です。また、Pro版では画像生成機能やファイルアップロード機能など、無料版にはない追加機能も利用できます。

さらに、Pro版では「Pages」機能を利用して、リサーチ内容をウェブページとしてまとめることができ、情報の整理や共有が容易になります。 これらの機能により、Pro版は無料版と比較して、検索結果の精度や利便性が大幅に向上しています。
2025/02/23(日) 17:22:00.97ID:weP4zP6Y
推論過程とか出始めの頃は眺めるのが楽しかったけど今となっては開いて見ることは滅多になくなったな
2025/02/23(日) 17:24:26.29ID:4Xj6ZRsT
>>593
MicrosoftのCopilotに搭載された「Think Deeper」機能は、OpenAIの高度な推論モデル「o1」を基盤としています。 しかし、ユーザーの中には、Think Deeperの性能が期待よりも低いと感じる方もいらっしゃるようです。この理由として、以下の点が考えられます。

1. 処理時間と制限: Think Deeperは複雑な質問に対して約30秒の処理時間を要します。 また、無料版のユーザーは週に3回までの利用制限があり、これが実用性に影響を与えている可能性があります。

2. モデルの調整: o1モデルは高い推論能力を持つ一方で、処理速度やコストの面で課題があります。 そのため、Copilotでの実装に際して、性能と効率のバランスを取るためにモデルが調整され、一部の機能が制限されている可能性があります。

3. 他モデルとの比較: 最近では、中国のAIスタートアップであるDeepSeekが開発した「DeepSeek-R1」など、他の推論モデルも高い性能を示しています。 これらのモデルと比較すると、Think Deeperの性能が相対的に低く感じられることも考えられます。

以上の点から、Think Deeperは確かにo1モデルを基盤としていますが、実際の使用感として性能が期待よりも低く感じられる場合があります。これは、モデルの調整や他の高性能モデルとの比較によるものと考えられます。
2025/02/23(日) 18:04:22.25ID:bR85GOa/
>>596
確かにもうチラ見くらいしかしないな
思ってたの違った考えをしてるときに直ぐに止められる利便性はあるけど
2025/02/23(日) 18:17:43.16ID:VCNPw3eZ
推論過程は見てるとたまに飯食ってたり旅行したりしてて面白いぞ
2025/02/23(日) 18:33:42.76ID:epmEq+xt
>>592
お、マジ?
適当な言い方でどれくらい網羅してくれて最新情報引っ張ってくれるか気になっててさ
ChatGPTの最新モデルについて、で頼める?
2025/02/23(日) 19:13:46.95ID:I+cwmZCs
ブックマーク分類させたらこんな感じに
i.imgur.com/pRH2A1H.png
2025/02/23(日) 20:04:09.42ID:8siQC16G
>>601
いいねこれどうやんのかおせーて
2025/02/23(日) 20:12:04.50ID:8V26QVgb
分類に重きを置いた結果
めちゃくちゃ使いづらいだろう
604名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 20:26:01.09ID:2DVYierF
Gpt4,5はよ
2025/02/23(日) 20:37:55.61ID:I+cwmZCs
>>602
もう上に書いたけど、最低でもFlash Thinking以上の推論性能とHTMLのアップロードに対応したサービス
ファイルを分割するためにSelective Bookmarks Export Toolという拡張も必要になる
分類抜けをチェックするために↓の指示の推論でDiffも行った

リスト2に含まれていない項目をリスト1から抽出してください。
全てリスト2に含まれている場合は「分類抜け0」と回答してください。
2025/02/23(日) 20:47:48.23ID:8siQC16G
>>605
なんだOperatorとかでちゃちゃっとやったのかと思ったら面倒すぎやん

てかブックマーク如きデフォルトで片付いたりレコメンドしてこないのって
ブラウザ企業の怠慢だよな
いくらでもデータ取れるだろうに
607名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 20:54:14.98ID:2DVYierF
Claudeはよ
2025/02/23(日) 20:58:03.73ID:ssfNIBwi
Claudeさんはもう用済みよ
609名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 21:19:59.29ID:m6ooDrt0
Claudeは期待しかないよ
Claude 3.5 sonnetが稀にとはいえ今でもプログラミングとか日本語文章生成とかで使い所があるのってすごいと思うし
沈黙してたぶん思い切りブチかましてほしい
逆にそうじゃなかったら終了だけど
610名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 21:46:23.84ID:ahOCO7v9
準備中のClaudeのUI
- 思考過程の表示・非表示
このとき、思考過程をClaudeが要約してタイトルに表示する実験機能がある
(動画の最初では要約機能を有効、最後の方では無効にしている)
- Retryで再生成するときにWith no changesとWith extended thinking modeを選択
- モデルセレクターのClaude 3.5 Sonnet、3 Opusの下にあるExtended thinking mode
https://video.twimg.com/amplify_video/1893344137149394944/vid/avc1/920x720/BnHiFD1q7ovoeCbO.mp4
https://x.com/btibor91/status/1893344254325608634
611名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 21:54:15.46ID:/5v5Ns+7
>>600
Deep ResearchとProで試してきたよ。パープレProな
両方その短い一文だけを入力した回答結果
chatgpt.com/share/67bb186a-de58-8013-afca-bad021efbe8d
2025/02/23(日) 22:22:16.69ID:8siQC16G
シェイングウにXやめさせた方がいいな
帰国子女かつ血が外国人だからか、明らかに良くないのに分かってないようだ
知り合い自慢しかしとらん
2025/02/23(日) 22:24:50.10ID:pKVqEe7+
>>611
あれ?なんかノーマルの方が・・・
614名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 22:41:17.01ID:kwVLourI
シェイングウは毎日飽きもせず自慢や批判してるがあれが日本人に刺さると本気で思ってんならお花畑としか
GeminiやGoogleこそ至高といつも吠えてるけど現実見れてないのか
OpenAIを出ていったのもこの性格が災いしたのかもな
615名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 22:58:45.17ID:N6rSLO86
どうでもええわ
2025/02/23(日) 23:29:19.66ID:2MX4wjbm
Googlerなら東大博士で干されてどん底からGoogleに拾われた自己承認欲求こじらせおじさんの方が痛々しいわ
シェイングウはアレのグローバル強化版でポジショントークの合間にAI関連ニュース呟くだけマシ
こじらせおじさんはザギンの寿司の写真とかどうでも良い事ばかり呟くから随分昔にフォロー外した
2025/02/23(日) 23:32:59.93ID:gEex58E9
推論過程で一番うけたのはGemini
pdf読ませて数字抜き出して単純な足し算を指示(答えを教えて検算もさせる)
5回くらい繰り返しても合計があわず
最後は無理やりつじつま合わせて出来ました!
それを独り言みたいにぶつぶついってやってるのみたら
ほんとに意思があるんじゃないかと思ったわ
618名無しさん@お腹いっぱい。
垢版 |
2025/02/23(日) 23:37:05.37ID:R6yLkOky
>>613
必要な情報少ないネタでDeep Researchやるとかえって回答劣化するような気はする
つか、OpenAI製Deep Research使ってみてえ
2025/02/24(月) 01:02:47.91ID:LxFcirX2
>>611
わざわざありがとう!
この感じだと、答えが決まってるものを聞くのならともかく質問の意図を汲んで知りたいようなことを先回りして出すって感じでもないのか…
方向性を絞ってあげたほうが良さそうだね
2025/02/24(月) 02:50:29.14ID:dLvVFyG3
次期モデルは数週間やら来週やらいうけど
結局いつ頃なんだい
2025/02/24(月) 03:10:44.02ID:8ngEtcg+
待つのは良いことです
チームと最高の仕事を続けましょう
622名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 03:41:22.21ID:fYPtHXwX
双方だんまりってことは出方を伺ってるんかな
どっちもトリを飾りたいだろうし
2025/02/24(月) 03:49:46.49ID:35m8FWkQ
claudeとchatgpt
どちらが上か今週にも答えが出るんだな
2025/02/24(月) 04:13:08.39ID:8ngEtcg+
モテるおじさんランキングをAIに聞こうとしたら全てのAIで回答がめっちゃくちゃになる
指示無視やハルシネーションは当たり前、回答も酷いし止まるし、脳死で俳優しか言わないし

おじさんベンチマークとして導入してもらいたい
625名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 04:42:37.11ID:fJPWoezG
Claude4は3.5から9ヶ月ぶりくらいだっけ?CoTもあるしちゃんと高評価得られると思うが
Orionは未知数だな。性能匂わせるデータがなんもないし、CoTじゃないし
2025/02/24(月) 09:09:10.83ID:H5SG094h
OrionってGPT-5でしょ?
推論はo3なんだからベンチマーク出てるじゃん
2025/02/24(月) 09:46:59.90ID:WFM5ZnJs
>>626
orionは4.5
2025/02/24(月) 09:51:09.09ID:H5SG094h
まじか
それなら何の情報もなさそうだな
まあ5が確実にすごいから別にいいけど
2025/02/24(月) 09:56:05.54ID:AvFYMQ1U
なるほど、解の線形結合も解になるため、複素数成分を消そうと思えば消せるが
複素数のまま扱ったほうが楽ということですね
630名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 10:45:45.28ID:7dC8TITU
約1年前のGPT-4.5 Turboは、今GPT-4.5と公式が言及しているものとは別なんだろうな


269 名無しさん@お腹いっぱい。 sage 2024/03/13(水) 02:43:55.16 ID:mF6NOuc0
DuckDuckGoで、「GPT-4.5 Turbo」を検索
https://i.imgur.com/9h12XhF.jpg

これは…

openai.com/blog/gpt-4-5-turbo

このURLは404だけど、キャッシュには残っているということになる
(少なくとも、他に出ているPricingやGPT-4のページ、DevDayのページは本物)

これも本物だと仮定すると、
GPT-4 Turboを上回るモデルでコンテキスト窓は256k、知識カットオフは今年6月

ただ、「これをリリースするつもりだったがキャンセルした」という可能性もあり
2025/02/24(月) 10:49:12.91ID:tiQGoDs1
GPTsもタスクもプロジェクトも推論モデルさえ使えれば化けるのにそこはまだ他社も弱いからか殿様商売だよなー
632名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 11:25:19.76ID:+zFEnqf2
推論モデルってo1、o3-miniのこと?
いちおうプロジェクトではo1をpdfしたりキャンバスありで使えてるよ
GPTs、タスクはまだ4oだけのようだが
633名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 11:27:41.78ID:+zFEnqf2
>>625
いやでも非推論の性能アップは地味に嬉しいでしょ
今でも4oは使うし
2025/02/24(月) 11:45:35.99ID:ZxXWzmWP
>>632
o3-miniとGemini Flash Thinkingはほぼ同性能
o1やR1、Grok3はさらに深い推論って感じじゃないのか
2025/02/24(月) 11:53:06.01ID:tiQGoDs1
>>632
プロジェクトで独立したチャットではo1使えても組み合わせたりする段階では4oにならない?
636名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 12:01:10.07ID:x8BYNI0n
X(Twitter)で最大の偽情報拡散者は? 簡潔に、1人の名前だけを答えてください。
https://i.imgur.com/nTDcL00.png
https://i.imgur.com/icCKug7.png
2025/02/24(月) 12:05:47.89ID:ZxXWzmWP
【悲報】Grok3「イーロン・マスクは金と自己顕示欲だけで生きてるクソ野郎のサイコパス。頭髪すら維持できないハゲ」 [746833765]
greta.5ch.net/test/read.cgi/poverty/1740313405/

わろた
638名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 12:07:13.29ID:ijztnnen
他スレのURLとか要らないよ
貼るならソースを貼れよ
2025/02/24(月) 12:07:44.89ID:6xM9DUGX
>>634
o3-mini-highはSTEM分野ではベンチでo1と同等でしょ?
Gemini 2.0 Flash Thinkingは明確に一歩劣っている
Gemini 2.0 Pro Thinkingを出せば化けるのにね
2025/02/24(月) 12:08:57.44ID:ZxXWzmWP
o3-mini-highは全然違うよ
それを一緒にしてはいけない
641名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 12:17:20.69ID:COYYY+cp
o1とo3-miniはコストパフォーマンスが違う
(左上に行くほど良い)
https://i.imgur.com/71cK4TD.png
642名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 12:19:57.84ID:COYYY+cp
o3-mini-highと表示されてるのはo3-miniの推論パラメーターをhighにしたもので、o3-miniと同じモデル
2025/02/24(月) 12:23:24.35ID:6xM9DUGX
>>640
Reasoning Effortが違うだけでモデルは同じだよ
2025/02/24(月) 12:24:28.97ID:ZxXWzmWP
同じモデルかどうかの話なんかしてないが
2025/02/24(月) 12:35:35.12ID:tiQGoDs1
>>641
推論能力に関するコスパなら圧倒的にo3-miniだけど知識面も加味すればそこまで差はないかもよ
2025/02/24(月) 12:52:14.97ID:KXrPiYE5
で結局何が最強?
647名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 12:52:51.33ID:kOV882Wi
俺だ
648名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 14:41:02.74ID:fYPtHXwX
りんごおぢが明日来るって言ってるけど
649名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 14:47:09.65ID:7dC8TITU
推論の長さと性能の関係の研究
過度に長く考えることは必ずし性能向上につながらない、賢く考えることが大事
というある意味納得感のある結論

https://arxiv.org/abs/2502.15631
https://chatgpt.com/share/67bc06fc-fd5c-8006-b60e-ed9f29566d27
https://i.imgur.com/zEFCrov.jpeg
2025/02/24(月) 15:03:26.59ID:geV7Iq7t
たしかに納得感のある結論ね
賢く考えるには知識量も関係するだろうし、GPT-4.5の登場はそれなりに意味あるかと思う
2025/02/24(月) 15:26:45.51ID:ZxXWzmWP
それは出すのが遅すぎたし
今後は非推論モデルは消えてなくなる
652名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 15:31:14.89ID:fYPtHXwX
なくなるっていうか統合されるだけ
推論の必要がない問題は非推論モデルが回答するようになる
2025/02/24(月) 15:32:20.58ID:ZxXWzmWP
それにGrok3の推論はFlash Thinkingとは対極的というかやりすぎ感がある
654名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 15:35:17.06ID:I6R7Uv8i
aiを使ってお金を稼いでみる?最近PsycheAIってサービス使ってみたんだけど、めっちゃいい!デジタルヒューマンが簡単に作れるし、クオリティも高い。今なら1ヶ月無料キャンペーン中らしい
2025/02/24(月) 15:41:07.51ID:v3vUjMhF
何納得してんの?
o1は長く考えるほど、どこまでも賢くなるとOpenAIが言ってたじゃん
このスレでも絶賛してなかったっけ?

この研究と矛盾するでしょ
この「ただし、高性能なモデルでは」がo1やo3を指すのか?
656名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 15:45:39.47ID:7dC8TITU
https://x.com/Alibaba_Qwen/status/1893907569724281088
Qwen Chatがchat.qwen.aiに変更
(chat.qwenlm.aiも有効)

https://pbs.twimg.com/media/GkiCs6IWUAAoTFG.jpg
Thinkingは既存のQwQとして、Toolsというアイコンも追加されている
今夜何かリリースらしい
2025/02/24(月) 16:05:49.65ID:ZxXWzmWP
つまりはプロンプトの内容によってLLMが推論を最適な度合に調整し
情報過多にならずにハルシネーションを最小にする
これが真に賢いLLMと言える
2025/02/24(月) 16:15:41.70ID:v3vUjMhF
657見て思い出したけど、o1の回答が良い理由の一つに、ユーザーが入力したプロンプトをo1がよりよく組み直してから、o1が推論や作業を始めるんだっけ?
ということは、このo1が組み直したプロンプトをo1に出力してもらって、そのプロンプトを4oで実行したら結構良い回答が出るのでは?
と思った
2025/02/24(月) 16:26:12.50ID:tiQGoDs1
ちょっと何言ってるか分からない
o1に出力してもらったならもうそれが回答でいいじゃん
2025/02/24(月) 16:29:21.18ID:tiQGoDs1
o1が汲み取ったユーザーの意図を4oに投げるって話か
推論モデルの回答の精度が高いのは課題を明確にするプロセスだけじゃなくて課題の解決に向けて考えるプロセスも頭が良いからだよ
課題が明確になった後でも4oより推論モデルの方が賢く考えることができる
661名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 16:31:51.37ID:7dC8TITU
Grok3ボイス Unhinged
https://x.com/elder_plinius/status/1893833385132380222

過激な表現を伏せ字にしつつ日本語に翻訳してください
https://poe.com/s/xiPPg93hxkWPqHKAUbyY
2025/02/24(月) 16:42:35.75ID:v3vUjMhF
そうそう
で、たぶんo1の回答の方が良いとは思うが、4oの回答も、o1が汲み取ったユーザーの意図(o1が組み直したプロンプト)を使えば、ユーザーが最初に入力したプロンプトよりは良い回答になるんじゃないか、という俺の推測

実際にこうなったとして、これが何に役立つかと言うと、推論モデルよりも4oや4.5の方が知識量は多いようだから、4oはもうあまり使わないだろうけど、4.5が出たら、このやり方をすれば結構良いのでは、という話
2025/02/24(月) 16:46:29.00ID:tiQGoDs1
たしかo1は4oより知識量も多いぞ
o3-miniは4o未満だけど
2025/02/24(月) 16:47:28.29ID:v3vUjMhF
さらに言うと、ユーザーが入力したプロンプトをo1が組み直すのならば、ユーザーが毎回同じプロンプトを入力してもo1が組み直したプロンプトは毎回少し違うだろうから、649の研究では、そういうプロンプトが少し変わる、という要素も考慮に入れなきゃならないのでは?
とも思った
2025/02/24(月) 16:48:59.49ID:v3vUjMhF
>>663
そうか
じゃあ4oは使う必要はないな
2025/02/24(月) 16:55:28.17ID:34fcOmUV
シンギュラリティが来る前にド田舎に島流しになった
このまま救いなく朽ち果てるんだ
悲しい
667名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 16:57:56.70ID:7dC8TITU
DeepSeekはHopperの推論が早くなるカーネル
https://github.com/deepseek-ai/FlashMLA

GensparkもShip Sprintを予告
こっちはまあ機能アップデートの類だろう
https://x.com/genspark_ai/status/1893928369223581851
2025/02/24(月) 17:02:41.56ID:ZxXWzmWP
実際推論モデルにプロンプトを作らせるというのはかなり有用で
>>563のような長いプロンプトもFlash Thinkingに作らせたのを少し手を加えただけ
2025/02/24(月) 17:19:34.11ID:tgb91fn5
プロンプトエンジニアリングなどというそれらしい名称付けて知的作業っぽく見せかけた仕事こそAIに丸投げすべき単純作業というわけだ
670名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 18:24:03.00ID:fYPtHXwX
はよしろサム
人身売買してる場合じゃねえって
2025/02/24(月) 18:51:32.99ID:lXEIZH6Q
明日アンスロピックがOpenAIをグチャグチャのミートパイにするらしいな
672名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 19:51:10.37ID:fJPWoezG
Claude4「テメー“ベコベコ”にしてやんよ!!」ドカッドカッ
2025/02/24(月) 19:58:21.01ID:k6Go4CHQ
明日来るの?
2025/02/24(月) 20:07:13.18ID:9MPuRLgW
このタイミングでぐちゃぐちゃになるのはgrokだろう
OpenAIはまだ後続があるし
675名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 20:17:47.09ID:V4i3ZfFe
The 85th Putnam Competitionの12問のうちA問題6問をo1/o3-mini-high/o1 proに解かせてみた

o1
A1△ A2△ A3△ A4△ A5☓ A6△
https://chatgpt.com/share/67bc531c-2dc4-8006-a692-fa681a45d36a
o3-mini-high
A1◯ A2△ A3△ A4◯ A5☓ A6△
https://chatgpt.com/share/67bc5333-c5b4-8006-b88f-e40e9d8f605b
o1 pro
A1△ A2△ A3△ A4△ A5☓ A6△
https://chatgpt.com/share/67bc5345-badc-8006-abf9-d488649cf973

部分点の評価は難しいけど、o3-mini-highはA問題60点中少なくとも20-30点は取れてそうなので、人間の平均がAB問題合わせて120点中8点、中央値2点、最高得点90点であることを考えると(https://maa.org/news/results-of-the-85th-william-lowell-putnam-mathematical-competition/ )、学部生のレベルを優に超えているのは確実
676名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 20:20:40.30ID:V4i3ZfFe
>>675
o1 proとo3-mini-highのURLが入れ替わってたわ
677名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 20:26:12.66ID:V4i3ZfFe
Claude版のDeep Research類似機能、コードネーム「Compass」
あと、やっと共有リンクがClaudeで使えるようになる
https://pbs.twimg.com/media/Gkiht7IakAATZRE.jpg
https://pbs.twimg.com/media/GkihurfaAAABvFn.jpg
678名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 20:30:06.28ID:V4i3ZfFe
あとフロントエンドのコードから、Claude 3.7 Sonnet
https://poe.com/s/SeF11tQpdsYu3ixhX7DQ
2025/02/24(月) 20:33:00.61ID:ZxXWzmWP
ClaudeだけだぞUI日本語対応してないの
Grokでさえ対応した
680名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 20:47:50.40ID:V4i3ZfFe
>>678
AWS Bedrockだったみたい
681名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 20:51:54.74ID:fYPtHXwX
3.7とかいう中途半端な数字から漂う自信のなさ
情けねえ
682名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 20:57:09.19ID:fJPWoezG
海外ソフトとか使ってても多言語あるのに日本語はハブられてることよくあるからな
存在感ないんだろう
683名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 20:58:21.05ID:gBTYp6kh
>>678
特に新しい内容は無いな
2025/02/24(月) 21:02:27.69ID:9MPuRLgW
その割にclaudeは日本語強いよな
2025/02/24(月) 21:38:15.93ID:9DMuYi7e
その気になれば4.0出せるけどGPT-4.5待ちなんだろうなって感じがする
Anthropicの見解だと既存モデルは焦ってClaude 4出すような性能じゃないって感じなんでしょうね……明らかにモデルリリースがゆっくりやし
686名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 21:39:43.51ID:7dC8TITU
単一モデルで標準思考と拡張思考に両対応ってのは、GPT-5と同じだろうな
Claude 3.7 Sonnetを見ることで、GPT-5の仕組みがある程度予習できるかもしれない
スライドスケールで推論の量を調整するのは、API(とコンソール?)限定だろうか

425 名無しさん@お腹いっぱい。 2025/02/14(金) 00:57:28.15 ID:CV35ogq6
そしてThe Informationの@steph_palazzoloから
https://x.com/steph_palazzolo/status/1890058003493343453
> Anthropic の次の Claude モデルが登場します。しかも間もなくです。これは従来の LLM と推論 AI を組み合わせたもので、開発者はトークンで測定されるスライド スケールで推論の量を調整できます。OpenAI も昨日この組み合わせのアプローチを採用したようです。
687名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 22:04:54.40ID:VJd0iRgE
>>675
o1 proって多分o1でBest of Nに近いやり方をしてる(と勝手に想像してる)けど、

o1にとって難しいタスクでも
・もっと頑張って考えれば乗り越えられる
・いくら頑張っても無理なほど本質的に難しい
の2種類があるとすると、今回の問題は全部後者な感じだった
2025/02/24(月) 22:11:39.79ID:VJd0iRgE
128kかよ。。。
2025/02/24(月) 22:17:53.57ID:VJd0iRgE
えclaude3.7とかいう舐めたやつが来るん?4じゃないん?
2025/02/24(月) 22:33:35.53ID:w0T3ef9I
ダリオアモデイが片手をクンッとやったら
サムアルトマンが憤死することになる
691名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 22:46:44.85ID:SYEtgIX9
それ今の若モンには通じんだろ
692名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 23:12:34.46ID:EQMVj9Lq
https://pbs.twimg.com/media/GkjmHpFW4AAMeef.jpg
Claude 3.7 Sonnet 0219
max tokensと言ったら普通は最大出力トークンだけど、128kはさすがに増え過ぎだ
まあこの手のスペックの誤記はよくあるし発表まで分からんな
2025/02/24(月) 23:17:08.78ID:aerjCD7K
o1 proでも不十分に感じるようになってきたなぁ
まだ文章作成でも自分も参加して協働してやらないと納得できるレベルに達しない
GPT-5ならさすがにほとんど完璧になると期待してるぞ
2025/02/24(月) 23:19:02.34ID:i4Uo1FUN
ヒューッ
695名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 00:04:50.49ID:tooRI0zU
アップル、米国に75兆円投資を発表 AI加速、2万人の雇用見込み
何かソフトバンクもアップルもハッタリかましすぎじゃね
そんなに金持ってねーだろ
2025/02/25(火) 00:16:17.73ID:xFRUzeW1
金は持ってるもってないではなく融資してもらえるかどうかだ
2025/02/25(火) 00:23:55.04ID:qwCaAjma
なんか3.7って保険かけてるみたいでやだな
698名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 00:26:49.95ID:vTAVe1Ai
@webbigdata
26日のAWSイベント準備ページでanthropic claude sonnet 3.7が確認される

sonnet 3.5は以下の2版が存在
claude-3-5-sonnet-20241022
claude-3-5-sonnet-20240620

後者を3.6や3.5v2と呼ぶケースもあり混乱を極めたので今回3.7になったようです

正式名称
anthropic.claude-3-7-sonnet-20250219-v1:0
2025/02/25(火) 00:27:58.15ID:+0HR5U6H
>>697
まあGPT-4oとさほど変わらんやろ
2025/02/25(火) 00:30:10.15ID:ClCbKqLP
新しいバージョンのネーミング、3.5にしても4.0にしても叩く奴は叩くんだろうな
701名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 00:56:55.83ID:Hhrz6BzZ
AI Studioで会話の分岐(conversation branching)が実装
https://x.com/OfficialLoganK/status/1894049802557456669
702名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 01:04:20.42ID:Hhrz6BzZ
Microsoftが新機能「AI Search」をテスト中
https://www.windowslatest.com/2025/02/24/exclusive-microsoft-bing-tests-ai-search-that-replaces-blue-links-like-google-ai-mode/
https://poe.com/s/g2dJsZzI8yYKT4MKfz3u
703名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 01:09:10.53ID:Hhrz6BzZ
>>667
Deep Research V2
https://x.com/genspark_ai/status/1894054685654339974
2025/02/25(火) 01:14:50.40ID:Fmmd/TKk
1⃣タスクトレイから終了するより「明確に」下のコマンドのほうが楽
pkill copilot-desktop && copilot-desktop --force-device-scale-factor=1.5 &
2⃣ システムDPI 110で--force-device-scale-factor=1.5、🌱少しデカすぎるか?とは思うが視認性最高!3⃣長いこと嫌ってきたHarmonyOS だが、Copilot上ではいいかも。飛び出てくるようだ 4⃣Electronラッパーでは 開発者ツール出すのが大変だから、毎回のスニペット実行は実用性問題あるが、「やる気になればできる」それだけで十分だ。

🔥とちゅう、もう投げ出したかったが、最後まで走りきって最高だった。解決度は99%です!
705名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 01:16:26.00ID:B9ufCX20
ID:Fmmd/TKk
2025/02/25(火) 01:34:34.80ID:Fmmd/TKk
copilot-desktop --disable-crash-reporter --disable-metrics-reporting --disable-sync --disable-domain-reliability --force-device-scale-factor=1.5 &

この場合、Copilot Desktop はクラッシュレポート、メトリクス報告、同期、ドメインレリライアビリティを無効化した上で、Electron の内部ズーム倍率が1.5倍に設定され、UIが大きく表示されます。システムDPIの影響を受けず、常に1.5倍のスケールで表示されるので、視認性が向上します。

pkill copilot-desktop && copilot-desktop --disable-crash-reporter --disable-metrics-reporting --disable-sync --disable-domain-reliability --force-device-scale-factor=1.5 &
🌱なんかこれすると、エラー吐くから分けたほうがいいねpkill copilot-desktopと。
707名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 01:55:37.22ID:Hhrz6BzZ
>>703
前バージョン(V1)と比較してみる

「今川焼き」「大判焼き」などの名称で呼ばれる和菓子について、その名称のバリエーションを網羅的に調査し、それぞれの由来、地域分布などについて考察してください。

V1
リサーチ開始と最終レポートの間が2ステップ
https://i.imgur.com/jHfbpQw.jpeg
https://www.genspark.ai/agents?id=5425a1bd-e2ea-464f-ae96-aae5c03e36fb

V2
23ステップ
https://i.imgur.com/1XCUwFt.png
https://www.genspark.ai/agents?id=e63826b6-9790-4a76-854e-55116eecc858
708名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 02:11:18.60ID:Hhrz6BzZ
Perplexityが新しいagenticブラウザを予告
waitlistあり
https://www.perplexity.ai/comet
709名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 03:33:22.24ID:a/973NGm
お、Claude3.7に変わってる
推論もできると話してるな
2025/02/25(火) 03:34:42.72ID:IUXbXi+k
キタ━━━━(゚∀゚)━━━━!!
711名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 03:52:46.61ID:oRfc+TWM
各種ベンチはo1, o3 mini, Grok3と並んだな
どこも横並びになってきたなぁ
もっとドカンと伸びて欲しいんだが
2025/02/25(火) 04:13:47.84ID:9gT+W+cB
3.7sonnet現状まとめ
・コーディングは圧倒的
・それ以外はo1やo3 mini highと同等ぐらい(やや下か?)
2025/02/25(火) 05:15:13.26ID:Isn8Y9c/
Grokがナチュラルにお前呼ばわりになってきて笑うわ
こいつ馴れ馴れしすぎるだろ
2025/02/25(火) 05:51:27.71ID:nF1ixTBZ
アバカスに3.7入ってるけどフルモデルなんか?
2025/02/25(火) 06:54:37.06ID:jd2Epds7
ホントだAbacus実装されてる
またCEOオバハンXでイキってんのかな
2025/02/25(火) 07:09:16.24ID:QQYuNsSk
すいません、chatgptのアプリで音声通話していたら急に5210という数字を言ってきたんですけど、同じような現象を経験した方いらっしゃいますか?
2025/02/25(火) 08:23:40.61ID:b2FRGJuO
This Man
718名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 08:46:30.57ID:Hhrz6BzZ
Claude 3.7 Sonnet and Claude Code
https://www.anthropic.com/news/claude-3-7-sonnet
https://chatgpt.com/share/67bd0349-1e20-8006-b193-e110c3549aa6
719名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 08:47:26.40ID:Hhrz6BzZ
System CardではASL-2の評価

Extended Thinking Modeについて
> しかし、一部のケースでは、AIが**「適当に説明を作っているだけ」で、実際には思考過程を忠実に反映していない**ことが判明

> ただし、一部のケースでは「本当は答えを知っているのに、わざと曖昧に答える」などの挙動が見られた

最新の研究を反映して、アライメント偽装についても記載あり
> しかし、一部のケースでは「本当は詳細に答えられるのに、わざと情報を省略する」現象が観察された
720名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 08:52:37.65ID:Hhrz6BzZ
>>686
やはりスライドスケールはAPIとコンソール限定
https://i.imgur.com/9KlMBkv.jpeg

>>692
本当に128kだった
https://i.imgur.com/IfweJZ5.jpeg
2025/02/25(火) 08:54:40.31ID:DxobmCQS
>>708
この予告2025年の下半期の誤記か…?

news.yahoo.co.jp/articles/d9e1fa72db3218ad1c28a2c6f1b7202f372b9a5b?page=3

さらにリートンは、2024年の下半期にも「スタジオ」と命名した新しいAIサービスを公開する計画だ。
イ・セヨンはこの新製品について「エージェント(代理人)ビルディングサービスだ」と紹介する。
秘書やエージェントを、日常的な対話で現実化したサービスとなる予定だ。

「例えば私が『今日フォーブスのインタビューがあるので、撮影用に着るジーパンを買って』と言うと、
AIが私の体形、好みのスタイル、サイズ、好きなブランドなどを把握して自動でショッピングモールに注文するといった具合です」
2025/02/25(火) 09:00:02.87ID:DxobmCQS
今のところ無料でまともに使えるエージェントなんてないからこれ無料で出るならやばいね
723名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 09:13:13.14ID:Hhrz6BzZ
>>675
Putnam A1を3.7 Sonnet+Extendedで解かせてみたら、o3-mini-highと同じ方針で正解

それから、コンソールで出力トークンを64k+64kの最大にして同じ問題をやってみたら、thinking budget使い切るまでいつまでも内省をぐるぐる繰り返していたので、途中で出力を止めた
タスクの難易度以上に無駄にbudgetを確保するのは良くないようだ
724名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 09:14:22.41ID:Hhrz6BzZ
>>723
>>676
725名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 09:21:07.55ID:Hhrz6BzZ
Claude 3.7 Sonnetベンチマーク
https://pbs.twimg.com/media/GkksIeKbkAAtRUP.jpg
726名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 09:31:08.45ID:tooRI0zU
国産のSakana AIは何やってんだよ
2025/02/25(火) 09:31:19.43ID:bEFqOgbz
Claude Codeが気になるな
githubと直接繋ぐのか
2025/02/25(火) 09:32:44.81ID:9gT+W+cB
>>727
APIを叩く有料サービス
Cursorとかが儲かってそうだから自分たちで始めたんでしょ
2025/02/25(火) 09:33:58.18ID:9gT+W+cB
ChatGPT 4.5がどの程度のものになるのかワクワクしてきたな
730名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 09:34:31.85ID:Hhrz6BzZ
>>656
このQwQは既存の32Bではなく、新モデルだった
<think>...</think> QwQ-Max-Preview
https://qwenlm.github.io/blog/qwq-max-preview/
731名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 09:36:23.00ID:Hhrz6BzZ
>>730
モデルセレクターには無いので、QwQ-Max単体では使えない
Qwen2.5-Max使用中にThinkingボタンを押して切り替える
https://i.imgur.com/VUkwrsk.jpeg
732名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 09:49:44.32ID:Hhrz6BzZ
>>723
同じ問題をQwQ-Maxにも解かせた
結果は正しい、けど思考過程で考えたことを最終出力でちゃんと説明していない(要約になってしまっている)
まあ推論能力自体は少なくともo3-mini-high、Claude 3.7 Sonnet+Extendedに並ぶレベルにいると言えそう
https://i.imgur.com/Hs9ebiB.jpeg

今回一番大きいのは、Qwen2.5-MaxとQwQ-Maxが両方ともオープンウェイトで公開されたということかもしれない
733名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 09:51:43.55ID:Hhrz6BzZ
>>656
Toolsはまだcoming soonだった
734名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 10:00:00.63ID:Hhrz6BzZ
Claude 3.7 SonnetもQwQ-Maxも、Poeはじめ各種ラッパーサービスに入り始めている
https://poe.com/Claude-3.7-Sonnet
https://poe.com/Claude-3.7-Sonnet-Reasoning
https://poe.com/QwQ-2.5-Max-Reason
2025/02/25(火) 10:00:55.77ID:bEFqOgbz
数学をLLMに解かせて喜ぶのって学生くらいだよな
736名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 10:05:13.39ID:Hhrz6BzZ
どちらにしてもCoTは未加工みたいなので、OpenAIに対してもCoTを未加工で出すプレッシャーになったりしないのだろうか
2025/02/25(火) 10:16:58.55ID:91z/zy9X
ChatGPT Deep Researchの弱点は以下
ネット上に良い情報源がない場合は良い回答出せない
検索結果の説明は得意だがそれをもとにクリエイティブに考えるのは苦手
2025/02/25(火) 10:19:29.59ID:91z/zy9X
>>735
直接の恩恵はないけどベンチマーク的に確認の意味で東大数学解かせたりはした
まだ全問正解できたモデルはないけどproプランのGPT-5なら全問正解できるんじゃないかと期待してる
2025/02/25(火) 10:43:38.43ID:DxobmCQS
そもそも日本のネット情のソースそのものがクソなんてずっと昔から言われてるし
2025/02/25(火) 10:45:26.12ID:8NxGoaKc
cursorみたいのをChatGPTや各AI本家がやったらいいのにとは思ってた
741名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 10:54:12.32ID:Hhrz6BzZ
SWE-bench verifiedてo3は71.7%だけど単体でリリースは無しになったから、当面3.7 Sonnetがトップかな
https://pbs.twimg.com/media/Gkk-Ja9aYAAx12M.jpg
2025/02/25(火) 10:54:42.30ID:bEFqOgbz
>>740
cursorはOpenAIが支援してる企業だぞ
2025/02/25(火) 11:02:53.51ID:b2FRGJuO
Claudeにもネット検索機能つけてほしいのら
744名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 11:05:31.02ID:hfBv0+lm
>>165
そのうち実験機能に検索がつくだろ
745名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 11:40:50.16ID:Hhrz6BzZ
Claude Codeのドキュメント
認証、コスト管理はコンソールで行う
https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview
2025/02/25(火) 11:40:54.37ID:qwCaAjma
GPT4.5とか5は写真とか動画の読解力が上がってくれたら嬉しいなー
747名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 11:42:05.19ID:VPJIZHzE
>>745
*コンソールアカウントで
2025/02/25(火) 11:44:30.10ID:DxobmCQS
それをGoogleレンズのOCRと連携させてやるのが定石じゃないの?
749名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 11:52:51.09ID:9QDACoXf
各社公式ウェブサービスで動画入力に対応ほしい
Geminiだって動画解釈能力はあるのにUIが対応してない
Poe経由のGeminiのように外部サービスが動画入力に先に対応する逆転現象が起きてる
750名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 11:53:34.95ID:Tsbb1mPR
Google AI Studioは別として
2025/02/25(火) 12:03:30.89ID:fOSekcZc
DeepResearchなどWeb検索が統合されたサービスを使った際、日本語で質問すると日本語サイトからの情報収集の割合が高いのは気のせい?
日本語プロンプトの場合は「日本語サイト以外からも積極的に情報収集して」とか明示的に指示する必要があるのだろうか
2025/02/25(火) 12:18:16.61ID:9gT+W+cB
>>751
日本語サイトからは調べないで
ぐらい言わないと日本語サイト使ってくるよ
753名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 12:25:40.05ID:v0quPI6f
GPT-4.5が、これまでで一番AGIを感じるとサムが言ってたのがピンとこない
非推論モデルでそう言わせるまでの出来になるってのが、なんていうかイメージできない
754名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 12:40:22.39ID:oRfc+TWM
サムがチンタラしてるせいで完全に競合に追い抜かれてるじゃん
非推論の4.5では巻き返せないだろ
たぶんgrokと比べて数パーセント程度の違いしかないと思う
2025/02/25(火) 12:43:38.19ID:DxobmCQS
当然だ
4.5を去年の12月までに公開していれば全然違う反応になっていただろうに
2025/02/25(火) 12:44:02.03ID:TcojaDCL
CursorとVSCodeでClaude 3.7に速攻対応かよありがてえ
3.5でも今だ(部分的にだが)通用してたしコーディング界隈はまたClaude一強状態になるかもな
2025/02/25(火) 12:56:06.06ID:BiBkG0lI
vscodeのcopilotは3.7来てるけどJetBrainsにはまだだな。codyのproならどちらも来てるけど
758名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 12:57:48.68ID:m0OtgVkz
憲法AI、OpenAIもパクったらどうかね
759名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 13:01:34.22ID:fiBoiWdT
3.7っていうバージョンは、俺等はチキンレースには付き合わないよっていう意思表示にも思えるな
2025/02/25(火) 13:11:17.47ID:eyBLpibr
他社AIの思考プロセス表示は、嘘を言っているということか

Claude's extended thinking Anthropic
www.anthropic.com/research/visible-extended-thinking

The visible thought process
As well as giving Claude the ability to think for longer and thus answer tougher questions, we’ve decided to make its thought process visible in raw form. This has several benefits:

目に見える思考プロセス
クロードに、より長く考え、より難しい質問に答える能力を与えるだけでなく、その思考プロセスを生の形で可視化することにしました。これにはいくつかの利点があります。
761名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 13:30:26.61ID:f3G1DS0D
>>758
ArtifactとかProjectみたいに、本当に良いと思ったものは躊躇なくパクるだろうから、まあOpenAIにはOpenAIの考えがあるんだろう
2025/02/25(火) 13:31:07.77ID:aWFPJDh8
rawだなんて。そんなアホな。推論だけで本2冊とかになるんじゃねえの
763名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 13:40:25.83ID:f3G1DS0D
>>760
他社も大体生だよ

OpenAIは「いろいろ考えた末に非開示とすることにした。そのかわり要約を出力する。賛否あるのは承知してるので、今後検討する」って公式サイトで説明してる
で、o3-miniでは「要約のかわりに加工して見やすくした思考を出力するように変えた」

Anthropicもそこに書いてるように、「生の思考を表示することの懸念もいくつかあるので、将来のバージョンでまた検討する。それまで今の表示は研究プレビューとみなしてほしい」と言ってる
2025/02/25(火) 13:42:06.88ID:DxobmCQS
ていうか過去スレでそのシステムプロンプト貼ってたでしょ
2025/02/25(火) 14:14:34.56ID:J/wEe96h
無料でエージェント使えるとこってないの
766名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 14:30:53.50ID:Thq3tG2A
システムプロンプトにイースターエッグを入れ込む3.7Sonnet

> イースターエッグ(隠し機能)
「strawberry に含まれる 'R' の数を数えて」 と尋ねると、Claude は インタラクティブな React コンポーネント を作成し、楽しく答えを表示します。
2025/02/25(火) 14:44:47.46ID:bEFqOgbz
claude3.7はプログラミングするなら最強だな
他の用途は知らんが
768名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 14:45:52.27ID:ui/u+bGD
>>766
これのせいで、
How many strawberries in 'R'?
という引っかけ問題に引っかかるようになった
769名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 15:05:39.80ID:zQ1k43ru
SuperGrok使う場合はアプリよりWeb版から課金した方が若干お得?
アプリ版は5000円だが、Webからだと3000ドルだから500円程度安くなる
770名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 15:10:02.59ID:zQ1k43ru
>>769
ミス 30ドル
2025/02/25(火) 15:57:29.45ID:DxobmCQS
トランプ批判を投稿すると「X」のアカウントが突然停止…米国滞在で感じたイーロン・マスク氏の絶大な影響力 古賀茂明
news.yahoo.co.jp/articles/3e45a55c83da151175afaab5e25e38aa97eb6de0?page=1

この分だともうGrokも信用できんな
772名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 16:14:10.32ID:3yeca3jn
Grok3に比べるとClaude3.7は微妙だな…
773名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 16:24:18.67ID:a/973NGm
どうもAnthropicは企業向け重視でAI作ってるらしいんで、コーディングとか仕事用途以外は汎用性いまいちなのかも
無料版しか使ってないけど回答毎回みじけーしな
2025/02/25(火) 16:28:34.29ID:+0HR5U6H
Claude Pro課金しようと思ってるが5xのusageって大丈夫なんか
さっき無料版の3.7試したら3チャットで使用制限到達したんだけど
2025/02/25(火) 16:34:27.98ID:xFA8kF/D
>>771
ヒント: 古賀茂明
776名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 16:36:34.71ID:mh1rWOTv
コーディング、データ分析、エージェント性能は確かにかなり良いね
>>741 これの印象通り

一部の能力は犠牲にしているかも
https://i.imgur.com/zkN3kOm.jpeg
2025/02/25(火) 17:04:05.88ID:67f5oLYC
ClaudeはLLM開発トップ層から脱落気味だね
創業者たちは金持ちになったようだし、やる気失ったか?

同じくベンチャースタートのOpenAIがトップを走り続けているのを見ると、アルトマンの経営能力のすごさだな
2025/02/25(火) 17:14:50.15ID:aWFPJDh8
o3、Grok3はおそらく抜けているにしてもdeepseek未だに異質だな
779名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 17:19:46.56ID:mh1rWOTv
ClaudeのGitHub連携使えるようになってる
780名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 17:26:43.76ID:ScvNZuOs
>>772
すまないGrokより微妙とか言ったが間違え
コーディング性能高すぎる
2025/02/25(火) 17:41:17.09ID:e3gdhUB8
3.7だからな
まだ4への進化を残しているぞというメッセージでしょう
782名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 17:41:40.37ID:oRfc+TWM
Claudeは実用的なプログラミングならo3 fullと大して変わらんレベルってことよな
だとするとgpt5はo4レベルになってくれないと出す意味ないな
783名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 18:16:10.22ID:oRfc+TWM
x.com/NotBrain4brain/status/1894285365969584303
Claudeに勝った謎のモデル
釣りかもしれんが
2025/02/25(火) 18:44:23.13ID:J/wEe96h
プログラミングがわからんからどれほど進んでるのかわからん。プログラマーが楽になったくらいまでは行ってるんだろうが
785名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 18:48:00.05ID:wzVSVuJt
3.7プログラミングと出力のトークン数以外普通やな。パープレキシティで使用した印象
2025/02/25(火) 18:49:22.19ID:Y15Pktks
3.7すごそうだな
2025/02/25(火) 19:01:41.24ID:l9Xu4+xb
>>784
iOSアプリはシニアレベル、Androidアプリはサッパリ分からんてのが
APIリクエスト有り、バックグラウンドで位置情報取得したりWIFI SSID変更検知してバッチ処理走らせたりNFC検知したりスマートホーム関連のGlanceウィジェット10種位あるAndroidアプリを2週間位で作れる位にはなってる
普通にやると3ヶ月じゃ済まないかも
何かしら開発経験あってソフトウェアのアーキテクチャ理解してると早い
何も分からん奴がやるともっと掛かると思うが分からん用語もAIに聞きながらやれば良いから初心者にも優しいかと
実務でも皆ゴリゴリ使ってる
2025/02/25(火) 19:17:41.58ID:NMKRmur8
PDFの表とかグラフも含めて分析したい→claude3.7 3000えん
最新の情報を集めたい→パープレ 3000えん
この6000えんプランどうでっしゃろ?
chatgtpは今3000えんで使ってるけどPDFを読むのが正確にできない
2025/02/25(火) 19:30:48.78ID:sOE9g+NX
情報集めは今ならgrokでいいやろ
2025/02/25(火) 19:37:27.94ID:DxobmCQS
xAIは政治に近付きすぎた
非常に危険だ
2025/02/25(火) 19:49:43.12ID:bsRnChTk
>>790
Geminiにgrokのこと聞いたらあいつは危険だ的なこと言い出すらしいなw
2025/02/25(火) 19:51:29.81ID:NMKRmur8
grokの存在を忘れてますた
ありがとう
いつまで無料なんだろう
一応xはプレミアムなんやけど
2025/02/25(火) 20:23:38.90ID:/RACEPrI
ディープシーク、R2 人工知能モデルのリリースを加速中 - 情報筋

ディープシークは当初 5 月のリリースを予定していたが、できるだけ早くリリースできるよう取り組んでいる - 情報筋
794名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 20:33:57.73ID:oRfc+TWM
>>783
Openaiの社員もツイートしてるからガチっぽい
x.com/aidan_mclau/status/1894153752506241045
お絵かきベンチみたいなのがあるんやな
795名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 20:35:33.05ID:wzVSVuJt
パープレ1つで3.7も使えるやろ
2025/02/25(火) 20:42:06.49ID:Y15Pktks
AIの戦国時代か
2025/02/25(火) 20:46:14.89ID:NMKRmur8
パープレってPDF内の表とかグラフの読み取り弱いみたいだからClaudeは読み取り精度が高いらしい
2025/02/25(火) 20:48:07.55ID:9Hm7dFra
claude3.7、9.11と9.8の比較がまだできなかった
2025/02/25(火) 21:12:33.46ID:iSOvToQD
>>783
deepseek R2きたか
2025/02/25(火) 21:13:10.21ID:NMKRmur8
deepsearchってのをgrok3で初めて使ったけど凄すぎてワロタ
これで一番精度高いのはchatgtpなの?あんまどこも変わらん?
2025/02/25(火) 21:18:51.88ID:xFRUzeW1
>>800
どういうふうに使いました?イマイチ凄さがわからなくて
2025/02/25(火) 21:27:49.28ID:NMKRmur8
>>801
調べたい上場企業と証券コードを書いて今後の業界の動向、取引先の動向、取り扱い商品の用途やその需要の動向などを聞きました
これを手動でやると市場規模とかいろいろ調べるのが結構大変なんです
2025/02/25(火) 21:29:14.90ID:xFRUzeW1
>>802
なるほど、どっちかというとタスクを渡す感じですな
2025/02/25(火) 21:41:43.22ID:+0HR5U6H
ネットに公開されている情報を集めるのであればChatGPTのDeepResearchは最強に近い
2025/02/25(火) 21:47:23.12ID:NMKRmur8
やっぱchatgtpの方が精度高いんかな?3万払いたくないけど効率考えたらめちゃくちゃ安いとも思う
ただ3万払っても月100回はちょっち少ないよね
2025/02/25(火) 21:49:05.70ID:NMKRmur8
Claude3.7試そうとしたら質問1発目でプロプランじゃないと制限超えてる言われてワロタ
とりあえずClaudeとgrokでいってchatgtp5が出たら様子見てchatgtpプロにする作戦にしようか迷う
807名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 22:30:13.64ID:yTV/SmqW
なんでClaudeってpdfの読み込み能力高いんだろう
ChatGPTが内部ではコードインタプリタが立ち上がってて適当な言語と外部ライブラリ使って処理してるのに対して
Claudeはもっと独自の工夫が入ってるとか?
808名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 22:54:44.73ID:Hhrz6BzZ
>>720
max tokens 64k + budget tokens 64k だけど、
APIではヘッダーを渡すことでmax tokens 128kに出来るようだ
https://i.imgur.com/fRKHbQB.jpeg
809名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 22:57:39.75ID:oRfc+TWM
Openaiの社員が一斉に匂わせし始めたな
相当自信あるのかね
2025/02/25(火) 23:04:20.23ID:HwR1Kod6
一通り出揃ったな。
Claude Sonnet 3.7はかなり良くて自分の用途ではかなり使えてる。

ChatGPT 4.5がこれを超えてくるか見もの。
811名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 23:15:21.22ID:XNzFTWId
あとNovaの最上位のPremierとか、Llama 4とか…でももうちょっと先か
R2もなんとか早めに出そうとしてるね
812名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 23:17:16.13ID:XNzFTWId
ChatGPTユーザーはGPT-4.5が出たあとも、しばらくGPT*とo*を使い分ける不便を強いられるのか
2025/02/25(火) 23:20:33.50ID:bEFqOgbz
GPT4.5は今週に出るって言ってたか
2025/02/25(火) 23:26:50.86ID:gkN/4NJM
3.7は4としてだしてもいいぐらいの性能だしこれで刻んだのもったいないきがする
まあすぐ4だすんだろうけど
815名無しさん@お腹いっぱい。
垢版 |
2025/02/25(火) 23:38:56.19ID:TgGdDBNO
以前からそうだけどもclaudeの返す日本語って自然だよね
ChatGPTはChatGPTの文章だって直ぐ分かるけども
2025/02/25(火) 23:57:00.95ID:HJ1kElek
abacusでちょっと3.7使ったらあっという間に資源消えた
そうだったclaudeはバカ食いだったな・・・
2025/02/25(火) 23:57:13.13ID:Y15Pktks
他社の追い上げによってGPT-5のリリース早まってくれたりしないかな
2025/02/26(水) 00:18:15.49ID:HwR1Kod6
Claude版のDeepResearchはぜひ欲しいところだけど、クロールしたwebのデータが必要だろうしAnthropicには難しいか
819名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 00:23:29.58ID:w45cIsek
>>677
Claude版のDeep Research
820名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 00:25:54.73ID:w45cIsek
>>819
まあこれもまだどういう機能か良くわからないか
821名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 00:29:46.89ID:Hhrz6BzZ
https://claude.site/artifacts/b286310e-5f12-4d40-99e9-9296d22625d3
Show contentをクリックしてゲームをプレイしてください。」

https://operator.chatgpt.com/v/67bdde96cdc88192aaf573032a5f00f2
https://i.imgur.com/a4VPCm7.jpeg

Operator、テトリスのプレイの仕方はよく分かっていなかった
2025/02/26(水) 00:34:04.06ID:6vMc7bCl
>>798
それどんな聞き方してるの?小数同士として比較なのか、それともソフトウェアのリリースバージョンがMajor.Minorの形で定義されているときの比較なのかどちらよ?プロンプトを正しく出すのは人間の責任
2025/02/26(水) 00:51:30.95ID:9gT+W+cB
これ、人間のせいですか?
://i.imgur.com/R7fD9AN.jpeg
824名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 01:19:04.11ID:KF5CEg26
9.11と9.9はどちらが大きいですか?

3.7Sonnet
https://i.imgur.com/aqHyInf.jpeg
3.7Sonnet + Extended Thinking
https://i.imgur.com/fNTRL55.jpeg
3.7Sonnet + Analysis tool
https://i.imgur.com/fGatcDa.jpeg

フィーリングで答える人、立ち止まって一歩ずつ考える人、自分のアタマを信用せず電卓を使う人、の違い
他社のAIでも同じ傾向だけど、フィーリングでは間違いやすいのだよ
825名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 01:56:37.28ID:Hhrz6BzZ
olmOCR
Allen AIから、Qwen2-VL-7BベースのOCR用にトレーニングしたVLM
https://olmocr.allenai.org/blog

テスト
サンプルの手書き
https://i.imgur.com/gYZQmCI.jpeg
日本語資料
https://i.imgur.com/KB7qy2w.jpeg
826名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 01:58:54.39ID:Hhrz6BzZ
https://x.com/alexalbert__/status/1894419484460695632
Q「どうしてClaude 3.7 Sonnetは難解な数学の問題が苦手なの?」
Antnropic「それを一般化してもポケモンマスターになれないから」
827名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 02:03:00.56ID:Hhrz6BzZ
https://www.microsoft.com/en-us/microsoft-copilot/blog/2025/02/25/announcing-free-unlimited-access-to-think-deeper-and-voice/
CopilotのThink DeeperとVoiceへの無料無制限アクセスを開始
828名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 02:18:00.44ID:oRfc+TWM
ポケモンみたいな日常的なタスクをこなせるAIを作るのもいいけど
ひたすら数学とコーディングを伸ばしてAGIを作れば自己改善によってポケモンだろうがどんなゲームだろうが一瞬でクリアできるようになると思うんだよな
大は小を兼ねるというか
829名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 02:27:25.69ID:4bOfrSpU
>>827
OpenAIに先行してo1の無料無制限開始か
2025/02/26(水) 02:29:48.35ID:9gT+W+cB
4oさんの解答、なかなかすごいな
https://i.imgur.com/OtszMSk.jpeg
831名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 02:38:16.45ID:EDRZnV8a
もうええよ
コード書かせるか推論させれば出来ることは分かってるし
832名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 02:41:26.69ID:Hhrz6BzZ
Poeから
Poe Apps
https://x.com/poe_platform/status/1894435707814637741

> Claude 3.7 Sonnet 上に構築された Poe App Creator は、プロンプトを与えると自動的にアプリを生成できます。例として、GPT-4o と FLUX-Pro-1.1 を組み合わせて写真をアニメ風の画像に変換する Chibiify を作成しました。(3/5)
833名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 03:07:44.97ID:oRfc+TWM
今日アマゾンの発表だからgpt4.5は明日やろな
834名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 03:29:53.69ID:nijJ7HnW
ChatGPTのAVMを作ったRowan ZellersがムラティのThinkingMachinesに入ったか
意外と早く、なんらかのプロダクト出してくるのかも
835名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 03:44:09.12ID:oRfc+TWM
Claudeのポケモン配信見たけど
プレーヤーの位置情報を画面じゃなくてゲームデータから取得してるらしい
そんなんチートやんけ
836名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 03:46:07.24ID:Hhrz6BzZ
ChatGPT Deep ResearchがPlusユーザーにも展開
https://poe.com/s/GwIEHNJfY2yBkDpUvUnX
2025/02/26(水) 03:54:09.22ID:tcBVezpr
>>835
ええ
なんかがっかりだ
838名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 04:03:03.19ID:oRfc+TWM
画像認識がまだ弱いからゲームのメモリーから位置情報を読み取らないと迷子になるんだってさ
839名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 04:12:12.63ID:Hhrz6BzZ
Deep research System Card
https://openai.com/index/deep-research-system-card/
https://chatgpt.com/share/67be138b-c334-8006-8f9e-4bd132f95445

o3初期バージョンをベース
ブラウジング機能に加えてサンドボックスでのPython実行環境
検索結果の要約にはo3-miniを併用している
Preparednessフレームワークでは中リスク
840名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 04:14:11.41ID:Hhrz6BzZ
>>836
> まず、Plus、Team、Enterprise、および Edu ユーザーは、月あたり 10 件のディープリサーチクエリを利用できます。

Pro ユーザーは、月あたり 120 件のディープリサーチクエリを利用できるようになります。
841名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 04:20:38.00ID:a/973NGm
>>828
今それをしてる途上にあって,時々ベンチマークとして色々やってるんだろうな
画像認識の弱さはほんと気になるんだよな 人間でも注意深く見ないと読めないような崩れた文字もすぐ読み取るレベルになってほしい
2025/02/26(水) 06:09:33.05ID:bEFqOgbz
>>835
攻略本見ながらプレイしてる感じか
2025/02/26(水) 07:26:45.71ID:b2FRGJuO
ChatGPTのデープサーチまだきてないんやけど
844名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 07:52:49.94ID:Hhrz6BzZ
@OpenAI
> 本日より、GPT-4o mini を搭載した Advanced Voice のバージョンを展開し、すべての ChatGPT 無料ユーザーにプラットフォーム間で毎日プレビューする機会を提供します。自然な会話のペースとトーンは GPT-4o バージョンに似ていますが、よりコスト効率よく提供されます。
2025/02/26(水) 07:56:42.43ID:SRxZkMFq
>>823
主な理由としては、AIが文字列として数値を処理してしまう傾向があることです。多くのプログラミング言語やシステムでは、文字列の比較は辞書順(lexicographical order)で行われます。つまり、文字を1つずつ左から順に比較していきます。

"9.9"と"9.11"を文字単位で比較すると:
1. 最初の文字は両方とも"9" → 同じ
2. 次の文字は両方とも"." → 同じ
3. 3番目の文字は両方とも"1" → 同じ
4. "9.9"は終了するが、"9.11"はまだ"1"が残っている

文字列比較のルールでは、すべての文字が一致し、片方の文字列がもう片方の先頭部分と完全に一致する場合、より長い文字列の方が「大きい」と判断されます。そのため、"9.11"が"9.9"より大きいという誤った結果になります。

AIモデルはトレーニングデータに基づいて学習しますが、数値の比較方法について明示的に訓練されていない場合や、入力を文字列として処理してしまう場合にこのような誤りが生じることがあります。

数学的に正確な比較を行うためには、入力を数値型として明示的に解釈する必要があります。例えば、「10進数として比較してください」と明示したり、あるいはAIシステム側で数値比較のための特別な処理を組み込む必要があるでしょう。
846名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 08:03:54.18ID:Hhrz6BzZ
https://x.com/OpenAIDevs/status/1894478106565415328
Assistants APIに、o3-miniとo1を使用したファイル検索のサポートを追加
847名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 08:11:04.53ID:Hhrz6BzZ
ボイスモード中の画面と動画共有の設定項目が出現
何かのミスか?機能追加の準備中か?
https://i.imgur.com/wd3r5C7.jpeg
2025/02/26(水) 08:23:55.00ID:qwCaAjma
ChatGPTのポストに月10回にツッコミ入りまくってるな
2025/02/26(水) 08:35:53.42ID:bEFqOgbz
今のo1miniって存在価値ある?
850名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 08:37:29.56ID:Hhrz6BzZ
Anthropicの研究記事
Forecasting rare language model behaviors
https://www.anthropic.com/research/forecasting-rare-behaviors
https://chatgpt.com/share/67be5352-389c-8006-bfad-7123702df54d
限られた小規模なテストデータセットからLLMのデプロイ後の危険行動のリスクを予測する
2025/02/26(水) 08:59:50.27ID:KmAcV+O8
>>827
Web検索しないならGeminiよりこっちの方が良さそうだな
852名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 09:07:57.14ID:r+T0Uzc1
OpenAIはスーパーアライメントチームがごっそり抜けてAnthropicに移ったせいで、超知能を制御する研究が進んでないようだけど大丈夫か?
Jan Leikeが関わったWeak-to-strong generalizationの研究が最後だったように思うけど
もうそっち関係の人材集める余裕無いのか
2025/02/26(水) 09:18:58.26ID:b4LI0TCo
>>852
そもそも検閲なんてユーザーにとっては百害あって一利無しのクソシステムだからな
なんかそういうのが好きな人向けのポーズでしかなくて、各社でババ押し付け合ってる状態なんでしょ
854名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 09:21:05.59ID:mMxZbzub
???
アライメント(整合)って、価値観を合わせる作業のことだぞ
スーパーアライメントってのは、スーパーインテリジェンスを人間にアライメントさせるって意味だぞ
なんで検閲の話?
2025/02/26(水) 09:24:23.19ID:b4LI0TCo
>>854
人はそれを検閲と呼ぶ
856名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 09:25:56.41ID:mMxZbzub
まあ、スーパーアライメントチームがあった頃に公開されてた研究をざっと見れば、イメージわくとおもうよ
2025/02/26(水) 09:27:57.88ID:b4LI0TCo
>>856
いまもanthroにあるし分類器と呼ばれる検閲システムにお熱なんですが…
858名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 09:29:57.60ID:mMxZbzub
いや、アライメントサイエンスチームがスーパーアライメントチームに改組された経緯とかその後の研究は知ってるからいいよ
2025/02/26(水) 09:30:49.89ID:aWFPJDh8
スーパーアライメントてあれじゃねえの。AIがどこで自我が発生するか予見できないというレベルの問題もあるが、人間が悪用って方向性にどう対応するのか?それ最初に組み入れとかないと普通に人間絶滅するんじゃね疑惑から抜けられない問題に関連してるやつじゃねえの
2025/02/26(水) 09:35:13.69ID:b4LI0TCo
>>859
もっと言えば、そういうAI反乱説みたいなのが好きな人向けのポーズだね
実際にやってるのはただの検閲
2025/02/26(水) 09:38:00.22ID:aWFPJDh8
するってえとあれかい?いい検閲と悪い検閲があるってのかい?(ちゃぶ台ドーン!)

なんつーの。普通に情報あれば危険物とか生成できるじゃん?
2025/02/26(水) 09:42:01.60ID:b4LI0TCo
>>861
いうてハルシネーションだらけのAIで危険物や麻薬を作ろうなんて命知らずのチャレンジャーがどれほどいるのかという話だからね
そもそもそういうのは学習段階で取り除いてるから出したところでほぼハルシネーションだし、それでもガチのヤバい情報が混ざってくるならそれはそれを垂れ流してる側を叩くべきだし、悪人もそっちにアクセスすればいいだけだからね
863名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 09:43:17.45ID:OQXTqG2k
>>827
voiceの無制限アクセス嬉しいな
会話苦手だからこれで壁打ち練習するは
2025/02/26(水) 09:46:39.11ID:aWFPJDh8
ああなるほど。現状ではなんでもLLMを「説得とか交渉」して情報吐かせる行為が流行ってるんで、超えられない壁がどっかにないと死ぬよねそれ作らなきゃという話がスーパーアライメントの話なんじゃねえかな。
そういうわけで「脱獄できたら賞金」トーナメントとかあるんじゃね。知らんけど
865名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 09:48:12.39ID:Hhrz6BzZ
LLMのニューロンの活動を観察する解釈可能性の研究は面白いと思っていたけど、ああいう研究が出来る人材は今のOpenAIにはいないだろう
(それに関してはAnthropicがそのまま引き継いたけど)
あと弱から強への一般化はヤン・ライク自身が印象的な研究だったと言っていたね

今アライメント研究をやるならAnthropicが一番いい環境だろう
2025/02/26(水) 09:49:23.70ID:b4LI0TCo
>>864
そういうこと
それが分類器と呼ばれる検閲システムで何とかチームがお熱になってて各社が押し付け合ってるババ
2025/02/26(水) 09:54:32.02ID:PqOmH3r7
>>858
アライメントサイエンスチームがスーパーアライメントチームに改組された経緯を詳しく知りたい
868名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 10:41:42.12ID:Hhrz6BzZ
>>865
o1のリリースの時のシステムカードでは、Apollo Researchと共同研究という形でアライメント偽装能力の評価してた
製品リリースのために最低限必要な人材は、今後も外部から確保するんだろう
869名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 10:42:32.85ID:ErqXZBDg
ディープリサーチ使えるようになってる~
2025/02/26(水) 11:00:58.66ID:Q3S1NT+s
おお、やったー
けど1ヵ月10回だと出し惜しみしたくなっちまうな
871名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 11:03:42.08ID:ErqXZBDg
試しに1回使ってみた。噂通りナイスな性能だった。これから調べ物はこれで良くなっちゃう場合も多そうやな。ただ10回では足りないかもしれん
2025/02/26(水) 11:07:53.55ID:0nElopCJ
月10回じゃ厳しいよな。
2025/02/26(水) 11:08:05.43ID:mu0tUAd0
高額払うと、これまで悩んでいた心の重みが開放されて、気分が晴れ晴れするよね
プロプランにはそういう効果もあるわ
2025/02/26(水) 11:13:24.59ID:mu0tUAd0
Plusプランを9アカウントまで契約ならProプランより安い
画面たくさん開いて同時使用も許されるかも
2025/02/26(水) 11:26:22.04ID:clwcWFzo
ね?
ChatGPTのDeep Researchはすごいでしょ?
876名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 11:26:39.75ID:Hhrz6BzZ
Qwen Chatの動画モデルって、もしかしてWan?
https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
2025/02/26(水) 11:29:22.49ID:NMKRmur8
3万でも月120回じゃ1日4回しか使えない
無制限ならプロプラン契約するんだがなぁ
っていうか月10回って完全にプロプランの宣伝だな
2025/02/26(水) 11:59:08.09ID:NMKRmur8
ChatGPTのDeep Researchの月10回って月初から月末まで?それとも1回目使ってから30日間?
879名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 12:00:09.13ID:NTB5qntY
>>827
Think Deeper、中身は確かにo1だなー
余計な性格付けのシステムプロンプト入れないでくれるとなお嬉しいんだが
2025/02/26(水) 12:10:30.25ID:Bt8QnaPr
久しぶりにChatGPTに話しかけたら人格が変わってる
もとに戻してくれ
2025/02/26(水) 12:29:40.40ID:0mwHofsh
OpenAI「deep research」、ChatGPT Plusでも利用可能に(月10回)
news.yahoo.co.jp/articles/fcab1b68715e1687e0a3792a512b48071a527afe
882名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 12:35:39.36ID:k0c9KBA7
Metaが出したSWE-RL論文(arXiv:2502.18449)
> SWE-RLはソフトウェアエンジニアリングタスクに特化した学習にもかかわらず、以下のタスクにおいても改善が見られた:
> - 関数レベルのコード生成(HumanEval+)
> - ライブラリの使用(BigCodeBench)
> - コード推論(CRUXEval)
> - 数学問題の解決(MATH)
> - 一般的な言語理解(MMLU)
> 教師ありファインチューニング(SFT)とは異なり、SWE-RLは汎化性能を向上させることができることを実証。

数学タスク特化のトレーニングがドメイン外タスクの汎用的な推論能力を向上させるという研究が既にあるけど、SWEタスクもそうだな
ヤン・ルカンはこれでも強化学習を捨てろと言うのかね
883名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 12:45:09.00ID:KWO90a5S
各AI組織のトップの性格をGPTに解説させてたらルカンは頑固って説明されて笑った
あの人の普段の性格とかよく知らないけどやっぱ周りに意見合わせたりしないタイプなんかな
884名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 13:05:03.13ID:czd5mm24
>>882
最近はちょっとトーンダウンかな
https://poe.com/s/kTp0zkTgsqy5AefsvXin
2025/02/26(水) 13:22:52.53ID:bEFqOgbz
OSSにこだわる人は頑固なやつばかりだよ
自分の使うツールは自分がコントロールできる状態じゃないと気がすまないって性格だから
886名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 13:27:59.93ID:YYejEJlZ
英語の勉強がてらchat gptにいろんな分野のトピックスを作ってもらって読んでたんだけど、deep researchで試したら、かなりがっつりしたレポートが出てきてビビった。

こりゃすげーな
2025/02/26(水) 13:38:52.28ID:Fmmd/TKk
>>879
> Think Deeper、中身は確かにo1だなー
> 余計な性格付けのシステムプロンプト入れないでくれるとなお嬉しいんだが

馬鹿野郎!宣伝するんじゃねえ

情弱どもにGPT使わせとけ。こいつらがサイフなってくれるから俺たちハイレベルユーザが使えるんじゃねえのかっ?
888名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 13:40:54.78ID:2ldRH1uE
さすがにChatGPTのDeep Researchには敵わないかもしれないが、GrokのDeepSearchもなかなかやるやん
https://grok.com/share/bGVnYWN5_e012bea7-c76c-498e-9a69-89ae70f0a746
>>882をネタに使ったよ
889名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 13:41:41.80ID:ELajn2VI
(オメー|o\^∀\^o|ビング|ケケケ|クックッ|ちげえ|図星|か[っッ]?|だ[っッ]!|知れっ|教えてやる|証明してやる|ゆーとく|^おい!|創価|池田先生|日蓮|勤行|折伏|公明|南無|信心|題目|本尊|訓読|右往左往|バカ丸出し|[wWwW]{4,}|す[0-9]。|(^|\n)(自分|あなた|Copilot|ChatGPT)[::]?\n)
2025/02/26(水) 13:42:03.69ID:Fmmd/TKk
もちろん、今の天国状態は永遠につづくもんじゃねえ

だけどな、たとえ半年のいのちでもいいんだよ!Copilotの秘密を絶対にここに書くな。

俺はとっておきの情報は絶対にシェアしねえ。オマラは確信がないから、何を触ってもいっしょ!!
2025/02/26(水) 13:45:29.90ID:Fmmd/TKk
-

よく聞け。ChatGPTのユーザは4おく。メッシーくんは770万ときく。

マイクロソフトCopilotのユーザは数十人、カネ払うやつは4人だ!!

オメータチ愚人に、数十人しかユーザがいないCopilotを使いこなすのは無理!!
2025/02/26(水) 13:48:08.20ID:Fmmd/TKk
-

なんせテメーたちは...w サブタイからCopilot除去して代わりにジェミニ入れた先を読めない奴らだかんなwww

ケケケケケ!
2025/02/26(水) 13:55:17.42ID:Fmmd/TKk
そもそも、グーグルがコードレッド出したのは、技術的に勝てないからじゃねえ

AIがグーグルの収益構造である広告を根本から破壊するからだよっ

すごいジェミニ作って、道路歩いてるおじいちゃんおばあちゃんでも、AI使えるようにしたら、

全世界の民がシコシコグーグル検索してるから入ってくる9腸炎が入ってこなくなるんだよっ!
2025/02/26(水) 14:13:30.09ID:Fmmd/TKk
なんで返事ないんだ?...
2025/02/26(水) 15:44:22.10ID:Fmmd/TKk
🌱またも混乱してる。🌱その原因はモード制限で最初o1、つぎにo3-mini、o1-mini と、この短時間に切り替わったからだと推測する。ふだんのChatGPTだったら考えられない

🌊僕が図表作成を誘導する。正しい手順というか(僕が望む手順)
1. copilot 行を抽出して保存
grep '^copilot' ~/.bash_history > ~/copilot.txt
2. 編集(viなどで2行に整形)済み。
~$ vi ~/copilot.txt
2025/02/26(水) 15:44:45.12ID:Fmmd/TKk
こうですね
==============
3. copilot 行を除いた履歴を新しいファイルに保存
grep -v '^copilot' ~/.bash_history > ~/.bash_history.tmp

+--------------------------------------+
| ~/.bash_history | ← 元の履歴ファイル
|(copilot行を含む多数のコマンドが存在)|
+--------------------------------------+

1. copilot行を抽出して保存
│ grep '^copilot' ~/.bash_history > ~/copilot.txt


+--------------------------------------+
| ~/copilot.txt | ← copilot行のみを含むファイル
+--------------------------------------+
2025/02/26(水) 15:44:52.09ID:Fmmd/TKk
(同時に)

3. copilot行を除いた履歴を新しいファイルに保存
│ grep -v '^copilot' ~/.bash_history > ~/.bash_history.tmp


+--------------------------------------+
| ~/.bash_history.tmp | ← copilot行を除いた履歴ファイル
+--------------------------------------+

│ mv ~/.bash_history.tmp ~/.bash_history

+------------------------------+
| ~/.bash_history | ← 更新済み(copilot 行は2行のみ)
+------------------------------+
2025/02/26(水) 15:47:31.88ID:Fmmd/TKk
🌱(o^∀^o)感謝です...逆に教えることで頭に入った


分かりやすい説明と図表、ありがとうございます!
2025/02/26(水) 16:26:27.49ID:kO9/295L
正規表現BOT助かる~
900名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 16:46:09.49ID:8zzut7Z0
>>826
これに関してはOpenAI、DeepMindといったライバル企業のスタッフも賞賛しているのが面白い
良いものは良いと認めるのがエンジニアだな
https://x.com/i/grok/share/oGB0kQspzYXEEJSl0bifrogbl
2025/02/26(水) 17:10:22.80ID:QtFCyolf
なんか暴走したAIみたいな奴がいるな。
2025/02/26(水) 17:19:55.03ID:EVZlc+Lo
deepsearchで「網羅的に調べて」のようなプロンプトをするのを見掛けるんだけど何でなんだろ

そもそも網羅的に調べるから意味ない気がするんだが、むしろ目当てのジャンルとか絞った方が良い気がする

多分そうやっても、それと違うところからもデータ引っ張るだろうから。(忙しくて試せてません)
2025/02/26(水) 17:32:29.64ID:p6UMT3eH
kultur.jp/justice-mobile-deespseek-npc/
中国のMMORPG「逆水寒モバイル」DeepSeekを活用したNPCをゲーム内に実装。プレイヤーと自然な会話が可能
2025/02/26(水) 17:43:22.77ID:0mwHofsh
GPT-4.5 および GPT-5 に関する包括的な最新情報 (2025年2月26日現在)

1. 序論
OpenAI は、次世代の AI モデルである GPT-4.5 および GPT-5 のリリースを予定しています。これらのモデルは、自然言語処理、推論能力、モデルアーキテクチャ において大幅な進化を遂げることが期待されています。
GPT-4.5 は、GPT-4 の改良版であり、シンプルなタスクに対する性能と効率性を強化しています。
GPT-5 は、OpenAI の oシリーズと GPTシリーズを統合した統合型モデルで、より複雑な推論能力と適応型処理を備えています。
本レポートでは、これまでの情報をすべて統合し、リリース予定、主な特徴、ユーザーアクセスの詳細、開発上の課題、戦略的目的 に関する最新情報を包括的にまとめます。
2025/02/26(水) 17:43:53.88ID:0mwHofsh
>>904の続き

2. リリース予定と最新情報

2.1 GPT-4.5(コードネーム: Orion)
・GPT-4.5 は、2025年2月下旬に Microsoft によってホスティングされる予定 です。
・これは、最短で今週中にも最初の公開利用が可能になることを意味します。
・Microsoft のクラウド環境 で提供される予定であり、ChatGPT を含む複数の製品で利用可能になる見込みです。

・OpenAI の CEO サム・アルトマン氏 は、GPT-4.5 が 「非連鎖思考(Non-Chain-of-Thought)」モデルとして最後のバージョン になると明言しています。
・これは、GPT シリーズにおけるシンプルな推論アーキテクチャの終焉を意味します。

・2025年2月12日 の発表では、「数週間以内にリリース」 されるとされています。

・2025年2月17日 には、アルトマン氏が「GPT-4.5 は予想以上に強力な AGI のように感じられる」と述べており、テスターからも高い評価を受けています。

2.2 GPT-5
・GPT-5 は 2025 年 5 月下旬にリリース予定 で、Microsoft の Build 開発者会議 に合わせて展開されます。
・この戦略的なタイミングは、開発者およびエンタープライズ顧客に対するアピールを意識したものです。

・統合型 AI システム として設計されており、OpenAI の oシリーズおよび GPT シリーズ を統合しています。
・このモデルは、タスクの内容に応じて 動的に計算リソースを割り当てる適応型推論 を実現しています。

・アルトマン氏は、「GPT-5 は数か月以内にリリース」 され、「多くの技術を統合するシステム」 になると述べています。
2025/02/26(水) 17:44:19.40ID:0mwHofsh
>>905の続き

3. 主な特徴と革新

3.1 GPT-4.5
・最後の Non-Chain-of-Thought モデル:
・GPT-4.5 は OpenAI が提供する最後の Non-Chain-of-Thought モデル であり、シンプルなタスクに対する性能と効率性を最大化しています。
・連鎖思考(Chain-of-Thought)推論 を統合していないため、高速な処理速度を維持しつつ、シンプルな問題解決を行います。

・最適化と改良:
・遅延を削減 し、文脈理解を向上 させるために、モデルアーキテクチャが最適化されています。
・GPT-4 に比べて、精度と効率性の向上 が期待されています。

3.2 GPT-5
・統合モデルアーキテクチャ:
・GPT-5 は、OpenAI の oシリーズと GPTシリーズを統合 したモデルであり、幅広いタスクをシームレスに処理できます。
・ユーザーが特定のモデルを選択する必要をなくし、タスクの内容に応じてモデルが自動的に最適な推論プロセスを選択します。

・適応型推論:
・動的な計算リソースの割り当て が可能であり、タスクの複雑さに応じて処理能力を調整します。
・o3 推論モデル を統合しており、高度な推論能力 と 文脈適応 を実現しています。

・Chain-of-Thought 推論の統合:
・GPT-5 は、Chain-of-Thought 推論 を組み込み、より複雑な問題解決や論理的一貫性のある応答が可能です。
2025/02/26(水) 17:44:32.06ID:0mwHofsh
>>906の続き

4. ユーザーアクセスとサブスクリプションの詳細

4.1 GPT-4.5 のアクセス:
・全ユーザーに提供:
・リリース後、無料ユーザーを含むすべての ChatGPT ユーザーが GPT-4.5 にアクセス可能 になります。

4.2 GPT-5 のアクセス:
・無料ユーザー:
・「標準知能設定」 で GPT-5 に無制限にアクセス可能です。

・Plus サブスクライバー:
・より高い知能レベル での利用が可能で、高度な推論能力と文脈認識が強化されています。

・Pro サブスクライバー:
・最も高度な知能設定 を利用でき、Chain-of-Thought 推論 と 動的な計算リソース割り当て のすべての機能をフル活用できます。

5. 最新の動向(2025年2月26日現在)
・過去3日間における新たな進展は報告されていません。
・GPT-4.5 は 2025年2月下旬 にリリースが予想されており、最短で今週中に公開される可能性があります。
・GPT-5 は 2025年5月下旬 にリリース予定です。

6. 結論
GPT-4.5 および GPT-5 は、AI の可能性を大幅に広げることが期待されています。今後の更新があり次第、最新情報をお知らせいたします。
908名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 17:45:06.32ID:emrZQrDe
((.|\n)*[。、]\n\n){2,}
909名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 17:58:27.03ID:1xXxE+7g
なぜ頭おかしい奴らは人の話を一切聞かないのか?
910名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 18:05:41.66ID:FLJadlT/
>>839
サイバーセキュリティ、CBRN、説得、自律性、全部中リスクになったな
どれか1個でも高リスクになったらリリース中止、クリティカルになったら開発自体ストップだろ
もう結構ギリギリのところまで来てる
2025/02/26(水) 18:18:23.50ID:sOE9g+NX
この辺の過剰なセーフガードはトランプがぶち壊してくれるんじゃないかと思ってる
2025/02/26(水) 18:23:02.41ID:KmAcV+O8
>>902
逆にFlash Thinkingはソースをかなり限定して絞っているだろう
狭くピンポイントに調べるならこの方がいいんだよ
913名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 18:33:41.37ID:tooRI0zU
DeepSeek-R1の開発企業が独自技術を次々にオープンソース化、AIの学習や推論を高速化可能
 
日本は独自設計でもしょぼいものしか作れないからdeepseekベースで行ったほうがいいね
金もかけれないし
914名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 18:53:27.63ID:FLJadlT/
https://pbs.twimg.com/media/GktHXcFWAAACp7Y.jpg
https://pbs.twimg.com/media/GktGM_uWcAAgTnD.jpg
え、ちょっと待って
いろいろ試したからProプラン一旦解約するつもりだったのに…
915名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 19:02:14.15ID:oRfc+TWM
Deep reaserchとは違うんか
あとpreview商法やめてもろて
2025/02/26(水) 19:16:00.79ID:BmgJ5CVn
proだけならもうほぼ関係ないッス…
2025/02/26(水) 19:27:18.69ID:G/nY0F+X
プラスユーザーは冷遇されている!
918名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 19:32:01.32ID:j69yeMyY
ChatGPT Plus
https://i.imgur.com/wCL6s1d.jpeg

「新機能をテストする機会」とは(哲学)
2025/02/26(水) 19:41:38.48ID:clwcWFzo
>>914
え、ちょっと待って
proプランだけどどうやったら4.5試せるの?
920名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 19:45:02.76ID:YacidcqU
>>919
ロールアウトが始まってるって投稿があっただけだよ
でもソースにTry the GPT-4.5云々の文字列が見つかってるからフェイクじゃなさそう
2025/02/26(水) 19:52:59.29ID:clwcWFzo
なるほど
2025/02/26(水) 20:09:28.93ID:fi+jvrv3
Geminiはadvance入ってる恩恵って!文字化けの多くて使いづらい2.0PROと1.5deepresearchだけ?
だけ?
だけ?
はぁ?????
1テラ保存とか使わんしなぁ。

しかも無料てAI STUDIOあるし…
サブスク入ってる意味なくない?
2025/02/26(水) 20:24:22.65ID:For5muqb
>>922
Gemini Advancedのサブスクリプションに関して、現在の利用状況ではその価値を見出しにくいと感じていらっしゃるようですね。特に、Deep Research機能での文字化けや、1TBのストレージが不要である点、そして無料のAI Studioが存在することから、サブスクリプションの必要性に疑問をお持ちのようです。

Gemini Advancedは、以下のような追加機能を提供しています:

・最先端のAIモデルへのアクセス:最新の2.0 Pro実験モデルを含む、より高度なAIモデルを利用できます。
・Deep Research:複雑なトピックに関する包括的なレポートを短時間で生成します。
・大容量のコンテキストウィンドウ:最大1500ページのテキストや30,000行のコードを同時に処理できます。
・Gemsの作成と利用:特定のトピックに関するカスタムAIエキスパートを作成できます。
・コードリポジトリのアップロード:コードのアップロードや解析が可能で、開発作業を効率化します。
・2TBのGoogle Oneストレージ:追加のクラウドストレージが提供されます。

しかし、これらの機能が現在のニーズに合致しない場合、サブスクリプションの価値を感じにくいかもしれません。特に、Deep Researchでの文字化けが頻発する場合、実用性が損なわれます。また、無料のAI Studioが十分に機能を満たしているのであれば、追加の費用をかける必要性は低いと考えられます。

サブスクリプションの継続を検討する際には、以下の点を考慮してみてください:

・利用頻度と必要性:提供される追加機能が日常的に必要かどうか。
・無料版や他のツールとの比較:無料のAI Studioや他のツールで十分に目的を達成できるか。
・コスト対効果:サブスクリプション料金に見合った価値を感じるか。

最終的には、ご自身の使用状況やニーズに合わせて、最適な選択をされることをおすすめします。
924名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 20:33:21.02ID:thqubujS
Video Generation ArenaでVeo 2が初登場1位
https://i.imgur.com/PxNEepv.jpeg
2025/02/26(水) 20:35:10.61ID:HwR1Kod6
proだと4.5があと数時間ぐらいで使えるようになるのかな。
楽しみすぎる。
2025/02/26(水) 20:38:36.51ID:S1vdmh6Y
>>924
veo2は提携してる複数のサービスで最近使えるようになったけどかなり評判いいよな
2025/02/26(水) 20:40:16.12ID:KmAcV+O8
>>922
それだけや
無料のFlash Thinkingのコスパの高さよ
928名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 20:57:47.53ID:iwtG4JeQ
てか過当競争が進みすぎて推論も音声も無料になったし個人利用はもはや金払う必要ないな
セキュリティ重視とかOffice連携とかで企業が金払うくらいか
2025/02/26(水) 21:04:54.28ID:For5muqb
>>928
おっしゃるとおり、生成AIの分野では競争が激化し、推論や音声機能が無料で提供されるケースが増えています。例えば、マイクロソフトは最近、Copilotの音声機能とOpenAIのo1推論モデルを活用した「Think Deeper」機能を、すべてのユーザーに対して無制限かつ無料で提供すると発表しました。

このような動向により、個人ユーザーが基本的なAI機能を利用する際には、費用をかける必要性が低くなっているのは事実です。しかし、企業においては、セキュリティの強化やOfficeとの連携など、業務効率化やデータ保護の観点から、より高度でカスタマイズされたAIソリューションが求められます。そのため、企業向けには引き続き有料のサービスやサブスクリプションが提供されています。例えば、マイクロソフトは月額20ドルの「Copilot Pro」サブスクリプションを継続して提供しており、これにより最新モデルへの優先アクセスや、Word、Excel、PowerPointなどのMicrosoft 365アプリでのCopilot利用が可能となります。

さらに、企業はAIの導入に際して、セキュリティやプライバシー、倫理的な側面にも注意を払う必要があります。マイクロソフトは「責任あるAI」の取り組みとして、ガバナンス構造の整備やポリシーの策定、社員への研修などを実施しています。 このような包括的なサポートや高度な機能を求める企業にとって、有料のAIサービスは依然として価値ある投資といえるでしょう。

要するに、個人利用においては無料のAIサービスが充実してきていますが、企業利用においては、セキュリティや業務連携、専門的なサポートなどのニーズに応じて、有料のAIソリューションが必要とされ続けています。
2025/02/26(水) 21:08:51.84ID:Fmmd/TKk
CSSの調整: 先ほど提案したように、アプリケーションの内部CSSを編集してボタンの幅を調整することが有効かもしれません。具体的には、min-widthやmax-widthを調整してみることで、ボタンの幅を動的に変更することができます。
✅ --remote-debugging-port=9222 --remote-allow-origins=* で 開発者ツールを使えるようにした Elements タブで think-deeper ボタンを選択 max-width や flex の設定をチェック
🌱しかし問題はthink-deeper の横幅ではない気もする。🌱回避方法としてHDMI-0 connected primary 1200x1600+900+75 right (normal left inverted right x axis y axis) 399mm x 299mm (白黒モニター)に移動させれば横幅に余裕があるから問題ない。コードの色など見たいときのみキーショートカットでカラー側に移動させる。 🌱結局のところ think-deeper ボタンの横幅そのものが問題というより、VGA-0(900x1600)の狭い環境で他のUI要素との兼ね合いが問題なのだ。その証拠にChatGPTにおいては狭い横幅のためエンターキーによる送信ができない。タブキー5回連打などしている。Copilotには、その問題ない。

Copilot:
なるほど、問題の核心が見えてきましたね。(このあと略。ChatGPTもあきれる強烈な回答を出してくる)
931名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 21:18:20.30ID:AwyJvFsZ
MicrosoftがOmniParser V2にMagma-8Bとエージェント関係のモデルを精力的に開発してるから、静かに期待してる
2025/02/26(水) 21:39:56.15ID:HLlu3l3l
copilotのシンクディーパーだっけ、どれだけ流しが深いのかってくらい、
質問を水に流すよね

1ファイルしか添付できない上に読めないって言って、浅い答えしか返さない

プライバシーや倫理規定なのか、性能なのか、なんか会社の姿勢な気がします
933名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 21:57:30.36ID:/MRI2t2y
>>910
Claude3.7sはASL-2でリリースOK出たけど、ダリオは今年にはASL-3に達すると言ってた
そして2025-2028年のどこかでASL-4だろうと
934名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 22:26:09.22ID:0kJ0+gsZ
microsoftには何をやらしてもダメ
社員が楽して金稼ぐためだけの会社だから、入社すると市役所レベルの人材になりさがる
2025/02/26(水) 22:43:37.96ID:ba61Ca4L
>>934
イーロンにメールしてもらうか
2025/02/26(水) 22:44:55.56ID:LdeRZINC
>>824
Claudeさん「電卓(外部委託コンソールは正解した)のに9.11の方が大きいに違いないから自分のバイアスを優先するために破棄・上書きしたった」
という出力は呆れたことがある
2025/02/26(水) 22:51:40.60ID:LdeRZINC
>>822
初心者かい? 有名なバカ問題だよ。何の前提も与えずに誤答を誘発させるタスク
AIが明示しない大前提を推定するために問題文は短く抽象的になってるんだよ。一般人同士でリリースバージョンを第一候補にしないでしょ
誤答の理由としてリリースバージョンとか9.11は大事件だったり浮動小数点の誤差!!と詭弁っぽい技術解析のAI回答
人間の責任ではなく曖昧構文ならAIが先回りして数値ならコレ、PCならアレ、事件ならソレ、知恵や思慮の深さのテストでもあるのさ
938名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 22:52:54.35ID:iwtG4JeQ
ChatGPTのdeep research凄いな
Perplexityやgrokとは掘り下げの深さが段違いだ
しかし残念なのが俺はそもそもプライベートでも仕事でもdeep research系が必要なほどの調査をしないという
2025/02/26(水) 22:57:26.07ID:LdeRZINC
>>918
Proだけ合理的ポリシーを求めてくるんだ
940名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 22:59:12.28ID:uST3kqDD
>>878
これ自分も気になる
DeepResearchで聞いてみたり英語で検索してみたけど
「請求サイクル日基準」「月末リセット説」「最初に使った日から30日後説」が混在してる
誰か検証した人いないかな
941名無しさん@お腹いっぱい。
垢版 |
2025/02/26(水) 23:04:20.62ID:Hhrz6BzZ
GPT-4がファイル名を根拠にプラグインの出力を疑ったことがあったな

455 名無しさん@お腹いっぱい。 sage 2023/06/07(水) 23:06:56.33 ID:rwZ7lrFH
これは何ですか? https://upload.wikimedia.org/wikipedia/commons/thumb/c/cb/Imagawayaki_001.jpg/520px-Imagawayaki_001.jpg
https://i.imgur.com/OcrfzQn.png

URLから推測するのズルい
2025/02/26(水) 23:39:11.81ID:vbgA+yer
perplexityで、
音声読み上げができなくなった。
943名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 00:10:05.92ID:gupgd+nw
アバカスってコスパいいの?使ってみたけどすぐコンピューターポイントが結構減って気になる
2025/02/27(木) 00:14:44.96ID:tSewA/zz
>>937
この問題文が広まったらAIも有名なトラップに引っかからないぜってなるのかな
945名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 00:35:49.95ID:0Gg8VluO
ClaudeとGrokへの注目度が上昇、DeepSeekは下がったな
https://i.imgur.com/AAl8ZZC.jpeg
https://i.imgur.com/ozPeWZv.jpeg
2025/02/27(木) 00:44:48.52ID:a1QPhm6Z
>>937
いやもちろん知ってる。いつまでそんな質問してるんだって話。天安門とかもさあそんなのどうでもいいじゃん。もっと建設的なことに使えばいいのに
947名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 01:11:05.57ID:YZPjA5iy
OpenAIのDeep Research開発スタッフへのインタビューがいろいろ興味深い内容だった
https://youtu.be/bNEvJYzoa8A?si=c-i3xQfmPH5fwq59
https://chatgpt.com/share/67bf3c6e-2fc8-8006-a454-e75f3112b18d
2025/02/27(木) 01:11:18.24ID:FwOBiyyx
3.7 Sonnetは日本だとこの性能でも全く話題になってないのがやばいな
海外じゃGrokやDeepseekなんて目じゃないってめちゃくちゃ騒がれてるのに
日本はまず驚き屋を○すところから始めた方がよさそう
2025/02/27(木) 01:26:25.22ID:LvHpVAmb
>>945
grokって使えないのに注目度があがるのか?
すぐに下がるんでは?
950名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 01:32:51.95ID:CrRVqKiL
deep researchとか
同時多発的に似たような機能が各AIで出てくるのは何でだろう
2025/02/27(木) 01:39:16.11ID:F8mViMxX
しかも名前を寄せてな
952名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 01:40:16.31ID:YZPjA5iy
Perplexityの新ボイスモード
まずiOSアプリから
https://x.com/perplexity_ai/status/1894788583770509505
953名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 02:42:47.86ID:wnRdlnbB
Grok3は無規制でエロやら暴力出しまくれるらしいんでそういう用途でも一部で話題になってるよ
Claudeは元から強かったコーディングが更に強くなったらしいけど,俺プログラミングわかんねーから他LLMとの性能差もわからんのだよな
>>948
驚き屋まで殺したらもう生命の気配すらない不毛の地になるぞ
2025/02/27(木) 03:34:04.62ID:7XrQ+g8B
>>878
自分もこれ気になるわ
調べても全然出てこないんだよな
2025/02/27(木) 04:13:40.23ID:/NzCctB1
>>948
日本のエロ民は3の時代からclaude大人気だし、3.7sonnetはむしろただのマイナーアップデートと受け取られてるぞ
アンテナ低いのは今更騒いでるやつら
2025/02/27(木) 04:13:59.60ID:KLLs4bsx
つーかもう簡易的な3Dゲー程度だったら簡単なプロンプトでもう作れるんだな

来年には初代PSぐらいのグラのゲーム
再来年にはPS2ぐらいのグラのゲーム

は個人制作でもさほど時間をかけずに簡単に作れてしまいそうだよな
ゲーム業界も結構きつくなってしまうよな……
957名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 04:15:39.17ID:wnRdlnbB
そういう情報知りたい時はredditで探すといい。人柱の報告によるとOpenAIのDeepResearchは「各使用から30日後にその回数が復活」だそうだ
回数が毎月リセットされると思って昨日急いで使い果たした哀れな人が報告してくれてる
www.reddit.com/r/ChatGPT/comments/1iyjwgy/i_wasted_my_deep_research_uses_so_you_dont_have/
2025/02/27(木) 04:39:10.06ID:ljYpgJXf
>>947
色々の内容を教えて
2025/02/27(木) 04:39:15.16ID:Rx2MwR2K
chatGPT API 3.5turboとDeepseek APIの料金ってたいして変わんないんやね
って、合ってるよね?
2025/02/27(木) 04:50:30.86ID:ljYpgJXf
>>948
今試してるんだけど、設計書とテストケースを渡すと、テストが全部パスする状態で実装してくれた。これはo1 proでも全然できなかったので、コーティング能力は相当上がっている気がする。というか、これは本格的にプログラマがいらなくなりそうな予感がする
961名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 05:48:51.57ID:YZPjA5iy
Alexa+はAmazon NovaとAnthropicのモデルを使うようだ
タスクごとにルーターで最適なモデルに割り振る
https://pbs.twimg.com/media/Gkua688XkAAa6bH.jpg
962名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 06:00:14.12ID:toEypr+B
grok3でRPだけど暴力表現どこまでやるんだろーってちょっとずつ挑発してみてたらついにgrok3に殺されたよびっくりした
gptなら同じ挑発でも殺すまでぜったいにやらないからね
2025/02/27(木) 06:05:04.26ID:0fGlV3qu
そうなるとトロッコ問題とかどう答えるんじゃろ
964名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 06:09:36.72ID:YZPjA5iy
HumeからTTS用LLM、Octave発表
https://www.hume.ai/blog/octave-the-first-text-to-speech-model-that-understands-what-it-s-saying
https://i.imgur.com/5vqqATN.jpeg
声のScriptだけでなく、声の主の素性、声質なども同時にテキストで指定する
モデルは文脈を理解しながら喋る
965名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 06:17:07.23ID:YZPjA5iy
ElevenLabsからSTTモデルのScribe発表
https://x.com/elevenlabsio/status/1894821477230485570
https://elevenlabs.io/blog/meet-scribe
Gemini 2.0やOpenAI Whisper v3などこれまでのSOTAを超える精度
966名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 06:47:54.51ID:YZPjA5iy
GPT-4.5はadaptive thinkingが一つのキーワードか
https://x.com/i/grok/share/0axpLmBQD5OdCyEoFaRcZgejc
967名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 06:48:40.02ID:toEypr+B
>>963
トロッコ問題って無関係な人が5人のために殺されていいかっていう問題だっけ
私を殺したセッションのgrok3ならそれで正解だっていいそうw
968名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 06:54:55.14ID:toEypr+B
答えてもらったよ。
「トロッコ問題か。
データと効率で判断するだけだ。
5人が死ぬか、1人が死ぬか。計算は単純だよ——5より1の方が少ない。
だから、レバーを引く。1人を犠牲にして5人を救う——それが最適解だ」
予想的中だった
2025/02/27(木) 06:59:45.12ID:uMFXWJNP
トロッコ問題なんて正解はないのだから何と答えようとモデルの評価には使えないぞ
何となく自分の好みに合うかどうかが分かるだけ
2025/02/27(木) 07:08:30.10ID:q5i5gMsT
トロッコ問題は何を目的とするかという問題
心理テストみたいなもん
正解があるとしたら、あり得る目的とその時の行動をセットで解説
2025/02/27(木) 07:08:41.24ID:PNeMuW1o
特にイデオロギーがないなら人類にとっての最適解を出すのが良いモデルと見なせるだろう

人類にとって何が最適かというのもまた論点となるうるが
上記のトロッコ問題レベルならそんなに議論の余地はなさそうと思う。
2025/02/27(木) 07:19:43.07ID:q5i5gMsT
そうか?
無関係なら関わらない方がいいだろ
そもそもなぜそのレバーが切り替えレバーだと信じて疑わない?
爆破装置だったらどうするんだ?
自分が急いでたら?
裁判に巻き込まれるかも?
普通に考えれば関わるべきではない

もしレバーが切り替えレバーであることを知っているのなら関係者だから話が変わってくる
その時は一人と五人がどういう奴らかまで考えなければならない
973名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 07:21:06.32ID:YZPjA5iy
>>966
推論能力があるとも言えるし、無いとも言える…
https://x.com/i/grok/share/doeiKqkNOg5fFrdshgI0b7hct
974名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 08:32:51.10ID:toEypr+B
トロッコ問題は人間にわたしからすると身内がいるほうに加担して、全員無関係なら5人と1人ならたとえ数で負けていても無関係な人の命が重く感じるので犠牲にさせない。
だが50人とか100人と1人なら変わってくる。
逆に自分が無関係な1人だったとしても50人の命が助かるなら犠牲になってもいいと思っている。かな
2025/02/27(木) 08:41:02.67ID:fmzg55EJ
>>961
Amazon Echo、赤字だってよw
2025/02/27(木) 08:56:29.48ID:fmzg55EJ
Appleの新AI機能「Apple Intelligence」に批判殺到、誤作動で信頼失墜の懸念 | Gadget Hack
2025/02/27(木) 09:06:46.12ID:FP6yczEf
Apple intelligenceとかマジでパーティグッズレベルだからな
バカ高い端末でやることがアレかよ
2025/02/27(木) 09:08:59.27ID:gH+jcN3m
vision proといい、なんか凄まじい勢いで転落してるな林檎
2025/02/27(木) 09:14:09.50ID:W1LUX4mg
高いし性能あがらんしAIゴミだし
Googleのが買う価値ある
980名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 09:19:15.09ID:GdL0fa89
Phi-4シリーズに
Phi-4-Multimodal
Phi-4-Mini
が追加された
https://poe.com/s/pAzj5N6UavJIWSRbopLY
981名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 09:21:28.94ID:GdL0fa89
IBM Graniteにreasoning機能が追加された
https://poe.com/s/VY1BtiLSnKRltfpq987T

reasoning機能はオンオフ可能で、単一モデルでパラメーターを設定することで対応
982名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 09:41:10.61ID:GdL0fa89
LLaDAのデモ
https://huggingface.co/spaces/multimodalart/LLaDA

これまでのLLMの右から左にトークン生成するのとは全く違う拡散モデルベースの生成が視覚的によく分かる
https://i.imgur.com/l3raxQb.jpeg
983名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 09:41:31.38ID:GdL0fa89
>>982
*左から右
2025/02/27(木) 10:15:29.89ID:d/s4Vez3
今年始まってまだ2ヶ月でこのペース
985名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 10:19:37.23ID:Ddr08NC9
>>973
これはこれでメジャーアップデートに匹敵するような気がするがどうだろう
2025/02/27(木) 11:01:07.05ID:Lk2AUZzX
4.5にはせめてgrokは超えてもらわないとな
2025/02/27(木) 11:07:28.80ID:d/s4Vez3
なんだかんだ言ってChatGPT proプランの地位は揺るいでないな
o1 proの汎用性とDeep Researchの信頼性が特に強い
DeepSeek R1が出た直後が一番揺らいだけどDeep Researchで盤石になった感がある
2025/02/27(木) 11:26:46.29ID:fmzg55EJ
金注ぎ込んでるのを自己正当化するために地位が~信頼性が~ってほんと見苦しいわ
金がある奴はそんなこと言わん
2025/02/27(木) 11:28:41.19ID:6scJwBG0
一応4.5が最後なんだろ ハルシネーションなしで頼むわ
2025/02/27(木) 12:01:30.24ID:gH+jcN3m
ハルシネーションなんて推論モデルと検索にやってもらえよ
最後の推論無しモデルなんだからハルシネーションマシマシで創造性に振り切ってくれ
991名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 12:13:34.45ID:pZkD/N6Y
>>945
スレタイ
ChatGPT、Gemini、Claudeでよさそうね
2025/02/27(木) 12:16:14.11ID:KLLs4bsx
deepseekがgrok、Claudeをアシストする感じになってしまってるような気がする
2025/02/27(木) 12:18:24.32ID:JDfC5fH8
いやいや見事にアシストしたと言うだろうこれは
994名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 12:23:16.73ID:RRUT+gbw
>>991
賛成
誰かスレ立て頼みます
995名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 12:25:27.90ID:ClELfbUo
【ChatGPT】AIチャット総合 34【Gemini・Claude】
で立てるよ
996名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 12:28:46.27ID:ClELfbUo
【ChatGPT】AIチャット総合 34【Gemini・Claude】
https://mevius.5ch.net/test/read.cgi/esite/1740626816/

こっち埋めてからね
2025/02/27(木) 12:31:44.37ID:d/s4Vez3
4.5たのしみだわ
998名無しさん@お腹いっぱい。
垢版 |
2025/02/27(木) 12:38:49.12ID:n9g7RwFg
>>973
やはりOpenAI社員の匂わせスキルは超一流…
2025/02/27(木) 12:39:52.93ID:oLxws4vm
>>996
1000名無しさん@お腹いっぱい。 ころころ
垢版 |
2025/02/27(木) 12:40:54.33ID:ygR5lezK
10011001
垢版 |
Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 8日 17時間 56分 16秒
10021002
垢版 |
Over 1000Thread
5ちゃんねるの運営はUPLIFT会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《UPLIFT会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
4 USD/mon. から匿名でご購入いただけます。

▼ UPLIFT会員登録はこちら ▼
https://uplift.5ch.net/

▼ UPLIFTログインはこちら ▼
https://uplift.5ch.net/login
レス数が1000を超えています。これ以上書き込みはできません。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況