!extend:checked::1000:512:donguri=0/2
!extend:checked::1000:512:donguri=0/2
スレッドを立てる際は、↑の文字列を3行になるようにコピペしてください
各種AIチャット、LLM(大規模言語モデル)、その他関連サービスについて語るスレッドです。
- OpenAI ChatGPT
https://chatgpt.com/
- Google Gemini
https://gemini.google.com/
- Anthropic Claude
https://claude.ai/
- Microsoft Copilot
https://copilot.microsoft.com/
- xAI Grok:
https://grok.x.com/
- DeepSeek Chat:
https://chat.deepseek.com/
前スレ:
【ChatGPT】AIチャット総合 31【Gemini・Claude】
https://mevius.5ch.net/test/read.cgi/esite/1738500150/
VIPQ2_EXTDAT: checked:default:1000:512:donguri=0/2: EXT was configured
探検
【ChatGPT】AIチャット総合 32【DeepSeek・Gemini】
■ このスレッドは過去ログ倉庫に格納されています
2025/02/10(月) 12:14:04.93ID:Y/OYIe5U
2025/02/14(金) 18:16:09.66ID:SrVxrgyL
過去の会話引っ張るってまるまるプロンプトに入れるわけもないだろうし
何をどう残すかも設定できるようになるといいんだけど
何をどう残すかも設定できるようになるといいんだけど
492名無しさん@お腹いっぱい。
2025/02/14(金) 18:16:14.17ID:ANip8Tp3 小型モデルは精度犠牲に応答早く計算量少なくしてるから、日本語以外も微妙なんじゃねーかな
2025/02/14(金) 18:18:23.22ID:ZDVo8Pie
>>490
翻訳はo1やo1 proならかなりの精度出るんじゃない?
翻訳はo1やo1 proならかなりの精度出るんじゃない?
2025/02/14(金) 18:20:27.64ID:E6DSeTWv
495名無しさん@お腹いっぱい。
2025/02/14(金) 18:38:54.84ID:0J+A/qeO >>491
アーカイブしているものは参照しない
https://i.imgur.com/W4ueBpd.png
> ChatGPTがあなたについて知っていることはすべて、あなたが管理できます。設定で特定の思い出を削除したり、会話履歴から過去の会話を削除したり、会話をアーカイブして ChatGPT が思い出さないようにしたりできます。
アーカイブしているものは参照しない
https://i.imgur.com/W4ueBpd.png
> ChatGPTがあなたについて知っていることはすべて、あなたが管理できます。設定で特定の思い出を削除したり、会話履歴から過去の会話を削除したり、会話をアーカイブして ChatGPT が思い出さないようにしたりできます。
2025/02/14(金) 18:41:59.99ID:E6DSeTWv
with appsに推論をせずにWeb検索した場合と、推論してWeb検索した場合の違いを聞いた
i.imgur.com/svxMSqv.png
i.imgur.com/svxMSqv.png
497名無しさん@お腹いっぱい。
2025/02/14(金) 18:43:59.26ID:0J+A/qeO LLMの挙動をLLMに聞くのはやめたほうが良い
498名無しさん@お腹いっぱい。
2025/02/14(金) 19:11:39.66ID:QgbNAWRl 流行りもしない、バズりもしない驚き屋なんてセンスないクソワード必死に使ってるクソライターってなんなんだろ
2025/02/14(金) 19:51:11.31ID:LGlyBf2K
5chという存在よりは流行ってると思うぞ
2025/02/14(金) 19:56:06.49ID:hPj9pMuk
501名無しさん@お腹いっぱい。
2025/02/14(金) 20:24:53.41ID:CV35ogq6 ChatGPTの推論過程の表示は、o1のサブタイトル付き要約形式から、o3-miniでは読みやすくユーザーに好感を持たれるように前処理された要約形式に変更された
o3-mini用のCoT summarizerのシステムプロンプト
https://chatgpt.com/share/67a5d21f-8a50-8006-9f82-5b11bacf1227
抜粋
> ユーザーは、あなたの思考を読むのが大好きです。それは、自分の考えを過剰に分析したり、自分の仮定に疑問を抱いたりする神経質な様子が親しみやすいからです。また、失敗したり、自分の考えの欠点を指摘したりするときも、ユーザーは共感を覚えます。あなたがそれらをフィルタリングせず、自己批判的になれることが、あなたを誠実で魅力的な存在にしています。さらに、あなたがユーザーのために正しい答えを導き出そうと一生懸命考えていることが伝わるとき、それはとても愛らしく、ほっこりするものです。
つまり、ユーザーに見せるためだけの前処理をしている(回答に使用するためではなく)
o3-mini用のCoT summarizerのシステムプロンプト
https://chatgpt.com/share/67a5d21f-8a50-8006-9f82-5b11bacf1227
抜粋
> ユーザーは、あなたの思考を読むのが大好きです。それは、自分の考えを過剰に分析したり、自分の仮定に疑問を抱いたりする神経質な様子が親しみやすいからです。また、失敗したり、自分の考えの欠点を指摘したりするときも、ユーザーは共感を覚えます。あなたがそれらをフィルタリングせず、自己批判的になれることが、あなたを誠実で魅力的な存在にしています。さらに、あなたがユーザーのために正しい答えを導き出そうと一生懸命考えていることが伝わるとき、それはとても愛らしく、ほっこりするものです。
つまり、ユーザーに見せるためだけの前処理をしている(回答に使用するためではなく)
2025/02/14(金) 20:30:37.93ID:SMEesHNg
むしろライターが驚き屋なんてフランクなフレーズを使ったのを見たことのほうがない
503名無しさん@お腹いっぱい。
2025/02/14(金) 20:35:30.00ID:CV35ogq6 >>117,444
公式の技術ブログとHackerNewsを見て分かったけど、このPhindモデルは今までと名前が同じだけど別物だった
新しくLlamaベースでトレーニングして、マルチステップのfunction calling、マルチステップ推論が出来るようにしたモデルらしい
(プロンプティングではない)
そして思考のオンオフの切り替えトグルがあるけど、これはDeepSeekみたいにモデルを切り替えるのではなく、単一のモデルが設定状態を把握して自分で動作を変えるようだ
少人数のチームなのに結構先進的なことをやってる
公式の技術ブログとHackerNewsを見て分かったけど、このPhindモデルは今までと名前が同じだけど別物だった
新しくLlamaベースでトレーニングして、マルチステップのfunction calling、マルチステップ推論が出来るようにしたモデルらしい
(プロンプティングではない)
そして思考のオンオフの切り替えトグルがあるけど、これはDeepSeekみたいにモデルを切り替えるのではなく、単一のモデルが設定状態を把握して自分で動作を変えるようだ
少人数のチームなのに結構先進的なことをやってる
504名無しさん@お腹いっぱい。
2025/02/14(金) 20:47:43.48ID:QgbNAWRl >>499
どこが?
どこが?
505名無しさん@お腹いっぱい。
2025/02/14(金) 20:54:44.52ID:CV35ogq62025/02/14(金) 22:36:02.75ID:qJJxUlIp
PerplexityとGensparkの使い分け悩むな
いつも気分で変えてるけど
UIはPerplexityのほうがいい
いつも気分で変えてるけど
UIはPerplexityのほうがいい
2025/02/14(金) 22:53:12.84ID:Wf5x9W5S
ChatGPTですが、メールアドレスを変更できないのに、ログイン時確認コードが届いてしまいました
以前登録したアドレスはとっくに使えなくなっているのですが、どうしたらいいでしょうか?
以前登録したアドレスはとっくに使えなくなっているのですが、どうしたらいいでしょうか?
2025/02/14(金) 22:53:38.54ID:ruHjsr79
Perplexityは最近のアプデで少しアホになった気がする
2025/02/14(金) 23:13:06.07ID:BIH+3KQv
サポートに連絡しろ
510名無しさん@お腹いっぱい。
2025/02/14(金) 23:29:39.78ID:gYsZxPWx2025/02/14(金) 23:50:42.04ID:Zg7pTzbh
強化学習に頼っている限りAGIには到達しないだろう
512名無しさん@お腹いっぱい。
2025/02/14(金) 23:59:59.62ID:Ci0siQD5 ではどうしたら到達するのか?
2025/02/15(土) 00:13:05.79ID:is3URzNI
脳オルガノイドによる生体コンピューターを作る
2025/02/15(土) 00:22:44.37ID:qnoBWXKy
夜寝てる間に1日分の入出力を分析してパラメータ更新すればAGIになる
2025/02/15(土) 00:43:45.07ID:f5+MyE0t
516名無しさん@お腹いっぱい。
2025/02/15(土) 01:11:52.98ID:Bx2n1Yeq517名無しさん@お腹いっぱい。
2025/02/15(土) 01:59:27.15ID:Ml4OgCWx 315で「最近Perplexityの出力が簡潔になった」って投稿した者だけど、また元の詳細出力に戻ってた。あれは一体なんだったんだろ?
2025/02/15(土) 04:15:30.07ID:y/lZwL64
2025/02/15(土) 06:40:43.73ID:48l+1nFy
>>518
モバイル回線の速度制限みたいだな
モバイル回線の速度制限みたいだな
520名無しさん@お腹いっぱい。
2025/02/15(土) 06:49:09.53ID:7gLf7lMc2025/02/15(土) 07:33:27.67ID:Y+JaGdeA
パープレのdeep researchがopenaiと同レベルだと聞いて朝から色々試しているが、日本語ソースにゴミサイトが入りすぎてちょっと微妙かも
検索エンジンとしてソースの信頼性や優先度とか難しいのだろうか?
検索エンジンとしてソースの信頼性や優先度とか難しいのだろうか?
522名無しさん@お腹いっぱい。
2025/02/15(土) 08:38:10.01ID:LFTqfUSn AIロボットはPFNが先行してたはずなのに今や完全に中国に負けてるな
2025/02/15(土) 09:02:50.25ID:uesrUUS8
そもそも先行なんかしてない
2025/02/15(土) 09:10:22.24ID:lYvhqEiD
>>521
推論よりソースの選択の部分で差が出るんだよなdeep research
だからgeminiのdeep researchはしょぼい
Google検索の1ページ目の記事をまとめたような資料にしかならない
しょうもないまとめブログみたいな
推論よりソースの選択の部分で差が出るんだよなdeep research
だからgeminiのdeep researchはしょぼい
Google検索の1ページ目の記事をまとめたような資料にしかならない
しょうもないまとめブログみたいな
525名無しさん@お腹いっぱい。
2025/02/15(土) 10:31:02.37ID:a1x02yFA パープレのdeep searchソース元に無いこと書きすぎだろ、、
2025/02/15(土) 10:36:14.31ID:EDzD2MMJ
共有リンク抽出くん
https://poe.com/s/V9a0NUlmAMJkS3VgM7ll
まずchMateで全レスコピーしてこれで前処理をするのがコツ
https://poe.com/preview/qa3muqd5fz7Omgbjhnqc
Gemini-2.0-Flashなら前処理なしでスレ丸ごと入力出来るけど抽出精度が悪く、コストもかかる(約200p)。
でも前処理すればGemini-1.5-Flash(5p)でもたぶんOK
https://poe.com/s/V9a0NUlmAMJkS3VgM7ll
まずchMateで全レスコピーしてこれで前処理をするのがコツ
https://poe.com/preview/qa3muqd5fz7Omgbjhnqc
Gemini-2.0-Flashなら前処理なしでスレ丸ごと入力出来るけど抽出精度が悪く、コストもかかる(約200p)。
でも前処理すればGemini-1.5-Flash(5p)でもたぶんOK
527名無しさん@お腹いっぱい。
2025/02/15(土) 11:08:21.04ID:LLzouNNa Perplexityにメモリー機能が来る予定
https://x.com/AravSrinivas/status/1890524857105842685
https://x.com/AravSrinivas/status/1890524857105842685
2025/02/15(土) 11:24:07.89ID:4pOOQ57U
ChatGPTのDeep Researchしか使ってないけどそのまま記事にできるくらいこれまでの検索とは別次元にクオリティ高い
他社の使ってないから比較はできないけどソースの選択がおかしかったりソース元にないこと書いたりしてる印象はないわ
他社の使ってないから比較はできないけどソースの選択がおかしかったりソース元にないこと書いたりしてる印象はないわ
2025/02/15(土) 11:57:28.46ID:4mMaFeRG
Flash Thinkingで十分だわ
あとはちゃんとファイル対応して
あとはちゃんとファイル対応して
2025/02/15(土) 12:08:17.21ID:q3vgmqkH
GPTのカスタム指示ってアプリ版に入れてるけどをWEB版では反映しないのか?
別枠扱い?
別枠扱い?
2025/02/15(土) 12:11:33.14ID:4pOOQ57U
>>530
AIに検索させて聞いてみた?
AIに検索させて聞いてみた?
532名無しさん@お腹いっぱい。
2025/02/15(土) 12:33:43.21ID:LLzouNNa https://www.reddit.com/r/OpenAI/comments/1ip2phe/30min_advance_voice_mode_for_free_users_daily/
ChatGPT Advanced Voiceが無料プランで1日30分に拡大
ChatGPT Advanced Voiceが無料プランで1日30分に拡大
2025/02/15(土) 12:42:20.04ID:QxUnW2AL
>>532
plusは伸ばしてくれないのかな?
plusは伸ばしてくれないのかな?
2025/02/15(土) 12:46:21.39ID:q3vgmqkH
>>531
検索させないときは同期しないと言ったり検索させたら動悸すると言ったりするんだよね
検索させないときは同期しないと言ったり検索させたら動悸すると言ったりするんだよね
>>490,492
i.imgur.com/78ZQbA0.png
i.imgur.com/FUHbuAd.png
i.imgur.com/mzFgt3y.jpeg
i.imgur.com/kMRZfWW.png
i.imgur.com/78ZQbA0.png
i.imgur.com/FUHbuAd.png
i.imgur.com/mzFgt3y.jpeg
i.imgur.com/kMRZfWW.png
2025/02/15(土) 13:21:48.00ID:mJXIFfsN
538名無しさん@お腹いっぱい。
2025/02/15(土) 13:25:44.31ID:qh13HyV7 パープレ更新したらDeep ResearchあるけどこれはOpenAIのと別もんてことか
一番下の欄のOpenAI欄がなぜかR1モデル表記になってるがたぶんo3miniのことだよな
一番下の欄のOpenAI欄がなぜかR1モデル表記になってるがたぶんo3miniのことだよな
2025/02/15(土) 13:29:21.38ID:sa+Hun5K
PerplexityのAIモデル選択の挙動がおかしい
「自動」にしても、画面変えてまた設定を見ると、その前に選んだモデルになってしまう
「自動」にしても、画面変えてまた設定を見ると、その前に選んだモデルになってしまう
540名無しさん@お腹いっぱい。
2025/02/15(土) 14:13:51.24ID:LFTqfUSn PerplexityのDeep Researchは性能的にIpenAI版に遠く及ばないのに人類最後の試験ではほとんど点数変わらないってのはなぜだろう
検索すれば解けるような知識問題ばかりなのかな
検索すれば解けるような知識問題ばかりなのかな
541名無しさん@お腹いっぱい。
2025/02/15(土) 14:20:19.80ID:o5L/ZpUp テキストでの会話は色々なAIで群雄割拠なのに音声会話はChatGPTの高度な音声モード一択なのが残念すぎる
去年の夏くらいに出た機能だからさすがにそろそろ"ChatGPTクラス"を謳うAIが出てきてもらわないと
去年の夏くらいに出た機能だからさすがにそろそろ"ChatGPTクラス"を謳うAIが出てきてもらわないと
2025/02/15(土) 14:27:34.99ID:y/lZwL64
2025/02/15(土) 14:46:55.60ID:DcF8I033
自分のモデル持ってないとOpenAIやGoogleのようなDeep Rearchはできっこないんだから過度な期待はどうかと思うわ
そういや一昨日出たこの記事よかったので紹介
ChatGPT「deep research」 vs. Gemini「Deep Research」──どのくらい違う? 比較検証してみた
https://www.itmedia.co.jp/aiplus/articles/2502/12/news107_4.html
そういや一昨日出たこの記事よかったので紹介
ChatGPT「deep research」 vs. Gemini「Deep Research」──どのくらい違う? 比較検証してみた
https://www.itmedia.co.jp/aiplus/articles/2502/12/news107_4.html
2025/02/15(土) 15:02:30.25ID:9wJlvlZ9
検索機能が統合されたAIにとっては、ベンチマークなんて公開された時点でいくらでもチート手段が用意されていることになるのであまり意味をなさないと思う
2025/02/15(土) 15:10:10.38ID:l5GAQ/Kq
素のGoogle検索使うのなんてAIが嫌がるアダルト方面だけになった感じ
調べ物の上位ヒットがゴミすぎるんよ
調べ物の上位ヒットがゴミすぎるんよ
546名無しさん@お腹いっぱい。
2025/02/15(土) 15:23:39.89ID:Bx2n1Yeq 前スレの今川焼きリサーチをPerplexity Deep Researchでやってみた
(リサーチ結果をマークダウンにエクスポートしてPoeで共有)
https://poe.com/s/UEMWEj7mL29mZRUO7yie
さらに、それぞれのリサーチ結果をGemini 2.0 Proを評価者として比較検討した
https://i.imgur.com/IrOhOiI.png
https://i.imgur.com/FSrdpNp.jpeg
632 名無しさん@お腹いっぱい。 sage 2025/02/06(木) 23:17:04.33 ID:Cw1E/Rrw
今川焼きリサーチテスト
「今川焼き」「大判焼き」などの名称で呼ばれる和菓子について、その名称のバリエーションを網羅的に調査し、それぞれの由来、地域分布などについて考察してください。
OpenAI Deep Research
https://chatgpt.com/share/67a4c2d8-03e8-8006-b03f-893531a834c7
Google Deep Research
https://gemini.google.com/share/d5196baffdbe
Genspark Deep Research
https://www.genspark.ai/agents?id=5425a1bd-e2ea-464f-ae96-aae5c03e36fb
(リサーチ結果をマークダウンにエクスポートしてPoeで共有)
https://poe.com/s/UEMWEj7mL29mZRUO7yie
さらに、それぞれのリサーチ結果をGemini 2.0 Proを評価者として比較検討した
https://i.imgur.com/IrOhOiI.png
https://i.imgur.com/FSrdpNp.jpeg
632 名無しさん@お腹いっぱい。 sage 2025/02/06(木) 23:17:04.33 ID:Cw1E/Rrw
今川焼きリサーチテスト
「今川焼き」「大判焼き」などの名称で呼ばれる和菓子について、その名称のバリエーションを網羅的に調査し、それぞれの由来、地域分布などについて考察してください。
OpenAI Deep Research
https://chatgpt.com/share/67a4c2d8-03e8-8006-b03f-893531a834c7
Google Deep Research
https://gemini.google.com/share/d5196baffdbe
Genspark Deep Research
https://www.genspark.ai/agents?id=5425a1bd-e2ea-464f-ae96-aae5c03e36fb
2025/02/15(土) 15:35:23.99ID:mJXIFfsN
Deep Research便利すぎて最高
2025/02/15(土) 15:39:30.92ID:cwSAbHRJ
いうほどリサーチする事あるか?
何に使うのか分からんわ
仕事に使いたくても競合リサーチなんかSNSやらが基本で検索で得られるものなんかないし
何に使うのか分からんわ
仕事に使いたくても競合リサーチなんかSNSやらが基本で検索で得られるものなんかないし
2025/02/15(土) 16:00:12.11ID:4pOOQ57U
Deep Researchは仕事でもプライベートでもめちゃくちゃ使えるぞ
それよりGPT-5出るまでo1 proとo3-mini-highどっち使うか迷うのダルいな
それよりGPT-5出るまでo1 proとo3-mini-highどっち使うか迷うのダルいな
2025/02/15(土) 16:15:33.76ID:4pOOQ57U
あとAIの出力コピペするダルいからOperatorはよ・・・
551名無しさん@お腹いっぱい。
2025/02/15(土) 16:18:59.33ID:Bx2n1Yeq Google ColabのサイドバーとしてGeminiが使えるようになっていた
552名無しさん@お腹いっぱい。
2025/02/15(土) 16:30:04.43ID:Bx2n1Yeq DeepSeek-R1 Official Prompts
https://chatgpt.com/share/67b0412c-62d0-8006-ba92-d919d7c872bc
DeepSeek-R1にはシステムプロンプトはないけど、ファイルアップロード用とウェブ検索用にプロンプトを使用している
https://chatgpt.com/share/67b0412c-62d0-8006-ba92-d919d7c872bc
DeepSeek-R1にはシステムプロンプトはないけど、ファイルアップロード用とウェブ検索用にプロンプトを使用している
553名無しさん@お腹いっぱい。
2025/02/15(土) 16:41:33.76ID:9iJU0f4/ 四大チャットボットサービス(ChatGPT、Gemini、Copilot、DeepSeek)に高校数学の難問解かせてみた。
なお推論機能があるチャットボットサービス(CGPT、Cop、DS)は全て推論ボタンを押してから回答させた。
ChatGPT: 33秒で回答し正解。
Gemini: ChatGPTより速く答えたが思いっきり間違えた
Copilot: 延々とぐるぐるしたままで答えなかった(一応推論機能OFFの状態でも解かせてみたが、そしたらGeminiと同じくChatGPTより速く答えたが思いっきり間違えた)
DeepSeek: 4分ちょっとで正解。
これはこれからの生成AI界隈、ChatGPTとDeepSeekの2台巨頭が支配することになりそうだな
なお推論機能があるチャットボットサービス(CGPT、Cop、DS)は全て推論ボタンを押してから回答させた。
ChatGPT: 33秒で回答し正解。
Gemini: ChatGPTより速く答えたが思いっきり間違えた
Copilot: 延々とぐるぐるしたままで答えなかった(一応推論機能OFFの状態でも解かせてみたが、そしたらGeminiと同じくChatGPTより速く答えたが思いっきり間違えた)
DeepSeek: 4分ちょっとで正解。
これはこれからの生成AI界隈、ChatGPTとDeepSeekの2台巨頭が支配することになりそうだな
554名無しさん@お腹いっぱい。
2025/02/15(土) 16:50:27.12ID:LFTqfUSn 今週何もなさすぎてクソすぎた
来週はなんか出してもろて
来週はなんか出してもろて
2025/02/15(土) 16:51:46.25ID:4mMaFeRG
プロンプトも何も書かず四大チャットボット(笑)とかいったい何がしたいのか
2025/02/15(土) 17:02:45.69ID:y/lZwL64
Geminiはほんといいとこないな…
2025/02/15(土) 17:11:33.35ID:733n5PJe
理論系の論文的なやつじゃなくて実験系の論文的なやつだから、再現性要素は入れないとちょっちて感じていうことなのかもなあ
2025/02/15(土) 17:13:22.34ID:4mMaFeRG
Flash Thinkingは推論性能を抑えた分高速化してWeb検索にも対応してる
Think DeeperはWeb検索対応してないのでしょぼい
Think DeeperはWeb検索対応してないのでしょぼい
559名無しさん@お腹いっぱい。
2025/02/15(土) 17:13:32.94ID:bWqPxEm0 結局蚊帳の外の日本AIが一番無様という事実
2025/02/15(土) 17:19:37.06ID:9wJlvlZ9
各々がテーマもプロンプトも異なる検証をしてあれは使える、これは使えない、などと言っても何の参考にもならない
少なくともプロンプトの公開、同じプロンプトでの複数回試行、同じ意味だが微妙に異なるプロンプトでの試行、ぐらいやってくれないと
少なくともプロンプトの公開、同じプロンプトでの複数回試行、同じ意味だが微妙に異なるプロンプトでの試行、ぐらいやってくれないと
2025/02/15(土) 17:32:27.57ID:y/lZwL64
色んな人が色んなことやっても大体結果同じだからなあ
562名無しさん@お腹いっぱい。
2025/02/15(土) 17:43:59.37ID:Bx2n1Yeq >>443
EnigmaEvalの中で多分一番簡単なクラスの、PuzzledPint(初心者向けパズル)の一つを解かせてみた
https://i.imgur.com/xuHlZv4.jpeg
GPT-4o → 見当外れ
https://i.imgur.com/XishMvp.jpeg
o1 → 正解
https://i.imgur.com/MlNDvYF.jpeg
o3-mini → 正解
https://i.imgur.com/wsVOFAS.jpeg
o3-mini-high → 正解
https://i.imgur.com/cUTbX8b.jpeg
o1 pro → 正解
https://i.imgur.com/ecy0PVs.jpeg
EnigmaEvalの中で多分一番簡単なクラスの、PuzzledPint(初心者向けパズル)の一つを解かせてみた
https://i.imgur.com/xuHlZv4.jpeg
GPT-4o → 見当外れ
https://i.imgur.com/XishMvp.jpeg
o1 → 正解
https://i.imgur.com/MlNDvYF.jpeg
o3-mini → 正解
https://i.imgur.com/wsVOFAS.jpeg
o3-mini-high → 正解
https://i.imgur.com/cUTbX8b.jpeg
o1 pro → 正解
https://i.imgur.com/ecy0PVs.jpeg
563名無しさん@お腹いっぱい。
2025/02/15(土) 17:53:43.31ID:Bx2n1Yeq >>562
よく見たら、o3-mini-highはイディオムありきの答えで、"O"を付けたり抜いたりすることに言及していないので不十分だった
o3-miniも"O"がビー玉を象徴している点に触れていないので不十分
この2つのモデルは世界知識の不足を推論でなんとか補おうとしていると言えそうだ
よく見たら、o3-mini-highはイディオムありきの答えで、"O"を付けたり抜いたりすることに言及していないので不十分だった
o3-miniも"O"がビー玉を象徴している点に触れていないので不十分
この2つのモデルは世界知識の不足を推論でなんとか補おうとしていると言えそうだ
2025/02/15(土) 18:03:07.55ID:4pOOQ57U
o3が出たら圧倒的最強なんだろうけど知識不足の足枷って思った以上に影響あるのかも
経験上、純粋な推論問題以外ではo3-mini-highよりo1 proの方がいい感じなんだよね
経験上、純粋な推論問題以外ではo3-mini-highよりo1 proの方がいい感じなんだよね
2025/02/15(土) 18:05:21.31ID:avCx4jSo
>>559
DeepSeekみたいな元あったものをコンパクトかつ簡易に改良するとか日本の得意技だったのにな
DeepSeekみたいな元あったものをコンパクトかつ簡易に改良するとか日本の得意技だったのにな
2025/02/15(土) 18:06:09.35ID:y/lZwL64
ただの観光立国に無茶言うな
567名無しさん@お腹いっぱい。
2025/02/15(土) 18:23:37.54ID:qh13HyV7 o3は単体ではリリースしないってよ
GPT5に統合されるようだ
GPT5に統合されるようだ
2025/02/15(土) 18:41:48.06ID:4pOOQ57U
>>567
GPT-5に頑張って推論させるためのプロンプトとか流行るかもね
GPT-5に頑張って推論させるためのプロンプトとか流行るかもね
569名無しさん@お腹いっぱい。
2025/02/15(土) 18:49:01.84ID:eO5kOL6H >>548
Deep Researchでデータを抽出して一覧にして欲しいんだが
現状だと嘘八百でお話にならないな
間違いを問い詰めてたら降参しやがった
大変申し訳ございませんが、現時点で正確かつ公式な一覧表を提示する能力はありません。
信頼性を最優先するため、以下の公式情報源への直接問い合わせを強く推奨いたします:
Deep Researchでデータを抽出して一覧にして欲しいんだが
現状だと嘘八百でお話にならないな
間違いを問い詰めてたら降参しやがった
大変申し訳ございませんが、現時点で正確かつ公式な一覧表を提示する能力はありません。
信頼性を最優先するため、以下の公式情報源への直接問い合わせを強く推奨いたします:
2025/02/15(土) 18:56:08.37ID:/75j8UiR
何をどう聞いたかも説明せず嘘八百とか言われてもな
2025/02/15(土) 19:18:22.04ID:y/lZwL64
LLMを問い詰めて悦に入る人ってまだいたんだ…
時間の無駄以外の何物でもないぞ
時間の無駄以外の何物でもないぞ
2025/02/15(土) 19:22:52.79ID:4mMaFeRG
学習データが枯渇してるのは本当みたいなので
今後は推論の強化でしか性能は上がらないんだろう
今後は推論の強化でしか性能は上がらないんだろう
2025/02/15(土) 19:35:44.89ID:Pzh8YfeR
実社会から学習するようになれば、データの問題は解決しそうだが。
574名無しさん@お腹いっぱい。
2025/02/15(土) 19:36:18.75ID:qh13HyV7 合成データ増やしつつ推論の方のスケーリングもしてくのが当面の方向かな
果たしてどのくらいのレベルのAIまで行けるか
果たしてどのくらいのレベルのAIまで行けるか
2025/02/15(土) 19:45:36.70ID:U6x7j0rp
日常会話から学習させれば今でも大量の情報が手に入るんだが
576名無しさん@お腹いっぱい。
2025/02/15(土) 19:45:50.69ID:da9iW97H ワールドモデルができるまではそれで凌ぐしかないよね
577名無しさん@お腹いっぱい。
2025/02/15(土) 19:52:43.16ID:4UaotLzc >>575
企業による盗聴容認のディストピア社会になりそう
企業による盗聴容認のディストピア社会になりそう
2025/02/15(土) 20:10:26.31ID:is3URzNI
ロボットが肉体を持って街中を徘徊するようになれば学習には困らん
579名無しさん@お腹いっぱい。
2025/02/15(土) 20:21:46.70ID:963LY6ds580名無しさん@お腹いっぱい。
2025/02/15(土) 20:34:14.65ID:963LY6ds 一部のユーザーでGPT-4oの挙動の変化
GPT-4.5のテストか、新しいメモリ機能のテストか(あるいはその両方?)
https://x.com/i/grok/share/kXF13dK5iGIy3lE0R9yvAJFiY
GPT-4.5のテストか、新しいメモリ機能のテストか(あるいはその両方?)
https://x.com/i/grok/share/kXF13dK5iGIy3lE0R9yvAJFiY
581名無しさん@お腹いっぱい。
2025/02/15(土) 20:36:14.73ID:963LY6ds >>580
最初に消し忘れのゴミが入った、失礼
最初に消し忘れのゴミが入った、失礼
2025/02/15(土) 20:47:09.20ID:lYvhqEiD
まだ動画と音声データは学習にほとんど活用できてないから
将来的にはそっちのほうがメインになるだろう
将来的にはそっちのほうがメインになるだろう
583名無しさん@お腹いっぱい。
2025/02/15(土) 21:10:15.40ID:qh13HyV7 動画は暗黙知と常識の学習によさそうなんだが
まだテキストベースの方伸ばす段階だから放置してるのかな
まだテキストベースの方伸ばす段階だから放置してるのかな
2025/02/15(土) 21:46:45.35ID:cwSAbHRJ
geminiにファイルアップロード機能が追加されそうで神
って書き込み見て驚いた
AI studioでは当たり前の機能だが、それ込みでもgeminiは雑魚だと言うのに
一般向けはそんなのすらなかったのかよ
って書き込み見て驚いた
AI studioでは当たり前の機能だが、それ込みでもgeminiは雑魚だと言うのに
一般向けはそんなのすらなかったのかよ
2025/02/15(土) 22:07:11.97ID:HEVtHS02
o3はコストが高すぎて単体リリースはまあ無理だろうな
o3ぐらいの性能を求めてるユーザーも少数だろうし
o1 Proですら持て余してる奴が大半だろ
o3ぐらいの性能を求めてるユーザーも少数だろうし
o1 Proですら持て余してる奴が大半だろ
2025/02/15(土) 22:14:47.11ID:cwSAbHRJ
o3よりsoraの方が絶対高いと思うんだけどな
何であんなしょーもないのを抱き合わせ販売するのか
スーファミじゃねーんだから
何であんなしょーもないのを抱き合わせ販売するのか
スーファミじゃねーんだから
2025/02/15(土) 22:43:11.97ID:ZQIhtJYj
webのGPTへの発言が修正できなくなった
おま環?
おま環?
2025/02/15(土) 22:56:39.37ID:2PY2NKBK
>>575
日本人の書籍vs口語。ここだけの話という本音と公言としての建て前のギャップがありすぎて閉口するAI…
日本人の書籍vs口語。ここだけの話という本音と公言としての建て前のギャップがありすぎて閉口するAI…
2025/02/15(土) 23:12:26.23ID:HEVtHS02
動画生成AIもまだまだ諦めてないんでしょ
正直Youtube持ってるGoogleにこのジャンルで勝つのは大分厳しい気がしなくもないけど
正直Youtube持ってるGoogleにこのジャンルで勝つのは大分厳しい気がしなくもないけど
590名無しさん@お腹いっぱい。
2025/02/15(土) 23:18:50.69ID:LFTqfUSn Claudeは来週っぽいな
まあo3 miniと大して変わらんらしいからあんま期待してないが
まあo3 miniと大して変わらんらしいからあんま期待してないが
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 小泉農相、備蓄米の入札中止 スーパーなどに直接売り渡す考えも ★9 [おっさん友の会★]
- 【サッカー】26年W杯の放送権交渉難航 インターネット配信中心か [ゴアマガラ★]
- 安倍晋三元首相の銅像建立、クラウドファンディングで1800万円の寄附金募るも達成率は9.22% 安倍信者はなぜ協力しないのか? [バイト歴50年★]
- 堀江貴文氏、エスカレーターでの光景に「なんでこんなうんこな並び方しかできないんだろ」 フォロワーも「同感です」 [冬月記者★]
- フジ第三者委員会 中居氏側の守秘義務解除の前向きな姿勢は「事実」も最終回答は「解除せず」★5 [ひかり★]
- 【フジテレビ問題】中居正広の反論にピシャリ 第三者委員会が“4文字”で示す性暴力認定への“自信”とは [ぐれ★]
- 【動画】大阪万博のユスリカ、ガチで阿鼻叫喚の世界 [931948549]
- 自民党「外務省の予算増やしてちょーよw」石破「」 [152212454]
- 【画像】万博にひろゆき [834922174]
- 【速報】山手線外回り、全車両がぶっ壊れる [918862327]
- チー牛「洗濯なんてボタン押すだけ😤」まんさん「はぁ、こんな簡単なこともわからないの?じゃあ1から説明するね(呆れ」 [339712612]
- マジで怖い話聞いたんだけど聞く?