GPGPUについて語りましょう
前スレ
GPGPU#4
http://hibari.2ch.net/test/read.cgi/tech/1255256230/l50
関連スレ
OpenCLプログラミング#1
http://hibari.2ch.net/test/read.cgi/tech/1228891105/l50
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
http://hibari.2ch.net/test/read.cgi/tech/1271587710/l50
参考リンク
総本山? gpgpu.org
http://www.gpgpu.org/
OpenCL
http://www.khronos.org/opencl/
NVIDIA CUDA
http://developer.nvidia.com/object/cuda.html
ATI Stream
http://developer.amd.com/gpu/ATIStreamSDK/Pages/default.aspx
GPUをCPU的に活用するGPGPUの可能性
http://pcweb.mycom.co.jp/articles/2005/09/06/siggraph2/
探検
GPGPU#5
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2010/08/15(日) 21:47:50305298
2014/01/27(月) 00:47:11.47 >>304
>そのソースコードでは
え!? ……つまり、
普通にtimeGetTimeかQueryPerformanceCounterとかを使えってことなんですか?
それとも、測定する位置が間違っているということなんですか?
>CUDAスレも宜しく
分かりました。次回以降はそちらにレスすることにします。
>そのソースコードでは
え!? ……つまり、
普通にtimeGetTimeかQueryPerformanceCounterとかを使えってことなんですか?
それとも、測定する位置が間違っているということなんですか?
>CUDAスレも宜しく
分かりました。次回以降はそちらにレスすることにします。
306デフォルトの名無しさん
2014/01/27(月) 08:23:49.16 >>304
何言ってんだ、こいつ?
何言ってんだ、こいつ?
307デフォルトの名無しさん
2014/01/27(月) 21:34:08.90308307
2014/01/27(月) 21:39:43.68 うっかり、166行目を「cudaStatus = cudaSetDevice(1);」にしちゃったので、適当に直しておいて。
309デフォルトの名無しさん
2014/01/27(月) 23:30:12.43 ローカルメモリを使う場合って確保しようとした容量が大き過ぎると
グローバルのほうへ確保されてしまうんだよね?
AMDのGCNはどれくらいまでローカルメモリがあるのか分からないんだけど
試行錯誤して調べるしかないのか
グローバルのほうへ確保されてしまうんだよね?
AMDのGCNはどれくらいまでローカルメモリがあるのか分からないんだけど
試行錯誤して調べるしかないのか
310298
2014/01/27(月) 23:50:13.09 >>307-308
調査ありがとうございました。そうか、メモリのせいだったのか……
gridsizeの65536制限は知っていたのですが、block・gridでの
分割方法がイマイチよく分かっていなかったので、実コードで
示してくださって助かります。こちらの環境でテストしてみると、
Releaseビルド、x64モードで
> CPU計算時間:0.060652126[s] -> 276.614[MFLOPS]
> size: 16777216
> size_x,y: 262144,64
> blockSize: 256,1
> gridSize: 1024,64
> GPU計算時間:0.034433924[s] -> 487.229[MFLOPS]
> 最大絶対誤差:0.0000000000000000
となりました。>>298より微妙に速くなった程度ですが、
負荷が軽すぎるせいだということは>>302で確認しています。
ちなみにCUDA-Z でこちらのグラボを計測すると、スレッドの次元が1024x1024x64、
グリッドの次元が65535x65535x65535、演算性能は
int32=47.1[Giop/s]・float=94.0[Gflop/s]・double=11.8[Gflop/s]らしいです。
調査ありがとうございました。そうか、メモリのせいだったのか……
gridsizeの65536制限は知っていたのですが、block・gridでの
分割方法がイマイチよく分かっていなかったので、実コードで
示してくださって助かります。こちらの環境でテストしてみると、
Releaseビルド、x64モードで
> CPU計算時間:0.060652126[s] -> 276.614[MFLOPS]
> size: 16777216
> size_x,y: 262144,64
> blockSize: 256,1
> gridSize: 1024,64
> GPU計算時間:0.034433924[s] -> 487.229[MFLOPS]
> 最大絶対誤差:0.0000000000000000
となりました。>>298より微妙に速くなった程度ですが、
負荷が軽すぎるせいだということは>>302で確認しています。
ちなみにCUDA-Z でこちらのグラボを計測すると、スレッドの次元が1024x1024x64、
グリッドの次元が65535x65535x65535、演算性能は
int32=47.1[Giop/s]・float=94.0[Gflop/s]・double=11.8[Gflop/s]らしいです。
311デフォルトの名無しさん
2014/01/28(火) 01:09:12.72 >>307
冗長なOpenCLに比べてやっぱりCUDAはスマートでいいな
冗長なOpenCLに比べてやっぱりCUDAはスマートでいいな
312デフォルトの名無しさん
2014/01/29(水) 01:59:06.39 OpenCLのclEnqueueNDRangeKernelでカーネルを実行するときに
global_work_sizeとlocal_work_sizeに同じ値(256,256など)を入力すると
何もエラーは返されずにメモリの参照が壊れて?しまいclEnqueueReadBufferで
CPU側で読み取った値が全て0になってしまいます。
これは仕様なのでしょうか?
global_work_sizeとlocal_work_sizeに同じ値(256,256など)を入力すると
何もエラーは返されずにメモリの参照が壊れて?しまいclEnqueueReadBufferで
CPU側で読み取った値が全て0になってしまいます。
これは仕様なのでしょうか?
313デフォルトの名無しさん
2014/02/25(火) 21:16:18.98 visual studio 2013でCUDAが使えないからC++AMPでやるお!
314デフォルトの名無しさん
2014/02/25(火) 21:43:30.35 >>313
そのためだけにVS2012と2013使い分けてる俺……
そのためだけにVS2012と2013使い分けてる俺……
315デフォルトの名無しさん
2014/04/04(金) 10:44:13.17ID:YtPgho8U openCL始めたお(・∀・)ノ
316デフォルトの名無しさん
2014/04/15(火) 02:32:13.65ID:vGWbAtXL (・∀・)ノ CPUの300倍くらいの性能が出たお!
比較したCPUはE2-2000っていうCPU+GPU=APUだけど全くGPUとしての機能をもってないのでガッカリしたお。
比較したCPUはE2-2000っていうCPU+GPU=APUだけど全くGPUとしての機能をもってないのでガッカリしたお。
317デフォルトの名無しさん
2014/04/19(土) 12:16:56.16ID:Firi/9oq (・∀・)ノ ALU(IGP)のE2-2000はHD7770の1/50のパワーしかないが並列性はあるようだ。
318デフォルトの名無しさん
2014/04/22(火) 04:44:14.02ID:aREYskwN AIDA64に測定メニューあるよな
319デフォルトの名無しさん
2014/08/29(金) 13:33:23.65ID:P9znXDYB AMDとMS,GPU演算用途向けのコンパイラ「C++ AMP v1.2」を発表
http://www.4gamer.net/games/032/G003263/20140828031/
http://www.4gamer.net/games/032/G003263/20140828031/
320デフォルトの名無しさん
2014/09/12(金) 04:54:39.38ID:jvr90R5c テキスト処理ってGPUで高速化できないものでしょうか
具体的には
Appache Solr
の検索処理が遅いのでなんとか高速化したいのですが
具体的には
Appache Solr
の検索処理が遅いのでなんとか高速化したいのですが
321デフォルトの名無しさん
2014/09/12(金) 09:59:47.51ID:cxN2yFh/ ボトルネックはメモリでしょう。
322デフォルトの名無しさん
2014/09/16(火) 05:52:05.01ID:padeH6x3 テキスト処理なんてわざわざGPUでやるよりSSE/AVXでやったほうが億倍マシ
323デフォルトの名無しさん
2014/09/20(土) 00:49:25.20ID:NyWaXORh324デフォルトの名無しさん
2014/09/24(水) 15:13:16.24ID:ltG1hZ24 OpenCLでプログラム組んでみたけど、CPUとGPUメモリのやり取りがネックになっているのか、思ったよりスピードが出ない
他の人はGPU利用するにあたってメモリのやり取りとか何か工夫している?
他の人はGPU利用するにあたってメモリのやり取りとか何か工夫している?
325デフォルトの名無しさん
2014/09/24(水) 23:08:38.12ID:psEUFh+R そりゃ工夫するだろう。
326デフォルトの名無しさん
2014/09/25(木) 13:28:12.29ID:F8MulcGG ごめん、どんな工夫してるか聞いてみたかったんだ
327デフォルトの名無しさん
2014/09/25(木) 16:05:41.16ID:Coq6ADbv 基本はメモリとのやりとりを少なくするって話でしょ
それ以上の個別の工夫を簡単に説明するのは難しいよね
ケーススタディしたいのならそういう本なり文献なり漁るべき
それ以上の個別の工夫を簡単に説明するのは難しいよね
ケーススタディしたいのならそういう本なり文献なり漁るべき
328デフォルトの名無しさん
2014/09/25(木) 18:24:41.04ID:RDrb9uGa OpenCVのOpenCLバインディングのコードを参考にしたらいいんじゃないのかな
329デフォルトの名無しさん
2014/09/25(木) 21:14:08.96ID:YRvO5dcq >>324
kaveri使えよ
kaveri使えよ
330デフォルトの名無しさん
2014/09/25(木) 22:16:45.04ID:Vf7t0liy OpenCLの1.1と1.2に後方互換性ありますか?
331デフォルトの名無しさん
2014/09/27(土) 00:53:04.08ID:SNKkkpyl332デフォルトの名無しさん
2014/10/14(火) 21:40:56.17ID:noiOU3fL kaveriってOpenCL使うとき、コピーせずにポインタ参照で渡していいって解釈でいいの?
最近GPGPUをやりはじめたばかりだから、的外れなことかもしれんが。。
最近GPGPUをやりはじめたばかりだから、的外れなことかもしれんが。。
333デフォルトの名無しさん
2015/04/12(日) 00:04:42.92ID:g4+PudFo Boost.ComputeあったらC++ AMPいらなくない?
334デフォルトの名無しさん
2015/04/12(日) 19:07:28.43ID:b726GPIq どうだろう?
335デフォルトの名無しさん
2015/04/24(金) 08:27:23.88ID:A3qraRkp336デフォルトの名無しさん
2015/05/10(日) 00:43:24.29ID:60tvXotD vexclを少し使ってみたけど便利だ
あとはC++AMPみたいにradeonのドライバーの
バージョン上がると使えなくなったりしないなら
あとはC++AMPみたいにradeonのドライバーの
バージョン上がると使えなくなったりしないなら
337デフォルトの名無しさん
2015/06/23(火) 13:14:06.30ID:AOM31ZzX GPUの行列演算ライブラリってないですか?
具体的には特異値分解できるのを探してます
具体的には特異値分解できるのを探してます
338デフォルトの名無しさん
2015/06/23(火) 13:41:37.08ID:DUXK3D31 >>337
機械学習スレで書いてた人かな?
ちゃんと調べてないけどMAGMAなら入ってるかも
http://icl.cs.utk.edu/magma/overview/index.html
{sdcz}gesvd はサポートしてるって書いてある
ただし、GPUカーネル内から直接呼びたい場合は使えないらしい
CPUからカーネル呼び出しする必要がある
(SC14時点の資料)
機械学習スレで書いてた人かな?
ちゃんと調べてないけどMAGMAなら入ってるかも
http://icl.cs.utk.edu/magma/overview/index.html
{sdcz}gesvd はサポートしてるって書いてある
ただし、GPUカーネル内から直接呼びたい場合は使えないらしい
CPUからカーネル呼び出しする必要がある
(SC14時点の資料)
339デフォルトの名無しさん
2015/06/26(金) 11:47:09.05ID:JVzNXP51 >>338
ありがとうございます。
ありがとうございます。
340デフォルトの名無しさん
2015/07/08(水) 11:17:46.41ID:i7xBLVJ6 最大固有値
最大固有ベクトル
だけを求めたい場合って、
最大固有ベクトル
だけを求めたい場合って、
341デフォルトの名無しさん
2015/07/08(水) 11:18:15.73ID:i7xBLVJ6 最大固有値
最大固有ベクトル
だけを求めたい場合って、べき乗法が最速でしょうか?
最大固有ベクトル
だけを求めたい場合って、べき乗法が最速でしょうか?
342デフォルトの名無しさん
2015/07/10(金) 17:33:26.71ID:QJI1WR+Q 万病に効く薬はないんやで
343デフォルトの名無しさん
2015/10/11(日) 13:46:03.27ID:9Az+Dnte VS2015のc++amp仕様が変わった?
CPUで実行するrestrict(cpu)のマイクロソフトのサンプルコードがコンパイルエラーになる。
CPUで実行するrestrict(cpu)のマイクロソフトのサンプルコードがコンパイルエラーになる。
344デフォルトの名無しさん
2016/01/29(金) 12:38:56.49ID:VedX2j8l >>343
C++AMPは終わりやな
C++AMPは終わりやな
345125
2016/01/30(土) 08:09:23.91ID:gCqMUv9A マイクロソフトの開発ブログで
> Is C++AMP dead ?
との質問にレスが無い。
モスさんどこ行った?
> Is C++AMP dead ?
との質問にレスが無い。
モスさんどこ行った?
346デフォルトの名無しさん
2016/06/15(水) 14:41:37.67ID:d2Xou3GL test
347わたしはぐぷぐぷ派です
2016/12/28(水) 13:24:22.43ID:6d1C8mET は?ごぽごぽに決まってるだろ?って言われた...
頭ごなしに言ってくる人って何なんでしょうね
頭ごなしに言ってくる人って何なんでしょうね
348デフォルトの名無しさん
2018/05/23(水) 23:05:05.10ID:Au5e7VGg 僕の知り合いの知り合いができたパソコン一台でお金持ちになれるやり方
役に立つかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』
MYAIQ
役に立つかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』
MYAIQ
349デフォルトの名無しさん
2018/07/04(水) 23:04:08.53ID:gFgZc5FG 2XM
350デフォルトの名無しさん
2018/07/06(金) 12:37:07.14ID:uTPDH9XV MYAIQ
351デフォルトの名無しさん
2019/09/05(木) 13:16:11.62ID:va7N80X/ CUDAスレはあるのにROCmスレがない
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【日本人の旅行離れ】国内旅行すら行けなくなった……オーバーツーリズムだけじゃない 旅行者減少の異常事態 [ぐれ★]
- 高市首相の答弁書に「台湾有事答えない」と明記 存立危機発言当時 ★12 [蚤の市★]
- 中国の渡航自粛要請1カ月 大阪の観光バス予約ゼロ、東北にも波及 [蚤の市★]
- 【神戸】エレベーター「かご」なく男性医師が転落死 大手「三菱電機ビルソリューションズ」の担当者、安全装置切り放置か [ぐれ★]
- 【福岡】「人が道路に寝込んでいた。顔面から出血し、うなり声をあげている」 福岡市中央区で男性はねられ死亡 タクシー運転手逮捕 [ぐれ★]
- 女性天皇「賛成」69%、将来の皇位継承「不安」68%…読売世論調査 [蚤の市★]
- 高市、メガソーラー廃止。環境破壊が社会問題化 [792147417]
- クリスマスに何かする「予定なし」は54%。 過去最高水準に。ケーキの値上げもあって節約志向へ [663766621]
- 他人のリクエストで自分の癖と異なる絵を上げる絵師いるじゃん?
- なぜ日本人はフード被らないの?寒いのに
- ワイが考えてるキャラ当ててみろやwww
- 🏡おい!返事しろ︎︎!知的障害者!
