X



OpenCLプログラミング#1

■ このスレッドは過去ログ倉庫に格納されています
0001a36 ◆K0BqlCB3.k
垢版 |
2008/12/10(水) 15:38:25
さてついにOpenCLの仕様が公開されました。

http://www.khronos.org/opencl/

公式ページにはAPIのヘッダファイルが公開されており、
まだ実際に動かす事はできないもののプログラミングすることは可能となっています。
ということで、公開に先んじてプログラミングを始めてしまいましょう。
0547543
垢版 |
2011/12/06(火) 09:23:20.52
そうしてみます!
0548デフォルトの名無しさん
垢版 |
2011/12/07(水) 22:41:57.13
ふう・・・ついに完成しました
ちまちま25%使うよりフルロードはいいですね
ただ、オーバーヘッドがいくらあるからはわかりませんが・・・
0550デフォルトの名無しさん
垢版 |
2011/12/08(木) 10:09:58.25
>>549
グローバルメモリが足りない・・・のかな?
ttp://www.ozone3d.net/gpu_caps_viewer/
これで確認してみて

それかワークスレッドの設定が悪いのかも
0552デフォルトの名無しさん
垢版 |
2011/12/08(木) 14:28:54.91
>>551
使い捨てる変数の宣言くらいがちょうどいいよ
NVIDIAはローカルメモリ使わないと倍ぐらい遅くなるけど
他はそうでもないから(OpenCL入門に比較があったよ)
グローバルで問題ないと思うよ
0554デフォルトの名無しさん
垢版 |
2011/12/15(木) 20:44:38.54
CUDAはGPUしかできないけど一度により多くの処理ができる
OpenCLはCPUとGPUを同時並列処理ができるのが魅力
どっちにも特化した特性があるからプログラムしだいだよ
0556デフォルトの名無しさん
垢版 |
2011/12/15(木) 22:40:09.72
もうGPU固有じゃなくなってきたのね・・・
カーネル丸出しのCLは論文すら少ない・・・
0566デフォルトの名無しさん
垢版 |
2012/01/25(水) 02:58:13.00
変わる以前にGCN対応ドライバ&ランタイムまだ出てないでしょ
CCC12.1Previewが出回ってるからそれ付属のSDKランタイムなら動くんじゃないの
0568デフォルトの名無しさん
垢版 |
2012/02/01(水) 22:06:59.00
RADEONとGeforce、ガチンコ対決ではごっちが速いの?
0573デフォルトの名無しさん
垢版 |
2012/02/10(金) 23:47:32.03
とりあえず齧る分には公式のプログラミングガイド買っとけばおk?
0575デフォルトの名無しさん
垢版 |
2012/02/22(水) 23:40:42.01
サブルーチンみたいにカーネルに直接引数渡して処理できればなぁ
アドレスを渡す時とかすげえ面倒。
0577デフォルトの名無しさん
垢版 |
2012/03/08(木) 16:45:33.65
カーネルソース丸出しか
特定デバイス用にコンパイルしておかないと
いけないのがなあ
0579デフォルトの名無しさん
垢版 |
2012/03/08(木) 22:38:56.05
BOINC的なもので使うと不正対策必要で、既知の答えも一緒に計算させたりして対策するんだけどエコじゃないて悩ましいよ
0580デフォルトの名無しさん
垢版 |
2012/03/11(日) 01:23:31.48
それなら同じWU他のやつに配って結果一致したやつだけ採用、
合わなかったら更に配布して一致した方採用でいいんでないかね
どのみち普通にやったって計算エラーになるのもいるし
0581デフォルトの名無しさん
垢版 |
2012/03/11(日) 02:45:56.59
つーかカーネルがソースコードだから
改竄される恐れがなんて懸念するような
プログラムなら、どんな形態で配るにせよ
ディスアセンブルされりゃ同じだって。
0585デフォルトの名無しさん
垢版 |
2012/03/18(日) 21:28:00.64
物理的限界が近づいてきたからこれまでとは事情が違うよね。
無知な人は技術でなんとかなるって言っちゃうだろうけどw
0587デフォルトの名無しさん
垢版 |
2012/03/19(月) 10:47:53.21
O(n^2)の直接法のN体とか本当にベンチマーク以上の意味はないんだがな
実用コードはツリー法やFMM法を使う
0588デフォルトの名無しさん
垢版 |
2012/03/19(月) 17:14:11.16
O(n^2)がツリー法だとO(n logn)に、FMMだとO(n)になるそうだ

www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/contents/pdf/1084-12.pdf
0589デフォルトの名無しさん
垢版 |
2012/04/13(金) 00:11:16.74
AdobeのCS6でOpenCLが使われているという噂を聞いたんだが、カーネルのソースコードとかどうやってるんだろうか
0590デフォルトの名無しさん
垢版 |
2012/04/13(金) 03:29:06.78
>>589
Adobeのライセンス認証部分のコードだって、一緒にディスクに入ってるわけですよ。
どうにでもなる。
0591デフォルトの名無しさん
垢版 |
2012/04/29(日) 15:57:09.88
Intel OpenCL SDKを使って開発をしようとしているのですが、CPUとGPUを非同期で
走らせる方法が分かりません。
サンプルなどないでしょうか?
0592デフォルトの名無しさん
垢版 |
2012/04/29(日) 20:57:55.38
>>587
必ずしもそうでもない。もちろん限られたケースだが、空間ごとに時間刻みを変えたい場合とか、ツリー方とかだと複雑になりすぎてまだまだ難しい場合も多い。
そもそも、ツリーやFMMでも近傍場の計算は直接法だし、サンプルコードとして無意味ではない。

0593デフォルトの名無しさん
垢版 |
2012/05/02(水) 10:33:58.88
>>591
CPU側を並列化してGPUを扱うスレッド/プロセスとCPU側の計算をするものに分ける
並列化、同期はお好みの方法で
0594デフォルトの名無しさん
垢版 |
2012/06/27(水) 01:05:42.85
質問なんだけど今はAMD/nVidia/IntelどのSDKでビルドしても
AMD/nVidiaのドライバが入っている環境ならGPUが利用できるって理解でok?
0596デフォルトの名無しさん
垢版 |
2012/06/30(土) 22:46:38.04
>>594
理論上は合っているよ。
まあ、微妙に非互換だったり、ランタイムの
インストール方法など気を使わざるを得ないのが現実だが。
0599デフォルトの名無しさん
垢版 |
2012/07/05(木) 01:16:06.38
GT440でclinfoしたら
Max compute units: 2
と出たんだけど、この2とGT440のCUDAコア96とはどういう関係にあるの?
0601デフォルトの名無しさん
垢版 |
2012/07/27(金) 10:28:17.75
CPUデバイスのランタイムを有効にするにはAMDかインテルのSDKをインストールしてもらうしかないの?
ランタイムだけのパッケージってある?
0605デフォルトの名無しさん
垢版 |
2012/07/30(月) 22:03:29.12
>>604
どんなプログラムなのかしらないけど、ボクが試したのは充分速かったけどなぁ。
いやまあ、GPUと絶対値を比べればもちろん遅いけど。w
0608デフォルトの名無しさん
垢版 |
2012/07/31(火) 00:12:55.35
ベンチと言えば Intel と AMD で比べてみたら、Intel のほうがかなり速かった。
いやまあ、その PC の CPU は Intel だったんだけど。w
AMD な CPU だと逆転したりするのかなぁ。
0609デフォルトの名無しさん
垢版 |
2012/07/31(火) 07:48:58.72
>>606
お手軽じゃねーっつの。
CPUでSIMDとマルチコアを使いたいためだけにOpenCLを使つかうならアホだわ。

0611デフォルトの名無しさん
垢版 |
2012/07/31(火) 18:30:47.41
少なくともカーネル部分はお手軽だよ。

素のCで使うと準備が面倒だが
C++のラッパーなら大した事は無い。
0614デフォルトの名無しさん
垢版 |
2012/08/01(水) 13:12:30.64
simdと言っているのがSSEのパックドなインストラクションのことでいいならgccでもOK。
0616デフォルトの名無しさん
垢版 |
2012/08/01(水) 22:54:07.37
ちょっと前までSSEwとか思ってたけど
これだけ並列プログラミングが普及してきてAVX2とかみると考え変わる
0617デフォルトの名無しさん
垢版 |
2012/08/01(水) 23:22:54.44
>>611
んなアホな
CL用のメモリとのやり取りが発生するだけ無駄だよ
正直、マルチコアを使いたいならMPIが一番速い。
通信含めても。
OpenMPもなんだかんだであまり速くないな。

>>612
PGI   はあまりコードの品質よくなかったな
0618デフォルトの名無しさん
垢版 |
2012/08/02(木) 00:32:11.20
>>617
なんか解釈に誤解があるようだが。
マルチコアのどんなプログラムでもOpenCLで書けという話ではない。

OpenCLのカーネルとして記述できるような問題に
適用すれば、なんも考えずにSIMDもマルチコアも
使えるようになるし、そういう用途に限れば
OpenMPやMPIもしくはPOSIX threadとかで
真面目に書くよりお手軽だし、余程の玄人が
書くのでない限り素早く、速いコードが書ける。

CL用のメモリ云々言っておきながら、速度面で
マルチスレッドなOpenMPでなくマルチプロセスになる
MPIをすすめるあたり根本的に理解に問題があるような。
まあ、通信部分はintel MPIとかなら共有メモリ使うから
極端に不利にはならないけど、少なくともこれが最速とは行かない。
0619デフォルトの名無しさん
垢版 |
2012/08/02(木) 00:45:08.79
てかさ、CL 用のメモリとのやりとりなんかしないよね?
いや、しないようにつくるよね????

>CPUでSIMDとマルチコアを使いたいためだけにOpenCLを使つかうならアホだわ。
うわ、アホって言われちゃった。てへ。
0620デフォルトの名無しさん
垢版 |
2012/08/02(木) 01:31:56.84
OpenCLとMPIの並列化は全く別もんだし、
OpenCLとOpenMPの並列化もちょっと違う。
正直OpenCLのカーネルを書くくらいなら、
OpenMPを使った並列化の方が圧倒的に楽だわ。
OpenCLを使うメリットは複数のプラットフォームで動かすためだけだろ。
0622デフォルトの名無しさん
垢版 |
2012/08/02(木) 07:45:55.61
>>619
CLデバイスとCPUは論理的に別物なんだからメモリ転送はいるだろ。

>>620
GPUがなければOpenMPなりMPIなりで並列動作しているというプログラムを作ればよい。
CPUの並列も面倒くさいのでCLでってのは手抜き杉
0623デフォルトの名無しさん
垢版 |
2012/08/02(木) 08:05:46.59
>>622
CLで書くほうが手間がかかると思うが。。。
CPU用のコードとNVIDIA用のコード、ATI用のコードを用意するのはかなり大変だし。だからOpenCLが生まれたわけで。
0624デフォルトの名無しさん
垢版 |
2012/08/02(木) 08:07:44.71
>>623
GPUがあればそっちをつかいたいのならCLを書くこと自体が手間とか言ってる場合じゃないだろ。
それ一本で済まそうというのが手抜きだっての。
CPUでCLつかっても無駄なオーバーヘッドが出るだけだし
0625デフォルトの名無しさん
垢版 |
2012/08/02(木) 08:13:47.37
論理的に別なのはわかるけど
対象がCPUの時にはメモリコピーしないような実装になっててもおかしくないような気もする
0626デフォルトの名無しさん
垢版 |
2012/08/02(木) 08:14:10.39
まあ、小さい規模のコードしか書いてない奴には分からんかもしれんが、
複数のハードウェアプラットフォームをそれぞれメンテしないといけなのは、
かなりの工数がかかるからな。
多少のパフォーマンスを犠牲にしても良いことなんて沢山あるんだよ。
0627デフォルトの名無しさん
垢版 |
2012/08/02(木) 09:23:17.69
えぇ〜・・・・・・。
キミタチは実際につかったことないんだね?

ttp://software.intel.com/sites/landingpage/opencl/optimization-guide/index.htm
の Sharing Resources Efficiently とか読んでごらんよ。
0634デフォルトの名無しさん
垢版 |
2012/08/09(木) 01:30:40.64
OpenCLハードル高いなぁ
どの機材構成でどのプラットフォームでどう書けば速くなるか
検証すべき項目が多すぎる
0640デフォルトの名無しさん
垢版 |
2012/08/16(木) 08:59:47.91
OpenCL1.2ではデバイス分割ができるみたいだけど
それまでってどうやって並列化してたの?
コマンドキューをCompute Unit分生成してたの?
それともclEnqueueNDRangeKernelがいい感じに並列化してくれてたの?
0647デフォルトの名無しさん
垢版 |
2012/09/08(土) 00:09:32.81
むしろOpenManko実装してくれ
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況