OpenCLプログラミング#1

**a36** ◆K0BqlCB3.k · 2008/12/10(水) 15:38:25

さてついにOpenCLの仕様が公開されました。

http://www.khronos.org/opencl/

公式ページにはAPIのヘッダファイルが公開されており、
まだ実際に動かす事はできないもののプログラミングすることは可能となっています。
ということで、公開に先んじてプログラミングを始めてしまいましょう。

**デフォルトの名無しさん** · 2012/07/31(火) 22:46:48.26

OpenCL以外でSIMDに自動で対応してくれるのってなにかあるの？

**デフォルトの名無しさん** · 2012/08/01(水) 06:14:34.83

インテルコンパイラ使っとけ。
それかFortranだな。

**デフォルトの名無しさん** · 2012/08/01(水) 13:12:30.64

simdと言っているのがSSEのパックドなインストラクションのことでいいならgccでもOK。

**デフォルトの名無しさん** · 2012/08/01(水) 22:34:10.47

gccじゃ自動ベクトル化は皆無に等しいだろ。

**デフォルトの名無しさん** · 2012/08/01(水) 22:54:07.37

ちょっと前までSSEｗとか思ってたけど
これだけ並列プログラミングが普及してきてAVX2とかみると考え変わる

**デフォルトの名無しさん** · 2012/08/01(水) 23:22:54.44

>>611
んなアホな
CL用のメモリとのやり取りが発生するだけ無駄だよ
正直、マルチコアを使いたいならMPIが一番速い。
通信含めても。
OpenMPもなんだかんだであまり速くないな。

>>612
PGI　　　はあまりコードの品質よくなかったな

**デフォルトの名無しさん** · 2012/08/02(木) 00:32:11.20

>>617
なんか解釈に誤解があるようだが。
マルチコアのどんなプログラムでもOpenCLで書けという話ではない。

OpenCLのカーネルとして記述できるような問題に
適用すれば、なんも考えずにSIMDもマルチコアも
使えるようになるし、そういう用途に限れば
OpenMPやMPIもしくはPOSIX threadとかで
真面目に書くよりお手軽だし、余程の玄人が
書くのでない限り素早く、速いコードが書ける。

CL用のメモリ云々言っておきながら、速度面で
マルチスレッドなOpenMPでなくマルチプロセスになる
MPIをすすめるあたり根本的に理解に問題があるような。
まあ、通信部分はintel MPIとかなら共有メモリ使うから
極端に不利にはならないけど、少なくともこれが最速とは行かない。

**デフォルトの名無しさん** · 2012/08/02(木) 00:45:08.79

てかさ、CL 用のメモリとのやりとりなんかしないよね？
いや、しないようにつくるよね？？？？

>CPUでSIMDとマルチコアを使いたいためだけにOpenCLを使つかうならアホだわ。
うわ、アホって言われちゃった。てへ。

**デフォルトの名無しさん** · 2012/08/02(木) 01:31:56.84

OpenCLとMPIの並列化は全く別もんだし、
OpenCLとOpenMPの並列化もちょっと違う。
正直OpenCLのカーネルを書くくらいなら、
OpenMPを使った並列化の方が圧倒的に楽だわ。
OpenCLを使うメリットは複数のプラットフォームで動かすためだけだろ。

**デフォルトの名無しさん** · 2012/08/02(木) 06:37:43.98

無脳をさらすスレですか？

**デフォルトの名無しさん** · 2012/08/02(木) 07:45:55.61

>>619
CLデバイスとCPUは論理的に別物なんだからメモリ転送はいるだろ。

>>620
GPUがなければOpenMPなりMPIなりで並列動作しているというプログラムを作ればよい。
CPUの並列も面倒くさいのでCLでってのは手抜き杉

**デフォルトの名無しさん** · 2012/08/02(木) 08:05:46.59

>>622
CLで書くほうが手間がかかると思うが。。。
CPU用のコードとNVIDIA用のコード、ATI用のコードを用意するのはかなり大変だし。だからOpenCLが生まれたわけで。

**デフォルトの名無しさん** · 2012/08/02(木) 08:07:44.71

>>623
GPUがあればそっちをつかいたいのならCLを書くこと自体が手間とか言ってる場合じゃないだろ。
それ一本で済まそうというのが手抜きだっての。
CPUでCLつかっても無駄なオーバーヘッドが出るだけだし

**デフォルトの名無しさん** · 2012/08/02(木) 08:13:47.37

論理的に別なのはわかるけど
対象がCPUの時にはメモリコピーしないような実装になっててもおかしくないような気もする

**デフォルトの名無しさん** · 2012/08/02(木) 08:14:10.39

まあ、小さい規模のコードしか書いてない奴には分からんかもしれんが、
複数のハードウェアプラットフォームをそれぞれメンテしないといけなのは、
かなりの工数がかかるからな。
多少のパフォーマンスを犠牲にしても良いことなんて沢山あるんだよ。

**デフォルトの名無しさん** · 2012/08/02(木) 09:23:17.69

えぇ～・・・・・・。
キミタチは実際につかったことないんだね？

ttp://software.intel.com/sites/landingpage/opencl/optimization-guide/index.htm
の Sharing Resources Efficiently とか読んでごらんよ。

**デフォルトの名無しさん** · 2012/08/02(木) 23:04:54.27

これは恥ずかしいｗ

**デフォルトの名無しさん** · 2012/08/03(金) 00:10:12.73

どれにレスしてんだか分からんレスがおおいな。

**デフォルトの名無しさん** · 2012/08/03(金) 00:34:42.14

このスレ、９９割が誤爆レスだからな。

**デフォルトの名無しさん** · 2012/08/03(金) 19:43:05.27

>>630
> 、９９割
0.99 割？ 990% ？

どのスレに書こうとしてたの？

**デフォルトの名無しさん** · 2012/08/04(土) 01:06:20.28

だ　ー　か　ー　ら　ー　ぁ　誤　爆　で　し　ょ

**デフォルトの名無しさん** · 2012/08/08(水) 17:52:37.24

なんでこのスレこの板にあるんだ?

**デフォルトの名無しさん** · 2012/08/09(木) 01:30:40.64

OpenCLハードル高いなぁ
どの機材構成でどのプラットフォームでどう書けば速くなるか
検証すべき項目が多すぎる

**デフォルトの名無しさん** · 2012/08/09(木) 02:10:21.89

逆に考えるんだ
速さをあきらめればすべて解決する

**デフォルトの名無しさん** · 2012/08/09(木) 02:22:49.56

あちらを立てればこちらが立たずですなぁ

**デフォルトの名無しさん** · 2012/08/10(金) 17:37:54.94

週あすｗでAPUの記事載ってて、OpenCLで何でも高速に出来るように書いてたなぁｗ

**デフォルトの名無しさん** · 2012/08/10(金) 23:05:10.52

write once, tune everywhere

**デフォルトの名無しさん** · 2012/08/10(金) 23:06:13.71

anywhereだったか

**デフォルトの名無しさん** · 2012/08/16(木) 08:59:47.91

OpenCL1.2ではデバイス分割ができるみたいだけど
それまでってどうやって並列化してたの？
コマンドキューをCompute Unit分生成してたの？
それともclEnqueueNDRangeKernelがいい感じに並列化してくれてたの？

**デフォルトの名無しさん** · 2012/08/17(金) 04:01:39.09

でっかく突っ込んだら普通にデスクトップがフリーズしてた。

**デフォルトの名無しさん** · 2012/08/21(火) 22:38:27.42

OpenCLで最速の構成教えて

**デフォルトの名無しさん** · 2012/08/22(水) 00:38:21.46

素晴らしいプログラマ

これに尽きるｗ

**デフォルトの名無しさん** · 2012/08/22(水) 09:45:30.14

>>642
Radeon の一番高いヤツをさせるだけさす。ｗ

**デフォルトの名無しさん** · 2012/08/31(金) 15:37:24.77

APUより速いん？

**デフォルトの名無しさん** · 2012/09/06(木) 03:18:56.29

だれかOpenCLでOpenGL実装してくれ

**デフォルトの名無しさん** · 2012/09/08(土) 00:09:32.81

むしろOpenManko実装してくれ

**デフォルトの名無しさん** · 2012/09/08(土) 01:20:37.10

プロプライエタリですので

**デフォルトの名無しさん** · 2012/09/08(土) 18:07:21.58

OpenMankoはよ

**デフォルトの名無しさん** · 2012/09/08(土) 22:36:50.84

互換フリー0実装のKuperで我慢しとけ。

**デフォルトの名無しさん** · 2012/09/09(日) 23:25:50.57

Mankoは商用製品で我慢しろよ

**デフォルトの名無しさん** · 2012/09/20(木) 15:05:43.24

昔の日本はOpenだろ

**デフォルトの名無しさん** · 2012/09/27(木) 04:12:39.50

AMD Releases CodeXL Public Beta | SemiAccurate
http://semiaccurate.com/2012/09/25/amd-releases-codexl-public-beta/

**デフォルトの名無しさん** · 2012/10/05(金) 01:09:53.66

http://pc.watch.impress.co.jp/img/pcw/docs/563/431/g02.png

**デフォルトの名無しさん** · 2012/10/05(金) 01:15:43.73

http://engawa.2ch.net/test/read.cgi/poverty/1349151623/

**デフォルトの名無しさん** · 2012/10/05(金) 01:16:52.94

http://prohardver.hu/dl/cnt/2012-10/90356/results/handbrake.png

**デフォルトの名無しさん** · 2012/10/28(日) 20:13:53.12

意外と

**デフォルトの名無しさん** · 2012/11/30(金) 23:33:09.24

Khronos Releases Significant OpenCL 1.2 Specification Update | techPowerUp
http://www.techpowerup.com/176413/Khronos-Releases-Significant-OpenCL-1.2-Specification-Update.html

**デフォルトの名無しさん** · 2012/12/07(金) 11:27:13.90

OpenCLでパスワード解析
http://securityledger.com/new-25-gpu-monster-devours-passwords-in-seconds/

**デフォルトの名無しさん** · 2012/12/20(木) 01:25:19.05

>>615
vetor extension記法でゴリゴリかく。
若しくは、-O3 -ftree-vectorize
但し、後者はまだまだ未熟なのは確かだね。

**デフォルトの名無しさん** · 2012/12/21(金) 09:03:58.99

最近OpenCLを本格的に始めたんだが、
OpenCLのいいところは、コンパイラを選ばない、
カーネル以外はC++で書けるといところかな。

CUDAだと同じことができるけど、ホスト側でNVCC以外使おうとするとちょっと面倒だ。
ただ、カーネルの最適化がコンパイラでもできるから、
パフォーマンスは出やすいな。

LLVMで最適化レベルって設定ができるのかな？

**デフォルトの名無しさん** · 2012/12/22(土) 01:07:39.90

>>661
アーキテクチャが何にでも対応できるが、
アーキテクチャによって最適なWARP(に相当するもの）の数が違ったり、
コアレセンスアクセスできる条件が違ったり、キャッシュの有無だったりで
結局はアーキテクチャ依存の最適化をしないと速くならないよ。

**デフォルトの名無しさん** · 2012/12/22(土) 02:28:20.85

場合によってはコンパイラのバージョン依存も。

**デフォルトの名無しさん** · 2012/12/24(月) 05:32:34.90

やっとCL使うネタが準備できた
楽しみだー

**デフォルトの名無しさん** · 2013/01/13(日) 19:49:11.31

Trinity APUで使ったらCPU使用率が50%（2コアなので1コアがフル稼働状態）になったが、こんなもんなの？
GPUで計算してるはずなんだが。

**デフォルトの名無しさん** · 2013/01/14(月) 05:46:41.04

ジョブの内容と数によるんでは。

**デフォルトの名無しさん** · 2013/01/14(月) 21:42:22.31

CUDA見たいに結果出るまでぽーりんぐしてんじゃないの？

**デフォルトの名無しさん** · 2013/01/14(月) 22:02:09.36

自分のマシンのFLOPS計るのはどのベンチがお勧め？

**デフォルトの名無しさん** · 2013/01/15(火) 00:36:48.35

クロックとシェーダの数を掛ければ。

**デフォルトの名無しさん** · 2013/01/15(火) 12:44:28.36

ちゃんとGPUで計算されてないだけじゃね
afterburnerかなんかでGPU側の使用率も見てる？

**665** · 2013/01/20(日) 11:45:47.76

Catalystのバージョン上げたらCPU使用率下がりました

**デフォルトの名無しさん** · 2013/01/21(月) 06:12:45.45

AMDのOpenCL SDKはCPU（SSE）デバイスもサポートしてるから
そっちで動いてたってことかな

**デフォルトの名無しさん** · 2013/01/22(火) 00:13:17.77

デバイス取得時にGPUを指定すればそんな目に合うはずね～が

**デフォルトの名無しさん** · 2013/01/22(火) 23:13:25.92

デバイスにCPU使ってたらCPU使用率100%になるんじゃないの

**デフォルトの名無しさん** · 2013/01/23(水) 00:21:18.43

>>674
特に設定しないとシングルコアだからならない

**デフォルトの名無しさん** · 2013/01/23(水) 01:32:16.04

CPU版はdevice fissionしないと使えるコア全部使わなかったっけ？

**デフォルトの名無しさん** · 2013/01/26(土) 18:02:42.38

いくつか本読んで基礎的なことは
わかったんだけど、openclでmpegのエンコーダー
作ってみたいから何か参考になる情報ないかな

**デフォルトの名無しさん** · 2013/01/26(土) 21:16:57.04

CUDAでこれだからOpenCLはチューニング大変だな
pc.watch.impress.co.jp/img/pcw/docs/584/977/html/7b_prometech_32.jpg.html

**デフォルトの名無しさん** · 2013/01/26(土) 22:38:20.74

>>677
MPEGってどれよ？
MPEG4（H.264）のことならx264がSSE、AVXアセンブリ含むソースコードが読めるからオススメ

**デフォルトの名無しさん** · 2013/01/30(水) 22:41:00.14

試しに↓使ってみたんだがローカルメモリ使ったら速度が3割落ちた。
www.aocplan.com/gpgpu/gpgpu-benchmark

**デフォルトの名無しさん** · 2013/02/05(火) 22:18:38.26

OpenCLってHyper-Qみたいな機能ってあるでしょうか？

**デフォルトの名無しさん** · 2013/02/05(火) 22:28:21.47

>>678
アーキ毎にカーネルを書きなおさないと性能でないよ。

**デフォルトの名無しさん** · 2013/02/06(水) 21:46:06.32

各アーキテクチャごとの最適化資料ってある？

**デフォルトの名無しさん** · 2013/02/07(木) 05:31:00.88

AMDだとこれが詳しい。NVIDIAのだったらCUDAのマニュアルを読めばいい。
http://developer.amd.com/download/AMD_Accelerated_Parallel_Processing_OpenCL_Programming_Guide.pdf

**デフォルトの名無しさん** · 2013/02/11(月) 23:11:22.51

標準のC++に替わり今後はOpenCLが標準に確定したな
OpenCLでパフォーマンスが激向上するから当然か

**デフォルトの名無しさん** · 2013/02/12(火) 06:11:15.51

寝言は寝て言え

**デフォルトの名無しさん** · 2013/02/17(日) 21:21:57.05

>>684
ありがとう。VLIW4だとスレッド数1/4にして、1スレッドで4つずつ処理するようにしたら倍速になった。

**デフォルトの名無しさん** · 2013/02/18(月) 04:23:25.11

R600のISA解説したpdfもどっかにあって、あれ読むとKernel Analyzerの右側の命令が読めるようになって捗るぞ。

**デフォルトの名無しさん** · 2013/05/09(木) 04:25:55.54

Intel Releases SDK with OpenCL 1.2 Support for Intel Xeon Phi Coprocessors | techPowerUp
http://www.techpowerup.com/183718/intel-releases-sdk-with-opencl-1-2-support-for-intel-xeon-phi-coprocessors.html

**デフォルトの名無しさん** · 2013/05/10(金) 23:28:13.87

CUDAが動かない古いNvidiaのビデオカードでも
OpenCLなら動いたりするものなのでしょうか？

**デフォルトの名無しさん** · 2013/05/11(土) 17:38:28.19

確かnvidiaがOpenCLサポートしているのは、
チップがGeforce8以降かつ、ドライバの対応も必要だったと思う。
でもgeforce8以降はほとんどCUDA(とPhysXが）乗ってたはず。
それ以前はサポートされていないから動かないんじゃないかな（機材とドライバがないから検証できん）

**デフォルトの名無しさん** · 2013/05/11(土) 23:50:31.95

CUDAにせよ、OpenCLにせよ古いマシンでやろうとする奴はなんなんだ？
古いGPUじゃ大して効果がないし、アーキテクチャがどんどん変わって
いるから使えないものが多いのに。
最新のアーキテクチャでも1万円も出せばそれなりのものが買えるのになあ。

**デフォルトの名無しさん** · 2013/05/12(日) 10:11:53.81

研究目的なら最新ので良いけど、実用だと4年前に導入した
数百台の計算機で高速化したい、とかもあるからな。

**デフォルトの名無しさん** · 2013/05/13(月) 17:15:31.08

GeForce8以前って、どんだけ古いカード使っているんだよw
いろんな意味で、無理無理。

**デフォルトの名無しさん** · 2013/05/15(水) 13:05:11.17

とりあえずGPGPU普及させたいならGPU各社ともミドルレンジ以下でFP64対応切るのやめてくんないかな
性能出るかどうかより使えたり使えなかったりってのが一番困る

**デフォルトの名無しさん** · 2013/06/05(水) 08:17:39.89

OpenCLのチューニングって、まずどのあたりから手を付ければいいかな？
ワークグループ分割数で結構変わるという話は聞くけど、やっぱり
おまかせより明示的に指定した方がいいんだろうか？

**デフォルトの名無しさん** · 2013/06/05(水) 09:35:33.06

おまかせとかやる気無さすぎだろう…
色々変えてみて速さを測れ。

**デフォルトの名無しさん** · 2013/06/05(水) 20:55:53.52

ハードに合わせて適当な値を選んでくれると思ってたんで自分で下手な値を設定するより
いいかと思ってたんだけど、たしかに明示的に指定した方がよくなるケースが多いですね。
目安としてはCL_DEVICE_MAX_WORK_GROUP_SIZEに合わせておけばいいんだろうか？
それ以外、これは押さえておけ、というようなチューニングポイントってありますか？

**デフォルトの名無しさん** · 2013/06/06(木) 22:37:43.71

アドレスモードが便利そうなのでイメージオブジェクトを使ってみようと思ったんだけど、
これって4ch固定なんですかね？できれば1chで使いたいんだけど。

**デフォルトの名無しさん** · 2013/06/17(月) 09:44:11.96

>>698
> 目安としてはCL_DEVICE_MAX_WORK_GROUP_SIZEに合わせておけばいいんだろうか？

これだとスピードでないよ。
Radeonだったら>>684の最適化マニュアルを、NVIDIAだったらCUDAの
説明書を読め。

**デフォルトの名無しさん** · 2013/06/18(火) 23:31:21.64

つか、勉強目的でエミュレータみたいなのが欲しい
遅くていいから

**デフォルトの名無しさん** · 2013/06/24(月) 22:41:41.16

最近のハードなら何でも出来るだろ。
新しいの買えよ。それぐらい自己投資だ。

**デフォルトの名無しさん** · 2013/07/23(火) NY:AN:NY.AN

ついに 2.0 で Dynamic Parallelism きちゃったじゃねぇか！

**デフォルトの名無しさん** · 2013/07/23(火) NY:AN:NY.AN

nVidiaがいまだに1.1なのはどうにかならんのかな。

**デフォルトの名無しさん** · 2013/07/24(水) NY:AN:NY.AN

CUDAがあるから、あまり積極的にやりたくないんじゃね？

**デフォルトの名無しさん** · 2013/08/01(木) NY:AN:NY.AN

今AMDの環境で開発しているんだけど、NVIDIAの環境でもビルドできるよう
1.1の機能に限定することってできないんですかね？
CL_USE_DEPRECATED_OPENCL_1_1_APISみたいな。

**デフォルトの名無しさん** · 2013/08/18(日) NY:AN:NY.AN

OpenGLとの連携やっている人いますか？
OpenGLのHGLRCからcl_device_idを得るのにclGetGLContextInfoKHRというのが
ありますが、これを呼ぶ際、properties引数にCL_CONTEXT_PLATFORMを含めないと
エラー(CL_INVALID_PLATFORM)になります。
Platformを決め打ちで入れてやれば成功はしますが、cl_device_idを得る前にそれが
含まれるcl_platform_idを本来どうやって求めるのでしょうか？

**デフォルトの名無しさん** · 2013/08/18(日) NY:AN:NY.AN

>>707
clCreateContext に渡した properties と同じもので GL context を1つに特定できるものを渡せって書いてあるだろうに
clGetGLContextInfoKHR で指定せずにエラーになるなら clCreateContext ではデフォルト値以外の cl_platform_id を指定したんだろう
gl_sharing が有効な CL context は作成済みなのになんで cl_platform_id だけ行方不明なんだよ
余所のライブラリが作った CL context に問い合わせたいなら clGetContextInfo で CL_CONTEXT_PROPERTIES

**デフォルトの名無しさん** · 2013/08/18(日) NY:AN:NY.AN

回答ありがとうございます。
ただ、clCreateContextはclGetGLContextInfoKHRでデバイスを得た後に呼ぶことに
なると思うのですが？
手順は以下で間違ってますかね？

GLコンテキスト(HGLRC)作成
→clGetGLContextInfoKHRで関連付けられているCLデバイスを取得
→clCreateContextでCLコンテキストを作成

いずれにしても、どのデバイスを使っているかがわからないとプラットフォームも
決まらないと思うのですが。

**デフォルトの名無しさん** · 2013/10/24(木) 01:02:02.86

vloadn ってあるけど、直接ポインタを p[i] するのと速度違ったりするのか？

**デフォルトの名無しさん** · 2013/10/24(木) 21:28:52.21

vloadはアラインメントの制約がゆるい。要素でそろってればOK。
速度は実装によるだろうけど同じか制約がゆるいvloadのほうが少し遅い。