【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net

**デフォルトの名無しさん** · 2014/11/20(木) 23:14:46.66

このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/

**デフォルトの名無しさん** · 2016/02/25(木) 20:58:58.26

誰だよイカスミって

**デフォルトの名無しさん** · 2016/02/25(木) 23:01:45.88

nvidia ってC++AMPって力いれてるの？
CUDAが主力なのはわかるんだが。

OpenMPのようにC++AMPがいいところまでいってからtoolkitにマージするつもりなのか
それともC++AMPが自然消滅するのを待っているのかわからん。

**デフォルトの名無しさん** · 2016/02/25(木) 23:56:26.32

>>698
>>690=イカスミ

**,,・´∀｀・,,）っ-○○○** · 2016/02/25(木) 23:58:06.25

C++ AMPは事実上終了したよ
MSはいまNVIDIA ThrustをベースにしたParrarel STLに注力中

**,,・´∀｀・,,）っ-○○○** · 2016/02/26(金) 00:00:42.44

Pallarel STLね

**デフォルトの名無しさん** · 2016/02/26(金) 00:04:42.12

>>693
NVはC++AMPとか言うより倍精度をボリュームゾーンから外しにかかってるな
Pascalには全く期待できんよ
IBMの場合は大口契約だから安く調達するだろうけど、それだけ
いずれGPGPU用（テスラ）は値段を上げざるを得ないだろうなあ

**デフォルトの名無しさん** · 2016/02/26(金) 00:18:06.49

それなら死んでないでしょう。
スラストがCUDA用のライブラリと同様に
C++AMPで使うためのものだろうから。

**,,・´∀｀・,,）っ-○○○** · 2016/02/26(金) 00:46:50.10

Pallarel STLのバックエンドはC++AMPに限らずOpenACCやOpenMP(4.0), TBBでもいい
NVIDIAが推してるのはOpenACC, IntelはOpenMP

**デフォルトの名無しさん** · 2016/02/26(金) 00:49:09.70

>>692
俺3dfxを知らないからググッタよ。イカスミ、かなりの歳なひとなんだな

C++AMPを使っている奴どれぐらいいるんだ？

**デフォルトの名無しさん** · 2016/02/26(金) 01:09:31.01

>>702
ミス指摘してさらにひどくミスすんなって

**,,・´∀｀・,,）っ-○○○** · 2016/02/26(金) 01:13:08.03

parallelサーセンｗｗｗｗｗ

**デフォルトの名無しさん** · 2016/02/26(金) 01:36:18.43

>>703
最初の頃のテスラは円高もあり、20万位だったが、いまじゃ80万くらいになってもうた。まあA30とかは120万くらいしたんだけど。

**デフォルトの名無しさん** · 2016/02/26(金) 01:38:37.56

>>705
そうだOpenACCだ。勘違いしてたよ。
C++AMPではなかった。
MSだけだとC++AMPはきびしいだろうね。
まだOpenACCのほうがめはあると思う

**デフォルトの名無しさん** · 2016/02/26(金) 01:42:47.55

>>709
その頃とくらべると開発環境がかくだんに良くなってる。
HWのコストだけでなく、そういうの含んでの価格だろうね。

**デフォルトの名無しさん** · 2016/02/26(金) 03:40:06.50

>>690
後半はまったくその通りだな団子
どこかで調べた用語を使うが、意味を良く分からずに使うからおかしな日本語になる

**デフォルトの名無しさん** · 2016/02/26(金) 05:22:49.16

nvはpgi買収してopenaccのコンパイラも力入れてるよ
doeのエクサスケールで使うのもcudaじゃなくてopenaccだし

**デフォルトの名無しさん** · 2016/02/26(金) 05:38:13.56

「,,・´∀｀・,,）っ-○○○」って鳥屋氏でしょ。
悪いけどここに同じレベルの人はいないんじゃない。

**デフォルトの名無しさん** · 2016/02/26(金) 07:10:07.81

何のレベル？

**デフォルトの名無しさん** · 2016/02/26(金) 08:03:13.43

イカスミが同レベル
どっちも要らない

**デフォルトの名無しさん** · 2016/02/26(金) 08:04:45.81

鳥屋氏ってだ～れ？

**デフォルトの名無しさん** · 2016/02/26(金) 11:35:24.33

NVの工作員
GPGPUはVLIW時代のATIGPUを持ち出してネガキャン

**デフォルトの名無しさん** · 2016/02/27(土) 13:53:00.79

鳥屋でググるとこれが出てきた
http://potato.2ch.net/test/read.cgi/software/1205766220/

**,,・´∀｀・,,）っ-○○○** · 2016/02/27(土) 19:58:40.83

俺がいてもいなくてもCUDAプログラミングの話ができない無能集団のスレ

**デフォルトの名無しさん** · 2016/02/27(土) 20:22:31.94

囲碁ソフトにディープラーニングが使われ始めてるんだが、
ＣＵＤＡ対応ソフトもそろそろ来るかもしれん。
一般人にも身近な技術になるかもね。

**,,・´∀｀・,,）っ-○○○** · 2016/02/27(土) 20:27:20.16

そのうち教えられたことだけしかコーディングできないクソPGもAIにとって代わられるんだろうな

**デフォルトの名無しさん** · 2016/02/27(土) 22:07:54.84

なるほど糞団子が嫌われるわけだ

**デフォルトの名無しさん** · 2016/02/27(土) 22:34:12.86

鳥屋ってただのサンデープログラマーだからな
知ったか決めてりゃ嫌われる

**デフォルトの名無しさん** · 2016/02/27(土) 23:58:13.35

>>724
鳥屋氏の書いたコード見たことないでしょｗ
申し訳ないけど、ここにいる人たちとは次元が違うよ。
頭が良すぎて理解されないタイプ。

**デフォルトの名無しさん** · 2016/02/28(日) 00:21:01.28

>>719
,,・´∀｀・,,）っ-○◎●
と持っている団子が違うが同じ人なのか？　

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 00:32:14.81

君はその名前欄に●入れてそのまま表示されるか試したことがあるかい？

**,,・´∀｀・,,）っ-○◎○** · 2016/02/28(日) 00:34:20.80

テスト

**デフォルトの名無しさん** · 2016/02/28(日) 00:34:46.41

むう、表示されんのう

**デフォルトの名無しさん** · 2016/02/28(日) 00:53:04.73

別人なのか？
,,・´∀｀・,,）っ-○◎●
が持っているのは焼き鳥
で
,,・´∀｀・,,）っ-○○○
が持っているのは団子
ということか

**デフォルトの名無しさん** · 2016/02/28(日) 00:58:05.10

鳥屋氏が両方つかってるの見たことあるから本人なんじゃない?

**デフォルトの名無しさん** · 2016/02/28(日) 01:03:49.87

なら、次は,,・´∀｀・,,）っ-○◎● で書き込んでくれるな

**デフォルトの名無しさん** · 2016/02/28(日) 01:06:06.88

っていうか●が名前欄に使えなくなった経緯も知らないんじゃ、鳥屋氏のことを知らなくても無理は無いね。

**デフォルトの名無しさん** · 2016/02/28(日) 01:17:52.65

>>733
俺もだが団子と言っている奴は鳥屋時代のこと知らないだろ
>>725の言うような奴ならすごいCUDAコード披露して欲しいが
でも、雑談に必死なコテの荒らしって感じだからな。
とりあえず、鳥屋時代のコードどっかにないのか?　見てみたい気がする

**デフォルトの名無しさん** · 2016/02/28(日) 01:18:45.52

糞団子がどんなコード書くか知らんけど、弾道計算の件でシドロモドロになった事実は消えんぞ
所詮その程度の知的レベル

**デフォルトの名無しさん** · 2016/02/28(日) 01:43:25.37

>>713
速度自体は生でcudaやったほうが速いらしいから
これは開発効率を優先してPGIなのかね？
あるいは現時点ではいまいちでも今後の成長を鑑みてとかさ

さすがにdod,doeでも世代ごとのコード書き換えは負担なんだろうか

**デフォルトの名無しさん** · 2016/02/28(日) 01:50:50.47

キャッシュの増量やシャッフルIA、HyperQ,DP等を全部こみこみで考えると
１コアあたりの実効性能（flaot）はfermi, keplar, maxwellと上がってると考えていいのかね？

flops/core/clockではなくてflops/coreという意味で、かつ理論値での比較ではなくていかに実測値がでるかという意味で。

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 02:02:26.76

俺は中村氏じゃねーから

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 02:05:54.35

2009年当時なら団子はやっぱり団子だったぜ？
http://www.openwall.com/john/doc/CREDITS.shtml

当時書いてたのも別に変態的でもない普通のCコードですけどね
http://download.openwall.net/pub/projects/john/contrib/bitslice-des/dango.chu.jp/

**デフォルトの名無しさん** · 2016/02/28(日) 03:07:32.07

>>738
あれ、中村氏もそのAAつかってなかったっけ?
とにかく鳥屋氏(=中村氏)はプログラミングの技術も問題に対するアプローチの仕方も異次元の存在だったな。

**デフォルトの名無しさん** · 2016/02/28(日) 09:32:39.66

やっぱり団子って複数人いるよね？
すごく詳しい話をするとおもったら、なんか急に低レベルだったり、
てにをはが変わったりする。

**デフォルトの名無しさん** · 2016/02/28(日) 09:40:16.99

たまに二人の団子が会話することもあるぞ

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 11:21:05.00

> あれ、中村氏もそのAAつかってなかったっけ?
なにそれ見たことない

**デフォルトの名無しさん** · 2016/02/28(日) 11:43:53.32

結局鳥屋が馬鹿団子の振りしてるだけかもだが、詐欺の天才は結局馬鹿より有害
NVのやる事は何でもマンセーではスレ汚しとしか言いようがない
CS機をAMDが独占したからNVは倍精度に手を出せなくなった、と言うといつも発狂
これでは冷静な議論が出来ない

**デフォルトの名無しさん** · 2016/02/28(日) 11:46:36.13

おまえはcuda関係ないんだからくるなよ
かまってちゃん

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 11:51:31.77

そっち界隈しばらくチェックしてなかったけど海外のﾊｶｰ面白いことやってるね。

ちょうどCUDAに特化した話題だ。
MaxwellのLOP3.LUT命令を使ったビット演算の高速化テクニックについて興味ある人は
一度この講演ビデオ観ておくといいと思う。
http://www.irongeek.com/i.php?page=videos/passwordscon2014/bitslice-des-with-lop3lut-steve-thomas

実際問題AVX-512のvpternlogもLOP3.LUTと引数互換なんだわ
ぶっちゃけソース置換するだけで移植可能

**デフォルトの名無しさん** · 2016/02/28(日) 12:03:43.36

>>745
鳥屋＝糞団子！テメエこそCUDAの何が分かるんだボケ！

**デフォルトの名無しさん** · 2016/02/28(日) 12:06:45.18

ハイハイお薬の時間でちゅよ

**デフォルトの名無しさん** · 2016/02/28(日) 12:18:13.04

単発のお時間がきまちゅたね～

鳥屋＝糞団子が自作板からこっちのスレの巡回時間が来たみたいｗ
本当に鳥屋が使える天才なら２ちゃん談義なんかしねえな

１０年前ならゲーム業界か、少し前なら京に関わるか
或いはアメリカでイラン向けバックドアを仕掛けるお仕事か…
どっちにしろヒマを持て余すようではお里は知れてる

**デフォルトの名無しさん** · 2016/02/28(日) 12:24:17.80

ハイハイお部屋に戻りましょうねぇ

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 12:37:00.70

https://community.amd.com/thread/197348
AMDのGPUにはLOP3.LUT相当の命令がないことにユーザーからも不満が噴出しているようです

**デフォルトの名無しさん** · 2016/02/28(日) 12:44:20.68

単発でも見事につられまちゅね～wwwww
団子＝鳥屋ちゃんピンチでちゅね～wwwwww

**デフォルトの名無しさん** · 2016/02/28(日) 12:51:25.16

ハイハイご飯時間ですよおじぃちゃん

**デフォルトの名無しさん** · 2016/02/29(月) 16:54:00.73

なんだかすごく質問しにくい流れなんですがいいですか？
バイトニックソートのプログラムを作ってみまして、
要素数512を境にGPUの方が速くなったのは良かったんですが、
要素数8192くらいからGPUの時間増加の傾きがCPUより悪化してしまって、
1048576ともなるとほとんど大差ないくらいになってしまいました。
これが普通なのか、おかしいのか、
おかしいなら原因として何がありそうか教えてほしいです。
一応可能なところはshared memory使ってますが、要素数256以降は
比較の組がとびとびになるはずなのでglobal memoryを直接読んでます。
以下、ソートを10000回繰り返した際の1回あたりの所要時間です。
要素数 CPU[s] GPU[s] CPU/GPU
2 0.00000 0.00004 0.004
4 0.00000 0.00005 0.008
8 0.00000 0.00005 0.011
16 0.00000 0.00006 0.020
32 0.00000 0.00007 0.036
64 0.00001 0.00008 0.099
128 0.00002 0.00009 0.229
256 0.00005 0.00010 0.522
512 0.00013 0.00013 1.027
1024 0.00031 0.00016 1.909
2048 0.00076 0.00025 2.975
4096 0.00179 0.00036 4.919
8192 0.00423 0.00068 6.248
16384 0.00933 0.00202 4.627
32768 0.02142 0.00637 3.363
65536 0.04903 0.01776 2.761
131072 0.10829 0.05003 2.165
262144 0.24928 0.13078 1.906
524288 0.54765 0.32437 1.688
1048576 1.22586 0.77101 1.590

**デフォルトの名無しさん** · 2016/02/29(月) 17:56:37.64

鳥屋、答えてやれよ

**,,・´∀｀・,,）っ-○○○** · 2016/02/29(月) 23:54:40.69

>>755
バードショップ氏と話しがしたいなら @chapuni に凸ってきたら？

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 00:01:36.14

バイトニックソートはキャッシュメモリで収まる範囲内の小さなデータ集合に対して有効
サイズが大きくなるとGPUのローカルメモリから外れて大幅にパフォーマンスが落ちる
CPUのほうが低レイテンシ・大容量のキャッシュ積んでる分だけ有利になるわけだ

CPUのキャッシュに収まらない量になれば再びGPUのほうが上回るはずだ
まあそのレベルに達する段階でO(n log n)のソートの検討の余地があるが

**デフォルトの名無しさん** · 2016/03/01(火) 00:02:13.26

>>754
Nvidiaならおかしいことはよくある。気にするな
GPGPUでおかしいことをさけたいなら倍精度の自慢のAMDを使う

**デフォルトの名無しさん** · 2016/03/01(火) 00:33:31.30

質問者がシェアードメモリって言ってるのにキャッシュとかいい加減なこと言ってる
シェアードメモリに言及しないなんてあり得ない
そもそもCUDA使ったことないんだろうな
やっぱ糞団子は低レベルだな

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 00:41:11.27

いったい何年前の話をしてるんだ
Fermiから階層型キャッシュ導入してるが
http://www.gdep.jp/column/view/2

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 00:46:09.76

GPUについてはどっちにも解せる「ローカルメモリ」と言い換えてる
ちゃんと読めない子は呼吸を止めて1秒あなた新鮮だけど煮魚

**デフォルトの名無しさん** · 2016/03/01(火) 12:21:21.56

>>759
結局団子を買いかぶってた奴は団子自身だろwwwwwwwwww
糞っぷりを言い触らされたくないﾁﾝｹなプライドが虚勢を張りたくなる理由なんだろう

**デフォルトの名無しさん** · 2016/03/01(火) 12:24:00.41

ケンタッキーフライドチキンがどうしたって

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 12:31:48.31

GMにマッピングされたメモリは一定の局所性があればキャッシュにマッピングされる
常識が通じないバカが勝手に自爆してるな

**754** · 2016/03/01(火) 15:10:24.97

>>757
キャッシュメモリ……
すいません、当方キャッシュについては不勉強でして、よくわかってません。
多分L1とかL2とか書いてあるやつだと思うのですが、手元の参考書が古い(6年前)もので……。
DeviceQueryだとL2 Cache Size: 524288 bytes って出るのでこれでしょうか。
Total amount of shared memory per block: 49152 bytes とか
Total number of registers available per block: 65536 とかもあります。
英語版Wikiの平均計算時間O(log(n)^2)parallel timeもよくわかってなかったりします。
log(n^2)なのか(log n)^2なのかよくわからんとです。
>>758
倍精度だと性能がうんたらとややこしかったので、単精度整数のソートなんです。
正確には同サイズの単精度整数配列2つを作り、
片方を基準にソートして、もう片方を一緒に並び替えてます。
構造体にしてもいいんですが、一緒に並び替えたほうだけが後々必要なデータでして。
最終的にはソートした結果を使って色々処理するためのプログラムなんですが、
現状だとこのソートで全体の8割くらい時間食っちゃってるんですよね。
ソートしなかったらもっと遅い(というかO(n^2)になる)ので無意味ってわけでもないんですが。

忘れてましたがGeForce GTX 760を使ってます。
以前機会があったので、別のGPU(GTX570だった気がする)でほぼ同じ計算させてみたこともあるんですが、
そっちだともっとマシでした。CPUより確実に速い、と胸を張って言えるくらい。
スペックの違いを加味しても、うちのGPUだけ下手したらCPUより遅いってのも変だなあ、と。

**デフォルトの名無しさん** · 2016/03/01(火) 15:16:26.28

たぶんfermi世代とkepler世代でのL1Dの扱われ方の違いとか？

http://news.mynavi.jp/column/architecture/335/

**デフォルトの名無しさん** · 2016/03/01(火) 20:11:04.94

要約すると団子の答えは答えになってない

**754** · 2016/03/01(火) 21:01:21.25

>>766
参照先読みました。キャッシュの話だったので自信はありませんが、
Fermi(GX570)世代のキャッシュは容量超えると(多分)通信の速いL1D等に退避されてたけど、
Kepler(GTX760)世代だと通信の遅いglobalに退避されるようになった、ってことですか？
さすがにアーキテクチャの仕様だと自分のスキルじゃ対応できません……。
>>767
答えになってないというか、私の知らない範囲の回答だったんでよくわからなかった感じです。
言ってることは766さんの参照先と多分同じなんだと思います。自信はありませんけど。

で、みなさん改善する方法はないでしょうか……。
大規模計算にウンタラ使うとカンタラがヤバいから避ける、みたいなことありませんか？
オプションにホニャララって追加すれば設定が変わる、とか(実はオプションもよくわかってない)。
大規模の時、キャッシュ代わりにあえてsharedを定義しても意味ないのかな…普通はないよな…

**デフォルトの名無しさん** · 2016/03/01(火) 22:50:15.99

また団子が知ったかぶりをかましたのか！（呆れ）

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 22:57:33.44

そもそもキャッシュはシェアードメモリの退避先ではなくグローバルメモリの一部の読み書きを高速化するためのもの
シェアードメモリに収まらないデータのソートで遅くなる問題なのでシェアードメモリは全く関係ない

アホが自爆すんなよ

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 23:00:19.76

データ全体がキャッシュに収まらない場合はキャッシュローカリティを意識した演算順序の最適化をする
これはCPUでもGPUでも理屈は変わらない

**,,・´∀｀・,,）っ-○○○** · 2016/03/02(水) 00:01:12.12

自分の答えを示さず謂れのないイチャモン付けに必死になる奴ほど
スレにとって邪魔な存在はないね

**デフォルトの名無しさん** · 2016/03/02(水) 01:05:18.36

団子はレスをまとめることを覚えて

**754** · 2016/03/02(水) 01:23:35.90

>>770-771
キャッシュローカリティって何さ…となったので、Google先生に勧められた
wikiの『参照の局所性』を読んで、ちょっとわかった気がします。
自分が作ったバイトニックソートは大規模データの場合、
各threadがほとんど毎回前回と異なる&近傍でもないメモリ参照することになるので
時間的にも空間的にも最適化ができてないみたいです。
ない知恵絞ってif文減らして実質1つにした結果がこれだよ！
あ、いや、thread単位はそうでも、warpとかblock単位で見れば近傍データなのか…？これはバンクの話か…？
実装のややこしさを飲み込めばシェアソートの方が参照の局所性は大きくしやすいのかな…？

まだよくわかってないことが1つありまして、
プログラム上では何万何十万の計算を並列に扱ったとしても、
物理的にはハード側の制限があるわけじゃないですか。
GTX760ならCUDAコア1152基なわけで、一万を並列化しても
実際には同時じゃなくて9回くらいに分けて順に処理する、みたいな。
となると、その9回で各CUDAコアは別のメモリを参照するわけなんですが、
この時前回のキャッシュって残るんでしょうか？　残らない…ですよね？
それともカーネルとしての処理が終わるまでは残るんでしょうか？
はたまたプログラムが終わるまでは念のため残しておく、とか？
キャッシュの利用自体が悪いんじゃなくて、
キャッシュにも収まらないデータ量がよくないってのはわかってるんですが、
なんかこのあたりの理解がまだ曖昧なんです。

**754** · 2016/03/02(水) 01:46:45.38

だらだら長文書いたわりに今自分の気になることからは逆に離れた気がする。
手っ取り早く要約すると、CPU↔メモリ(キャッシュ)の速度は
CUDAコア↔各種メモリの速度のどの当たりに相当するのか、でしょうか？
GPU内ならレジスタ＞shared(キャッシュ)＞globalの順で速いとかは聞きますけど、
もう一歩踏み込んで『この不等号の列に割り込ませるなら』CPUの速度はこのあたり、という指標が見つからないんですよね。
もちろん機種によって千差万別だとは思いますが、
傾向としてはこのくらいかなあ、みたいな話でもいいので教えていただけたら幸いです。
あ、もちろん>>774の質問も答えていただけると助かります。
キャッシュがよくわかってないのも確かなので。

**,,・´∀｀・,,）っ-○○○** · 2016/03/02(水) 01:48:15.90

後続の処理が走ってもデータが保持されるかどうか？
これについては実装依存としかいいようがない
なにせGPUはCPUと比べてもキャッシュの容量は小さいので
いつまでも今処理してないデータを保持し続ける理由も乏しい。

処理順序の並べ替えが可能なら、データアクセスの局所性に合わせて並べ替えることをお勧めする。

**デフォルトの名無しさん** · 2016/03/02(水) 15:13:17.26

この会話を分かりやすく噛み砕くとこういう感じか

754
GPUの並列化の最適化を教えてください

団子
シェアードメモリーガー

754
あの…ですからデータの並列化を…

団子
データアクセスの局所性ガー

754
・・・・（その並び替えが分からないんだけどなー）・・・・まあいいです

**デフォルトの名無しさん** · 2016/03/02(水) 16:29:21.57

おきゅんぱしー

**754** · 2016/03/02(水) 17:56:48.93

あっ

**デフォルトの名無しさん** · 2016/03/02(水) 18:46:16.76

>>775
うーん、速さといってもデータ転送なのかレイテンシなのかで答えようが無いね。
レイテンシに関してはコアに近いところだとCPUの方がクロックが高いから圧倒的にCPUだね。

**デフォルトの名無しさん** · 2016/03/02(水) 19:06:15.16

>>761
いやいや、CUDAユーザーならローカルメモリなんて言い方はしない
そもそもローカルではないし

SRAMはキャッシュとシェアードだけ
ボロ出しまくり糞団子

**デフォルトの名無しさん** · 2016/03/02(水) 20:08:27.14

>>776
なるほど。基本的に残ってないと考えた方がよさそうですね。
バイトニックソートは綺麗に並列化できちゃうので、並び替えは無理っぽいです。
>>778
Occupancy確認しました。ビンゴでした。4%とかなにそれクソ使えてない。
というか、よくよく確認したらsharedもまだまだ余裕があったので、
要素数256でsharedの利用を切り替えていたのを2048まで拡張しました。
8192越えたあたりで悪化し始める、という性質こそ変わりませんでしたが
sharedの恩恵を受けられる範囲が増えたおかげか悪化しつつも
約100万要素でもCPUより7倍強速くすることができました。これでOccupancyは50%。
100%にするにはsharedのサイズの設定を変えなきゃならないけどやり方わかんない…。
しかし、こんなアホみたいな理由で遅くなっていたなんて。
みなさまにはご迷惑おかけしました……。
>>780
やっぱりCPUですか。GPUの性能をフルに発揮させるには
それなりに大きい規模を並列化して誤魔化さないといけないわけですね。

**754** · 2016/03/02(水) 20:12:34.57

名前入れ忘れたりsage忘れたりしてますが>>782は754です。
IDで察してくださいすみません。

**デフォルトの名無しさん** · 2016/03/02(水) 20:36:32.21

迷アドヴァイスを見るに見兼ねたスレ住民のおかげで助かりましたとさめでたしめでたし

**デフォルトの名無しさん** · 2016/03/02(水) 21:24:19.27

>>782
シェアードをローカルとか言う奴の事は聞かないように
GPUはシェアードメモリを使ってなんぼだから

**デフォルトの名無しさん** · 2016/03/02(水) 21:47:03.61

っていうかgpgpuでソートが
そもそも間違ってるよなあ

**,,・´∀｀・,,）っ-○○○** · 2016/03/02(水) 23:53:33.06

てかFermi以降のSMはキャッシュを構成するSRAMの一部を
GMとは独立した空間のスクラッチパッドメモリとして割り当ててるだけなんだけどね
SMXが実質的なコアとみなすならシェアードメモリって別にシェアードでもなんでもないぞ

**デフォルトの名無しさん** · 2016/03/03(木) 00:02:42.09

ますます支離滅裂だな
シェアードメモリがシェアードじゃないとかCUDAの概念を全否定する発言じゃねぇか
つまりお前はCUDAの事なんか全く判ってない
ここはCUDAのスレだぞ
そろそろ出て行けや糞団子

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 00:24:01.33

まったく技術論になってないぞ
NVIDIAの用語がインチキ用語なのは今に始まったことじゃない
AMDのBulldozerのコア詐称以前からのコア数水増しやってるのがNVIDIA

命令ストリームレベルで見ればSMXが本来のコアで
CUDA Coreと呼んでるものはSIMDユニットの1エレメントにすぎない

**デフォルトの名無しさん** · 2016/03/03(木) 00:48:19.47

確かにCUDAというかNVIDIAの定義しているシェアードメモリは一般的なシェアードメモリとは違うね。どちらかというとローカルメモリといった方が正しいかもしれん。

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 01:01:39.27

同じコアだからこそメモリを介さずレジスタ上でシフト・シャッフルができる（Kepler以降）

CUDAのSIMTとは単純に32要素1024ビットのSIMDを32スレッドと読み替えてるだけ
この点はG8x世代から変わらないね

**デフォルトの名無しさん** · 2016/03/03(木) 01:48:33.97

自演会話すれば糞団子が味噌団子に変化するじゃないぞ？団子さんよお

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 07:58:21.23

自演認定しても頭がよくなりませんよ、他所者君
CUDAをちゃんと勉強してる人にはみんな知ってる事実だ

**デフォルトの名無しさん** · 2016/03/03(木) 08:43:19.76

また夜中の自演が始まったか
バレてないと思うところが糞団子だね
何度も言うがここはCUDAのスレ
僕の考えたシェアードメモリ論ならチラシの裏に書いとけ

**デフォルトの名無しさん** · 2016/03/03(木) 09:02:21.96

CUDAでいうシェアードメモリはCPUでいう一次キャッシュだし、CELLで言うところのLSだから、SMメモリとかコアメモリとかにしておけばよかったのにね。
CUDAの黎明期はGPUをスパコンって呼ぶ戦略があったから、1スレッドを一コアに見立て、共有メモリだと言っていたのかもしれないね。

**デフォルトの名無しさん** · 2016/03/03(木) 09:17:45.89

>>795
それを言うならオンチップメモリ
少なくともソフトレイヤーではキャッシュとシェアードは別物
そもそもMaxwellではデータバスも異なる
んでここはCUDAのスレだ
スペオタと糞団子は去れ

>>792
cudaDeviceSetCacheConfigは試してみたのかな？

**デフォルトの名無しさん** · 2016/03/03(木) 12:05:39.08

>>792
俺に聞かれてもなｗ
Occupancy確認してからスムースになってきたみたいだし、使わなくても順調ならそれでいいという
考えもある

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 12:34:58.87

ソフトレベルって言ってもなぁ
.cuやPTXのレベルならそうだろうがcubinレベルでみて言ってるんじゃないんだろ？

実際Sharedなんて言ってもSMX（実質上のコア）の中でしか参照できないんじゃ名前に偽りありとしか
SPMDをオレオレ用語で置き換えた概念で説明すればSharedなんだろうが物理的にはCellのSPUのLSと同じトポロジにすぎん