【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net

**デフォルトの名無しさん** · 2014/11/20(木) 23:14:46.66

このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/

**デフォルトの名無しさん** · 2016/02/28(日) 01:17:52.65

>>733
俺もだが団子と言っている奴は鳥屋時代のこと知らないだろ
>>725の言うような奴ならすごいCUDAコード披露して欲しいが
でも、雑談に必死なコテの荒らしって感じだからな。
とりあえず、鳥屋時代のコードどっかにないのか?　見てみたい気がする

**デフォルトの名無しさん** · 2016/02/28(日) 01:18:45.52

糞団子がどんなコード書くか知らんけど、弾道計算の件でシドロモドロになった事実は消えんぞ
所詮その程度の知的レベル

**デフォルトの名無しさん** · 2016/02/28(日) 01:43:25.37

>>713
速度自体は生でcudaやったほうが速いらしいから
これは開発効率を優先してPGIなのかね？
あるいは現時点ではいまいちでも今後の成長を鑑みてとかさ

さすがにdod,doeでも世代ごとのコード書き換えは負担なんだろうか

**デフォルトの名無しさん** · 2016/02/28(日) 01:50:50.47

キャッシュの増量やシャッフルIA、HyperQ,DP等を全部こみこみで考えると
１コアあたりの実効性能（flaot）はfermi, keplar, maxwellと上がってると考えていいのかね？

flops/core/clockではなくてflops/coreという意味で、かつ理論値での比較ではなくていかに実測値がでるかという意味で。

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 02:02:26.76

俺は中村氏じゃねーから

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 02:05:54.35

2009年当時なら団子はやっぱり団子だったぜ？
http://www.openwall.com/john/doc/CREDITS.shtml

当時書いてたのも別に変態的でもない普通のCコードですけどね
http://download.openwall.net/pub/projects/john/contrib/bitslice-des/dango.chu.jp/

**デフォルトの名無しさん** · 2016/02/28(日) 03:07:32.07

>>738
あれ、中村氏もそのAAつかってなかったっけ?
とにかく鳥屋氏(=中村氏)はプログラミングの技術も問題に対するアプローチの仕方も異次元の存在だったな。

**デフォルトの名無しさん** · 2016/02/28(日) 09:32:39.66

やっぱり団子って複数人いるよね？
すごく詳しい話をするとおもったら、なんか急に低レベルだったり、
てにをはが変わったりする。

**デフォルトの名無しさん** · 2016/02/28(日) 09:40:16.99

たまに二人の団子が会話することもあるぞ

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 11:21:05.00

> あれ、中村氏もそのAAつかってなかったっけ?
なにそれ見たことない

**デフォルトの名無しさん** · 2016/02/28(日) 11:43:53.32

結局鳥屋が馬鹿団子の振りしてるだけかもだが、詐欺の天才は結局馬鹿より有害
NVのやる事は何でもマンセーではスレ汚しとしか言いようがない
CS機をAMDが独占したからNVは倍精度に手を出せなくなった、と言うといつも発狂
これでは冷静な議論が出来ない

**デフォルトの名無しさん** · 2016/02/28(日) 11:46:36.13

おまえはcuda関係ないんだからくるなよ
かまってちゃん

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 11:51:31.77

そっち界隈しばらくチェックしてなかったけど海外のﾊｶｰ面白いことやってるね。

ちょうどCUDAに特化した話題だ。
MaxwellのLOP3.LUT命令を使ったビット演算の高速化テクニックについて興味ある人は
一度この講演ビデオ観ておくといいと思う。
http://www.irongeek.com/i.php?page=videos/passwordscon2014/bitslice-des-with-lop3lut-steve-thomas

実際問題AVX-512のvpternlogもLOP3.LUTと引数互換なんだわ
ぶっちゃけソース置換するだけで移植可能

**デフォルトの名無しさん** · 2016/02/28(日) 12:03:43.36

>>745
鳥屋＝糞団子！テメエこそCUDAの何が分かるんだボケ！

**デフォルトの名無しさん** · 2016/02/28(日) 12:06:45.18

ハイハイお薬の時間でちゅよ

**デフォルトの名無しさん** · 2016/02/28(日) 12:18:13.04

単発のお時間がきまちゅたね～

鳥屋＝糞団子が自作板からこっちのスレの巡回時間が来たみたいｗ
本当に鳥屋が使える天才なら２ちゃん談義なんかしねえな

１０年前ならゲーム業界か、少し前なら京に関わるか
或いはアメリカでイラン向けバックドアを仕掛けるお仕事か…
どっちにしろヒマを持て余すようではお里は知れてる

**デフォルトの名無しさん** · 2016/02/28(日) 12:24:17.80

ハイハイお部屋に戻りましょうねぇ

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 12:37:00.70

https://community.amd.com/thread/197348
AMDのGPUにはLOP3.LUT相当の命令がないことにユーザーからも不満が噴出しているようです

**デフォルトの名無しさん** · 2016/02/28(日) 12:44:20.68

単発でも見事につられまちゅね～wwwww
団子＝鳥屋ちゃんピンチでちゅね～wwwwww

**デフォルトの名無しさん** · 2016/02/28(日) 12:51:25.16

ハイハイご飯時間ですよおじぃちゃん

**デフォルトの名無しさん** · 2016/02/29(月) 16:54:00.73

なんだかすごく質問しにくい流れなんですがいいですか？
バイトニックソートのプログラムを作ってみまして、
要素数512を境にGPUの方が速くなったのは良かったんですが、
要素数8192くらいからGPUの時間増加の傾きがCPUより悪化してしまって、
1048576ともなるとほとんど大差ないくらいになってしまいました。
これが普通なのか、おかしいのか、
おかしいなら原因として何がありそうか教えてほしいです。
一応可能なところはshared memory使ってますが、要素数256以降は
比較の組がとびとびになるはずなのでglobal memoryを直接読んでます。
以下、ソートを10000回繰り返した際の1回あたりの所要時間です。
要素数 CPU[s] GPU[s] CPU/GPU
2 0.00000 0.00004 0.004
4 0.00000 0.00005 0.008
8 0.00000 0.00005 0.011
16 0.00000 0.00006 0.020
32 0.00000 0.00007 0.036
64 0.00001 0.00008 0.099
128 0.00002 0.00009 0.229
256 0.00005 0.00010 0.522
512 0.00013 0.00013 1.027
1024 0.00031 0.00016 1.909
2048 0.00076 0.00025 2.975
4096 0.00179 0.00036 4.919
8192 0.00423 0.00068 6.248
16384 0.00933 0.00202 4.627
32768 0.02142 0.00637 3.363
65536 0.04903 0.01776 2.761
131072 0.10829 0.05003 2.165
262144 0.24928 0.13078 1.906
524288 0.54765 0.32437 1.688
1048576 1.22586 0.77101 1.590

**デフォルトの名無しさん** · 2016/02/29(月) 17:56:37.64

鳥屋、答えてやれよ

**,,・´∀｀・,,）っ-○○○** · 2016/02/29(月) 23:54:40.69

>>755
バードショップ氏と話しがしたいなら @chapuni に凸ってきたら？

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 00:01:36.14

バイトニックソートはキャッシュメモリで収まる範囲内の小さなデータ集合に対して有効
サイズが大きくなるとGPUのローカルメモリから外れて大幅にパフォーマンスが落ちる
CPUのほうが低レイテンシ・大容量のキャッシュ積んでる分だけ有利になるわけだ

CPUのキャッシュに収まらない量になれば再びGPUのほうが上回るはずだ
まあそのレベルに達する段階でO(n log n)のソートの検討の余地があるが

**デフォルトの名無しさん** · 2016/03/01(火) 00:02:13.26

>>754
Nvidiaならおかしいことはよくある。気にするな
GPGPUでおかしいことをさけたいなら倍精度の自慢のAMDを使う

**デフォルトの名無しさん** · 2016/03/01(火) 00:33:31.30

質問者がシェアードメモリって言ってるのにキャッシュとかいい加減なこと言ってる
シェアードメモリに言及しないなんてあり得ない
そもそもCUDA使ったことないんだろうな
やっぱ糞団子は低レベルだな

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 00:41:11.27

いったい何年前の話をしてるんだ
Fermiから階層型キャッシュ導入してるが
http://www.gdep.jp/column/view/2

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 00:46:09.76

GPUについてはどっちにも解せる「ローカルメモリ」と言い換えてる
ちゃんと読めない子は呼吸を止めて1秒あなた新鮮だけど煮魚

**デフォルトの名無しさん** · 2016/03/01(火) 12:21:21.56

>>759
結局団子を買いかぶってた奴は団子自身だろwwwwwwwwww
糞っぷりを言い触らされたくないﾁﾝｹなプライドが虚勢を張りたくなる理由なんだろう

**デフォルトの名無しさん** · 2016/03/01(火) 12:24:00.41

ケンタッキーフライドチキンがどうしたって

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 12:31:48.31

GMにマッピングされたメモリは一定の局所性があればキャッシュにマッピングされる
常識が通じないバカが勝手に自爆してるな

**754** · 2016/03/01(火) 15:10:24.97

>>757
キャッシュメモリ……
すいません、当方キャッシュについては不勉強でして、よくわかってません。
多分L1とかL2とか書いてあるやつだと思うのですが、手元の参考書が古い(6年前)もので……。
DeviceQueryだとL2 Cache Size: 524288 bytes って出るのでこれでしょうか。
Total amount of shared memory per block: 49152 bytes とか
Total number of registers available per block: 65536 とかもあります。
英語版Wikiの平均計算時間O(log(n)^2)parallel timeもよくわかってなかったりします。
log(n^2)なのか(log n)^2なのかよくわからんとです。
>>758
倍精度だと性能がうんたらとややこしかったので、単精度整数のソートなんです。
正確には同サイズの単精度整数配列2つを作り、
片方を基準にソートして、もう片方を一緒に並び替えてます。
構造体にしてもいいんですが、一緒に並び替えたほうだけが後々必要なデータでして。
最終的にはソートした結果を使って色々処理するためのプログラムなんですが、
現状だとこのソートで全体の8割くらい時間食っちゃってるんですよね。
ソートしなかったらもっと遅い(というかO(n^2)になる)ので無意味ってわけでもないんですが。

忘れてましたがGeForce GTX 760を使ってます。
以前機会があったので、別のGPU(GTX570だった気がする)でほぼ同じ計算させてみたこともあるんですが、
そっちだともっとマシでした。CPUより確実に速い、と胸を張って言えるくらい。
スペックの違いを加味しても、うちのGPUだけ下手したらCPUより遅いってのも変だなあ、と。

**デフォルトの名無しさん** · 2016/03/01(火) 15:16:26.28

たぶんfermi世代とkepler世代でのL1Dの扱われ方の違いとか？

http://news.mynavi.jp/column/architecture/335/

**デフォルトの名無しさん** · 2016/03/01(火) 20:11:04.94

要約すると団子の答えは答えになってない

**754** · 2016/03/01(火) 21:01:21.25

>>766
参照先読みました。キャッシュの話だったので自信はありませんが、
Fermi(GX570)世代のキャッシュは容量超えると(多分)通信の速いL1D等に退避されてたけど、
Kepler(GTX760)世代だと通信の遅いglobalに退避されるようになった、ってことですか？
さすがにアーキテクチャの仕様だと自分のスキルじゃ対応できません……。
>>767
答えになってないというか、私の知らない範囲の回答だったんでよくわからなかった感じです。
言ってることは766さんの参照先と多分同じなんだと思います。自信はありませんけど。

で、みなさん改善する方法はないでしょうか……。
大規模計算にウンタラ使うとカンタラがヤバいから避ける、みたいなことありませんか？
オプションにホニャララって追加すれば設定が変わる、とか(実はオプションもよくわかってない)。
大規模の時、キャッシュ代わりにあえてsharedを定義しても意味ないのかな…普通はないよな…

**デフォルトの名無しさん** · 2016/03/01(火) 22:50:15.99

また団子が知ったかぶりをかましたのか！（呆れ）

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 22:57:33.44

そもそもキャッシュはシェアードメモリの退避先ではなくグローバルメモリの一部の読み書きを高速化するためのもの
シェアードメモリに収まらないデータのソートで遅くなる問題なのでシェアードメモリは全く関係ない

アホが自爆すんなよ

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 23:00:19.76

データ全体がキャッシュに収まらない場合はキャッシュローカリティを意識した演算順序の最適化をする
これはCPUでもGPUでも理屈は変わらない

**,,・´∀｀・,,）っ-○○○** · 2016/03/02(水) 00:01:12.12

自分の答えを示さず謂れのないイチャモン付けに必死になる奴ほど
スレにとって邪魔な存在はないね

**デフォルトの名無しさん** · 2016/03/02(水) 01:05:18.36

団子はレスをまとめることを覚えて

**754** · 2016/03/02(水) 01:23:35.90

>>770-771
キャッシュローカリティって何さ…となったので、Google先生に勧められた
wikiの『参照の局所性』を読んで、ちょっとわかった気がします。
自分が作ったバイトニックソートは大規模データの場合、
各threadがほとんど毎回前回と異なる&近傍でもないメモリ参照することになるので
時間的にも空間的にも最適化ができてないみたいです。
ない知恵絞ってif文減らして実質1つにした結果がこれだよ！
あ、いや、thread単位はそうでも、warpとかblock単位で見れば近傍データなのか…？これはバンクの話か…？
実装のややこしさを飲み込めばシェアソートの方が参照の局所性は大きくしやすいのかな…？

まだよくわかってないことが1つありまして、
プログラム上では何万何十万の計算を並列に扱ったとしても、
物理的にはハード側の制限があるわけじゃないですか。
GTX760ならCUDAコア1152基なわけで、一万を並列化しても
実際には同時じゃなくて9回くらいに分けて順に処理する、みたいな。
となると、その9回で各CUDAコアは別のメモリを参照するわけなんですが、
この時前回のキャッシュって残るんでしょうか？　残らない…ですよね？
それともカーネルとしての処理が終わるまでは残るんでしょうか？
はたまたプログラムが終わるまでは念のため残しておく、とか？
キャッシュの利用自体が悪いんじゃなくて、
キャッシュにも収まらないデータ量がよくないってのはわかってるんですが、
なんかこのあたりの理解がまだ曖昧なんです。

**754** · 2016/03/02(水) 01:46:45.38

だらだら長文書いたわりに今自分の気になることからは逆に離れた気がする。
手っ取り早く要約すると、CPU↔メモリ(キャッシュ)の速度は
CUDAコア↔各種メモリの速度のどの当たりに相当するのか、でしょうか？
GPU内ならレジスタ＞shared(キャッシュ)＞globalの順で速いとかは聞きますけど、
もう一歩踏み込んで『この不等号の列に割り込ませるなら』CPUの速度はこのあたり、という指標が見つからないんですよね。
もちろん機種によって千差万別だとは思いますが、
傾向としてはこのくらいかなあ、みたいな話でもいいので教えていただけたら幸いです。
あ、もちろん>>774の質問も答えていただけると助かります。
キャッシュがよくわかってないのも確かなので。

**,,・´∀｀・,,）っ-○○○** · 2016/03/02(水) 01:48:15.90

後続の処理が走ってもデータが保持されるかどうか？
これについては実装依存としかいいようがない
なにせGPUはCPUと比べてもキャッシュの容量は小さいので
いつまでも今処理してないデータを保持し続ける理由も乏しい。

処理順序の並べ替えが可能なら、データアクセスの局所性に合わせて並べ替えることをお勧めする。

**デフォルトの名無しさん** · 2016/03/02(水) 15:13:17.26

この会話を分かりやすく噛み砕くとこういう感じか

754
GPUの並列化の最適化を教えてください

団子
シェアードメモリーガー

754
あの…ですからデータの並列化を…

団子
データアクセスの局所性ガー

754
・・・・（その並び替えが分からないんだけどなー）・・・・まあいいです

**デフォルトの名無しさん** · 2016/03/02(水) 16:29:21.57

おきゅんぱしー

**754** · 2016/03/02(水) 17:56:48.93

あっ

**デフォルトの名無しさん** · 2016/03/02(水) 18:46:16.76

>>775
うーん、速さといってもデータ転送なのかレイテンシなのかで答えようが無いね。
レイテンシに関してはコアに近いところだとCPUの方がクロックが高いから圧倒的にCPUだね。

**デフォルトの名無しさん** · 2016/03/02(水) 19:06:15.16

>>761
いやいや、CUDAユーザーならローカルメモリなんて言い方はしない
そもそもローカルではないし

SRAMはキャッシュとシェアードだけ
ボロ出しまくり糞団子

**デフォルトの名無しさん** · 2016/03/02(水) 20:08:27.14

>>776
なるほど。基本的に残ってないと考えた方がよさそうですね。
バイトニックソートは綺麗に並列化できちゃうので、並び替えは無理っぽいです。
>>778
Occupancy確認しました。ビンゴでした。4%とかなにそれクソ使えてない。
というか、よくよく確認したらsharedもまだまだ余裕があったので、
要素数256でsharedの利用を切り替えていたのを2048まで拡張しました。
8192越えたあたりで悪化し始める、という性質こそ変わりませんでしたが
sharedの恩恵を受けられる範囲が増えたおかげか悪化しつつも
約100万要素でもCPUより7倍強速くすることができました。これでOccupancyは50%。
100%にするにはsharedのサイズの設定を変えなきゃならないけどやり方わかんない…。
しかし、こんなアホみたいな理由で遅くなっていたなんて。
みなさまにはご迷惑おかけしました……。
>>780
やっぱりCPUですか。GPUの性能をフルに発揮させるには
それなりに大きい規模を並列化して誤魔化さないといけないわけですね。

**754** · 2016/03/02(水) 20:12:34.57

名前入れ忘れたりsage忘れたりしてますが>>782は754です。
IDで察してくださいすみません。

**デフォルトの名無しさん** · 2016/03/02(水) 20:36:32.21

迷アドヴァイスを見るに見兼ねたスレ住民のおかげで助かりましたとさめでたしめでたし

**デフォルトの名無しさん** · 2016/03/02(水) 21:24:19.27

>>782
シェアードをローカルとか言う奴の事は聞かないように
GPUはシェアードメモリを使ってなんぼだから

**デフォルトの名無しさん** · 2016/03/02(水) 21:47:03.61

っていうかgpgpuでソートが
そもそも間違ってるよなあ

**,,・´∀｀・,,）っ-○○○** · 2016/03/02(水) 23:53:33.06

てかFermi以降のSMはキャッシュを構成するSRAMの一部を
GMとは独立した空間のスクラッチパッドメモリとして割り当ててるだけなんだけどね
SMXが実質的なコアとみなすならシェアードメモリって別にシェアードでもなんでもないぞ

**デフォルトの名無しさん** · 2016/03/03(木) 00:02:42.09

ますます支離滅裂だな
シェアードメモリがシェアードじゃないとかCUDAの概念を全否定する発言じゃねぇか
つまりお前はCUDAの事なんか全く判ってない
ここはCUDAのスレだぞ
そろそろ出て行けや糞団子

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 00:24:01.33

まったく技術論になってないぞ
NVIDIAの用語がインチキ用語なのは今に始まったことじゃない
AMDのBulldozerのコア詐称以前からのコア数水増しやってるのがNVIDIA

命令ストリームレベルで見ればSMXが本来のコアで
CUDA Coreと呼んでるものはSIMDユニットの1エレメントにすぎない

**デフォルトの名無しさん** · 2016/03/03(木) 00:48:19.47

確かにCUDAというかNVIDIAの定義しているシェアードメモリは一般的なシェアードメモリとは違うね。どちらかというとローカルメモリといった方が正しいかもしれん。

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 01:01:39.27

同じコアだからこそメモリを介さずレジスタ上でシフト・シャッフルができる（Kepler以降）

CUDAのSIMTとは単純に32要素1024ビットのSIMDを32スレッドと読み替えてるだけ
この点はG8x世代から変わらないね

**デフォルトの名無しさん** · 2016/03/03(木) 01:48:33.97

自演会話すれば糞団子が味噌団子に変化するじゃないぞ？団子さんよお

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 07:58:21.23

自演認定しても頭がよくなりませんよ、他所者君
CUDAをちゃんと勉強してる人にはみんな知ってる事実だ

**デフォルトの名無しさん** · 2016/03/03(木) 08:43:19.76

また夜中の自演が始まったか
バレてないと思うところが糞団子だね
何度も言うがここはCUDAのスレ
僕の考えたシェアードメモリ論ならチラシの裏に書いとけ

**デフォルトの名無しさん** · 2016/03/03(木) 09:02:21.96

CUDAでいうシェアードメモリはCPUでいう一次キャッシュだし、CELLで言うところのLSだから、SMメモリとかコアメモリとかにしておけばよかったのにね。
CUDAの黎明期はGPUをスパコンって呼ぶ戦略があったから、1スレッドを一コアに見立て、共有メモリだと言っていたのかもしれないね。

**デフォルトの名無しさん** · 2016/03/03(木) 09:17:45.89

>>795
それを言うならオンチップメモリ
少なくともソフトレイヤーではキャッシュとシェアードは別物
そもそもMaxwellではデータバスも異なる
んでここはCUDAのスレだ
スペオタと糞団子は去れ

>>792
cudaDeviceSetCacheConfigは試してみたのかな？

**デフォルトの名無しさん** · 2016/03/03(木) 12:05:39.08

>>792
俺に聞かれてもなｗ
Occupancy確認してからスムースになってきたみたいだし、使わなくても順調ならそれでいいという
考えもある

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 12:34:58.87

ソフトレベルって言ってもなぁ
.cuやPTXのレベルならそうだろうがcubinレベルでみて言ってるんじゃないんだろ？

実際Sharedなんて言ってもSMX（実質上のコア）の中でしか参照できないんじゃ名前に偽りありとしか
SPMDをオレオレ用語で置き換えた概念で説明すればSharedなんだろうが物理的にはCellのSPUのLSと同じトポロジにすぎん

**デフォルトの名無しさん** · 2016/03/03(木) 14:52:54.35

逆に複数のsmx間で共有されてたら
くそ遅いだろう
ローカルだから他のsmx気にしなくていいわけで

**デフォルトの名無しさん** · 2016/03/03(木) 14:54:11.01

>>798
相変わらず頓珍漢なこと言ってるな
お前がどう思うかは全く興味がないから
ここはCUDAスレだ
CUDA使った事ない糞団子は去れ

**754** · 2016/03/03(木) 14:57:08.65

>>796
CUDA_Occupancy_Calculator.xlsで確認してたんですが、
CC3.0だと48kb/16kbと16kb/48kbの他に32kb/32kbがあるっぽくて、
32kbなら100%になる、みたいな謎結果が出てたんです。
で、うちの古い参考書にはその設定のやり方が載ってなかったんです。
だけどそのあと.xlsファイルを開き直したらなぜが100%になってました。
なんでやねん。

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 15:08:31.08

>>800
お前がCUDA使ったことないゴミだと自己紹介してることはわかったよ
俺は初代の8系から触ってるんだがな
墓穴ほり過ぎ

**デフォルトの名無しさん** · 2016/03/03(木) 17:12:24.19

また低脳の団子が自演かよ!?
いい加減にして欲しい
コイツがいるとスレが腐るんだけど（怒）

**デフォルトの名無しさん** · 2016/03/03(木) 19:52:45.84

>>802
初代から使ってそのレベルならお前には向いてないからもう諦めろ
結局質問者には何ひとつ有益な情報を与えられない低レベル糞団子

**デフォルトの名無しさん** · 2016/03/03(木) 20:01:58.72

>>801 （>>754）
ああいう大人（団子）みたいになったらだめですよ（笑い

**デフォルトの名無しさん** · 2016/03/03(木) 20:19:52.39

団子ちゃんは詳しいと思う。

**デフォルトの名無しさん** · 2016/03/03(木) 20:29:28.69

文句言うだけの奴より団子のほうがこのスレの役に立っている。

**デフォルトの名無しさん** · 2016/03/03(木) 21:01:42.18

　　　　　　　　　　　　　　　【親米涙目】　★　　　ロシアがアメリカを一発ＫＯ　　　★　【反中逃亡】

　　宇宙人側からの申し入れは、とにかく核の利用と戦争をやめなさい、もう一つは宇宙人の存在を公表しなさい。
　つけ足したのが、６０年の猶予を与えましよう、２０１４年には発表しなければならなかったんですね、宇宙人の存在を。
　　　　　ロシアという大国の首相がね、あれは冗談だよでは済まないですね、しかも２回も言ってるんだからね。
　　　　　　　　　　　　　　　　　　　　　https://www.youtube.com/watch?v=FIRXKetUkq8

　　　　　　　　　　　【親米屈辱】　★　　　宇宙人いない派のおバカさん残念ｗｗｗ　　　★　【反中赤面】

　　　　　　NASAは、UFOに対して長年取ってきた態度のために、無用な組織とされることを恐れています。
　　　　　　　　　　　　　　　　　マイトレーヤが公に現れるにつれて、UFOが姿を表すでしょう。
世界平和の脅威は、イスラエル、イラン、アメリカです。イスラエルの役割は跪いて、パレスチナに許しを請うことです。
　　　　　　　　　　　　　　　　アメリカによる他国の虐待に反対の声を上げなければなりません。
　　　　彼らは今世紀（21世紀）をこの帝国が出来上がるアメリカの世紀と呼ぶ。しかし、そうはならないだろう。
　　彼らが世界中に‘民主的’制度を確立したいという衝動をコントロールするのは、マイトレーヤの任務である。
Q 経済崩壊が2015年から、テレパシー世界演説が2017年の初めなら、2016年に大戦でしょうか。A 大戦は起こりません。

　　　【親米命乞い】　★　　　マイトレーヤのテレパシーによる世界演説は英国ＢＢＣが放送　　　★　【反中土下座】
　　　　　　　　　　　　　　　　　　　　　https://www.youtube.com/watch?v=6cOvo6n7NOk

　　　　　　　　　　　　　　　　マイトレーヤが世界に向かって話をする準備は良好に進行している。
　　25分か35分くらいかもしれませんが、歴史上で初めて、世界的規模のテレパシーによる接触が起こるのです。
　　テレビ中継はこの出来事のために存在するのであり、この時、初めてご自身の本当の身分を明らかにされます。

**デフォルトの名無しさん** · 2016/03/03(木) 21:02:13.41

はい、単発来ましたw

糞団子のどこが有益なんだ？
シェアードメモリの割り当て変更にも答えられずに、ローカルメモリとか嘘の情報垂れ流してる奴だぞ？
まともなCUDAユーザーならローカルメモリとシェアードメモリが別物なんて事は常識以前の問題だ
糞団子の自論なんか誰も聞きたくない
嫌われ者の糞団子は去れ！

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 22:03:27.41

他人のレスで我が物顔してるだけじゃん
無益な厨房だな

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 22:12:39.51

つーか自称シェアードメモリが実質的なLocalStorageでしかないことは知っておかないとハマる事例もあるんだけどね
SIMTはAVXユニットを8コア、Xeon Phiの1コアを16コアって読み替えるトンデモ抽象化

**デフォルトの名無しさん** · 2016/03/03(木) 22:33:11.46

自演するな！糞団子

**,,・´∀｀・,,）っ-○○○** · 2016/03/03(木) 22:34:50.71

別に何も間違ったことは書いてないんだが理解できないバカがいる

**デフォルトの名無しさん** · 2016/03/03(木) 22:51:35.86

シェアードメモリをローカルメモリとか言う嘘を垂れ流してる事はスルーなんだな
簡単な初期化関数すらアドバイス出来ない低レベル糞団子

ちなみにシェアードメモリは自称でもなんでもなく公式な名称だ
気に入らないなら自分で会社起こして俺の考えた最強のGPUでも作ればいいさ
まぁ、お前のレベルじゃディスクリートすら無理な事は明らかだがな
早く去れよ糞団子

**デフォルトの名無しさん** · 2016/03/03(木) 22:52:03.02

さっき、Anacondaの最新バージョンである2.5.0(64-bit　python3.5.1)を入れたの
だけど、それにコマンドプロンプトがデフォルトで入っていないので、pip installが
出来なくて困っています。ipythonやインタラクティヴシェルは入っています。

前のAnacondaのバージョン(python2.7で使っている)であれば、ipythonや
対話シェルからq()やquit()で、普通に、コマンドプロンプトに戻れて、そこから
pip installなどが出来たのになぜなのでしょうか。

普段使っているコマンドプロンプトはpython2.7用になっているので、そこから
python3.5.1用のpip installも出来ません。コマンドプロンプトをpythonのヴァージョン
ごとに切り替えることができるのかもしれないけど、その方法も分かりません。

どなたか、知っている人がいたら教えて下さい。
よろしくお願いします。m(__)m

**デフォルトの名無しさん** · 2016/03/03(木) 23:25:12.80

>>815
恐ろしくスレ違いなんだけど
python2系と3系を共存させるならパスを適切に設定しないとダメだよ
詳しくはググってくれ

取り敢えずコマンドプロンプトでpyって打ってからpipしてみたら？

**デフォルトの名無しさん** · 2016/03/03(木) 23:27:56.45

>>809
どう違うの？

**デフォルトの名無しさん** · 2016/03/03(木) 23:45:09.31

>>817
なぜググらない？
http://www.gdep.jp/page/view/252

**デフォルトの名無しさん** · 2016/03/04(金) 00:05:36.72

ha?

**デフォルトの名無しさん** · 2016/03/04(金) 00:13:03.67

>>816
パスは、最新のAnacondaをインストールする時に、パスを自動設定するなら
チェックを入れよという欄があって、チェックを入れてインストールを終了
すると、新しい環境設定が入っています。

念のためシステムで環境設定でパスをチェックしたけど、Anaconda3で、
新しいのが入っている。Anacondaは、3ヴァージョン使っている
のだけど、新しくなるほど使いにくくなっている感じですね。

q()でコマンドプロンプトに戻れると>>815で書いたのは、間違えだった。
それは、R言語のやり方だった。

**デフォルトの名無しさん** · 2016/03/04(金) 00:16:41.20

nv用語だとローカルにないものが
ローカルメモリなんだなこりゃややこしい

**デフォルトの名無しさん** · 2016/03/04(金) 00:25:56.51

今更の問題だけど、pythonはやはり、2系と3系の互換・移植性が
悪いのが問題かな。今日買った、

基礎 Python (IMPRESS KISO SERIES) 単行本（ソフトカバー） – 2016/3/4

大津真 (著)

ttp://www.amazon.co.jp/%E5%9F%BA%E7%A4%8E-Python-%E5%A4%A7%E6%B4%A5-%E7%9C%9F/dp/484438015X

が、3系で、ちょっと変わった雰囲気のコードの使い方があったので、面白いの
だけど、2系と併用だと>>815みたいになって、pip　installも出来ないし、
ipythonでしか、3系が使えないのが困りもの。2系で使える3系のものも
あるけれど…。

2系を全部消せば3系を使えるのは分かっているのだけど、2系の方が
出来ることがまだまだ多い感じがするからね。まだ2系が多数派でしょ。

あ、仮想環境ヴァージョンを切り替えてやればいいのかな。

**デフォルトの名無しさん** · 2016/03/04(金) 00:38:24.47

あ、pythonのクダスレだと、勘違いしてました。
失礼いたしました。

**デフォルトの名無しさん** · 2016/03/04(金) 00:40:30.37

>>821
何を今更
だからこそ嘘を垂れ流す糞団子はここから去れよ

**,,・´∀｀・,,）っ-○○○** · 2016/03/04(金) 01:07:12.95

ウソ扱いしてるお前が自覚のないウソつきなんだけど

**,,・´∀｀・,,）っ-○○○** · 2016/03/04(金) 01:15:03.88

>>821
もっとも、スピルされたレジスタのデータが真っ先に格納されるのはGDDR*ではなく
キャッシュだけどな
なぜならキャッシュはDRAMの読み書きを高速化するためにあるから

**デフォルトの名無しさん** · 2016/03/04(金) 02:24:38.67

自覚のない荒らし
それが団子の糞風味クオリティ

**デフォルトの名無しさん** · 2016/03/04(金) 07:49:00.48

>>825
何が嘘なのか具体的に示せよ
俺は具体的に示したろ
糞団子は去れ

**デフォルトの名無しさん** · 2016/03/04(金) 07:50:34.02

>>826
＞なぜならキャッシュはDRAMの読み書きを高速化するためにあるから
そんなパソコン教室の初日に教わる様な内容を語るスレじゃねぇよ
糞団子は去れ！

**デフォルトの名無しさん** · 2016/03/04(金) 08:15:25.08

匿名で俺って言い張られてもｗ

**デフォルトの名無しさん** · 2016/03/04(金) 09:40:06.12

>>830
流れが読めないなら黙ってればいいのに

**デフォルトの名無しさん** · 2016/03/04(金) 09:48:28.02

Talk me.

**デフォルトの名無しさん** · 2016/03/04(金) 10:12:42.01

オレオレ、俺だよ俺
俺だよ

かまってよ

ってかｗ