【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net

**デフォルトの名無しさん** · 2014/11/20(木) 23:14:46.66

このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/

**デフォルトの名無しさん** · 2016/02/24(水) 12:31:29.64

倍精度の行方なら団子がソース付きで書いたけどね
結局NVIDIAがHPCから撤退なんてのは出鱈目な言いがかりと

**デフォルトの名無しさん** · 2016/02/24(水) 12:47:40.23

ほれ

NVIDIA Pascal based GP100 GPU to boast of 12TFLOPS SP & 4 TFLOPS DP performance
http://vr-zone.com/articles/nvidia-pascal-based-gp100-gpu-boast-12tflops-sp-4-tflops-dp-performance/106203.html

そらあんだけのシェアとエンプラ向けの大躍進あればコンシューマ向けとHPC向けで
それぞれに合わせた演算ユニット構成のカスタマイズ費用くらい捻出できるだろう

そしてここはAMDについて語るスレでもNVIDIAをネガキャンするスレでもない
誰が場所をわきまえていないのか自覚したら？

**デフォルトの名無しさん** · 2016/02/24(水) 12:47:59.45

>>665
おいおい糞団子と一緒にするなよ
ここはCUDAスレだぞ
倍精度の行方とかどうでもよろしい
お前自分が糞団子レベルになってる事に気付けよ

**デフォルトの名無しさん** · 2016/02/24(水) 12:58:31.02

浮動小数点数の精度なんて
コード組む側からすればどれも一緒だよ
倍精度だと収束するが
単精度だと発散するとか
それ単にコードの質が悪いだけだしね
何がそんなに気になるのかわからん

**デフォルトの名無しさん** · 2016/02/24(水) 13:10:46.14

>>669
えっ？？？

**デフォルトの名無しさん** · 2016/02/24(水) 13:17:56.21

FireProがHPC向けでまったといっていいほど使われないのは
分岐粒度が荒過ぎて実効でスペックの半分も出ないとか
特定用途向けの商用ライブラリが用意されてないのか
それ以前の問題としてランタイムが頻繁にクラッシュするとか
結局のところトータルの問題なんだよね

単精度特化の一般のGPUで多倍精度使う場合は遅い倍精度を使うより
単精度DFTのほうがはるかに速い

**デフォルトの名無しさん** · 2016/02/24(水) 14:12:53.97

中小企業や個人開発のプログラムにもCUDA開発の無償支援してくれる
そういう実績があるからCUDAが鉄板になってるわけで

そういうことをやったためしもなければ大赤字でやれる予算も割けないAMDに
期待できることは何一つとしてない、これが現実
うちの商品はほぼ整数しか使わないだから倍精度実数が速いかどうかなんて
微塵も関係ない

**デフォルトの名無しさん** · 2016/02/24(水) 14:34:29.38

糞団子はコテ使ってると相手してくれないから寂しくて単発コテはずし作戦に出たのか？
NVはどう考えても半精度中心のグラフィックス/深層学習中心に経営資源をシフトしてるんだがｗ

http://ascii.jp/elem/000/001/046/1046956/index-3.html
＞Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので
＞Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので
↑
大事な事だから二度言うぞ

＞つまりPK100は半精度浮動小数点をサポートするが、PK104はこれをサポートしない(あるいは回路を持たない)可能性がある。
↑
プロセスルール次第だが半精度に重心を置いていることは明白だな

**デフォルトの名無しさん** · 2016/02/24(水) 14:41:47.70

half2floatをPascalでは強化していくから、結局AMD対NVの戦いは「half2float」の描画特化対
「Async」の戦いになっていくんだろうね

**デフォルトの名無しさん** · 2016/02/24(水) 14:51:49.40

今後この馬鹿に一切かまうな
かまうから喜んで荒らし続ける

**デフォルトの名無しさん** · 2016/02/24(水) 15:33:36.04

どっかのニュースのコピペばかりで
うんざりするよ
自分の引き出しは空だと言っているようなものだ

**デフォルトの名無しさん** · 2016/02/24(水) 17:46:05.30

>>674
AMDなんか興味ない
お前は糞団子と同レベルの荒らしだ
失せろ

**デフォルトの名無しさん** · 2016/02/24(水) 17:50:58.28

一般利用でCUDAが何に使えるのか
ネタ出せよ
ゲームで使えんの？

**デフォルトの名無しさん** · 2016/02/24(水) 17:55:56.67

>>677
お前はAMDに一番興味あるだろうが糞団子！
お前が去ればこのスレは一気にクリーンになるんだよボケ
お前が一番危機感抱いてるのは倍精度をなくす方向のNVに対して非難が集中する事だけだ
だからこそお前が一番イラネーんだよ屑

**デフォルトの名無しさん** · 2016/02/24(水) 18:44:53.08

>>679
お前病院行けよw

**デフォルトの名無しさん** · 2016/02/24(水) 18:55:34.70

>>680
糞団子よヒヨッたなｗ

**デフォルトの名無しさん** · 2016/02/24(水) 21:04:29.34

>>681
お前はいったい何と戦ってるんだ？
日和ったの意味も違うしな
ここのみんなはAMDにもNVにも思い入れはないから
迷惑だから糞団子と一緒に消えてくれ

**デフォルトの名無しさん** · 2016/02/24(水) 22:15:50.14

団子よりヤバイ真性のキチガイが団子以外も団子に見えているらしい。

**デフォルトの名無しさん** · 2016/02/24(水) 22:27:56.59

団子消えろ

**デフォルトの名無しさん** · 2016/02/24(水) 22:37:00.33

>>683
ほんと真性基地だよな。日中でも必死カキコっていうのもな
この人、プログラムに関する話がでないことからして、プログラムやったことないんだろうな

**デフォルトの名無しさん** · 2016/02/24(水) 22:56:49.71

>>671
分岐粒度が荒すぎってCPUとの比較なら未だしも、NVIDIAとの比較だったら普通そんなに差は出ないぞ。
差が出るのは64のうち前半もしくは後半の32がほぼ埋まっているのに、反対の32が完全に空みたいな状況が頻発する場合だけ。

まあCUDAからのベタ移植ならあり得ないこともないのだろうが。

**デフォルトの名無しさん** · 2016/02/25(木) 08:17:21.70

プログラムの話しようぜ
そうすれば団子その他プログラム書けない人が消えるだろうから

**デフォルトの名無しさん** · 2016/02/25(木) 08:22:03.55

>>686
まあそうだな
今のnVidia32、AMD64の設定は回路効率と性能効率を考えて美味しいところなんだろうか？
ただの惰性？

**デフォルトの名無しさん** · 2016/02/25(木) 08:23:54.24

将来的に4にするっていこうだが
実行レベルでは
warpは32のままだろうけど

**デフォルトの名無しさん** · 2016/02/25(木) 13:05:41.93

>>680-683 >>685
糞団子は黙ってろ！
文句があるならコテ付けろやコラ！
テメエが鬱陶しいんじゃ、ボケ！

>>686
それも糞団子の自演だよ
NVIDIAの優位性は3dfxを買収した事で得られたソフトノウハウだな

自作板でもそうだけど、よくよく考えるとおかしな文面でごまかすのが団子
たいてい論破されるとどうでもいい専門用語を並べてイカスミ作戦に出る

**デフォルトの名無しさん** · 2016/02/25(木) 14:04:40.68

>>690
まずお前がコテつけてくれ

**デフォルトの名無しさん** · 2016/02/25(木) 14:47:28.30

不用意に3dfxとか使うと歳がばれるぞ

**デフォルトの名無しさん** · 2016/02/25(木) 17:48:12.65

>>690
あの程度の文面を理解できないほど技術に疎いのだな。

そもそも団子認定連呼廚のスタンスがよくわからん。

**デフォルトの名無しさん** · 2016/02/25(木) 18:22:40.32

好きなんだろ
恋だよ恋

**デフォルトの名無しさん** · 2016/02/25(木) 19:23:25.50

糞団子もイカスミも同レベル

**デフォルトの名無しさん** · 2016/02/25(木) 19:39:25.49

団子が消えれば平和になる

**デフォルトの名無しさん** · 2016/02/25(木) 19:52:29.05

団子既に消えてるじゃん？
イカスミが煽るから戻って来るんだよ

**デフォルトの名無しさん** · 2016/02/25(木) 20:58:58.26

誰だよイカスミって

**デフォルトの名無しさん** · 2016/02/25(木) 23:01:45.88

nvidia ってC++AMPって力いれてるの？
CUDAが主力なのはわかるんだが。

OpenMPのようにC++AMPがいいところまでいってからtoolkitにマージするつもりなのか
それともC++AMPが自然消滅するのを待っているのかわからん。

**デフォルトの名無しさん** · 2016/02/25(木) 23:56:26.32

>>698
>>690=イカスミ

**,,・´∀｀・,,）っ-○○○** · 2016/02/25(木) 23:58:06.25

C++ AMPは事実上終了したよ
MSはいまNVIDIA ThrustをベースにしたParrarel STLに注力中

**,,・´∀｀・,,）っ-○○○** · 2016/02/26(金) 00:00:42.44

Pallarel STLね

**デフォルトの名無しさん** · 2016/02/26(金) 00:04:42.12

>>693
NVはC++AMPとか言うより倍精度をボリュームゾーンから外しにかかってるな
Pascalには全く期待できんよ
IBMの場合は大口契約だから安く調達するだろうけど、それだけ
いずれGPGPU用（テスラ）は値段を上げざるを得ないだろうなあ

**デフォルトの名無しさん** · 2016/02/26(金) 00:18:06.49

それなら死んでないでしょう。
スラストがCUDA用のライブラリと同様に
C++AMPで使うためのものだろうから。

**,,・´∀｀・,,）っ-○○○** · 2016/02/26(金) 00:46:50.10

Pallarel STLのバックエンドはC++AMPに限らずOpenACCやOpenMP(4.0), TBBでもいい
NVIDIAが推してるのはOpenACC, IntelはOpenMP

**デフォルトの名無しさん** · 2016/02/26(金) 00:49:09.70

>>692
俺3dfxを知らないからググッタよ。イカスミ、かなりの歳なひとなんだな

C++AMPを使っている奴どれぐらいいるんだ？

**デフォルトの名無しさん** · 2016/02/26(金) 01:09:31.01

>>702
ミス指摘してさらにひどくミスすんなって

**,,・´∀｀・,,）っ-○○○** · 2016/02/26(金) 01:13:08.03

parallelサーセンｗｗｗｗｗ

**デフォルトの名無しさん** · 2016/02/26(金) 01:36:18.43

>>703
最初の頃のテスラは円高もあり、20万位だったが、いまじゃ80万くらいになってもうた。まあA30とかは120万くらいしたんだけど。

**デフォルトの名無しさん** · 2016/02/26(金) 01:38:37.56

>>705
そうだOpenACCだ。勘違いしてたよ。
C++AMPではなかった。
MSだけだとC++AMPはきびしいだろうね。
まだOpenACCのほうがめはあると思う

**デフォルトの名無しさん** · 2016/02/26(金) 01:42:47.55

>>709
その頃とくらべると開発環境がかくだんに良くなってる。
HWのコストだけでなく、そういうの含んでの価格だろうね。

**デフォルトの名無しさん** · 2016/02/26(金) 03:40:06.50

>>690
後半はまったくその通りだな団子
どこかで調べた用語を使うが、意味を良く分からずに使うからおかしな日本語になる

**デフォルトの名無しさん** · 2016/02/26(金) 05:22:49.16

nvはpgi買収してopenaccのコンパイラも力入れてるよ
doeのエクサスケールで使うのもcudaじゃなくてopenaccだし

**デフォルトの名無しさん** · 2016/02/26(金) 05:38:13.56

「,,・´∀｀・,,）っ-○○○」って鳥屋氏でしょ。
悪いけどここに同じレベルの人はいないんじゃない。

**デフォルトの名無しさん** · 2016/02/26(金) 07:10:07.81

何のレベル？

**デフォルトの名無しさん** · 2016/02/26(金) 08:03:13.43

イカスミが同レベル
どっちも要らない

**デフォルトの名無しさん** · 2016/02/26(金) 08:04:45.81

鳥屋氏ってだ～れ？

**デフォルトの名無しさん** · 2016/02/26(金) 11:35:24.33

NVの工作員
GPGPUはVLIW時代のATIGPUを持ち出してネガキャン

**デフォルトの名無しさん** · 2016/02/27(土) 13:53:00.79

鳥屋でググるとこれが出てきた
http://potato.2ch.net/test/read.cgi/software/1205766220/

**,,・´∀｀・,,）っ-○○○** · 2016/02/27(土) 19:58:40.83

俺がいてもいなくてもCUDAプログラミングの話ができない無能集団のスレ

**デフォルトの名無しさん** · 2016/02/27(土) 20:22:31.94

囲碁ソフトにディープラーニングが使われ始めてるんだが、
ＣＵＤＡ対応ソフトもそろそろ来るかもしれん。
一般人にも身近な技術になるかもね。

**,,・´∀｀・,,）っ-○○○** · 2016/02/27(土) 20:27:20.16

そのうち教えられたことだけしかコーディングできないクソPGもAIにとって代わられるんだろうな

**デフォルトの名無しさん** · 2016/02/27(土) 22:07:54.84

なるほど糞団子が嫌われるわけだ

**デフォルトの名無しさん** · 2016/02/27(土) 22:34:12.86

鳥屋ってただのサンデープログラマーだからな
知ったか決めてりゃ嫌われる

**デフォルトの名無しさん** · 2016/02/27(土) 23:58:13.35

>>724
鳥屋氏の書いたコード見たことないでしょｗ
申し訳ないけど、ここにいる人たちとは次元が違うよ。
頭が良すぎて理解されないタイプ。

**デフォルトの名無しさん** · 2016/02/28(日) 00:21:01.28

>>719
,,・´∀｀・,,）っ-○◎●
と持っている団子が違うが同じ人なのか？　

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 00:32:14.81

君はその名前欄に●入れてそのまま表示されるか試したことがあるかい？

**,,・´∀｀・,,）っ-○◎○** · 2016/02/28(日) 00:34:20.80

テスト

**デフォルトの名無しさん** · 2016/02/28(日) 00:34:46.41

むう、表示されんのう

**デフォルトの名無しさん** · 2016/02/28(日) 00:53:04.73

別人なのか？
,,・´∀｀・,,）っ-○◎●
が持っているのは焼き鳥
で
,,・´∀｀・,,）っ-○○○
が持っているのは団子
ということか

**デフォルトの名無しさん** · 2016/02/28(日) 00:58:05.10

鳥屋氏が両方つかってるの見たことあるから本人なんじゃない?

**デフォルトの名無しさん** · 2016/02/28(日) 01:03:49.87

なら、次は,,・´∀｀・,,）っ-○◎● で書き込んでくれるな

**デフォルトの名無しさん** · 2016/02/28(日) 01:06:06.88

っていうか●が名前欄に使えなくなった経緯も知らないんじゃ、鳥屋氏のことを知らなくても無理は無いね。

**デフォルトの名無しさん** · 2016/02/28(日) 01:17:52.65

>>733
俺もだが団子と言っている奴は鳥屋時代のこと知らないだろ
>>725の言うような奴ならすごいCUDAコード披露して欲しいが
でも、雑談に必死なコテの荒らしって感じだからな。
とりあえず、鳥屋時代のコードどっかにないのか?　見てみたい気がする

**デフォルトの名無しさん** · 2016/02/28(日) 01:18:45.52

糞団子がどんなコード書くか知らんけど、弾道計算の件でシドロモドロになった事実は消えんぞ
所詮その程度の知的レベル

**デフォルトの名無しさん** · 2016/02/28(日) 01:43:25.37

>>713
速度自体は生でcudaやったほうが速いらしいから
これは開発効率を優先してPGIなのかね？
あるいは現時点ではいまいちでも今後の成長を鑑みてとかさ

さすがにdod,doeでも世代ごとのコード書き換えは負担なんだろうか

**デフォルトの名無しさん** · 2016/02/28(日) 01:50:50.47

キャッシュの増量やシャッフルIA、HyperQ,DP等を全部こみこみで考えると
１コアあたりの実効性能（flaot）はfermi, keplar, maxwellと上がってると考えていいのかね？

flops/core/clockではなくてflops/coreという意味で、かつ理論値での比較ではなくていかに実測値がでるかという意味で。

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 02:02:26.76

俺は中村氏じゃねーから

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 02:05:54.35

2009年当時なら団子はやっぱり団子だったぜ？
http://www.openwall.com/john/doc/CREDITS.shtml

当時書いてたのも別に変態的でもない普通のCコードですけどね
http://download.openwall.net/pub/projects/john/contrib/bitslice-des/dango.chu.jp/

**デフォルトの名無しさん** · 2016/02/28(日) 03:07:32.07

>>738
あれ、中村氏もそのAAつかってなかったっけ?
とにかく鳥屋氏(=中村氏)はプログラミングの技術も問題に対するアプローチの仕方も異次元の存在だったな。

**デフォルトの名無しさん** · 2016/02/28(日) 09:32:39.66

やっぱり団子って複数人いるよね？
すごく詳しい話をするとおもったら、なんか急に低レベルだったり、
てにをはが変わったりする。

**デフォルトの名無しさん** · 2016/02/28(日) 09:40:16.99

たまに二人の団子が会話することもあるぞ

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 11:21:05.00

> あれ、中村氏もそのAAつかってなかったっけ?
なにそれ見たことない

**デフォルトの名無しさん** · 2016/02/28(日) 11:43:53.32

結局鳥屋が馬鹿団子の振りしてるだけかもだが、詐欺の天才は結局馬鹿より有害
NVのやる事は何でもマンセーではスレ汚しとしか言いようがない
CS機をAMDが独占したからNVは倍精度に手を出せなくなった、と言うといつも発狂
これでは冷静な議論が出来ない

**デフォルトの名無しさん** · 2016/02/28(日) 11:46:36.13

おまえはcuda関係ないんだからくるなよ
かまってちゃん

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 11:51:31.77

そっち界隈しばらくチェックしてなかったけど海外のﾊｶｰ面白いことやってるね。

ちょうどCUDAに特化した話題だ。
MaxwellのLOP3.LUT命令を使ったビット演算の高速化テクニックについて興味ある人は
一度この講演ビデオ観ておくといいと思う。
http://www.irongeek.com/i.php?page=videos/passwordscon2014/bitslice-des-with-lop3lut-steve-thomas

実際問題AVX-512のvpternlogもLOP3.LUTと引数互換なんだわ
ぶっちゃけソース置換するだけで移植可能

**デフォルトの名無しさん** · 2016/02/28(日) 12:03:43.36

>>745
鳥屋＝糞団子！テメエこそCUDAの何が分かるんだボケ！

**デフォルトの名無しさん** · 2016/02/28(日) 12:06:45.18

ハイハイお薬の時間でちゅよ

**デフォルトの名無しさん** · 2016/02/28(日) 12:18:13.04

単発のお時間がきまちゅたね～

鳥屋＝糞団子が自作板からこっちのスレの巡回時間が来たみたいｗ
本当に鳥屋が使える天才なら２ちゃん談義なんかしねえな

１０年前ならゲーム業界か、少し前なら京に関わるか
或いはアメリカでイラン向けバックドアを仕掛けるお仕事か…
どっちにしろヒマを持て余すようではお里は知れてる

**デフォルトの名無しさん** · 2016/02/28(日) 12:24:17.80

ハイハイお部屋に戻りましょうねぇ

**,,・´∀｀・,,）っ-○○○** · 2016/02/28(日) 12:37:00.70

https://community.amd.com/thread/197348
AMDのGPUにはLOP3.LUT相当の命令がないことにユーザーからも不満が噴出しているようです

**デフォルトの名無しさん** · 2016/02/28(日) 12:44:20.68

単発でも見事につられまちゅね～wwwww
団子＝鳥屋ちゃんピンチでちゅね～wwwwww

**デフォルトの名無しさん** · 2016/02/28(日) 12:51:25.16

ハイハイご飯時間ですよおじぃちゃん

**デフォルトの名無しさん** · 2016/02/29(月) 16:54:00.73

なんだかすごく質問しにくい流れなんですがいいですか？
バイトニックソートのプログラムを作ってみまして、
要素数512を境にGPUの方が速くなったのは良かったんですが、
要素数8192くらいからGPUの時間増加の傾きがCPUより悪化してしまって、
1048576ともなるとほとんど大差ないくらいになってしまいました。
これが普通なのか、おかしいのか、
おかしいなら原因として何がありそうか教えてほしいです。
一応可能なところはshared memory使ってますが、要素数256以降は
比較の組がとびとびになるはずなのでglobal memoryを直接読んでます。
以下、ソートを10000回繰り返した際の1回あたりの所要時間です。
要素数 CPU[s] GPU[s] CPU/GPU
2 0.00000 0.00004 0.004
4 0.00000 0.00005 0.008
8 0.00000 0.00005 0.011
16 0.00000 0.00006 0.020
32 0.00000 0.00007 0.036
64 0.00001 0.00008 0.099
128 0.00002 0.00009 0.229
256 0.00005 0.00010 0.522
512 0.00013 0.00013 1.027
1024 0.00031 0.00016 1.909
2048 0.00076 0.00025 2.975
4096 0.00179 0.00036 4.919
8192 0.00423 0.00068 6.248
16384 0.00933 0.00202 4.627
32768 0.02142 0.00637 3.363
65536 0.04903 0.01776 2.761
131072 0.10829 0.05003 2.165
262144 0.24928 0.13078 1.906
524288 0.54765 0.32437 1.688
1048576 1.22586 0.77101 1.590

**デフォルトの名無しさん** · 2016/02/29(月) 17:56:37.64

鳥屋、答えてやれよ

**,,・´∀｀・,,）っ-○○○** · 2016/02/29(月) 23:54:40.69

>>755
バードショップ氏と話しがしたいなら @chapuni に凸ってきたら？

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 00:01:36.14

バイトニックソートはキャッシュメモリで収まる範囲内の小さなデータ集合に対して有効
サイズが大きくなるとGPUのローカルメモリから外れて大幅にパフォーマンスが落ちる
CPUのほうが低レイテンシ・大容量のキャッシュ積んでる分だけ有利になるわけだ

CPUのキャッシュに収まらない量になれば再びGPUのほうが上回るはずだ
まあそのレベルに達する段階でO(n log n)のソートの検討の余地があるが

**デフォルトの名無しさん** · 2016/03/01(火) 00:02:13.26

>>754
Nvidiaならおかしいことはよくある。気にするな
GPGPUでおかしいことをさけたいなら倍精度の自慢のAMDを使う

**デフォルトの名無しさん** · 2016/03/01(火) 00:33:31.30

質問者がシェアードメモリって言ってるのにキャッシュとかいい加減なこと言ってる
シェアードメモリに言及しないなんてあり得ない
そもそもCUDA使ったことないんだろうな
やっぱ糞団子は低レベルだな

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 00:41:11.27

いったい何年前の話をしてるんだ
Fermiから階層型キャッシュ導入してるが
http://www.gdep.jp/column/view/2

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 00:46:09.76

GPUについてはどっちにも解せる「ローカルメモリ」と言い換えてる
ちゃんと読めない子は呼吸を止めて1秒あなた新鮮だけど煮魚

**デフォルトの名無しさん** · 2016/03/01(火) 12:21:21.56

>>759
結局団子を買いかぶってた奴は団子自身だろwwwwwwwwww
糞っぷりを言い触らされたくないﾁﾝｹなプライドが虚勢を張りたくなる理由なんだろう

**デフォルトの名無しさん** · 2016/03/01(火) 12:24:00.41

ケンタッキーフライドチキンがどうしたって

**,,・´∀｀・,,）っ-○○○** · 2016/03/01(火) 12:31:48.31

GMにマッピングされたメモリは一定の局所性があればキャッシュにマッピングされる
常識が通じないバカが勝手に自爆してるな

**754** · 2016/03/01(火) 15:10:24.97

>>757
キャッシュメモリ……
すいません、当方キャッシュについては不勉強でして、よくわかってません。
多分L1とかL2とか書いてあるやつだと思うのですが、手元の参考書が古い(6年前)もので……。
DeviceQueryだとL2 Cache Size: 524288 bytes って出るのでこれでしょうか。
Total amount of shared memory per block: 49152 bytes とか
Total number of registers available per block: 65536 とかもあります。
英語版Wikiの平均計算時間O(log(n)^2)parallel timeもよくわかってなかったりします。
log(n^2)なのか(log n)^2なのかよくわからんとです。
>>758
倍精度だと性能がうんたらとややこしかったので、単精度整数のソートなんです。
正確には同サイズの単精度整数配列2つを作り、
片方を基準にソートして、もう片方を一緒に並び替えてます。
構造体にしてもいいんですが、一緒に並び替えたほうだけが後々必要なデータでして。
最終的にはソートした結果を使って色々処理するためのプログラムなんですが、
現状だとこのソートで全体の8割くらい時間食っちゃってるんですよね。
ソートしなかったらもっと遅い(というかO(n^2)になる)ので無意味ってわけでもないんですが。

忘れてましたがGeForce GTX 760を使ってます。
以前機会があったので、別のGPU(GTX570だった気がする)でほぼ同じ計算させてみたこともあるんですが、
そっちだともっとマシでした。CPUより確実に速い、と胸を張って言えるくらい。
スペックの違いを加味しても、うちのGPUだけ下手したらCPUより遅いってのも変だなあ、と。