【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
2014/11/20(木) 23:14:46.66ID:jr3oZn27
このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
2016/02/24(水) 12:31:29.64ID:dk01eTkb
倍精度の行方なら団子がソース付きで書いたけどね
結局NVIDIAがHPCから撤退なんてのは出鱈目な言いがかりと
2016/02/24(水) 12:47:40.23ID:dk01eTkb
ほれ

NVIDIA Pascal based GP100 GPU to boast of 12TFLOPS SP & 4 TFLOPS DP performance
http://vr-zone.com/articles/nvidia-pascal-based-gp100-gpu-boast-12tflops-sp-4-tflops-dp-performance/106203.html

そらあんだけのシェアとエンプラ向けの大躍進あればコンシューマ向けとHPC向けで
それぞれに合わせた演算ユニット構成のカスタマイズ費用くらい捻出できるだろう

そしてここはAMDについて語るスレでもNVIDIAをネガキャンするスレでもない
誰が場所をわきまえていないのか自覚したら?
2016/02/24(水) 12:47:59.45ID:jB1Q2gHg
>>665
おいおい糞団子と一緒にするなよ
ここはCUDAスレだぞ
倍精度の行方とかどうでもよろしい
お前自分が糞団子レベルになってる事に気付けよ
2016/02/24(水) 12:58:31.02ID:jXa1RnbL
浮動小数点数の精度なんて
コード組む側からすればどれも一緒だよ
倍精度だと収束するが
単精度だと発散するとか
それ単にコードの質が悪いだけだしね
何がそんなに気になるのかわからん
2016/02/24(水) 13:10:46.14ID:kxdU4ZHF
>>669
えっ???
2016/02/24(水) 13:17:56.21ID:dk01eTkb
FireProがHPC向けでまったといっていいほど使われないのは
分岐粒度が荒過ぎて実効でスペックの半分も出ないとか
特定用途向けの商用ライブラリが用意されてないのか
それ以前の問題としてランタイムが頻繁にクラッシュするとか
結局のところトータルの問題なんだよね

単精度特化の一般のGPUで多倍精度使う場合は遅い倍精度を使うより
単精度DFTのほうがはるかに速い
2016/02/24(水) 14:12:53.97ID:s8sb75Sy
中小企業や個人開発のプログラムにもCUDA開発の無償支援してくれる
そういう実績があるからCUDAが鉄板になってるわけで

そういうことをやったためしもなければ大赤字でやれる予算も割けないAMDに
期待できることは何一つとしてない、これが現実
うちの商品はほぼ整数しか使わないだから倍精度実数が速いかどうかなんて
微塵も関係ない
2016/02/24(水) 14:34:29.38ID:Ad4bERAY
糞団子はコテ使ってると相手してくれないから寂しくて単発コテはずし作戦に出たのか?
NVはどう考えても半精度中心のグラフィックス/深層学習中心に経営資源をシフトしてるんだがw


http://ascii.jp/elem/000/001/046/1046956/index-3.html
>Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので
>Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので

大事な事だから二度言うぞ

>つまりPK100は半精度浮動小数点をサポートするが、PK104はこれをサポートしない(あるいは回路を持たない)可能性がある。

プロセスルール次第だが半精度に重心を置いていることは明白だな
2016/02/24(水) 14:41:47.70ID:Ad4bERAY
half2floatをPascalでは強化していくから、結局AMD対NVの戦いは「half2float」の描画特化対
「Async」の戦いになっていくんだろうね
675デフォルトの名無しさん
垢版 |
2016/02/24(水) 14:51:49.40ID:NAMaIKUn
今後この馬鹿に一切かまうな
かまうから喜んで荒らし続ける
2016/02/24(水) 15:33:36.04ID:jXa1RnbL
どっかのニュースのコピペばかりで
うんざりするよ
自分の引き出しは空だと言っているようなものだ
2016/02/24(水) 17:46:05.30ID:l0DrHc2T
>>674
AMDなんか興味ない
お前は糞団子と同レベルの荒らしだ
失せろ
2016/02/24(水) 17:50:58.28ID:jXa1RnbL
一般利用でCUDAが何に使えるのか
ネタ出せよ
ゲームで使えんの?
2016/02/24(水) 17:55:56.67ID:Ad4bERAY
>>677
お前はAMDに一番興味あるだろうが糞団子!
お前が去ればこのスレは一気にクリーンになるんだよボケ
お前が一番危機感抱いてるのは倍精度をなくす方向のNVに対して非難が集中する事だけだ
だからこそお前が一番イラネーんだよ屑
2016/02/24(水) 18:44:53.08ID:l0DrHc2T
>>679
お前病院行けよw
2016/02/24(水) 18:55:34.70ID:Ad4bERAY
>>680
糞団子よヒヨッたなw
2016/02/24(水) 21:04:29.34ID:Nmttufaz
>>681
お前はいったい何と戦ってるんだ?
日和ったの意味も違うしな
ここのみんなはAMDにもNVにも思い入れはないから
迷惑だから糞団子と一緒に消えてくれ
2016/02/24(水) 22:15:50.14ID:teBWCRhn
団子よりヤバイ真性のキチガイが団子以外も団子に見えているらしい。
2016/02/24(水) 22:27:56.59ID:zahm20jW
団子消えろ
2016/02/24(水) 22:37:00.33ID:l5BeTFuC
>>683
ほんと真性基地だよな。日中でも必死カキコっていうのもな
この人、プログラムに関する話がでないことからして、プログラムやったことないんだろうな
2016/02/24(水) 22:56:49.71ID:teBWCRhn
>>671
分岐粒度が荒すぎってCPUとの比較なら未だしも、NVIDIAとの比較だったら普通そんなに差は出ないぞ。
差が出るのは64のうち前半もしくは後半の32がほぼ埋まっているのに、反対の32が完全に空みたいな状況が頻発する場合だけ。

まあCUDAからのベタ移植ならあり得ないこともないのだろうが。
2016/02/25(木) 08:17:21.70ID:qdgy2oNb
プログラムの話しようぜ
そうすれば団子その他プログラム書けない人が消えるだろうから
2016/02/25(木) 08:22:03.55ID:qdgy2oNb
>>686
まあそうだな
今のnVidia32、AMD64の設定は回路効率と性能効率を考えて美味しいところなんだろうか?
ただの惰性?
2016/02/25(木) 08:23:54.24ID:YDhqTq2/
将来的に4にするっていこうだが
実行レベルでは
warpは32のままだろうけど
2016/02/25(木) 13:05:41.93ID:FCdE8jm8
>>680-683 >>685
糞団子は黙ってろ!
文句があるならコテ付けろやコラ!
テメエが鬱陶しいんじゃ、ボケ!

>>686
それも糞団子の自演だよ
NVIDIAの優位性は3dfxを買収した事で得られたソフトノウハウだな

自作板でもそうだけど、よくよく考えるとおかしな文面でごまかすのが団子
たいてい論破されるとどうでもいい専門用語を並べてイカスミ作戦に出る
2016/02/25(木) 14:04:40.68ID:Sn2492Ux
>>690
まずお前がコテつけてくれ
2016/02/25(木) 14:47:28.30ID:Ey2CZbRS
不用意に3dfxとか使うと歳がばれるぞ
2016/02/25(木) 17:48:12.65ID:8lu6Pire
>>690
あの程度の文面を理解できないほど技術に疎いのだな。

そもそも団子認定連呼廚のスタンスがよくわからん。
2016/02/25(木) 18:22:40.32ID:Ey2CZbRS
好きなんだろ
恋だよ恋
2016/02/25(木) 19:23:25.50ID:JdxelD2D
糞団子もイカスミも同レベル
2016/02/25(木) 19:39:25.49ID:tc7lGvfi
団子が消えれば平和になる
2016/02/25(木) 19:52:29.05ID:JdxelD2D
団子既に消えてるじゃん?
イカスミが煽るから戻って来るんだよ
2016/02/25(木) 20:58:58.26ID:qdgy2oNb
誰だよイカスミって
2016/02/25(木) 23:01:45.88ID:OUVaT1r5
nvidia ってC++AMPって力いれてるの?
CUDAが主力なのはわかるんだが。

OpenMPのようにC++AMPがいいところまでいってからtoolkitにマージするつもりなのか
それともC++AMPが自然消滅するのを待っているのかわからん。
2016/02/25(木) 23:56:26.32ID:y8R9vLq2
>>698
>>690=イカスミ
2016/02/25(木) 23:58:06.25ID:VFYZCeUD
C++ AMPは事実上終了したよ
MSはいまNVIDIA ThrustをベースにしたParrarel STLに注力中
2016/02/26(金) 00:00:42.44ID:au4AtN7W
Pallarel STLね
2016/02/26(金) 00:04:42.12ID:sfGjrhZB
>>693
NVはC++AMPとか言うより倍精度をボリュームゾーンから外しにかかってるな
Pascalには全く期待できんよ
IBMの場合は大口契約だから安く調達するだろうけど、それだけ
いずれGPGPU用(テスラ)は値段を上げざるを得ないだろうなあ
2016/02/26(金) 00:18:06.49ID:XrDeqd+8
それなら死んでないでしょう。
スラストがCUDA用のライブラリと同様に
C++AMPで使うためのものだろうから。
2016/02/26(金) 00:46:50.10ID:au4AtN7W
Pallarel STLのバックエンドはC++AMPに限らずOpenACCやOpenMP(4.0), TBBでもいい
NVIDIAが推してるのはOpenACC, IntelはOpenMP
2016/02/26(金) 00:49:09.70ID:jDU7chRF
>>692
俺3dfxを知らないからググッタよ。イカスミ、かなりの歳なひとなんだな

C++AMPを使っている奴どれぐらいいるんだ?
2016/02/26(金) 01:09:31.01ID:puLBdTvq
>>702
ミス指摘してさらにひどくミスすんなって
2016/02/26(金) 01:13:08.03ID:au4AtN7W
parallelサーセンwwwww
2016/02/26(金) 01:36:18.43ID:1N9hBdg9
>>703
最初の頃のテスラは円高もあり、20万位だったが、いまじゃ80万くらいになってもうた。まあA30とかは120万くらいしたんだけど。
2016/02/26(金) 01:38:37.56ID:XrDeqd+8
>>705
そうだOpenACCだ。勘違いしてたよ。
C++AMPではなかった。
MSだけだとC++AMPはきびしいだろうね。
まだOpenACCのほうがめはあると思う
2016/02/26(金) 01:42:47.55ID:XrDeqd+8
>>709
その頃とくらべると開発環境がかくだんに良くなってる。
HWのコストだけでなく、そういうの含んでの価格だろうね。
2016/02/26(金) 03:40:06.50ID:VdCPJ0Vc
>>690
後半はまったくその通りだな団子
どこかで調べた用語を使うが、意味を良く分からずに使うからおかしな日本語になる
2016/02/26(金) 05:22:49.16ID:YzxqLjh+
nvはpgi買収してopenaccのコンパイラも力入れてるよ
doeのエクサスケールで使うのもcudaじゃなくてopenaccだし
2016/02/26(金) 05:38:13.56ID:mUz9Cfpw
「,,・´∀`・,,)っ-○○○」って鳥屋氏でしょ。
悪いけどここに同じレベルの人はいないんじゃない。
2016/02/26(金) 07:10:07.81ID:VdCPJ0Vc
何のレベル?
2016/02/26(金) 08:03:13.43ID:lqbLzerX
イカスミが同レベル
どっちも要らない
2016/02/26(金) 08:04:45.81ID:VdCPJ0Vc
鳥屋氏ってだ〜れ?
2016/02/26(金) 11:35:24.33ID:J+QrFB1k
NVの工作員
GPGPUはVLIW時代のATIGPUを持ち出してネガキャン
2016/02/27(土) 13:53:00.79ID:VbYYT6/A
鳥屋でググるとこれが出てきた
http://potato.2ch.net/test/read.cgi/software/1205766220/
2016/02/27(土) 19:58:40.83ID:WSIY1iVq
俺がいてもいなくてもCUDAプログラミングの話ができない無能集団のスレ
2016/02/27(土) 20:22:31.94ID:VXpwyn8O
囲碁ソフトにディープラーニングが使われ始めてるんだが、
CUDA対応ソフトもそろそろ来るかもしれん。
一般人にも身近な技術になるかもね。
2016/02/27(土) 20:27:20.16ID:WSIY1iVq
そのうち教えられたことだけしかコーディングできないクソPGもAIにとって代わられるんだろうな
2016/02/27(土) 22:07:54.84ID:unQVppL1
なるほど糞団子が嫌われるわけだ
2016/02/27(土) 22:34:12.86ID:VbYYT6/A
鳥屋ってただのサンデープログラマーだからな
知ったか決めてりゃ嫌われる
2016/02/27(土) 23:58:13.35ID:Fq+Tn6zB
>>724
鳥屋氏の書いたコード見たことないでしょw
申し訳ないけど、ここにいる人たちとは次元が違うよ。
頭が良すぎて理解されないタイプ。
2016/02/28(日) 00:21:01.28ID:4gv2LXai
>>719
,,・´∀`・,,)っ-○◎●
と持っている団子が違うが同じ人なのか? 
2016/02/28(日) 00:32:14.81ID:5Pz55yFT
君はその名前欄に●入れてそのまま表示されるか試したことがあるかい?
2016/02/28(日) 00:34:20.80ID:lm9zk8qN
テスト
2016/02/28(日) 00:34:46.41ID:lm9zk8qN
むう、表示されんのう
2016/02/28(日) 00:53:04.73ID:4gv2LXai
別人なのか?
,,・´∀`・,,)っ-○◎●
が持っているのは焼き鳥

,,・´∀`・,,)っ-○○○
が持っているのは団子
ということか
2016/02/28(日) 00:58:05.10ID:9kjNwUs3
鳥屋氏が両方つかってるの見たことあるから本人なんじゃない?
2016/02/28(日) 01:03:49.87ID:4gv2LXai
なら、次は,,・´∀`・,,)っ-○◎● で書き込んでくれるな
2016/02/28(日) 01:06:06.88ID:9kjNwUs3
っていうか●が名前欄に使えなくなった経緯も知らないんじゃ、鳥屋氏のことを知らなくても無理は無いね。
2016/02/28(日) 01:17:52.65ID:4gv2LXai
>>733
俺もだが団子と言っている奴は鳥屋時代のこと知らないだろ
>>725の言うような奴ならすごいCUDAコード披露して欲しいが
でも、雑談に必死なコテの荒らしって感じだからな。
とりあえず、鳥屋時代のコードどっかにないのか? 見てみたい気がする
2016/02/28(日) 01:18:45.52ID:TGNAvpkz
糞団子がどんなコード書くか知らんけど、弾道計算の件でシドロモドロになった事実は消えんぞ
所詮その程度の知的レベル
2016/02/28(日) 01:43:25.37ID:9IJglbed
>>713
速度自体は生でcudaやったほうが速いらしいから
これは開発効率を優先してPGIなのかね?
あるいは現時点ではいまいちでも今後の成長を鑑みてとかさ

さすがにdod,doeでも世代ごとのコード書き換えは負担なんだろうか
2016/02/28(日) 01:50:50.47ID:9IJglbed
キャッシュの増量やシャッフルIA、HyperQ,DP等を全部こみこみで考えると
1コアあたりの実効性能(flaot)はfermi, keplar, maxwellと上がってると考えていいのかね?

flops/core/clockではなくてflops/coreという意味で、かつ理論値での比較ではなくていかに実測値がでるかという意味で。
2016/02/28(日) 02:02:26.76ID:5Pz55yFT
俺は中村氏じゃねーから
2016/02/28(日) 02:05:54.35ID:5Pz55yFT
2009年当時なら団子はやっぱり団子だったぜ?
http://www.openwall.com/john/doc/CREDITS.shtml


当時書いてたのも別に変態的でもない普通のCコードですけどね
http://download.openwall.net/pub/projects/john/contrib/bitslice-des/dango.chu.jp/
2016/02/28(日) 03:07:32.07ID:9kjNwUs3
>>738
あれ、中村氏もそのAAつかってなかったっけ?
とにかく鳥屋氏(=中村氏)はプログラミングの技術も問題に対するアプローチの仕方も異次元の存在だったな。
741デフォルトの名無しさん
垢版 |
2016/02/28(日) 09:32:39.66ID:kqHim0z9
やっぱり団子って複数人いるよね?
すごく詳しい話をするとおもったら、なんか急に低レベルだったり、
てにをはが変わったりする。
742デフォルトの名無しさん
垢版 |
2016/02/28(日) 09:40:16.99ID:uncqUlBQ
たまに二人の団子が会話することもあるぞ
2016/02/28(日) 11:21:05.00ID:5Pz55yFT
> あれ、中村氏もそのAAつかってなかったっけ?
なにそれ見たことない
2016/02/28(日) 11:43:53.32ID:F3rkrfCl
結局鳥屋が馬鹿団子の振りしてるだけかもだが、詐欺の天才は結局馬鹿より有害
NVのやる事は何でもマンセーではスレ汚しとしか言いようがない
CS機をAMDが独占したからNVは倍精度に手を出せなくなった、と言うといつも発狂
これでは冷静な議論が出来ない
2016/02/28(日) 11:46:36.13ID:1t5d585j
おまえはcuda関係ないんだからくるなよ
かまってちゃん
2016/02/28(日) 11:51:31.77ID:5Pz55yFT
そっち界隈しばらくチェックしてなかったけど海外のハカー面白いことやってるね。

ちょうどCUDAに特化した話題だ。
MaxwellのLOP3.LUT命令を使ったビット演算の高速化テクニックについて興味ある人は
一度この講演ビデオ観ておくといいと思う。
http://www.irongeek.com/i.php?page=videos/passwordscon2014/bitslice-des-with-lop3lut-steve-thomas

実際問題AVX-512のvpternlogもLOP3.LUTと引数互換なんだわ
ぶっちゃけソース置換するだけで移植可能
2016/02/28(日) 12:03:43.36ID:F3rkrfCl
>>745
鳥屋=糞団子!テメエこそCUDAの何が分かるんだボケ!
2016/02/28(日) 12:06:45.18ID:1t5d585j
ハイハイお薬の時間でちゅよ
2016/02/28(日) 12:18:13.04ID:F3rkrfCl
単発のお時間がきまちゅたね〜

鳥屋=糞団子が自作板からこっちのスレの巡回時間が来たみたいw
本当に鳥屋が使える天才なら2ちゃん談義なんかしねえな

10年前ならゲーム業界か、少し前なら京に関わるか
或いはアメリカでイラン向けバックドアを仕掛けるお仕事か…
どっちにしろヒマを持て余すようではお里は知れてる
2016/02/28(日) 12:24:17.80ID:1t5d585j
ハイハイお部屋に戻りましょうねぇ
2016/02/28(日) 12:37:00.70ID:5Pz55yFT
https://community.amd.com/thread/197348
AMDのGPUにはLOP3.LUT相当の命令がないことにユーザーからも不満が噴出しているようです
2016/02/28(日) 12:44:20.68ID:F3rkrfCl
単発でも見事につられまちゅね〜wwwww
団子=鳥屋ちゃんピンチでちゅね〜wwwwww
2016/02/28(日) 12:51:25.16ID:1t5d585j
ハイハイご飯時間ですよおじぃちゃん
2016/02/29(月) 16:54:00.73ID:XMRi5hV6
なんだかすごく質問しにくい流れなんですがいいですか?
バイトニックソートのプログラムを作ってみまして、
要素数512を境にGPUの方が速くなったのは良かったんですが、
要素数8192くらいからGPUの時間増加の傾きがCPUより悪化してしまって、
1048576ともなるとほとんど大差ないくらいになってしまいました。
これが普通なのか、おかしいのか、
おかしいなら原因として何がありそうか教えてほしいです。
一応可能なところはshared memory使ってますが、要素数256以降は
比較の組がとびとびになるはずなのでglobal memoryを直接読んでます。
以下、ソートを10000回繰り返した際の1回あたりの所要時間です。
要素数 CPU[s] GPU[s] CPU/GPU
2 0.00000 0.00004 0.004
4 0.00000 0.00005 0.008
8 0.00000 0.00005 0.011
16 0.00000 0.00006 0.020
32 0.00000 0.00007 0.036
64 0.00001 0.00008 0.099
128 0.00002 0.00009 0.229
256 0.00005 0.00010 0.522
512 0.00013 0.00013 1.027
1024 0.00031 0.00016 1.909
2048 0.00076 0.00025 2.975
4096 0.00179 0.00036 4.919
8192 0.00423 0.00068 6.248
16384 0.00933 0.00202 4.627
32768 0.02142 0.00637 3.363
65536 0.04903 0.01776 2.761
131072 0.10829 0.05003 2.165
262144 0.24928 0.13078 1.906
524288 0.54765 0.32437 1.688
1048576 1.22586 0.77101 1.590
2016/02/29(月) 17:56:37.64ID:+ARXUC0S
鳥屋、答えてやれよ
2016/02/29(月) 23:54:40.69ID:72g2TQWh
>>755
バードショップ氏と話しがしたいなら @chapuni に凸ってきたら?
2016/03/01(火) 00:01:36.14ID:9XwMWslZ
バイトニックソートはキャッシュメモリで収まる範囲内の小さなデータ集合に対して有効
サイズが大きくなるとGPUのローカルメモリから外れて大幅にパフォーマンスが落ちる
CPUのほうが低レイテンシ・大容量のキャッシュ積んでる分だけ有利になるわけだ

CPUのキャッシュに収まらない量になれば再びGPUのほうが上回るはずだ
まあそのレベルに達する段階でO(n log n)のソートの検討の余地があるが
2016/03/01(火) 00:02:13.26ID:epSXE3Ge
>>754
Nvidiaならおかしいことはよくある。気にするな
GPGPUでおかしいことをさけたいなら倍精度の自慢のAMDを使う
2016/03/01(火) 00:33:31.30ID:k65RqU8V
質問者がシェアードメモリって言ってるのにキャッシュとかいい加減なこと言ってる
シェアードメモリに言及しないなんてあり得ない
そもそもCUDA使ったことないんだろうな
やっぱ糞団子は低レベルだな
2016/03/01(火) 00:41:11.27ID:9XwMWslZ
いったい何年前の話をしてるんだ
Fermiから階層型キャッシュ導入してるが
http://www.gdep.jp/column/view/2
2016/03/01(火) 00:46:09.76ID:9XwMWslZ
GPUについてはどっちにも解せる「ローカルメモリ」と言い換えてる
ちゃんと読めない子は呼吸を止めて1秒あなた新鮮だけど煮魚
762デフォルトの名無しさん
垢版 |
2016/03/01(火) 12:21:21.56ID:/z3eDKB8
>>759
結局団子を買いかぶってた奴は団子自身だろwwwwwwwwww
糞っぷりを言い触らされたくないチンケなプライドが虚勢を張りたくなる理由なんだろう
2016/03/01(火) 12:24:00.41ID:CYOvNsDD
ケンタッキーフライドチキンがどうしたって
2016/03/01(火) 12:31:48.31ID:iam2QPf0
GMにマッピングされたメモリは一定の局所性があればキャッシュにマッピングされる
常識が通じないバカが勝手に自爆してるな
765754
垢版 |
2016/03/01(火) 15:10:24.97ID:oQoWs5hY
>>757
キャッシュメモリ……
すいません、当方キャッシュについては不勉強でして、よくわかってません。
多分L1とかL2とか書いてあるやつだと思うのですが、手元の参考書が古い(6年前)もので……。
DeviceQueryだとL2 Cache Size: 524288 bytes って出るのでこれでしょうか。
Total amount of shared memory per block: 49152 bytes とか
Total number of registers available per block: 65536 とかもあります。
英語版Wikiの平均計算時間O(log(n)^2)parallel timeもよくわかってなかったりします。
log(n^2)なのか(log n)^2なのかよくわからんとです。
>>758
倍精度だと性能がうんたらとややこしかったので、単精度整数のソートなんです。
正確には同サイズの単精度整数配列2つを作り、
片方を基準にソートして、もう片方を一緒に並び替えてます。
構造体にしてもいいんですが、一緒に並び替えたほうだけが後々必要なデータでして。
最終的にはソートした結果を使って色々処理するためのプログラムなんですが、
現状だとこのソートで全体の8割くらい時間食っちゃってるんですよね。
ソートしなかったらもっと遅い(というかO(n^2)になる)ので無意味ってわけでもないんですが。

忘れてましたがGeForce GTX 760を使ってます。
以前機会があったので、別のGPU(GTX570だった気がする)でほぼ同じ計算させてみたこともあるんですが、
そっちだともっとマシでした。CPUより確実に速い、と胸を張って言えるくらい。
スペックの違いを加味しても、うちのGPUだけ下手したらCPUより遅いってのも変だなあ、と。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況