このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
探検
【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2014/11/20(木) 23:14:46.66ID:jr3oZn27
666デフォルトの名無しさん
2016/02/24(水) 12:31:29.64ID:dk01eTkb 倍精度の行方なら団子がソース付きで書いたけどね
結局NVIDIAがHPCから撤退なんてのは出鱈目な言いがかりと
結局NVIDIAがHPCから撤退なんてのは出鱈目な言いがかりと
667デフォルトの名無しさん
2016/02/24(水) 12:47:40.23ID:dk01eTkb ほれ
NVIDIA Pascal based GP100 GPU to boast of 12TFLOPS SP & 4 TFLOPS DP performance
http://vr-zone.com/articles/nvidia-pascal-based-gp100-gpu-boast-12tflops-sp-4-tflops-dp-performance/106203.html
そらあんだけのシェアとエンプラ向けの大躍進あればコンシューマ向けとHPC向けで
それぞれに合わせた演算ユニット構成のカスタマイズ費用くらい捻出できるだろう
そしてここはAMDについて語るスレでもNVIDIAをネガキャンするスレでもない
誰が場所をわきまえていないのか自覚したら?
NVIDIA Pascal based GP100 GPU to boast of 12TFLOPS SP & 4 TFLOPS DP performance
http://vr-zone.com/articles/nvidia-pascal-based-gp100-gpu-boast-12tflops-sp-4-tflops-dp-performance/106203.html
そらあんだけのシェアとエンプラ向けの大躍進あればコンシューマ向けとHPC向けで
それぞれに合わせた演算ユニット構成のカスタマイズ費用くらい捻出できるだろう
そしてここはAMDについて語るスレでもNVIDIAをネガキャンするスレでもない
誰が場所をわきまえていないのか自覚したら?
668デフォルトの名無しさん
2016/02/24(水) 12:47:59.45ID:jB1Q2gHg669デフォルトの名無しさん
2016/02/24(水) 12:58:31.02ID:jXa1RnbL 浮動小数点数の精度なんて
コード組む側からすればどれも一緒だよ
倍精度だと収束するが
単精度だと発散するとか
それ単にコードの質が悪いだけだしね
何がそんなに気になるのかわからん
コード組む側からすればどれも一緒だよ
倍精度だと収束するが
単精度だと発散するとか
それ単にコードの質が悪いだけだしね
何がそんなに気になるのかわからん
670デフォルトの名無しさん
2016/02/24(水) 13:10:46.14ID:kxdU4ZHF >>669
えっ???
えっ???
671デフォルトの名無しさん
2016/02/24(水) 13:17:56.21ID:dk01eTkb FireProがHPC向けでまったといっていいほど使われないのは
分岐粒度が荒過ぎて実効でスペックの半分も出ないとか
特定用途向けの商用ライブラリが用意されてないのか
それ以前の問題としてランタイムが頻繁にクラッシュするとか
結局のところトータルの問題なんだよね
単精度特化の一般のGPUで多倍精度使う場合は遅い倍精度を使うより
単精度DFTのほうがはるかに速い
分岐粒度が荒過ぎて実効でスペックの半分も出ないとか
特定用途向けの商用ライブラリが用意されてないのか
それ以前の問題としてランタイムが頻繁にクラッシュするとか
結局のところトータルの問題なんだよね
単精度特化の一般のGPUで多倍精度使う場合は遅い倍精度を使うより
単精度DFTのほうがはるかに速い
672デフォルトの名無しさん
2016/02/24(水) 14:12:53.97ID:s8sb75Sy 中小企業や個人開発のプログラムにもCUDA開発の無償支援してくれる
そういう実績があるからCUDAが鉄板になってるわけで
そういうことをやったためしもなければ大赤字でやれる予算も割けないAMDに
期待できることは何一つとしてない、これが現実
うちの商品はほぼ整数しか使わないだから倍精度実数が速いかどうかなんて
微塵も関係ない
そういう実績があるからCUDAが鉄板になってるわけで
そういうことをやったためしもなければ大赤字でやれる予算も割けないAMDに
期待できることは何一つとしてない、これが現実
うちの商品はほぼ整数しか使わないだから倍精度実数が速いかどうかなんて
微塵も関係ない
673デフォルトの名無しさん
2016/02/24(水) 14:34:29.38ID:Ad4bERAY 糞団子はコテ使ってると相手してくれないから寂しくて単発コテはずし作戦に出たのか?
NVはどう考えても半精度中心のグラフィックス/深層学習中心に経営資源をシフトしてるんだがw
http://ascii.jp/elem/000/001/046/1046956/index-3.html
>Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので
>Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので
↑
大事な事だから二度言うぞ
>つまりPK100は半精度浮動小数点をサポートするが、PK104はこれをサポートしない(あるいは回路を持たない)可能性がある。
↑
プロセスルール次第だが半精度に重心を置いていることは明白だな
NVはどう考えても半精度中心のグラフィックス/深層学習中心に経営資源をシフトしてるんだがw
http://ascii.jp/elem/000/001/046/1046956/index-3.html
>Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので
>Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので
↑
大事な事だから二度言うぞ
>つまりPK100は半精度浮動小数点をサポートするが、PK104はこれをサポートしない(あるいは回路を持たない)可能性がある。
↑
プロセスルール次第だが半精度に重心を置いていることは明白だな
674デフォルトの名無しさん
2016/02/24(水) 14:41:47.70ID:Ad4bERAY half2floatをPascalでは強化していくから、結局AMD対NVの戦いは「half2float」の描画特化対
「Async」の戦いになっていくんだろうね
「Async」の戦いになっていくんだろうね
675デフォルトの名無しさん
2016/02/24(水) 14:51:49.40ID:NAMaIKUn 今後この馬鹿に一切かまうな
かまうから喜んで荒らし続ける
かまうから喜んで荒らし続ける
676デフォルトの名無しさん
2016/02/24(水) 15:33:36.04ID:jXa1RnbL どっかのニュースのコピペばかりで
うんざりするよ
自分の引き出しは空だと言っているようなものだ
うんざりするよ
自分の引き出しは空だと言っているようなものだ
677デフォルトの名無しさん
2016/02/24(水) 17:46:05.30ID:l0DrHc2T678デフォルトの名無しさん
2016/02/24(水) 17:50:58.28ID:jXa1RnbL 一般利用でCUDAが何に使えるのか
ネタ出せよ
ゲームで使えんの?
ネタ出せよ
ゲームで使えんの?
679デフォルトの名無しさん
2016/02/24(水) 17:55:56.67ID:Ad4bERAY >>677
お前はAMDに一番興味あるだろうが糞団子!
お前が去ればこのスレは一気にクリーンになるんだよボケ
お前が一番危機感抱いてるのは倍精度をなくす方向のNVに対して非難が集中する事だけだ
だからこそお前が一番イラネーんだよ屑
お前はAMDに一番興味あるだろうが糞団子!
お前が去ればこのスレは一気にクリーンになるんだよボケ
お前が一番危機感抱いてるのは倍精度をなくす方向のNVに対して非難が集中する事だけだ
だからこそお前が一番イラネーんだよ屑
680デフォルトの名無しさん
2016/02/24(水) 18:44:53.08ID:l0DrHc2T >>679
お前病院行けよw
お前病院行けよw
681デフォルトの名無しさん
2016/02/24(水) 18:55:34.70ID:Ad4bERAY >>680
糞団子よヒヨッたなw
糞団子よヒヨッたなw
682デフォルトの名無しさん
2016/02/24(水) 21:04:29.34ID:Nmttufaz683デフォルトの名無しさん
2016/02/24(水) 22:15:50.14ID:teBWCRhn 団子よりヤバイ真性のキチガイが団子以外も団子に見えているらしい。
684デフォルトの名無しさん
2016/02/24(水) 22:27:56.59ID:zahm20jW 団子消えろ
685デフォルトの名無しさん
2016/02/24(水) 22:37:00.33ID:l5BeTFuC686デフォルトの名無しさん
2016/02/24(水) 22:56:49.71ID:teBWCRhn >>671
分岐粒度が荒すぎってCPUとの比較なら未だしも、NVIDIAとの比較だったら普通そんなに差は出ないぞ。
差が出るのは64のうち前半もしくは後半の32がほぼ埋まっているのに、反対の32が完全に空みたいな状況が頻発する場合だけ。
まあCUDAからのベタ移植ならあり得ないこともないのだろうが。
分岐粒度が荒すぎってCPUとの比較なら未だしも、NVIDIAとの比較だったら普通そんなに差は出ないぞ。
差が出るのは64のうち前半もしくは後半の32がほぼ埋まっているのに、反対の32が完全に空みたいな状況が頻発する場合だけ。
まあCUDAからのベタ移植ならあり得ないこともないのだろうが。
687デフォルトの名無しさん
2016/02/25(木) 08:17:21.70ID:qdgy2oNb プログラムの話しようぜ
そうすれば団子その他プログラム書けない人が消えるだろうから
そうすれば団子その他プログラム書けない人が消えるだろうから
688デフォルトの名無しさん
2016/02/25(木) 08:22:03.55ID:qdgy2oNb689デフォルトの名無しさん
2016/02/25(木) 08:23:54.24ID:YDhqTq2/ 将来的に4にするっていこうだが
実行レベルでは
warpは32のままだろうけど
実行レベルでは
warpは32のままだろうけど
690デフォルトの名無しさん
2016/02/25(木) 13:05:41.93ID:FCdE8jm8691デフォルトの名無しさん
2016/02/25(木) 14:04:40.68ID:Sn2492Ux >>690
まずお前がコテつけてくれ
まずお前がコテつけてくれ
692デフォルトの名無しさん
2016/02/25(木) 14:47:28.30ID:Ey2CZbRS 不用意に3dfxとか使うと歳がばれるぞ
693デフォルトの名無しさん
2016/02/25(木) 17:48:12.65ID:8lu6Pire694デフォルトの名無しさん
2016/02/25(木) 18:22:40.32ID:Ey2CZbRS 好きなんだろ
恋だよ恋
恋だよ恋
695デフォルトの名無しさん
2016/02/25(木) 19:23:25.50ID:JdxelD2D 糞団子もイカスミも同レベル
696デフォルトの名無しさん
2016/02/25(木) 19:39:25.49ID:tc7lGvfi 団子が消えれば平和になる
697デフォルトの名無しさん
2016/02/25(木) 19:52:29.05ID:JdxelD2D 団子既に消えてるじゃん?
イカスミが煽るから戻って来るんだよ
イカスミが煽るから戻って来るんだよ
698デフォルトの名無しさん
2016/02/25(木) 20:58:58.26ID:qdgy2oNb 誰だよイカスミって
699デフォルトの名無しさん
2016/02/25(木) 23:01:45.88ID:OUVaT1r5 nvidia ってC++AMPって力いれてるの?
CUDAが主力なのはわかるんだが。
OpenMPのようにC++AMPがいいところまでいってからtoolkitにマージするつもりなのか
それともC++AMPが自然消滅するのを待っているのかわからん。
CUDAが主力なのはわかるんだが。
OpenMPのようにC++AMPがいいところまでいってからtoolkitにマージするつもりなのか
それともC++AMPが自然消滅するのを待っているのかわからん。
700デフォルトの名無しさん
2016/02/25(木) 23:56:26.32ID:y8R9vLq22016/02/25(木) 23:58:06.25ID:VFYZCeUD
C++ AMPは事実上終了したよ
MSはいまNVIDIA ThrustをベースにしたParrarel STLに注力中
MSはいまNVIDIA ThrustをベースにしたParrarel STLに注力中
2016/02/26(金) 00:00:42.44ID:au4AtN7W
Pallarel STLね
703デフォルトの名無しさん
2016/02/26(金) 00:04:42.12ID:sfGjrhZB >>693
NVはC++AMPとか言うより倍精度をボリュームゾーンから外しにかかってるな
Pascalには全く期待できんよ
IBMの場合は大口契約だから安く調達するだろうけど、それだけ
いずれGPGPU用(テスラ)は値段を上げざるを得ないだろうなあ
NVはC++AMPとか言うより倍精度をボリュームゾーンから外しにかかってるな
Pascalには全く期待できんよ
IBMの場合は大口契約だから安く調達するだろうけど、それだけ
いずれGPGPU用(テスラ)は値段を上げざるを得ないだろうなあ
704デフォルトの名無しさん
2016/02/26(金) 00:18:06.49ID:XrDeqd+8 それなら死んでないでしょう。
スラストがCUDA用のライブラリと同様に
C++AMPで使うためのものだろうから。
スラストがCUDA用のライブラリと同様に
C++AMPで使うためのものだろうから。
2016/02/26(金) 00:46:50.10ID:au4AtN7W
Pallarel STLのバックエンドはC++AMPに限らずOpenACCやOpenMP(4.0), TBBでもいい
NVIDIAが推してるのはOpenACC, IntelはOpenMP
NVIDIAが推してるのはOpenACC, IntelはOpenMP
706デフォルトの名無しさん
2016/02/26(金) 00:49:09.70ID:jDU7chRF707デフォルトの名無しさん
2016/02/26(金) 01:09:31.01ID:puLBdTvq >>702
ミス指摘してさらにひどくミスすんなって
ミス指摘してさらにひどくミスすんなって
2016/02/26(金) 01:13:08.03ID:au4AtN7W
parallelサーセンwwwww
709デフォルトの名無しさん
2016/02/26(金) 01:36:18.43ID:1N9hBdg9 >>703
最初の頃のテスラは円高もあり、20万位だったが、いまじゃ80万くらいになってもうた。まあA30とかは120万くらいしたんだけど。
最初の頃のテスラは円高もあり、20万位だったが、いまじゃ80万くらいになってもうた。まあA30とかは120万くらいしたんだけど。
710デフォルトの名無しさん
2016/02/26(金) 01:38:37.56ID:XrDeqd+8711デフォルトの名無しさん
2016/02/26(金) 01:42:47.55ID:XrDeqd+8712デフォルトの名無しさん
2016/02/26(金) 03:40:06.50ID:VdCPJ0Vc713デフォルトの名無しさん
2016/02/26(金) 05:22:49.16ID:YzxqLjh+ nvはpgi買収してopenaccのコンパイラも力入れてるよ
doeのエクサスケールで使うのもcudaじゃなくてopenaccだし
doeのエクサスケールで使うのもcudaじゃなくてopenaccだし
714デフォルトの名無しさん
2016/02/26(金) 05:38:13.56ID:mUz9Cfpw 「,,・´∀`・,,)っ-○○○」って鳥屋氏でしょ。
悪いけどここに同じレベルの人はいないんじゃない。
悪いけどここに同じレベルの人はいないんじゃない。
715デフォルトの名無しさん
2016/02/26(金) 07:10:07.81ID:VdCPJ0Vc 何のレベル?
716デフォルトの名無しさん
2016/02/26(金) 08:03:13.43ID:lqbLzerX イカスミが同レベル
どっちも要らない
どっちも要らない
717デフォルトの名無しさん
2016/02/26(金) 08:04:45.81ID:VdCPJ0Vc 鳥屋氏ってだ〜れ?
718デフォルトの名無しさん
2016/02/26(金) 11:35:24.33ID:J+QrFB1k NVの工作員
GPGPUはVLIW時代のATIGPUを持ち出してネガキャン
GPGPUはVLIW時代のATIGPUを持ち出してネガキャン
719デフォルトの名無しさん
2016/02/27(土) 13:53:00.79ID:VbYYT6/A 鳥屋でググるとこれが出てきた
http://potato.2ch.net/test/read.cgi/software/1205766220/
http://potato.2ch.net/test/read.cgi/software/1205766220/
2016/02/27(土) 19:58:40.83ID:WSIY1iVq
俺がいてもいなくてもCUDAプログラミングの話ができない無能集団のスレ
721デフォルトの名無しさん
2016/02/27(土) 20:22:31.94ID:VXpwyn8O 囲碁ソフトにディープラーニングが使われ始めてるんだが、
CUDA対応ソフトもそろそろ来るかもしれん。
一般人にも身近な技術になるかもね。
CUDA対応ソフトもそろそろ来るかもしれん。
一般人にも身近な技術になるかもね。
2016/02/27(土) 20:27:20.16ID:WSIY1iVq
そのうち教えられたことだけしかコーディングできないクソPGもAIにとって代わられるんだろうな
723デフォルトの名無しさん
2016/02/27(土) 22:07:54.84ID:unQVppL1 なるほど糞団子が嫌われるわけだ
724デフォルトの名無しさん
2016/02/27(土) 22:34:12.86ID:VbYYT6/A 鳥屋ってただのサンデープログラマーだからな
知ったか決めてりゃ嫌われる
知ったか決めてりゃ嫌われる
725デフォルトの名無しさん
2016/02/27(土) 23:58:13.35ID:Fq+Tn6zB726デフォルトの名無しさん
2016/02/28(日) 00:21:01.28ID:4gv2LXai2016/02/28(日) 00:32:14.81ID:5Pz55yFT
君はその名前欄に●入れてそのまま表示されるか試したことがあるかい?
2016/02/28(日) 00:34:20.80ID:lm9zk8qN
テスト
729デフォルトの名無しさん
2016/02/28(日) 00:34:46.41ID:lm9zk8qN むう、表示されんのう
730デフォルトの名無しさん
2016/02/28(日) 00:53:04.73ID:4gv2LXai 別人なのか?
,,・´∀`・,,)っ-○◎●
が持っているのは焼き鳥
で
,,・´∀`・,,)っ-○○○
が持っているのは団子
ということか
,,・´∀`・,,)っ-○◎●
が持っているのは焼き鳥
で
,,・´∀`・,,)っ-○○○
が持っているのは団子
ということか
731デフォルトの名無しさん
2016/02/28(日) 00:58:05.10ID:9kjNwUs3 鳥屋氏が両方つかってるの見たことあるから本人なんじゃない?
732デフォルトの名無しさん
2016/02/28(日) 01:03:49.87ID:4gv2LXai なら、次は,,・´∀`・,,)っ-○◎● で書き込んでくれるな
733デフォルトの名無しさん
2016/02/28(日) 01:06:06.88ID:9kjNwUs3 っていうか●が名前欄に使えなくなった経緯も知らないんじゃ、鳥屋氏のことを知らなくても無理は無いね。
734デフォルトの名無しさん
2016/02/28(日) 01:17:52.65ID:4gv2LXai735デフォルトの名無しさん
2016/02/28(日) 01:18:45.52ID:TGNAvpkz 糞団子がどんなコード書くか知らんけど、弾道計算の件でシドロモドロになった事実は消えんぞ
所詮その程度の知的レベル
所詮その程度の知的レベル
736デフォルトの名無しさん
2016/02/28(日) 01:43:25.37ID:9IJglbed >>713
速度自体は生でcudaやったほうが速いらしいから
これは開発効率を優先してPGIなのかね?
あるいは現時点ではいまいちでも今後の成長を鑑みてとかさ
さすがにdod,doeでも世代ごとのコード書き換えは負担なんだろうか
速度自体は生でcudaやったほうが速いらしいから
これは開発効率を優先してPGIなのかね?
あるいは現時点ではいまいちでも今後の成長を鑑みてとかさ
さすがにdod,doeでも世代ごとのコード書き換えは負担なんだろうか
737デフォルトの名無しさん
2016/02/28(日) 01:50:50.47ID:9IJglbed キャッシュの増量やシャッフルIA、HyperQ,DP等を全部こみこみで考えると
1コアあたりの実効性能(flaot)はfermi, keplar, maxwellと上がってると考えていいのかね?
flops/core/clockではなくてflops/coreという意味で、かつ理論値での比較ではなくていかに実測値がでるかという意味で。
1コアあたりの実効性能(flaot)はfermi, keplar, maxwellと上がってると考えていいのかね?
flops/core/clockではなくてflops/coreという意味で、かつ理論値での比較ではなくていかに実測値がでるかという意味で。
2016/02/28(日) 02:02:26.76ID:5Pz55yFT
俺は中村氏じゃねーから
2016/02/28(日) 02:05:54.35ID:5Pz55yFT
2009年当時なら団子はやっぱり団子だったぜ?
http://www.openwall.com/john/doc/CREDITS.shtml
当時書いてたのも別に変態的でもない普通のCコードですけどね
http://download.openwall.net/pub/projects/john/contrib/bitslice-des/dango.chu.jp/
http://www.openwall.com/john/doc/CREDITS.shtml
当時書いてたのも別に変態的でもない普通のCコードですけどね
http://download.openwall.net/pub/projects/john/contrib/bitslice-des/dango.chu.jp/
740デフォルトの名無しさん
2016/02/28(日) 03:07:32.07ID:9kjNwUs3741デフォルトの名無しさん
2016/02/28(日) 09:32:39.66ID:kqHim0z9 やっぱり団子って複数人いるよね?
すごく詳しい話をするとおもったら、なんか急に低レベルだったり、
てにをはが変わったりする。
すごく詳しい話をするとおもったら、なんか急に低レベルだったり、
てにをはが変わったりする。
742デフォルトの名無しさん
2016/02/28(日) 09:40:16.99ID:uncqUlBQ たまに二人の団子が会話することもあるぞ
2016/02/28(日) 11:21:05.00ID:5Pz55yFT
> あれ、中村氏もそのAAつかってなかったっけ?
なにそれ見たことない
なにそれ見たことない
744デフォルトの名無しさん
2016/02/28(日) 11:43:53.32ID:F3rkrfCl 結局鳥屋が馬鹿団子の振りしてるだけかもだが、詐欺の天才は結局馬鹿より有害
NVのやる事は何でもマンセーではスレ汚しとしか言いようがない
CS機をAMDが独占したからNVは倍精度に手を出せなくなった、と言うといつも発狂
これでは冷静な議論が出来ない
NVのやる事は何でもマンセーではスレ汚しとしか言いようがない
CS機をAMDが独占したからNVは倍精度に手を出せなくなった、と言うといつも発狂
これでは冷静な議論が出来ない
745デフォルトの名無しさん
2016/02/28(日) 11:46:36.13ID:1t5d585j おまえはcuda関係ないんだからくるなよ
かまってちゃん
かまってちゃん
2016/02/28(日) 11:51:31.77ID:5Pz55yFT
そっち界隈しばらくチェックしてなかったけど海外のハカー面白いことやってるね。
ちょうどCUDAに特化した話題だ。
MaxwellのLOP3.LUT命令を使ったビット演算の高速化テクニックについて興味ある人は
一度この講演ビデオ観ておくといいと思う。
http://www.irongeek.com/i.php?page=videos/passwordscon2014/bitslice-des-with-lop3lut-steve-thomas
実際問題AVX-512のvpternlogもLOP3.LUTと引数互換なんだわ
ぶっちゃけソース置換するだけで移植可能
ちょうどCUDAに特化した話題だ。
MaxwellのLOP3.LUT命令を使ったビット演算の高速化テクニックについて興味ある人は
一度この講演ビデオ観ておくといいと思う。
http://www.irongeek.com/i.php?page=videos/passwordscon2014/bitslice-des-with-lop3lut-steve-thomas
実際問題AVX-512のvpternlogもLOP3.LUTと引数互換なんだわ
ぶっちゃけソース置換するだけで移植可能
747デフォルトの名無しさん
2016/02/28(日) 12:03:43.36ID:F3rkrfCl >>745
鳥屋=糞団子!テメエこそCUDAの何が分かるんだボケ!
鳥屋=糞団子!テメエこそCUDAの何が分かるんだボケ!
748デフォルトの名無しさん
2016/02/28(日) 12:06:45.18ID:1t5d585j ハイハイお薬の時間でちゅよ
749デフォルトの名無しさん
2016/02/28(日) 12:18:13.04ID:F3rkrfCl 単発のお時間がきまちゅたね〜
鳥屋=糞団子が自作板からこっちのスレの巡回時間が来たみたいw
本当に鳥屋が使える天才なら2ちゃん談義なんかしねえな
10年前ならゲーム業界か、少し前なら京に関わるか
或いはアメリカでイラン向けバックドアを仕掛けるお仕事か…
どっちにしろヒマを持て余すようではお里は知れてる
鳥屋=糞団子が自作板からこっちのスレの巡回時間が来たみたいw
本当に鳥屋が使える天才なら2ちゃん談義なんかしねえな
10年前ならゲーム業界か、少し前なら京に関わるか
或いはアメリカでイラン向けバックドアを仕掛けるお仕事か…
どっちにしろヒマを持て余すようではお里は知れてる
750デフォルトの名無しさん
2016/02/28(日) 12:24:17.80ID:1t5d585j ハイハイお部屋に戻りましょうねぇ
2016/02/28(日) 12:37:00.70ID:5Pz55yFT
https://community.amd.com/thread/197348
AMDのGPUにはLOP3.LUT相当の命令がないことにユーザーからも不満が噴出しているようです
AMDのGPUにはLOP3.LUT相当の命令がないことにユーザーからも不満が噴出しているようです
752デフォルトの名無しさん
2016/02/28(日) 12:44:20.68ID:F3rkrfCl 単発でも見事につられまちゅね〜wwwww
団子=鳥屋ちゃんピンチでちゅね〜wwwwww
団子=鳥屋ちゃんピンチでちゅね〜wwwwww
753デフォルトの名無しさん
2016/02/28(日) 12:51:25.16ID:1t5d585j ハイハイご飯時間ですよおじぃちゃん
754デフォルトの名無しさん
2016/02/29(月) 16:54:00.73ID:XMRi5hV6 なんだかすごく質問しにくい流れなんですがいいですか?
バイトニックソートのプログラムを作ってみまして、
要素数512を境にGPUの方が速くなったのは良かったんですが、
要素数8192くらいからGPUの時間増加の傾きがCPUより悪化してしまって、
1048576ともなるとほとんど大差ないくらいになってしまいました。
これが普通なのか、おかしいのか、
おかしいなら原因として何がありそうか教えてほしいです。
一応可能なところはshared memory使ってますが、要素数256以降は
比較の組がとびとびになるはずなのでglobal memoryを直接読んでます。
以下、ソートを10000回繰り返した際の1回あたりの所要時間です。
要素数 CPU[s] GPU[s] CPU/GPU
2 0.00000 0.00004 0.004
4 0.00000 0.00005 0.008
8 0.00000 0.00005 0.011
16 0.00000 0.00006 0.020
32 0.00000 0.00007 0.036
64 0.00001 0.00008 0.099
128 0.00002 0.00009 0.229
256 0.00005 0.00010 0.522
512 0.00013 0.00013 1.027
1024 0.00031 0.00016 1.909
2048 0.00076 0.00025 2.975
4096 0.00179 0.00036 4.919
8192 0.00423 0.00068 6.248
16384 0.00933 0.00202 4.627
32768 0.02142 0.00637 3.363
65536 0.04903 0.01776 2.761
131072 0.10829 0.05003 2.165
262144 0.24928 0.13078 1.906
524288 0.54765 0.32437 1.688
1048576 1.22586 0.77101 1.590
バイトニックソートのプログラムを作ってみまして、
要素数512を境にGPUの方が速くなったのは良かったんですが、
要素数8192くらいからGPUの時間増加の傾きがCPUより悪化してしまって、
1048576ともなるとほとんど大差ないくらいになってしまいました。
これが普通なのか、おかしいのか、
おかしいなら原因として何がありそうか教えてほしいです。
一応可能なところはshared memory使ってますが、要素数256以降は
比較の組がとびとびになるはずなのでglobal memoryを直接読んでます。
以下、ソートを10000回繰り返した際の1回あたりの所要時間です。
要素数 CPU[s] GPU[s] CPU/GPU
2 0.00000 0.00004 0.004
4 0.00000 0.00005 0.008
8 0.00000 0.00005 0.011
16 0.00000 0.00006 0.020
32 0.00000 0.00007 0.036
64 0.00001 0.00008 0.099
128 0.00002 0.00009 0.229
256 0.00005 0.00010 0.522
512 0.00013 0.00013 1.027
1024 0.00031 0.00016 1.909
2048 0.00076 0.00025 2.975
4096 0.00179 0.00036 4.919
8192 0.00423 0.00068 6.248
16384 0.00933 0.00202 4.627
32768 0.02142 0.00637 3.363
65536 0.04903 0.01776 2.761
131072 0.10829 0.05003 2.165
262144 0.24928 0.13078 1.906
524288 0.54765 0.32437 1.688
1048576 1.22586 0.77101 1.590
755デフォルトの名無しさん
2016/02/29(月) 17:56:37.64ID:+ARXUC0S 鳥屋、答えてやれよ
2016/02/29(月) 23:54:40.69ID:72g2TQWh
>>755
バードショップ氏と話しがしたいなら @chapuni に凸ってきたら?
バードショップ氏と話しがしたいなら @chapuni に凸ってきたら?
2016/03/01(火) 00:01:36.14ID:9XwMWslZ
バイトニックソートはキャッシュメモリで収まる範囲内の小さなデータ集合に対して有効
サイズが大きくなるとGPUのローカルメモリから外れて大幅にパフォーマンスが落ちる
CPUのほうが低レイテンシ・大容量のキャッシュ積んでる分だけ有利になるわけだ
CPUのキャッシュに収まらない量になれば再びGPUのほうが上回るはずだ
まあそのレベルに達する段階でO(n log n)のソートの検討の余地があるが
サイズが大きくなるとGPUのローカルメモリから外れて大幅にパフォーマンスが落ちる
CPUのほうが低レイテンシ・大容量のキャッシュ積んでる分だけ有利になるわけだ
CPUのキャッシュに収まらない量になれば再びGPUのほうが上回るはずだ
まあそのレベルに達する段階でO(n log n)のソートの検討の余地があるが
758デフォルトの名無しさん
2016/03/01(火) 00:02:13.26ID:epSXE3Ge759デフォルトの名無しさん
2016/03/01(火) 00:33:31.30ID:k65RqU8V 質問者がシェアードメモリって言ってるのにキャッシュとかいい加減なこと言ってる
シェアードメモリに言及しないなんてあり得ない
そもそもCUDA使ったことないんだろうな
やっぱ糞団子は低レベルだな
シェアードメモリに言及しないなんてあり得ない
そもそもCUDA使ったことないんだろうな
やっぱ糞団子は低レベルだな
2016/03/01(火) 00:41:11.27ID:9XwMWslZ
2016/03/01(火) 00:46:09.76ID:9XwMWslZ
GPUについてはどっちにも解せる「ローカルメモリ」と言い換えてる
ちゃんと読めない子は呼吸を止めて1秒あなた新鮮だけど煮魚
ちゃんと読めない子は呼吸を止めて1秒あなた新鮮だけど煮魚
762デフォルトの名無しさん
2016/03/01(火) 12:21:21.56ID:/z3eDKB8763デフォルトの名無しさん
2016/03/01(火) 12:24:00.41ID:CYOvNsDD ケンタッキーフライドチキンがどうしたって
2016/03/01(火) 12:31:48.31ID:iam2QPf0
GMにマッピングされたメモリは一定の局所性があればキャッシュにマッピングされる
常識が通じないバカが勝手に自爆してるな
常識が通じないバカが勝手に自爆してるな
765754
2016/03/01(火) 15:10:24.97ID:oQoWs5hY >>757
キャッシュメモリ……
すいません、当方キャッシュについては不勉強でして、よくわかってません。
多分L1とかL2とか書いてあるやつだと思うのですが、手元の参考書が古い(6年前)もので……。
DeviceQueryだとL2 Cache Size: 524288 bytes って出るのでこれでしょうか。
Total amount of shared memory per block: 49152 bytes とか
Total number of registers available per block: 65536 とかもあります。
英語版Wikiの平均計算時間O(log(n)^2)parallel timeもよくわかってなかったりします。
log(n^2)なのか(log n)^2なのかよくわからんとです。
>>758
倍精度だと性能がうんたらとややこしかったので、単精度整数のソートなんです。
正確には同サイズの単精度整数配列2つを作り、
片方を基準にソートして、もう片方を一緒に並び替えてます。
構造体にしてもいいんですが、一緒に並び替えたほうだけが後々必要なデータでして。
最終的にはソートした結果を使って色々処理するためのプログラムなんですが、
現状だとこのソートで全体の8割くらい時間食っちゃってるんですよね。
ソートしなかったらもっと遅い(というかO(n^2)になる)ので無意味ってわけでもないんですが。
忘れてましたがGeForce GTX 760を使ってます。
以前機会があったので、別のGPU(GTX570だった気がする)でほぼ同じ計算させてみたこともあるんですが、
そっちだともっとマシでした。CPUより確実に速い、と胸を張って言えるくらい。
スペックの違いを加味しても、うちのGPUだけ下手したらCPUより遅いってのも変だなあ、と。
キャッシュメモリ……
すいません、当方キャッシュについては不勉強でして、よくわかってません。
多分L1とかL2とか書いてあるやつだと思うのですが、手元の参考書が古い(6年前)もので……。
DeviceQueryだとL2 Cache Size: 524288 bytes って出るのでこれでしょうか。
Total amount of shared memory per block: 49152 bytes とか
Total number of registers available per block: 65536 とかもあります。
英語版Wikiの平均計算時間O(log(n)^2)parallel timeもよくわかってなかったりします。
log(n^2)なのか(log n)^2なのかよくわからんとです。
>>758
倍精度だと性能がうんたらとややこしかったので、単精度整数のソートなんです。
正確には同サイズの単精度整数配列2つを作り、
片方を基準にソートして、もう片方を一緒に並び替えてます。
構造体にしてもいいんですが、一緒に並び替えたほうだけが後々必要なデータでして。
最終的にはソートした結果を使って色々処理するためのプログラムなんですが、
現状だとこのソートで全体の8割くらい時間食っちゃってるんですよね。
ソートしなかったらもっと遅い(というかO(n^2)になる)ので無意味ってわけでもないんですが。
忘れてましたがGeForce GTX 760を使ってます。
以前機会があったので、別のGPU(GTX570だった気がする)でほぼ同じ計算させてみたこともあるんですが、
そっちだともっとマシでした。CPUより確実に速い、と胸を張って言えるくらい。
スペックの違いを加味しても、うちのGPUだけ下手したらCPUより遅いってのも変だなあ、と。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 「おこめ券は米以外の食品も買える。効果的な活用を」 地元で農水相 [山形県] [少考さん★]
- 【速報】「女芸人No.1決定戦 THE W」9代目女王にニッチェ! 7年ぶり3度目で悲願の優勝 [牛丼★]
- 【芸能】『女芸人No.1決定戦THE W』 粗品が最後にバッサリ「優勝賞金1000万円にしてはレベル低い大会」 [冬月記者★]
- 【沖縄】開業4ヵ月でこれは…“国民の税金”投入の『ジャングリア沖縄』で見た衝撃的な光景と、モチベーションが低い一部スタッフの現状 [ぐれ★]
- 【東京】「家族で話題にして」 “世田谷一家殺害から25年 警視庁が呼びかけ [煮卵★]
- 今年の流行語大賞 『働いて働いて働いてまいります』が受賞で不快感… 過労自殺の遺族らが会見「家族にむち打つような行為だ」 [冬月記者★]
- 前駐中国大使・垂秀夫『高市首相が台湾有事答弁を国会でしてしまったのは高市首相のなかに戦略的思考が無いから。安倍晋三を見習え』 [718678614]
- クズ「勉強頑張らなかった奴は一生DQNと一緒に肉体労働しろ」☚勉強頑張れるのも環境と巡り合わせなんだが? [783475554]
- 朝だよー🥁🥺ドンドンドンドン
- モブサイコ「私がJAグループに何か利益誘導するということは全くありません」 [402859164]
- ( ・᷄ὢ・᷅ )ケツ
- 【時事】立憲民主党、30代の支持率が「ゼロ」😨 [369521721]
