【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
2014/11/20(木) 23:14:46.66ID:jr3oZn27
このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
2016/03/01(火) 15:16:26.28ID:oDNKlTv2
たぶんfermi世代とkepler世代でのL1Dの扱われ方の違いとか?

http://news.mynavi.jp/column/architecture/335/
767デフォルトの名無しさん
垢版 |
2016/03/01(火) 20:11:04.94ID:/z3eDKB8
要約すると団子の答えは答えになってない
768754
垢版 |
2016/03/01(火) 21:01:21.25ID:oQoWs5hY
>>766
参照先読みました。キャッシュの話だったので自信はありませんが、
Fermi(GX570)世代のキャッシュは容量超えると(多分)通信の速いL1D等に退避されてたけど、
Kepler(GTX760)世代だと通信の遅いglobalに退避されるようになった、ってことですか?
さすがにアーキテクチャの仕様だと自分のスキルじゃ対応できません……。
>>767
答えになってないというか、私の知らない範囲の回答だったんでよくわからなかった感じです。
言ってることは766さんの参照先と多分同じなんだと思います。自信はありませんけど。

で、みなさん改善する方法はないでしょうか……。
大規模計算にウンタラ使うとカンタラがヤバいから避ける、みたいなことありませんか?
オプションにホニャララって追加すれば設定が変わる、とか(実はオプションもよくわかってない)。
大規模の時、キャッシュ代わりにあえてsharedを定義しても意味ないのかな…普通はないよな…
769デフォルトの名無しさん
垢版 |
2016/03/01(火) 22:50:15.99ID:1eMSB1ZO
また団子が知ったかぶりをかましたのか!(呆れ)
2016/03/01(火) 22:57:33.44ID:xcdR7XnG
そもそもキャッシュはシェアードメモリの退避先ではなくグローバルメモリの一部の読み書きを高速化するためのもの
シェアードメモリに収まらないデータのソートで遅くなる問題なのでシェアードメモリは全く関係ない

アホが自爆すんなよ
2016/03/01(火) 23:00:19.76ID:xcdR7XnG
データ全体がキャッシュに収まらない場合はキャッシュローカリティを意識した演算順序の最適化をする
これはCPUでもGPUでも理屈は変わらない
2016/03/02(水) 00:01:12.12ID:Lh/popYV
自分の答えを示さず謂れのないイチャモン付けに必死になる奴ほど
スレにとって邪魔な存在はないね
2016/03/02(水) 01:05:18.36ID:WNl5zi/w
団子はレスをまとめることを覚えて
774754
垢版 |
2016/03/02(水) 01:23:35.90ID:n1GLxV/f
>>770-771
キャッシュローカリティって何さ…となったので、Google先生に勧められた
wikiの『参照の局所性』を読んで、ちょっとわかった気がします。
自分が作ったバイトニックソートは大規模データの場合、
各threadがほとんど毎回前回と異なる&近傍でもないメモリ参照することになるので
時間的にも空間的にも最適化ができてないみたいです。
ない知恵絞ってif文減らして実質1つにした結果がこれだよ!
あ、いや、thread単位はそうでも、warpとかblock単位で見れば近傍データなのか…?これはバンクの話か…?
実装のややこしさを飲み込めばシェアソートの方が参照の局所性は大きくしやすいのかな…?

まだよくわかってないことが1つありまして、
プログラム上では何万何十万の計算を並列に扱ったとしても、
物理的にはハード側の制限があるわけじゃないですか。
GTX760ならCUDAコア1152基なわけで、一万を並列化しても
実際には同時じゃなくて9回くらいに分けて順に処理する、みたいな。
となると、その9回で各CUDAコアは別のメモリを参照するわけなんですが、
この時前回のキャッシュって残るんでしょうか? 残らない…ですよね?
それともカーネルとしての処理が終わるまでは残るんでしょうか?
はたまたプログラムが終わるまでは念のため残しておく、とか?
キャッシュの利用自体が悪いんじゃなくて、
キャッシュにも収まらないデータ量がよくないってのはわかってるんですが、
なんかこのあたりの理解がまだ曖昧なんです。
775754
垢版 |
2016/03/02(水) 01:46:45.38ID:n1GLxV/f
だらだら長文書いたわりに今自分の気になることからは逆に離れた気がする。
手っ取り早く要約すると、CPU↔メモリ(キャッシュ)の速度は
CUDAコア↔各種メモリの速度のどの当たりに相当するのか、でしょうか?
GPU内ならレジスタ>shared(キャッシュ)>globalの順で速いとかは聞きますけど、
もう一歩踏み込んで『この不等号の列に割り込ませるなら』CPUの速度はこのあたり、という指標が見つからないんですよね。
もちろん機種によって千差万別だとは思いますが、
傾向としてはこのくらいかなあ、みたいな話でもいいので教えていただけたら幸いです。
あ、もちろん>>774の質問も答えていただけると助かります。
キャッシュがよくわかってないのも確かなので。
2016/03/02(水) 01:48:15.90ID:Lh/popYV
後続の処理が走ってもデータが保持されるかどうか?
これについては実装依存としかいいようがない
なにせGPUはCPUと比べてもキャッシュの容量は小さいので
いつまでも今処理してないデータを保持し続ける理由も乏しい。

処理順序の並べ替えが可能なら、データアクセスの局所性に合わせて並べ替えることをお勧めする。
777デフォルトの名無しさん
垢版 |
2016/03/02(水) 15:13:17.26ID:XnY+JUNw
この会話を分かりやすく噛み砕くとこういう感じか

754
GPUの並列化の最適化を教えてください

団子
シェアードメモリーガー

754
あの…ですからデータの並列化を…

団子
データアクセスの局所性ガー

754
・・・・(その並び替えが分からないんだけどなー)・・・・まあいいです
2016/03/02(水) 16:29:21.57ID:epqhA4MI
おきゅんぱしー
779754
垢版 |
2016/03/02(水) 17:56:48.93ID:n1GLxV/f
あっ
2016/03/02(水) 18:46:16.76ID:nVGVVFPp
>>775
うーん、速さといってもデータ転送なのかレイテンシなのかで答えようが無いね。
レイテンシに関してはコアに近いところだとCPUの方がクロックが高いから圧倒的にCPUだね。
2016/03/02(水) 19:06:15.16ID:2uJZVygs
>>761
いやいや、CUDAユーザーならローカルメモリなんて言い方はしない
そもそもローカルではないし

SRAMはキャッシュとシェアードだけ
ボロ出しまくり糞団子
782デフォルトの名無しさん
垢版 |
2016/03/02(水) 20:08:27.14ID:n1GLxV/f
>>776
なるほど。基本的に残ってないと考えた方がよさそうですね。
バイトニックソートは綺麗に並列化できちゃうので、並び替えは無理っぽいです。
>>778
Occupancy確認しました。ビンゴでした。4%とかなにそれクソ使えてない。
というか、よくよく確認したらsharedもまだまだ余裕があったので、
要素数256でsharedの利用を切り替えていたのを2048まで拡張しました。
8192越えたあたりで悪化し始める、という性質こそ変わりませんでしたが
sharedの恩恵を受けられる範囲が増えたおかげか悪化しつつも
約100万要素でもCPUより7倍強速くすることができました。これでOccupancyは50%。
100%にするにはsharedのサイズの設定を変えなきゃならないけどやり方わかんない…。
しかし、こんなアホみたいな理由で遅くなっていたなんて。
みなさまにはご迷惑おかけしました……。
>>780
やっぱりCPUですか。GPUの性能をフルに発揮させるには
それなりに大きい規模を並列化して誤魔化さないといけないわけですね。
783754
垢版 |
2016/03/02(水) 20:12:34.57ID:n1GLxV/f
名前入れ忘れたりsage忘れたりしてますが>>782は754です。
IDで察してくださいすみません。
784デフォルトの名無しさん
垢版 |
2016/03/02(水) 20:36:32.21ID:XnY+JUNw
迷アドヴァイスを見るに見兼ねたスレ住民のおかげで助かりましたとさめでたしめでたし
2016/03/02(水) 21:24:19.27ID:ewxUegIs
>>782
シェアードをローカルとか言う奴の事は聞かないように
GPUはシェアードメモリを使ってなんぼだから
2016/03/02(水) 21:47:03.61ID:mhOGU3Or
っていうかgpgpuでソートが
そもそも間違ってるよなあ
2016/03/02(水) 23:53:33.06ID:Vx/0gvlz
てかFermi以降のSMはキャッシュを構成するSRAMの一部を
GMとは独立した空間のスクラッチパッドメモリとして割り当ててるだけなんだけどね
SMXが実質的なコアとみなすならシェアードメモリって別にシェアードでもなんでもないぞ
2016/03/03(木) 00:02:42.09ID:L7+NtMAj
ますます支離滅裂だな
シェアードメモリがシェアードじゃないとかCUDAの概念を全否定する発言じゃねぇか
つまりお前はCUDAの事なんか全く判ってない
ここはCUDAのスレだぞ
そろそろ出て行けや糞団子
2016/03/03(木) 00:24:01.33ID:HcahvuJO
まったく技術論になってないぞ
NVIDIAの用語がインチキ用語なのは今に始まったことじゃない
AMDのBulldozerのコア詐称以前からのコア数水増しやってるのがNVIDIA

命令ストリームレベルで見ればSMXが本来のコアで
CUDA Coreと呼んでるものはSIMDユニットの1エレメントにすぎない
2016/03/03(木) 00:48:19.47ID:OHZiW0+6
確かにCUDAというかNVIDIAの定義しているシェアードメモリは一般的なシェアードメモリとは違うね。どちらかというとローカルメモリといった方が正しいかもしれん。
2016/03/03(木) 01:01:39.27ID:HcahvuJO
同じコアだからこそメモリを介さずレジスタ上でシフト・シャッフルができる(Kepler以降)

CUDAのSIMTとは単純に32要素1024ビットのSIMDを32スレッドと読み替えてるだけ
この点はG8x世代から変わらないね
792デフォルトの名無しさん
垢版 |
2016/03/03(木) 01:48:33.97ID:TCZfqrpq
自演会話すれば糞団子が味噌団子に変化するじゃないぞ?団子さんよお
2016/03/03(木) 07:58:21.23ID:HcahvuJO
自演認定しても頭がよくなりませんよ、他所者君
CUDAをちゃんと勉強してる人にはみんな知ってる事実だ
2016/03/03(木) 08:43:19.76ID:dzwxxNC2
また夜中の自演が始まったか
バレてないと思うところが糞団子だね
何度も言うがここはCUDAのスレ
僕の考えたシェアードメモリ論ならチラシの裏に書いとけ
2016/03/03(木) 09:02:21.96ID:HqLf1iVZ
CUDAでいうシェアードメモリはCPUでいう一次キャッシュだし、CELLで言うところのLSだから、SMメモリとかコアメモリとかにしておけばよかったのにね。
CUDAの黎明期はGPUをスパコンって呼ぶ戦略があったから、1スレッドを一コアに見立て、共有メモリだと言っていたのかもしれないね。
2016/03/03(木) 09:17:45.89ID:dzwxxNC2
>>795
それを言うならオンチップメモリ
少なくともソフトレイヤーではキャッシュとシェアードは別物
そもそもMaxwellではデータバスも異なる
んでここはCUDAのスレだ
スペオタと糞団子は去れ

>>792
cudaDeviceSetCacheConfigは試してみたのかな?
797デフォルトの名無しさん
垢版 |
2016/03/03(木) 12:05:39.08ID:DYrHTZ2H
>>792
俺に聞かれてもなw
Occupancy確認してからスムースになってきたみたいだし、使わなくても順調ならそれでいいという
考えもある
2016/03/03(木) 12:34:58.87ID:Z97pa2Hq
ソフトレベルって言ってもなぁ
.cuやPTXのレベルならそうだろうがcubinレベルでみて言ってるんじゃないんだろ?

実際Sharedなんて言ってもSMX(実質上のコア)の中でしか参照できないんじゃ名前に偽りありとしか
SPMDをオレオレ用語で置き換えた概念で説明すればSharedなんだろうが物理的にはCellのSPUのLSと同じトポロジにすぎん
2016/03/03(木) 14:52:54.35ID:Qh2UpiXS
逆に複数のsmx間で共有されてたら
くそ遅いだろう
ローカルだから他のsmx気にしなくていいわけで
2016/03/03(木) 14:54:11.01ID:DdRI0anx
>>798
相変わらず頓珍漢なこと言ってるな
お前がどう思うかは全く興味がないから
ここはCUDAスレだ
CUDA使った事ない糞団子は去れ
801754
垢版 |
2016/03/03(木) 14:57:08.65ID:FhaRPDaV
>>796
CUDA_Occupancy_Calculator.xlsで確認してたんですが、
CC3.0だと48kb/16kbと16kb/48kbの他に32kb/32kbがあるっぽくて、
32kbなら100%になる、みたいな謎結果が出てたんです。
で、うちの古い参考書にはその設定のやり方が載ってなかったんです。
だけどそのあと.xlsファイルを開き直したらなぜが100%になってました。
なんでやねん。
2016/03/03(木) 15:08:31.08ID:IfmnFgwQ
>>800
お前がCUDA使ったことないゴミだと自己紹介してることはわかったよ
俺は初代の8系から触ってるんだがな
墓穴ほり過ぎ
803デフォルトの名無しさん
垢版 |
2016/03/03(木) 17:12:24.19ID:fEIbv9/m
また低脳の団子が自演かよ!?
いい加減にして欲しい
コイツがいるとスレが腐るんだけど(怒)
2016/03/03(木) 19:52:45.84ID:dqlRC1xd
>>802
初代から使ってそのレベルならお前には向いてないからもう諦めろ
結局質問者には何ひとつ有益な情報を与えられない低レベル糞団子
805デフォルトの名無しさん
垢版 |
2016/03/03(木) 20:01:58.72ID:TCZfqrpq
>>801>>754
ああいう大人(団子)みたいになったらだめですよ(笑い
806デフォルトの名無しさん
垢版 |
2016/03/03(木) 20:19:52.39ID:4mtdR8td
団子ちゃんは詳しいと思う。
2016/03/03(木) 20:29:28.69ID:n6tvCzB6
文句言うだけの奴より団子のほうがこのスレの役に立っている。
808デフォルトの名無しさん
垢版 |
2016/03/03(木) 21:01:42.18ID:KusOhd2G
               【親米涙目】 ★   ロシアがアメリカを一発KO   ★ 【反中逃亡】

  宇宙人側からの申し入れは、とにかく核の利用と戦争をやめなさい、もう一つは宇宙人の存在を公表しなさい。
 つけ足したのが、60年の猶予を与えましよう、2014年には発表しなければならなかったんですね、宇宙人の存在を。
     ロシアという大国の首相がね、あれは冗談だよでは済まないですね、しかも2回も言ってるんだからね。
                     https://www.youtube.com/watch?v=FIRXKetUkq8



           【親米屈辱】 ★   宇宙人いない派のおバカさん残念www   ★ 【反中赤面】

      NASAは、UFOに対して長年取ってきた態度のために、無用な組織とされることを恐れています。
                 マイトレーヤが公に現れるにつれて、UFOが姿を表すでしょう。
世界平和の脅威は、イスラエル、イラン、アメリカです。イスラエルの役割は跪いて、パレスチナに許しを請うことです。
                アメリカによる他国の虐待に反対の声を上げなければなりません。
    彼らは今世紀(21世紀)をこの帝国が出来上がるアメリカの世紀と呼ぶ。しかし、そうはならないだろう。
  彼らが世界中に‘民主的’制度を確立したいという衝動をコントロールするのは、マイトレーヤの任務である。
Q 経済崩壊が2015年から、テレパシー世界演説が2017年の初めなら、2016年に大戦でしょうか。A 大戦は起こりません。



   【親米命乞い】 ★   マイトレーヤのテレパシーによる世界演説は英国BBCが放送   ★ 【反中土下座】
                     https://www.youtube.com/watch?v=6cOvo6n7NOk

                マイトレーヤが世界に向かって話をする準備は良好に進行している。
  25分か35分くらいかもしれませんが、歴史上で初めて、世界的規模のテレパシーによる接触が起こるのです。
  テレビ中継はこの出来事のために存在するのであり、この時、初めてご自身の本当の身分を明らかにされます。
2016/03/03(木) 21:02:13.41ID:L7+NtMAj
はい、単発来ましたw

糞団子のどこが有益なんだ?
シェアードメモリの割り当て変更にも答えられずに、ローカルメモリとか嘘の情報垂れ流してる奴だぞ?
まともなCUDAユーザーならローカルメモリとシェアードメモリが別物なんて事は常識以前の問題だ
糞団子の自論なんか誰も聞きたくない
嫌われ者の糞団子は去れ!
2016/03/03(木) 22:03:27.41ID:vD1NzbLA
他人のレスで我が物顔してるだけじゃん
無益な厨房だな
2016/03/03(木) 22:12:39.51ID:vD1NzbLA
つーか自称シェアードメモリが実質的なLocalStorageでしかないことは知っておかないとハマる事例もあるんだけどね
SIMTはAVXユニットを8コア、Xeon Phiの1コアを16コアって読み替えるトンデモ抽象化
812デフォルトの名無しさん
垢版 |
2016/03/03(木) 22:33:11.46ID:a8cmYHdA
自演するな!糞団子
2016/03/03(木) 22:34:50.71ID:vD1NzbLA
別に何も間違ったことは書いてないんだが理解できないバカがいる
2016/03/03(木) 22:51:35.86ID:L7+NtMAj
シェアードメモリをローカルメモリとか言う嘘を垂れ流してる事はスルーなんだな
簡単な初期化関数すらアドバイス出来ない低レベル糞団子

ちなみにシェアードメモリは自称でもなんでもなく公式な名称だ
気に入らないなら自分で会社起こして俺の考えた最強のGPUでも作ればいいさ
まぁ、お前のレベルじゃディスクリートすら無理な事は明らかだがな
早く去れよ糞団子
815デフォルトの名無しさん
垢版 |
2016/03/03(木) 22:52:03.02ID:tH72Ij/h
さっき、Anacondaの最新バージョンである2.5.0(64-bit python3.5.1)を入れたの
だけど、それにコマンドプロンプトがデフォルトで入っていないので、pip installが
出来なくて困っています。ipythonやインタラクティヴシェルは入っています。

前のAnacondaのバージョン(python2.7で使っている)であれば、ipythonや
対話シェルからq()やquit()で、普通に、コマンドプロンプトに戻れて、そこから
pip installなどが出来たのになぜなのでしょうか。

普段使っているコマンドプロンプトはpython2.7用になっているので、そこから
python3.5.1用のpip installも出来ません。コマンドプロンプトをpythonのヴァージョン
ごとに切り替えることができるのかもしれないけど、その方法も分かりません。

どなたか、知っている人がいたら教えて下さい。
よろしくお願いします。m(__)m
2016/03/03(木) 23:25:12.80ID:L7+NtMAj
>>815
恐ろしくスレ違いなんだけど
python2系と3系を共存させるならパスを適切に設定しないとダメだよ
詳しくはググってくれ

取り敢えずコマンドプロンプトでpyって打ってからpipしてみたら?
2016/03/03(木) 23:27:56.45ID:Qh2UpiXS
>>809
どう違うの?
2016/03/03(木) 23:45:09.31ID:L7+NtMAj
>>817
なぜググらない?
http://www.gdep.jp/page/view/252
2016/03/04(金) 00:05:36.72ID:oWoP2ITQ
ha?
820デフォルトの名無しさん
垢版 |
2016/03/04(金) 00:13:03.67ID:HJiU7/Cc
>>816
パスは、最新のAnacondaをインストールする時に、パスを自動設定するなら
チェックを入れよという欄があって、チェックを入れてインストールを終了
すると、新しい環境設定が入っています。

念のためシステムで環境設定でパスをチェックしたけど、Anaconda3で、
新しいのが入っている。Anacondaは、3ヴァージョン使っている
のだけど、新しくなるほど使いにくくなっている感じですね。


q()でコマンドプロンプトに戻れると>>815で書いたのは、間違えだった。
それは、R言語のやり方だった。
2016/03/04(金) 00:16:41.20ID:oWoP2ITQ
nv用語だとローカルにないものが
ローカルメモリなんだなこりゃややこしい
2016/03/04(金) 00:25:56.51ID:HJiU7/Cc
今更の問題だけど、pythonはやはり、2系と3系の互換・移植性が
悪いのが問題かな。今日買った、

基礎 Python (IMPRESS KISO SERIES) 単行本(ソフトカバー) – 2016/3/4

大津 真 (著)

ttp://www.amazon.co.jp/%E5%9F%BA%E7%A4%8E-Python-%E5%A4%A7%E6%B4%A5-%E7%9C%9F/dp/484438015X

が、3系で、ちょっと変わった雰囲気のコードの使い方があったので、面白いの
だけど、2系と併用だと>>815みたいになって、pip installも出来ないし、
ipythonでしか、3系が使えないのが困りもの。2系で使える3系のものも
あるけれど…。

2系を全部消せば3系を使えるのは分かっているのだけど、2系の方が
出来ることがまだまだ多い感じがするからね。まだ2系が多数派でしょ。

あ、仮想環境ヴァージョンを切り替えてやればいいのかな。
2016/03/04(金) 00:38:24.47ID:HJiU7/Cc
あ、pythonのクダスレだと、勘違いしてました。
失礼いたしました。
2016/03/04(金) 00:40:30.37ID:UJ4KYtRn
>>821
何を今更
だからこそ嘘を垂れ流す糞団子はここから去れよ
2016/03/04(金) 01:07:12.95ID:qzn/KKB0
ウソ扱いしてるお前が自覚のないウソつきなんだけど
2016/03/04(金) 01:15:03.88ID:qzn/KKB0
>>821
もっとも、スピルされたレジスタのデータが真っ先に格納されるのはGDDR*ではなく
キャッシュだけどな
なぜならキャッシュはDRAMの読み書きを高速化するためにあるから
827デフォルトの名無しさん
垢版 |
2016/03/04(金) 02:24:38.67ID:pNMSyXd+
自覚のない荒らし
それが団子の糞風味クオリティ
2016/03/04(金) 07:49:00.48ID:o39fhgVG
>>825
何が嘘なのか具体的に示せよ
俺は具体的に示したろ
糞団子は去れ
2016/03/04(金) 07:50:34.02ID:o39fhgVG
>>826
>なぜならキャッシュはDRAMの読み書きを高速化するためにあるから
そんなパソコン教室の初日に教わる様な内容を語るスレじゃねぇよ
糞団子は去れ!
2016/03/04(金) 08:15:25.08ID:uG62vIs+
匿名で俺って言い張られてもw
2016/03/04(金) 09:40:06.12ID:sQ9JXJsj
>>830
流れが読めないなら黙ってればいいのに
2016/03/04(金) 09:48:28.02ID:/J2AWB0A
Talk me.
2016/03/04(金) 10:12:42.01ID:uG62vIs+
オレオレ、俺だよ俺
俺だよ

かまってよ

ってかw
2016/03/04(金) 11:01:16.11ID:z53XqiUN
お前つまんねぇよ
835デフォルトの名無しさん
垢版 |
2016/03/04(金) 11:46:47.03ID:pNMSyXd+
団子ちゃん悔しいだろホントはおともだちをつくってワイワイ話したいんだろ?
じゃあ自作板帰ろうな
2016/03/04(金) 12:02:03.20ID:uG62vIs+
オレオレ主張したいんならコテハンつけろよ
2016/03/04(金) 15:46:55.78ID:XhYLrWiK
俺だよ
2016/03/04(金) 19:33:33.59ID:o39fhgVG
答えに窮すると何故か匿名になる
安定の自演糞団子
2016/03/04(金) 19:39:28.79ID:dJLsGuAT
自分がやってるからって
他人もそうだと思うなよ
病気の人
2016/03/04(金) 21:27:27.28ID:nvZ+jZcm
まだやってんのかよっw。
シェアードメモリはローカルメモリだよwww。
2016/03/04(金) 21:40:33.21ID:qzn/KKB0
方言のない一般名称でいうと「スクラッチパッドメモリ」か
842デフォルトの名無しさん
垢版 |
2016/03/04(金) 21:49:33.06ID:pNMSyXd+
ぼろ出してもコテでい続けるのは正直苦痛だろ?
















な、団子
2016/03/04(金) 22:01:24.79ID:WoARA1cN
>>840
>>818
2016/03/04(金) 23:13:53.73ID:qzn/KKB0
名無しばっかりだと不安で団子認定に必死な病気の癖に
2016/03/05(土) 04:38:45.77ID:GYxVvQjW
いい加減通常時に戻ってください
正直どっちもどっちなんだよね
どっちも邪魔
2016/03/05(土) 07:19:08.49ID:dgmAi0Ww
マジで糞団子は去ってくれ
嫌われてるの自覚しろ
2016/03/05(土) 07:44:33.94ID:I9HpfPeT
コテの人はいい加減ブログでもなんでも始めたらいいよ
荒らし行為だよ

コテ煽る人もやめてよ
2016/03/05(土) 09:30:50.56ID:pYtkFW+i
団子さん
お願いです。
あなたが来てからこのスレは機能しなくなりました。
ここは数少ないCUDAの情報交換の場です。
もう、ここに来ないで下さい。
2016/03/05(土) 09:48:51.08ID:7wCpFrY5
実際の荒しは倍精度、精神病の人ですけどね
2016/03/05(土) 10:46:20.52ID:we9m+Baq
こいつ一人が団子団子連呼してて
すげー気持ちわりーよ
2016/03/05(土) 10:51:01.60ID:7wCpFrY5
好きなんだろ
付き合っちゃいなよ
852デフォルトの名無しさん
垢版 |
2016/03/05(土) 11:18:09.46ID:nqZZ4Fac
最近は傷心の団子をおもちゃにするうんこごっこが流行ってるのか?
2016/03/05(土) 11:20:03.53ID:7wCpFrY5
いいえ
精神病の人をどうバカにするかが流行ってます
2016/03/05(土) 14:14:59.66ID:oAjMaO0h
つーかまともな話しようとすると団子認定されるのは書き込む気を無くさせるためなのだろうか。
技術的な話をすると内容がどうでも団子にされるから、そういう話が理解できないのと、ある意味団子崇拝が酷いのだろうな。
2016/03/05(土) 15:25:30.62ID:PxQJKL1y
>>849
団子はある程度(正しいかは別にして)技術的話が出来るけど、
その人はAMDは倍精度がすごいよ、GPGPUの勝者はAMDで決まり!と
I love 団子だけだからな。
856デフォルトの名無しさん
垢版 |
2016/03/05(土) 16:26:59.56ID:nqZZ4Fac
あんまり団子をおもちゃにするなって
ウンコの匂いが充満するじゃないかw
857デフォルトの名無しさん
垢版 |
2016/03/05(土) 16:43:06.41ID:hF4tqJh9
こんにちは。

CUDA では、__device__ 修飾された関数は、GPU内部から呼び出せますが、
再帰コールが出来ないのはなぜですか?

以下はできますよね?

__device__ int aaa(int x) {
 return x * 2;
}

__device__ int bbb(int y) {
 return aaa(y) + 3;
}

では、以下は駄目ですか?
__device__ int kaijou(int y) {
 if ( y == 1 ) {
  return y;
 }
 else {
  return y * kaijou(y-1);
 }
}
858デフォルトの名無しさん
垢版 |
2016/03/05(土) 17:05:18.01ID:nqZZ4Fac
団子は答えなくて結構
2016/03/05(土) 17:17:05.46ID:oAjMaO0h
ハード的に絶対できないと言うことも無いのだろうが、スタックどれだけ使うか計算できないってのが大きいんじゃね。
2016/03/05(土) 19:01:23.69ID:wCUhFShW
最適化の邪魔になるから最初から再帰はやめてねーんってことかな。
2016/03/05(土) 20:36:21.36ID:pXJbdtfw
>>858
おまえが正解答えてやれば
あれずに済むだろ
2016/03/05(土) 21:10:49.87ID:18qofrJ5
>>861
俺ならその無駄レス書いてる暇で書けるぞ>>858は無能だから理解できないだけで

>>859
CUDAの自称コアが要素毎プレディケートつきのSIMDユニットを
マルチコアって言い張ってるだけから本物の独立したコアでないから
で終わりなんだけどね。
命令ポインタは「自称コア」ごとに独立してないんだ

「分岐」も本物の分岐ではなく、if-else節を全部一列のコードに展開してプレディケート
しているだけ。プレディケートビットの全要素が0あるいは1になって初めて関数を
飛び越えることができる。

SIMDの要素(自称)ごとに命令ポインタと関数コールスタックを管理できて別々の
命令ステートを独立して持てるならそれは既にSIMDじゃない
2016/03/05(土) 21:25:15.51ID:18qofrJ5
ベクトルを隠蔽しない、1ワープを1つのスレッドとして処理できるプログラミングモデルが
提供されるなら再帰は理屈上可能
それはCPUのSIMDの在り方と同じってことだけど
2016/03/05(土) 21:53:08.36ID:LlD1+gMh
独立したコアという前提だから、コア毎のレジスタで表現できる範囲の処理しか出来ないって事だと思ってたけど違うのか。
2016/03/05(土) 22:00:09.02ID:oAjMaO0h
基本はSIMDプロセッサでの本当の分岐だよ。
簡単な処理ならpredicate実行で済ますけどこれはモダンなプロセッサではSIMT、SIMD、に限らず一般的な手法

状態保存のメモリを最小化するためにdivergent pathを深さ優先でスキャンしていくから、どこかのdivergent pathで無限ループになるとwarp内の別threadには何時までたっても制御が帰ってこないけどね。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況