【GPGPU】くだすれCUDAスレ part8【NVIDIA】 [無断転載禁止]©2ch.net
もしかしてNVIDIAのフォーラムでモデレータに I’m confused とか言われてんのコイツ? 炎上学習法かとも思ったが全然学習してる素振りもないのよなあ >streamてCPUとGPUの協調のこと言ってるの? ちょっとはググるなりしたらどうかね > body1<<< Ki, Ki >>> ( idata, odata1 ); //マルチスレッド実体 > cudaDeviceSynchronize(); > body2<<< Ki, Ki >>> ( odata1, odara2 ); //マルチスレッド実体 body1とbody2は同じstreamだから基本的にそんなところにsynchronizeはいらんのよ >そのときcudamalloc/cudafreeなんか使ってたんじゃメモリ管理が大変で, これも意味不明だなあ malloc/freeと比べてどう大変だと言うんだろう 同期オブジェクトが出てないんだから、そりゃシリアルに動くやろうなあ CUDA知らん >>390 ゲラゲラ それどこだよww お前のプロファイル推定正しいかどうか見てから発表してやるよ さらせよソコをよww >>391 12.2 プログラムガイド pp47 For code that is compiled using the --default-stream legacy compilation flag, the default stream is a special stream called the NULL stream and each device has a single NULL stream used for all host threads. The NULL stream is special as it causes implicit synchronization as described in Implicit Synchronization. For code that is compiled without specifying a --default-stream compilation flag, --default-stream legacy is assumed as the default. 11.4以降 --default-streamは非推奨. 当然このオプションはデフォルトでなくなり, 暗黙の同期ストリームであるNull streamはデフォルトではなくなった. つまり, ストリームは何も指定しなければ非同期ストリームとなった 同期ストリームとなることを保証したい場合, 当然cudaStreamSynchronize()で挟むだろうが そのすぐ下の6.2.8.5.3 Explicit Synchronizationも読んどけよ コロコロ変わるデフォのコンパイルオプションに頼るお前 >>392 freeが毎回書いてられないといってるわけ. それとcudafreeが同じなのは当たり前な だからホスト側ではgpu用のgpu::unique_ptrとかユーザ側でこさえてるんだろが. これを書いてるサイトはいくらでもある. __global__内ではこういうmake_uniqueは動かないのでc++11レベルでは書けないが, 普通にnew/deleteやC++03レベルのデストラクタが動作するので, ホスト側でgpuのローカルメモリの解放を手でやらかすよりよほど楽だと言ってるのだよ. >>395 いや、それストリーム間の同期の話であって同じストリームに投入したカーネルの実行の話とは関係ないんだが。 いろいろ検索したりしたんだろうけどここ勘違いするようなレベルでイキりまくられても。 もともとは cudaDeviceSynchronize がデバイス上で非推奨になるんで代替策をどうするかって話だったと思うけど、 「自分は間違ってない」と強弁するだけならそりゃ2ヶ月近く解決しないわけだわ。 PCくそど初心者で、オーディオをやっている者です。 現在PC(linux)でHQplayerというソフトで音楽ききてます。 そのPCにグラボ刺したら音質上がるなんてガセネタつかまされたんで、騙されてみようと思うのですが、その際CUDAの設定しないとGPUが使われないということのようなのです。 調べたら、ドライバー、ツールキット、cuDNNの3つをインストールするみたいなのですが、最後のcuDNNの意味がわかりません。 有識者の方、どうかご教授下さい! >>398 他人の作った何をやっているかわからないプログラムを使うより 音とプログラミングとCUDAについて勉強して 自分で音質を上げるプログラムを作ったほうがよいと思うよ。 本屋とかアマゾンでそういう専門書も探せば見つかるでしょ。 >>399 398です。 なるほど、そういう方法もあるのですね。 自分で勉強してプログラムのことまで理解するなんて大変そうですが、根本を理解していないと使う意味ないですもんね。 大変そうですが、チャレンジしてみます。 ありがとうございました。 RTX4090よりA4000をおすすめしてる所がありますが、これは長期稼働の安定性と低消費電力が理由でしょうか。 lstmで出来るだけ早く学習させたいのですが4090の方が早そうですがいかがですか。 自己解決 webページ作成者に聞いた 4090の方が速いが、例えば3時間が4時間になったところでたいした違いはないでしょうとか いくつものパターンを試したいので少しでも早いものをってことで4090を買った read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる