このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
http://peace.2ch.net/test/read.cgi/tech/1281876470/
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
【GPGPU】くだすれCUDAスレ part7【NVIDIA】
http://echo.2ch.net/test/read.cgi/tech/1416492886/
探検
【GPGPU】くだすれCUDAスレ part8【NVIDIA】 [無断転載禁止]©2ch.net
2016/06/15(水) 14:41:15.11ID:d2Xou3GL
176デフォルトの名無しさん
2018/05/23(水) 21:24:03.57ID:uiVT0ZzW Q45FH
177デフォルトの名無しさん
2018/07/05(木) 00:33:41.64ID:RfoszcD2 T85
178デフォルトの名無しさん
2018/10/08(月) 11:29:19.78ID:+5qyKWRv179デフォルトの名無しさん
2018/10/22(月) 20:29:13.91ID:w4+wf4gQ RTXのtensorコアってどうなの?
180デフォルトの名無しさん
2019/01/03(木) 14:15:50.59ID:pSmmWchb 1080Ti買ってきてドライバインストールしたんだけど、GPU-Zで見たときOpen-CLだけチェック入ってなくて
困ってるんだけど、コレって別にドライバー持ってくる必要があるの?
困ってるんだけど、コレって別にドライバー持ってくる必要があるの?
181デフォルトの名無しさん
2019/01/03(木) 14:29:58.49ID:ek3slq0P182デフォルトの名無しさん
2019/07/23(火) 17:02:22.82ID:/TcX3lBx quadro p600のWSにcuda入れようとしてるのだけど
10.1がパスカル世代の面倒見るのはteslaだけって認識でいいの?
390系のドライバしか入らなくて困ってる。
cuda9.1だとこんどはgcc 6以上はあかんとサンプルプログラムのヘッダがコンパイル時にハネてくる。
なんか詰んでる
10.1がパスカル世代の面倒見るのはteslaだけって認識でいいの?
390系のドライバしか入らなくて困ってる。
cuda9.1だとこんどはgcc 6以上はあかんとサンプルプログラムのヘッダがコンパイル時にハネてくる。
なんか詰んでる
183デフォルトの名無しさん
2019/07/23(火) 17:03:06.53ID:/TcX3lBx >>179
倍精度ゲロ遅なんでしょ
倍精度ゲロ遅なんでしょ
184デフォルトの名無しさん
2019/08/04(日) 08:51:33.67ID:1yK6graO でかいjpegファイルを手頃なサイズに縮小することがよくあって、
数が多いので結構な時間(数時間)がかかる
これを何とかGPUのパワーで短縮できないものか
数が多いので結構な時間(数時間)がかかる
これを何とかGPUのパワーで短縮できないものか
185デフォルトの名無しさん
2019/08/04(日) 10:17:38.13ID:Ae1Ff/1h スレチ
186デフォルトの名無しさん
2019/11/27(水) 13:29:04.23ID:JvyecW3n GTX1080のあるPCでcudaとcuDNNとAnacondaとTensorflowをインストール
GTX1080には9.0が合うのかと調べて、VS2015をインストールしてからcudaもバージョン合わせて入れる
Anaconda入れて早速仮想環境作ったが何故かその時はPython3.7しか選べなかった
そしたらconda install tensorflow-gpuで勝手に2.0を選び、型が合わないとエラー
conda install tensorflow-gpu==1.15でもcuda runtimeと合わない
cudaが10じゃないとダメという
1.12にしたら、今度はPythonが3.6でないとダメという
つまりこの仮想環境丸ごとダメ
捨てたあとで、もう一回作ろうとしたらPython3.6選べた
だからconda install tensorflow-gpu==1.12で、やっと動いた
ちょっとでも古い機器だともう合わないとか、敏感だよなあ
GTX1080には9.0が合うのかと調べて、VS2015をインストールしてからcudaもバージョン合わせて入れる
Anaconda入れて早速仮想環境作ったが何故かその時はPython3.7しか選べなかった
そしたらconda install tensorflow-gpuで勝手に2.0を選び、型が合わないとエラー
conda install tensorflow-gpu==1.15でもcuda runtimeと合わない
cudaが10じゃないとダメという
1.12にしたら、今度はPythonが3.6でないとダメという
つまりこの仮想環境丸ごとダメ
捨てたあとで、もう一回作ろうとしたらPython3.6選べた
だからconda install tensorflow-gpu==1.12で、やっと動いた
ちょっとでも古い機器だともう合わないとか、敏感だよなあ
187デフォルトの名無しさん
2019/12/04(水) 13:02:39.14ID:tCRQbFTx ところがRTX2000番台は事前にVSもCUDAもcuDNNも入れずにAnacondaだけで
tensorflowがインストールできてしまった
この数日で色々変わったらしい
tensorflowがインストールできてしまった
この数日で色々変わったらしい
188デフォルトの名無しさん
2019/12/04(水) 13:24:12.88ID:sb3P/SSe おめおめ
189デフォルトの名無しさん
2020/02/14(金) 11:55:27.53ID:ApdIcKC6 RTX2000番台はAnacondaからPyTorchでGPUを使う設定に出来たがChainerでcupyからGPU呼ぶのは失敗
GTX1000番台はAnacondaからChainerでGPU使えるように苦労して設定したら、PyTorchは
「これ古すぎてGPU使えない」と表示された
一長一短
ところで16xx系列ではどうなるんだろう
GTX1000番台はAnacondaからChainerでGPU使えるように苦労して設定したら、PyTorchは
「これ古すぎてGPU使えない」と表示された
一長一短
ところで16xx系列ではどうなるんだろう
190デフォルトの名無しさん
2020/04/08(水) 11:14:16.32ID:kpKMKUpB PyTorch使いたかったら2000番台がいいか
2070以上、せめて2060superがいいか
でも中古でもそれなりの値段
そしてGPU上のメモりが8gb以上ないと動かないモジュールも多くて2060無印があかん事に
2070以上、せめて2060superがいいか
でも中古でもそれなりの値段
そしてGPU上のメモりが8gb以上ないと動かないモジュールも多くて2060無印があかん事に
191デフォルトの名無しさん
2020/06/25(木) 09:14:06.05ID:MmNin/8J wddm2.7対応ドライバで
bandwidthTestにおいてpagedメモリの転送速度向上を確認した
pinedだとhtod、dtohともに13GB/sec
pageableだとwddm2.6は8GB/sec、2.7だと12GB/secくらい
bandwidthTestにおいてpagedメモリの転送速度向上を確認した
pinedだとhtod、dtohともに13GB/sec
pageableだとwddm2.6は8GB/sec、2.7だと12GB/secくらい
192デフォルトの名無しさん
2020/09/29(火) 22:45:56.87ID:8OEjGTOk GTX 1660 SUPERはCUDAに対応してますか?
193デフォルトの名無しさん
2020/09/30(水) 01:11:13.65ID:XQsVzQWu >>192
https://www.nvidia.com/ja-jp/geforce/graphics-cards/gtx-1660-super/
GPU エンジンの仕様:
1408 NVIDIA CUDA® コア
6GB GDDR6標準メモリ構成
192-ビット
https://www.nvidia.com/ja-jp/geforce/graphics-cards/gtx-1660-super/
GPU エンジンの仕様:
1408 NVIDIA CUDA® コア
6GB GDDR6標準メモリ構成
192-ビット
194デフォルトの名無しさん
2020/10/04(日) 03:16:42.67ID:tvE5z3VX CUDAのバージョンを不問とするならGeforce 200シリーズ(Tesla世代)から対応はしてる
って書こうとしたら8シリーズ(2007年)からあったんかよCUDA
って書こうとしたら8シリーズ(2007年)からあったんかよCUDA
195デフォルトの名無しさん
2020/10/13(火) 20:53:42.89ID:6GL96WuY CPUでの画像処理で速度が上がらずCudaを使いたいです。(windows)
@画像をGPUメモリに読み込み
A領域分割、パラレルで画像処理
(分割部エッジにオフセット?をつけたい)
BGPUメモリの処理結果をCPUメモリに返してファイルにおとす。
こういったサンプルプログラムでいいのないでしょうか?
画像処理部だけしたい処理に書き換えればいいような。
よろしくお願いします。
@画像をGPUメモリに読み込み
A領域分割、パラレルで画像処理
(分割部エッジにオフセット?をつけたい)
BGPUメモリの処理結果をCPUメモリに返してファイルにおとす。
こういったサンプルプログラムでいいのないでしょうか?
画像処理部だけしたい処理に書き換えればいいような。
よろしくお願いします。
196デフォルトの名無しさん
2020/10/14(水) 13:17:48.94ID:qfzj9xUm numpyをcupyに替えて
ただしcupyはGPUを使うと宣言して
みたいな奴かなあ
ただしcupyはGPUを使うと宣言して
みたいな奴かなあ
197195
2020/10/14(水) 15:54:49.86ID:4Zn1G8Lw すみません。言語を書いていませんでした。使いたいのはPythonじゃないです。
WindowsでC++で実現したいです。
WindowsでC++で実現したいです。
198デフォルトの名無しさん
2020/10/14(水) 16:32:24.96ID:ZV1nncqg ttps://qiita.com/Keech/items/381495ed90e012d69f1a
ttps://www.kkaneko.jp/tools/win/cuda10.html
ttps://www.kkaneko.jp/tools/win/cuda10.html
199デフォルトの名無しさん
2020/10/14(水) 16:34:20.05ID:ZV1nncqg ttps://ameblo.jp/naginosen/entry-12443269443.html
200デフォルトの名無しさん
2020/11/19(木) 09:55:49.41ID:RIzKHKet RTX3080などで、cuda11が使えるようになってる
だがtensorflowは現時点でまだ使えない
だがPyTorchが動くとのこと!
だがtensorflowは現時点でまだ使えない
だがPyTorchが動くとのこと!
201デフォルトの名無しさん
2020/12/01(火) 20:58:05.41ID:nBZth83f cudaええな。
2万3千円の GF 1660 SUPER で tensorflow が
2x Xeon E5 2697A v4 の10倍速くなった
2万3千円の GF 1660 SUPER で tensorflow が
2x Xeon E5 2697A v4 の10倍速くなった
202デフォルトの名無しさん
2020/12/07(月) 14:54:49.93ID:sgdo/0mF 1660sでも天下のXEON様の10倍も速いのか
cudaコア数に速度が比例するからなあ
3090だと更に7倍?
cudaコア数に速度が比例するからなあ
3090だと更に7倍?
203デフォルトの名無しさん
2020/12/07(月) 21:54:00.27ID:UxKk8T9A intelのコンパイラ買えばCPUももうちょっとマシなんだろうけどケチってやってない。
GPUのメモリの量で、やれることとやれないことが変わってくるので
コア数クロック低くてもメモリ多いみたいなのがあればいいのにね
GPUのメモリの量で、やれることとやれないことが変わってくるので
コア数クロック低くてもメモリ多いみたいなのがあればいいのにね
204デフォルトの名無しさん
2020/12/08(火) 15:17:27.13ID:enlXKoHl パソコン工房のブログ記事に
RTX2060superを2枚使って、しかしSLIとかVLLinkとか使わずに性能1.8倍って例が出ている
34308番の記事か
RTX2060superを2枚使って、しかしSLIとかVLLinkとか使わずに性能1.8倍って例が出ている
34308番の記事か
205デフォルトの名無しさん
2020/12/10(木) 23:34:49.63ID:lK79U13H 3080tiでpytorch回してえ
206デフォルトの名無しさん
2021/01/12(火) 01:54:13.37ID:QwUx+qJl 1050で戦ってるが、ぐぐるこらぼの半分の速度しか出ねえ
今買い換えるならおすすめどれ?
3万くらいなら払えそう
今買い換えるならおすすめどれ?
3万くらいなら払えそう
207デフォルトの名無しさん
2021/01/13(水) 07:56:47.02ID:7sNWJYPv 1660SUPERぐらいなら買えそう
208デフォルトの名無しさん
2021/01/14(木) 10:18:01.38ID:khWOsAy5 RTX3060デスクトップ版のコスパが
これまでのNVIDIAの一般ユーザー向けGPUでは深層学習に最適かな
3584cudaコアとVRAM12GBでアメリカ価格329ドルは有難い
教師データが巨大でも助かる
なおノート向けはcudaコアはちょっと多いがVRAM6GBなので注意
またRTX30xx番台はcuda11を使えばTensorflowを動かせるとのこと
これまでのNVIDIAの一般ユーザー向けGPUでは深層学習に最適かな
3584cudaコアとVRAM12GBでアメリカ価格329ドルは有難い
教師データが巨大でも助かる
なおノート向けはcudaコアはちょっと多いがVRAM6GBなので注意
またRTX30xx番台はcuda11を使えばTensorflowを動かせるとのこと
209195
2021/01/14(木) 13:43:39.46ID:RlCOioEo caffeが異様にメモリ食うんだが。
困った。
困った。
210デフォルトの名無しさん
2021/01/14(木) 21:42:12.40ID:qplKalHw RTX3060良さそうだよな。
Google colab は無料なのは助かるけど、毎回環境構築しなきゃいけないし、やっぱりローカルで動かせると捗る。
Google colab は無料なのは助かるけど、毎回環境構築しなきゃいけないし、やっぱりローカルで動かせると捗る。
211デフォルトの名無しさん
2021/01/18(月) 09:07:06.27ID:svUqu+sR 3000番台はまだSLI出来るんだっけ
2060superでただ2枚挿しただけでとりあえず深層学習用途なら性能上がったというのが気になる
ノートPC用のRTX3080って16GBなんだなあ
是非欲しいけど当面は総額40万円くらいだろうな
2060superでただ2枚挿しただけでとりあえず深層学習用途なら性能上がったというのが気になる
ノートPC用のRTX3080って16GBなんだなあ
是非欲しいけど当面は総額40万円くらいだろうな
212デフォルトの名無しさん
2021/01/18(月) 12:33:28.51ID:LEwyyQvF ゲームやらんし
3060でいいかな
3060でいいかな
213デフォルトの名無しさん
2021/02/25(木) 09:17:50.75ID:evheNpFl 3060発売日か
214デフォルトの名無しさん
2021/03/01(月) 12:17:15.83ID:8GQloKKK 機械学習しようとrtx3090を2枚買ったんだが中古でも25万円で売れるから売ってrtx A6000に買い替えるメリットある?
gpgpu的な観点から
gpgpu的な観点から
215デフォルトの名無しさん
2021/03/01(月) 15:53:37.93ID:ahGFzuGs 電力は少なくて済むな
216デフォルトの名無しさん
2021/06/02(水) 02:14:34.84ID:TuNemlZF 3080tiと3070tiが販売されるか
しかし3080tiでもVRAM12GB
しかし3080tiでもVRAM12GB
217デフォルトの名無しさん
2022/03/11(金) 11:03:09.15ID:vTxyPKiv ようやく
CPUマルチスレッドをCUDAプログラミングに乗り換えようと来てみたけど
ほんと人少ないな。
ompオフロードじゃなくCUDAでやろうとしてる
ちょっと思ったのはデバイス側のスレッドから、複数のデバイス側のスレッドを起動できれば
ホストデバイス間のメモリ転送をぐっと少なく出切るんだけど
こういうことって出来ないのかな?
__device__
void
SubThread()
{
...
}
__gloval__
void
SubThread()
{
}
CPUマルチスレッドをCUDAプログラミングに乗り換えようと来てみたけど
ほんと人少ないな。
ompオフロードじゃなくCUDAでやろうとしてる
ちょっと思ったのはデバイス側のスレッドから、複数のデバイス側のスレッドを起動できれば
ホストデバイス間のメモリ転送をぐっと少なく出切るんだけど
こういうことって出来ないのかな?
__device__
void
SubThread()
{
...
}
__gloval__
void
SubThread()
{
}
218デフォルトの名無しさん
2022/03/11(金) 15:20:37.94ID:vTxyPKiv 途中で送信してしもた
__device__
void
SubThread(){
...
}
__gloval__
void
Thread(){
SubThread<<<1,1024>>>();
}
int
main(){
Thread<<<1,1>>>Thread();
}
みたいな。
これができないとCPUマルチコアプログラムからGPUプログラムに簡単に移行できんわ。
CPUもC#やインテルコンパイラから入ったんで、大体様子がわかって、
ompでは用意されてなかったPartitionerを先ず作ってめちゃ楽にコーディングできるようになった。
GPUはまだ手探り状態
__device__
void
SubThread(){
...
}
__gloval__
void
Thread(){
SubThread<<<1,1024>>>();
}
int
main(){
Thread<<<1,1>>>Thread();
}
みたいな。
これができないとCPUマルチコアプログラムからGPUプログラムに簡単に移行できんわ。
CPUもC#やインテルコンパイラから入ったんで、大体様子がわかって、
ompでは用意されてなかったPartitionerを先ず作ってめちゃ楽にコーディングできるようになった。
GPUはまだ手探り状態
219デフォルトの名無しさん
2022/03/11(金) 18:41:56.87ID:yfypcQRg 細かく見てないけどSubThread をグローバルにしたら呼べる
220デフォルトの名無しさん
2022/03/12(土) 01:12:58.32ID:2Ys6LOmP >>218
CUDA Dynamic Parallelism
CUDA Dynamic Parallelism
221デフォルトの名無しさん
2022/03/12(土) 10:13:53.90ID:GhWebJZd __device__を__global__に置換してみたけど
__global__内でスレッドを立ち上げるコードを書くと
THread内のSubThread<<<1,1024>>>(); 行と
main関数のThread<<<1,1>>>Thread(); 行の2箇所で"式が必要です"とコンパイルがエラーがでる
もちろん
Thread内のSubThread<<<1,1024>>>();をコメントアウトするとコンパイルもとおるし、正しく実行できる
__global__内でスレッドを立ち上げるコードを書くと
THread内のSubThread<<<1,1024>>>(); 行と
main関数のThread<<<1,1>>>Thread(); 行の2箇所で"式が必要です"とコンパイルがエラーがでる
もちろん
Thread内のSubThread<<<1,1024>>>();をコメントアウトするとコンパイルもとおるし、正しく実行できる
222デフォルトの名無しさん
2022/03/12(土) 10:16:20.60ID:GhWebJZd223デフォルトの名無しさん
2022/03/12(土) 18:11:29.89ID:GhWebJZd ようやくわかりました
Relocatable Deice Code をenableでコンパイルが通りました
あちがとうございました
Relocatable Deice Code をenableでコンパイルが通りました
あちがとうございました
224デフォルトの名無しさん
2022/03/23(水) 16:55:21.73ID:4ldsbCNM 今のGeForceは倍精度遅すぎてなんとかならんか?とおもてたら
Kelper世代のTeslaが8万円ぐらいで売ってるのな 1.8TFlps
c.f.
R3090 FP64 0.556TFPS ww なんそれッ
Kelper世代のTeslaが8万円ぐらいで売ってるのな 1.8TFlps
c.f.
R3090 FP64 0.556TFPS ww なんそれッ
225デフォルトの名無しさん
2022/03/23(水) 19:49:40.61ID:4ldsbCNM k80とか外付けGPUBOXで正常動作すんのかな?
動作報告探してみたけど見つからないんでよくわからん
消費電力大きいし、使いたいときだけつないぎたい
動作報告探してみたけど見つからないんでよくわからん
消費電力大きいし、使いたいときだけつないぎたい
226デフォルトの名無しさん
2022/03/23(水) 21:39:42.99ID:L/8Jb0Ma 8万円分AWSのGPUインスタンス借りたほうがよくね?
227デフォルトの名無しさん
2022/03/24(木) 04:46:34.26ID:A9GFlV37 課金がアクセス時間なのか正味のGPU駆動時間かわからんけど
8万だとほぼほぼ1ケ月やね。k80本体は6.7万ってのを見つけたわ
機材レンタルじゃないのでもっと上衣スペックのGPUサービスとか期待してチェックしたけど
目ん玉飛び出るぐらい高いね。もっと安くしてくれ
8万だとほぼほぼ1ケ月やね。k80本体は6.7万ってのを見つけたわ
機材レンタルじゃないのでもっと上衣スペックのGPUサービスとか期待してチェックしたけど
目ん玉飛び出るぐらい高いね。もっと安くしてくれ
228デフォルトの名無しさん
2022/03/24(木) 05:17:57.72ID:A9GFlV37 A100ならAWSよりGPUSOROBANが半額以下やね
22万/月なんて個人じゃ出せないけど
22万/月なんて個人じゃ出せないけど
229デフォルトの名無しさん
2022/03/25(金) 15:16:22.97ID:K6Ygc++J 仮面ライダー GPGPU
https://pc.watch.impress.co.jp/docs/news/1396728.html
700Wて
10年たってジャンクで入手しても個人で稼動して遊べるシロモノじゃなくなったな
https://pc.watch.impress.co.jp/docs/news/1396728.html
700Wて
10年たってジャンクで入手しても個人で稼動して遊べるシロモノじゃなくなったな
230デフォルトの名無しさん
2022/03/25(金) 15:57:54.09ID:9D1V2Tj7 電力はまだしも排熱が難しいな。
231デフォルトの名無しさん
2022/04/15(金) 16:37:56.16ID:sD2CwuNi CUDAてなんで3次元でスレッド管理するの?
DRAMが実装構造としては2次元でもアドレスでコーダがrow. columnは吸収して1次元で管理するように
スレッドもそうしちゃ駄目な理由を知りたい。
そもそも、3次元ってのとgrid, blockがなんの関係もないんじゃないの?
2次元を block として管理して
3次元の奥行が必要になった時点でgridが登場するならまだ理解できるんだけど。
しかも
threads/block = 1024 と少ない。こんなんじゃ32x32行列越えたら一挙にメンドクサイ
DRAMが実装構造としては2次元でもアドレスでコーダがrow. columnは吸収して1次元で管理するように
スレッドもそうしちゃ駄目な理由を知りたい。
そもそも、3次元ってのとgrid, blockがなんの関係もないんじゃないの?
2次元を block として管理して
3次元の奥行が必要になった時点でgridが登場するならまだ理解できるんだけど。
しかも
threads/block = 1024 と少ない。こんなんじゃ32x32行列越えたら一挙にメンドクサイ
232デフォルトの名無しさん
2022/04/15(金) 22:42:02.88ID:+O2sB4yV 3DCG処理やる場合、最初から3次元のID貰った方が楽じゃん?
233デフォルトの名無しさん
2022/04/15(金) 23:30:24.49ID:ySHkHnZ8 >>232
3DCGの次元とは全然別物だが
3DCGの次元とは全然別物だが
234デフォルトの名無しさん
2022/04/16(土) 07:46:19.05ID:njc5gQYC block,grid へのスレッドの割当て方とかでパフォーマンス変わりますか?
1000個のスレッドを起動したいとき、
block内だけで起動する方が速いのかいのか?
それとも
10個/grid, 100個/blockと分ける方が速いのか?
OpenCLでNVidiaがAMDほどパフォーマンスが上がらないのはスレッドの立ち上げかたで
癖のようなものがあるからってのはないですか?
block,gridってパーティションは単にソフトの問題なのかハード上の制約でこうしてるのかが知りたい
1000個のスレッドを起動したいとき、
block内だけで起動する方が速いのかいのか?
それとも
10個/grid, 100個/blockと分ける方が速いのか?
OpenCLでNVidiaがAMDほどパフォーマンスが上がらないのはスレッドの立ち上げかたで
癖のようなものがあるからってのはないですか?
block,gridってパーティションは単にソフトの問題なのかハード上の制約でこうしてるのかが知りたい
235デフォルトの名無しさん
2022/04/16(土) 09:18:24.96ID:lq6dfVd7 変わるけど、今のGPUそんなん意識しなくても速いからいいだろ
Keplerまでは色々考えないと速くならんかったけど、Maxwell以降はそんな考えなくてもよくなったからおけ
Keplerまでは色々考えないと速くならんかったけど、Maxwell以降はそんな考えなくてもよくなったからおけ
236デフォルトの名無しさん
2022/04/16(土) 10:42:24.69ID:njc5gQYC なるほど
じゃblockとかgridとかのパーティションはその時々作成するアプリ側の都合で
作りやすいように自由に設定していいってことですね?
OpwnCL使うとCUDAより大分速度低下する理由は何ですかね?
AMDはOpenCLしかないけどNVidiaでCUDAで書いたのと遜色ないぐらいのベンチマーク出してるサイトがあったんですが。
単にNvidiaがOpenCLやる気ないだけ?
じゃblockとかgridとかのパーティションはその時々作成するアプリ側の都合で
作りやすいように自由に設定していいってことですね?
OpwnCL使うとCUDAより大分速度低下する理由は何ですかね?
AMDはOpenCLしかないけどNVidiaでCUDAで書いたのと遜色ないぐらいのベンチマーク出してるサイトがあったんですが。
単にNvidiaがOpenCLやる気ないだけ?
237デフォルトの名無しさん
2022/04/16(土) 10:53:55.11ID:MoK8GTpb 昔ウチで試したときは同じGPUでCUDAとOpenCLはそんなに差は無かったがなぁ。
ものによってはOpenCLの方が速い場合もあったり。
そんなに差が出るのはバリバリにチューニングしたCUDAカーネルをOpenCLにベタ移植したとかかねぇ?
ものによってはOpenCLの方が速い場合もあったり。
そんなに差が出るのはバリバリにチューニングしたCUDAカーネルをOpenCLにベタ移植したとかかねぇ?
238デフォルトの名無しさん
2022/04/16(土) 11:06:17.75ID:lq6dfVd7 厳密には、ハードウェアを意識するならちゃんと考えたほうがいい
あと適当に言ったけどさすがに今の世代でも1スレッドブロックしか立ち上げないとかだとめっちゃ遅いと思う
GPUの並列性を埋めるなら、1SMに対して複数のスレッドブロックを当てられるぐらいであり、全SMに対してそれができるぐらい、つまり数万スレッドを立ち上げた方がいい
とはいえレジスタ数との兼ね合いもあるからそこはバランスを見て
あと適当に言ったけどさすがに今の世代でも1スレッドブロックしか立ち上げないとかだとめっちゃ遅いと思う
GPUの並列性を埋めるなら、1SMに対して複数のスレッドブロックを当てられるぐらいであり、全SMに対してそれができるぐらい、つまり数万スレッドを立ち上げた方がいい
とはいえレジスタ数との兼ね合いもあるからそこはバランスを見て
239デフォルトの名無しさん
2022/04/16(土) 11:11:10.82ID:lq6dfVd7 OpenCLとCUDAに本質的な速度の差はないよ。最適化がどれぐらいかかるかの違いじゃない?
一般的な使い方をするならOpenCLはオンラインコンパイルだからあんま最適化かからんけど、CUDAなら最適化がかかるとかそういう感じ
一般的な使い方をするならOpenCLはオンラインコンパイルだからあんま最適化かからんけど、CUDAなら最適化がかかるとかそういう感じ
240デフォルトの名無しさん
2022/04/16(土) 11:42:04.90ID:xCzrvTZx nVIDIAがCLやる気ないのはわかりきってることだろうに
241デフォルトの名無しさん
2022/04/16(土) 11:52:05.37ID:MoK8GTpb 一般にはオンラインコンパイラの方がその環境に合わせた最適化ができると思うがな。
NVIDIAがどこまでやってくれているかは知らないがIntel OpenCLは頑張っていた印象。
NVIDIAがどこまでやってくれているかは知らないがIntel OpenCLは頑張っていた印象。
242デフォルトの名無しさん
2022/04/16(土) 13:08:09.18ID:xCzrvTZx nVIDIAはclCreateProgramWithIL無いんだったなw
243デフォルトの名無しさん
2022/04/28(木) 01:34:13.82ID:tOn4KFIj 今度のゲフォ fp64で
ラデなみの速度でるとか情報ないの?
ラデなみの速度でるとか情報ないの?
244デフォルトの名無しさん
2022/05/14(土) 21:22:02.62ID:pnhp2Adq 11.7 にしたらoptix のdirect callがこわれた
245デフォルトの名無しさん
2022/06/29(水) 06:55:54.64ID:hJJv21MU 今月のIF誌GPUプログラム特集ですなー
AMDも含むけど
最近のIF誌Pythonとラスパイばっかでうんざりしてた
AMDも含むけど
最近のIF誌Pythonとラスパイばっかでうんざりしてた
246デフォルトの名無しさん
2022/07/03(日) 16:32:19.91ID:ZA7I4EsQ IF誌読んだけど、
中級以上のCUSAプログラマ諸氏にはなんの価値もないです
意識してコーディングするとたちまち複雑化するシェアードメモリになんらかの言及があると思ったのですが、
サンプルプログラムはシェアードメモリで速度かせいでます。
だけでした
そんな解説なら俺でも出来るわ
中級以上のCUSAプログラマ諸氏にはなんの価値もないです
意識してコーディングするとたちまち複雑化するシェアードメモリになんらかの言及があると思ったのですが、
サンプルプログラムはシェアードメモリで速度かせいでます。
だけでした
そんな解説なら俺でも出来るわ
247246
2022/07/03(日) 16:32:51.51ID:ZA7I4EsQ CUSA
じゃなく
CUDAです
じゃなく
CUDAです
248デフォルトの名無しさん
2022/07/03(日) 20:29:17.30ID:pCZRSLKH >>246
初級の私には役立ちそうですね‥‥ぽち‥‥
初級の私には役立ちそうですね‥‥ぽち‥‥
249デフォルトの名無しさん
2022/07/04(月) 13:18:06.68ID:/6oW4Zmu と思うなら読んでみればいいよ
Nvidiaのプログラミングガイド以上の情報あったら教えて
Nvidiaのプログラミングガイド以上の情報あったら教えて
250デフォルトの名無しさん
2022/07/04(月) 14:20:47.70ID:QcH7dMjb251デフォルトの名無しさん
2022/07/04(月) 14:25:19.24ID:QcH7dMjb bank conflictだった
252デフォルトの名無しさん
2022/07/05(火) 12:33:18.52ID:hRE3by/z cudaはグラボ2枚差し使えますか?
コンシューマ向きのグラボだとvramが24Gですが
48Gになれば購入したいです。
そもそもvram24Gもってる人でどんな処理をしてるのか
知りたいです。例えば深層学習で〇時間を▽というグラボで
こんだけ時間がかかるとか。
そういうデータがほしいです!
よろしく!
コンシューマ向きのグラボだとvramが24Gですが
48Gになれば購入したいです。
そもそもvram24Gもってる人でどんな処理をしてるのか
知りたいです。例えば深層学習で〇時間を▽というグラボで
こんだけ時間がかかるとか。
そういうデータがほしいです!
よろしく!
253デフォルトの名無しさん
2022/07/05(火) 15:28:47.86ID:CUrAgxNd とりあえず立ち読みしてくるわ
254デフォルトの名無しさん
2022/07/05(火) 23:08:08.38ID:r9k68Dlj >>252
A6000 (48GB) 使ってるけど pix2pix とかやったら画像1000枚でも数日かかるよ。
vgg16 とか mobilenet で数時間の学習が多いけど、画像集めるのに一週間かかる。
A6000 (48GB) 使ってるけど pix2pix とかやったら画像1000枚でも数日かかるよ。
vgg16 とか mobilenet で数時間の学習が多いけど、画像集めるのに一週間かかる。
255デフォルトの名無しさん
2022/08/08(月) 11:00:53.55ID:sinjC4yw 積分する関数をCUDAで書こうと思っています
リストのIntegrateのように関数テンプレートにすることで,
通常のC++であれば
呼び出し時に
被積分関数(ここではSinc)として
関数へのポインタでも,
ラムダ式でも
直接関数名を書いてもうまく動作させることができるのですが,
CUDAではうまくいかないようです.
もちろんIntegrateの中で被積分関数を直接記述すれば問題なく動作するのですが,
これだと毎回エディタでIntegrateの修正が必要になってきます.
呼び出し時の引数として被積分関数を与えるにはどーすればいいんでしょうか?
リストのIntegrateのように関数テンプレートにすることで,
通常のC++であれば
呼び出し時に
被積分関数(ここではSinc)として
関数へのポインタでも,
ラムダ式でも
直接関数名を書いてもうまく動作させることができるのですが,
CUDAではうまくいかないようです.
もちろんIntegrateの中で被積分関数を直接記述すれば問題なく動作するのですが,
これだと毎回エディタでIntegrateの修正が必要になってきます.
呼び出し時の引数として被積分関数を与えるにはどーすればいいんでしょうか?
256255
2022/08/08(月) 11:01:35.81ID:sinjC4yw プログラム リストです
__global__
void
//__device__
//float
Sinc() {
printf("Ahyahya\n");
//return start;
}
template< typename Functor>
__global__
void
Integrate(Functor func){
func <<<1, 1024>>> ();
//Sinc << <1, 1024 >> > ();
__syncthreads();
}
int
main() {
Integrate <<<1, 1>>> (0, 10, Sinc);
//Sinc << <1, 1024 >> > ();
}
__global__
void
//__device__
//float
Sinc() {
printf("Ahyahya\n");
//return start;
}
template< typename Functor>
__global__
void
Integrate(Functor func){
func <<<1, 1024>>> ();
//Sinc << <1, 1024 >> > ();
__syncthreads();
}
int
main() {
Integrate <<<1, 1>>> (0, 10, Sinc);
//Sinc << <1, 1024 >> > ();
}
257255
2022/08/08(月) 11:59:44.42ID:sinjC4yw main 中
誤 Integrate <<<1, 1>>> (0, 10, Sinc);
正 Integrate <<<1, 1>>> ( Sinc );
プログラムリストのコピペ時 0,10, を消すの忘れてました
誤 Integrate <<<1, 1>>> (0, 10, Sinc);
正 Integrate <<<1, 1>>> ( Sinc );
プログラムリストのコピペ時 0,10, を消すの忘れてました
258デフォルトの名無しさん
2022/08/08(月) 14:22:43.82ID:6PldGrDe すまんが、MacやdGPUのないWindowsノートでコード書けたらいいなと思うんだけどさ
CUDAを扱えるオンラインIDEとかエミュレーターとかなんかないもんなのかな?
CUDAを扱えるオンラインIDEとかエミュレーターとかなんかないもんなのかな?
259デフォルトの名無しさん
2022/08/08(月) 16:23:48.54ID:XhYLtnJ4 >>256
最近CUDA使ってないから間違ってるかもしれんが、__global__がついた関数からは__device__しか呼べなかったきがする。__global__関数から__global__が呼べるかちゃんとマニュアルで確認しよう。
最近CUDA使ってないから間違ってるかもしれんが、__global__がついた関数からは__device__しか呼べなかったきがする。__global__関数から__global__が呼べるかちゃんとマニュアルで確認しよう。
260デフォルトの名無しさん
2022/08/08(月) 16:31:00.99ID:XhYLtnJ4 >>258
google colaboratoryのGPUインスタンスで昔ちょっとしたCudaのコードを動かしたことはある。
基本はpythonで動かすことが前提なのでちょっと面倒なことしないとCのコードは動かせなかった。
後有料アカウントしないとGPUインスタンスに制限時間がつくかも。
google colaboratoryのGPUインスタンスで昔ちょっとしたCudaのコードを動かしたことはある。
基本はpythonで動かすことが前提なのでちょっと面倒なことしないとCのコードは動かせなかった。
後有料アカウントしないとGPUインスタンスに制限時間がつくかも。
261デフォルトの名無しさん
2022/08/09(火) 09:01:04.67ID:NQSwSFSX262デフォルトの名無しさん
2022/08/09(火) 09:20:50.28ID:NQSwSFSX >>256
AWS
AWS
263デフォルトの名無しさん
2022/08/09(火) 09:23:37.72ID:NQSwSFSX264デフォルトの名無しさん
2022/08/09(火) 13:15:46.68ID:FuYE0Ba9 せんきゅー!
Colaboratoryは怪しいことをしてると警告が出てビビっちゃうし、AWSは高いし、コードを書く時点で契約するには勇気がいるな・・・・
Colaboratoryは怪しいことをしてると警告が出てビビっちゃうし、AWSは高いし、コードを書く時点で契約するには勇気がいるな・・・・
265デフォルトの名無しさん
2022/08/09(火) 16:43:54.58ID:+p53eoJ7 >>264
Linux使うのでもよかったら一万円ぐらいのjetson nano買えばCuda使えるよ
Linux使うのでもよかったら一万円ぐらいのjetson nano買えばCuda使えるよ
266デフォルトの名無しさん
2022/08/12(金) 22:53:57.30ID:m8p3x/l6 んなもん使うぐらいならふつーにx64でコード書いたほうがよっぽどいい
エンベ用途でもないのに何を好んでわざわざワンボードマイコンで計算せにゃならんのだ
エンベ用途でもないのに何を好んでわざわざワンボードマイコンで計算せにゃならんのだ
267デフォルトの名無しさん
2022/08/13(土) 00:14:35.60ID:13DWsM+a268デフォルトの名無しさん
2022/08/13(土) 22:01:46.34ID:h81CLsAE269デフォルトの名無しさん
2022/08/14(日) 11:31:10.95ID:VI2zLni0 M5StickV 薦めてる香具師がいた
270264
2022/08/14(日) 13:40:06.95ID:p/YIGTAI コードを手元で書いて、実際に計算する際は実機を用意するかAWSを借りるつもりでいます
ただコードを書くだけの段階でAWSを借りると負担なので、何かいい方法があればいいなと思った次第です
ただコードを書くだけの段階でAWSを借りると負担なので、何かいい方法があればいいなと思った次第です
271デフォルトの名無しさん
2022/08/16(火) 22:23:45.49ID:dhgyOuoD >>270
https://www.%61mazon.co.jp/dp/B085TH77RT
カードに安いやつかっても10万円コース
AWSなくてもいけるが電気代要るわな
それとThunderboltがボトルネックになることはほぼ確定
https://www.%61mazon.co.jp/dp/B085TH77RT
カードに安いやつかっても10万円コース
AWSなくてもいけるが電気代要るわな
それとThunderboltがボトルネックになることはほぼ確定
272デフォルトの名無しさん
2022/08/16(火) 22:44:07.06ID:dhgyOuoD273デフォルトの名無しさん
2022/08/17(水) 01:02:58.66ID:V/z4ESnc Dynamic Parallelism で親スレッドと子スレッドの属するブロックを
同一ブロックに属するような指定はできますか?
同一ブロックにして親スレッドが確保したShared Memory を子スレッドからアクセスしたいんだですが.
同一ブロックに属するような指定はできますか?
同一ブロックにして親スレッドが確保したShared Memory を子スレッドからアクセスしたいんだですが.
274デフォルトの名無しさん
2022/08/17(水) 01:38:27.72ID:V/z4ESnc 訂正です
○同一ブロックにして親スレッドが確保したShared Memory を親スレッドからアクセスしたいんですが.
myKernel<<<gridSize, blockSize, nI*sizeof(int))>>>(...);
親スレッドで確保して子スレッドに引き渡すnI*sizeof(int)サイズのshared memoryですが
この領域を親スレッドからアクセスできないんでしょーか?
○同一ブロックにして親スレッドが確保したShared Memory を親スレッドからアクセスしたいんですが.
myKernel<<<gridSize, blockSize, nI*sizeof(int))>>>(...);
親スレッドで確保して子スレッドに引き渡すnI*sizeof(int)サイズのshared memoryですが
この領域を親スレッドからアクセスできないんでしょーか?
275273,274
2022/08/17(水) 08:15:14.36ID:GVtrukEl 事故レスです
そもそも親子スレッド間でグローバルメモリのローカル変数の参照渡しが無理らしい
ローカル変数なんかやめにして、大域変数にして__device__つけろとorz
当然のごとくshared memoryもだめっぽい
C++でUser I/Fを使いやすく仕上げたいと思ってたけど
そーゆーおしゃれなことは
いろんな制限が頭に入っるまでは素直にゴリゴリCで書いてたほうがよさそう
そもそも親子スレッド間でグローバルメモリのローカル変数の参照渡しが無理らしい
ローカル変数なんかやめにして、大域変数にして__device__つけろとorz
当然のごとくshared memoryもだめっぽい
C++でUser I/Fを使いやすく仕上げたいと思ってたけど
そーゆーおしゃれなことは
いろんな制限が頭に入っるまでは素直にゴリゴリCで書いてたほうがよさそう
レスを投稿する
ニュース
- 日本行き空路49万件キャンセル 中国自粛呼びかけ 日本行きチケット予約の約32%に相当 ★4 [ぐれ★]
- 中国の局長は「両手をポケット」で対峙 宣伝戦で国民に示す ★3 [蚤の市★]
- 【音楽】Perfume・あ~ちゃんの結婚相手「一般男性」は吉田カバンの社長・吉田幸裕氏(41) 高身長で山本耕史似 [Ailuropoda melanoleuca★]
- 【大分】佐賀関で大規模火災、170棟以上が延焼中 70代男性1人と連絡取れず [ぐれ★]
- 【サッカー】U-17日本代表、激闘PK戦制す 北朝鮮撃破で6大会ぶり8強入り U17W杯 [久太郎★]
- 「クマはなるべく山に返す努力を」「クマと戦争は間違っている」動物保護活動家の主張 棲み分けと学習放獣でクマ被害なくなるのか?★7 [ぐれ★]
- とらせん IPあり
- 巨専】
- こいせん 全レス転載禁止
- 侍ジャパンシリーズ2025「日本vs韓国」その12
- 【DAZN】ワールドカップ欧州予選総合 ★5
- 【ATP】テニス総合実況スレ2025 Part 211【WTA】
- アンケート調査で「高市発言は問題なし」 93.5%wwwwwwwwwwwwwwwwwwwwwwwww [279254606]
- 【悲報】大分市佐賀関の火事、20軒→170軒に延焼🔥 [481941988]
- 自閉症が「んなっしょい」と連呼するお🏡
- 日本人の海外旅行したきのマナーよくなったのはいつから
- 【二次】この中で種付けセックスしたい女の子早い者勝ちwwwwwwwwwwwwwwwwwwwwwwwwwwww
- へそグリグリ
