このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
http://peace.2ch.net/test/read.cgi/tech/1281876470/
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
【GPGPU】くだすれCUDAスレ part7【NVIDIA】
http://echo.2ch.net/test/read.cgi/tech/1416492886/
【GPGPU】くだすれCUDAスレ part8【NVIDIA】 [無断転載禁止]©2ch.net
2016/06/15(水) 14:41:15.11ID:d2Xou3GL
199デフォルトの名無しさん
2020/10/14(水) 16:34:20.05ID:ZV1nncqg ttps://ameblo.jp/naginosen/entry-12443269443.html
200デフォルトの名無しさん
2020/11/19(木) 09:55:49.41ID:RIzKHKet RTX3080などで、cuda11が使えるようになってる
だがtensorflowは現時点でまだ使えない
だがPyTorchが動くとのこと!
だがtensorflowは現時点でまだ使えない
だがPyTorchが動くとのこと!
201デフォルトの名無しさん
2020/12/01(火) 20:58:05.41ID:nBZth83f cudaええな。
2万3千円の GF 1660 SUPER で tensorflow が
2x Xeon E5 2697A v4 の10倍速くなった
2万3千円の GF 1660 SUPER で tensorflow が
2x Xeon E5 2697A v4 の10倍速くなった
202デフォルトの名無しさん
2020/12/07(月) 14:54:49.93ID:sgdo/0mF 1660sでも天下のXEON様の10倍も速いのか
cudaコア数に速度が比例するからなあ
3090だと更に7倍?
cudaコア数に速度が比例するからなあ
3090だと更に7倍?
203デフォルトの名無しさん
2020/12/07(月) 21:54:00.27ID:UxKk8T9A intelのコンパイラ買えばCPUももうちょっとマシなんだろうけどケチってやってない。
GPUのメモリの量で、やれることとやれないことが変わってくるので
コア数クロック低くてもメモリ多いみたいなのがあればいいのにね
GPUのメモリの量で、やれることとやれないことが変わってくるので
コア数クロック低くてもメモリ多いみたいなのがあればいいのにね
204デフォルトの名無しさん
2020/12/08(火) 15:17:27.13ID:enlXKoHl パソコン工房のブログ記事に
RTX2060superを2枚使って、しかしSLIとかVLLinkとか使わずに性能1.8倍って例が出ている
34308番の記事か
RTX2060superを2枚使って、しかしSLIとかVLLinkとか使わずに性能1.8倍って例が出ている
34308番の記事か
205デフォルトの名無しさん
2020/12/10(木) 23:34:49.63ID:lK79U13H 3080tiでpytorch回してえ
206デフォルトの名無しさん
2021/01/12(火) 01:54:13.37ID:QwUx+qJl 1050で戦ってるが、ぐぐるこらぼの半分の速度しか出ねえ
今買い換えるならおすすめどれ?
3万くらいなら払えそう
今買い換えるならおすすめどれ?
3万くらいなら払えそう
207デフォルトの名無しさん
2021/01/13(水) 07:56:47.02ID:7sNWJYPv 1660SUPERぐらいなら買えそう
208デフォルトの名無しさん
2021/01/14(木) 10:18:01.38ID:khWOsAy5 RTX3060デスクトップ版のコスパが
これまでのNVIDIAの一般ユーザー向けGPUでは深層学習に最適かな
3584cudaコアとVRAM12GBでアメリカ価格329ドルは有難い
教師データが巨大でも助かる
なおノート向けはcudaコアはちょっと多いがVRAM6GBなので注意
またRTX30xx番台はcuda11を使えばTensorflowを動かせるとのこと
これまでのNVIDIAの一般ユーザー向けGPUでは深層学習に最適かな
3584cudaコアとVRAM12GBでアメリカ価格329ドルは有難い
教師データが巨大でも助かる
なおノート向けはcudaコアはちょっと多いがVRAM6GBなので注意
またRTX30xx番台はcuda11を使えばTensorflowを動かせるとのこと
209195
2021/01/14(木) 13:43:39.46ID:RlCOioEo caffeが異様にメモリ食うんだが。
困った。
困った。
210デフォルトの名無しさん
2021/01/14(木) 21:42:12.40ID:qplKalHw RTX3060良さそうだよな。
Google colab は無料なのは助かるけど、毎回環境構築しなきゃいけないし、やっぱりローカルで動かせると捗る。
Google colab は無料なのは助かるけど、毎回環境構築しなきゃいけないし、やっぱりローカルで動かせると捗る。
211デフォルトの名無しさん
2021/01/18(月) 09:07:06.27ID:svUqu+sR 3000番台はまだSLI出来るんだっけ
2060superでただ2枚挿しただけでとりあえず深層学習用途なら性能上がったというのが気になる
ノートPC用のRTX3080って16GBなんだなあ
是非欲しいけど当面は総額40万円くらいだろうな
2060superでただ2枚挿しただけでとりあえず深層学習用途なら性能上がったというのが気になる
ノートPC用のRTX3080って16GBなんだなあ
是非欲しいけど当面は総額40万円くらいだろうな
212デフォルトの名無しさん
2021/01/18(月) 12:33:28.51ID:LEwyyQvF ゲームやらんし
3060でいいかな
3060でいいかな
213デフォルトの名無しさん
2021/02/25(木) 09:17:50.75ID:evheNpFl 3060発売日か
214デフォルトの名無しさん
2021/03/01(月) 12:17:15.83ID:8GQloKKK 機械学習しようとrtx3090を2枚買ったんだが中古でも25万円で売れるから売ってrtx A6000に買い替えるメリットある?
gpgpu的な観点から
gpgpu的な観点から
215デフォルトの名無しさん
2021/03/01(月) 15:53:37.93ID:ahGFzuGs 電力は少なくて済むな
216デフォルトの名無しさん
2021/06/02(水) 02:14:34.84ID:TuNemlZF 3080tiと3070tiが販売されるか
しかし3080tiでもVRAM12GB
しかし3080tiでもVRAM12GB
217デフォルトの名無しさん
2022/03/11(金) 11:03:09.15ID:vTxyPKiv ようやく
CPUマルチスレッドをCUDAプログラミングに乗り換えようと来てみたけど
ほんと人少ないな。
ompオフロードじゃなくCUDAでやろうとしてる
ちょっと思ったのはデバイス側のスレッドから、複数のデバイス側のスレッドを起動できれば
ホストデバイス間のメモリ転送をぐっと少なく出切るんだけど
こういうことって出来ないのかな?
__device__
void
SubThread()
{
...
}
__gloval__
void
SubThread()
{
}
CPUマルチスレッドをCUDAプログラミングに乗り換えようと来てみたけど
ほんと人少ないな。
ompオフロードじゃなくCUDAでやろうとしてる
ちょっと思ったのはデバイス側のスレッドから、複数のデバイス側のスレッドを起動できれば
ホストデバイス間のメモリ転送をぐっと少なく出切るんだけど
こういうことって出来ないのかな?
__device__
void
SubThread()
{
...
}
__gloval__
void
SubThread()
{
}
218デフォルトの名無しさん
2022/03/11(金) 15:20:37.94ID:vTxyPKiv 途中で送信してしもた
__device__
void
SubThread(){
...
}
__gloval__
void
Thread(){
SubThread<<<1,1024>>>();
}
int
main(){
Thread<<<1,1>>>Thread();
}
みたいな。
これができないとCPUマルチコアプログラムからGPUプログラムに簡単に移行できんわ。
CPUもC#やインテルコンパイラから入ったんで、大体様子がわかって、
ompでは用意されてなかったPartitionerを先ず作ってめちゃ楽にコーディングできるようになった。
GPUはまだ手探り状態
__device__
void
SubThread(){
...
}
__gloval__
void
Thread(){
SubThread<<<1,1024>>>();
}
int
main(){
Thread<<<1,1>>>Thread();
}
みたいな。
これができないとCPUマルチコアプログラムからGPUプログラムに簡単に移行できんわ。
CPUもC#やインテルコンパイラから入ったんで、大体様子がわかって、
ompでは用意されてなかったPartitionerを先ず作ってめちゃ楽にコーディングできるようになった。
GPUはまだ手探り状態
219デフォルトの名無しさん
2022/03/11(金) 18:41:56.87ID:yfypcQRg 細かく見てないけどSubThread をグローバルにしたら呼べる
220デフォルトの名無しさん
2022/03/12(土) 01:12:58.32ID:2Ys6LOmP >>218
CUDA Dynamic Parallelism
CUDA Dynamic Parallelism
221デフォルトの名無しさん
2022/03/12(土) 10:13:53.90ID:GhWebJZd __device__を__global__に置換してみたけど
__global__内でスレッドを立ち上げるコードを書くと
THread内のSubThread<<<1,1024>>>(); 行と
main関数のThread<<<1,1>>>Thread(); 行の2箇所で"式が必要です"とコンパイルがエラーがでる
もちろん
Thread内のSubThread<<<1,1024>>>();をコメントアウトするとコンパイルもとおるし、正しく実行できる
__global__内でスレッドを立ち上げるコードを書くと
THread内のSubThread<<<1,1024>>>(); 行と
main関数のThread<<<1,1>>>Thread(); 行の2箇所で"式が必要です"とコンパイルがエラーがでる
もちろん
Thread内のSubThread<<<1,1024>>>();をコメントアウトするとコンパイルもとおるし、正しく実行できる
222デフォルトの名無しさん
2022/03/12(土) 10:16:20.60ID:GhWebJZd223デフォルトの名無しさん
2022/03/12(土) 18:11:29.89ID:GhWebJZd ようやくわかりました
Relocatable Deice Code をenableでコンパイルが通りました
あちがとうございました
Relocatable Deice Code をenableでコンパイルが通りました
あちがとうございました
224デフォルトの名無しさん
2022/03/23(水) 16:55:21.73ID:4ldsbCNM 今のGeForceは倍精度遅すぎてなんとかならんか?とおもてたら
Kelper世代のTeslaが8万円ぐらいで売ってるのな 1.8TFlps
c.f.
R3090 FP64 0.556TFPS ww なんそれッ
Kelper世代のTeslaが8万円ぐらいで売ってるのな 1.8TFlps
c.f.
R3090 FP64 0.556TFPS ww なんそれッ
225デフォルトの名無しさん
2022/03/23(水) 19:49:40.61ID:4ldsbCNM k80とか外付けGPUBOXで正常動作すんのかな?
動作報告探してみたけど見つからないんでよくわからん
消費電力大きいし、使いたいときだけつないぎたい
動作報告探してみたけど見つからないんでよくわからん
消費電力大きいし、使いたいときだけつないぎたい
226デフォルトの名無しさん
2022/03/23(水) 21:39:42.99ID:L/8Jb0Ma 8万円分AWSのGPUインスタンス借りたほうがよくね?
227デフォルトの名無しさん
2022/03/24(木) 04:46:34.26ID:A9GFlV37 課金がアクセス時間なのか正味のGPU駆動時間かわからんけど
8万だとほぼほぼ1ケ月やね。k80本体は6.7万ってのを見つけたわ
機材レンタルじゃないのでもっと上衣スペックのGPUサービスとか期待してチェックしたけど
目ん玉飛び出るぐらい高いね。もっと安くしてくれ
8万だとほぼほぼ1ケ月やね。k80本体は6.7万ってのを見つけたわ
機材レンタルじゃないのでもっと上衣スペックのGPUサービスとか期待してチェックしたけど
目ん玉飛び出るぐらい高いね。もっと安くしてくれ
228デフォルトの名無しさん
2022/03/24(木) 05:17:57.72ID:A9GFlV37 A100ならAWSよりGPUSOROBANが半額以下やね
22万/月なんて個人じゃ出せないけど
22万/月なんて個人じゃ出せないけど
229デフォルトの名無しさん
2022/03/25(金) 15:16:22.97ID:K6Ygc++J 仮面ライダー GPGPU
https://pc.watch.impress.co.jp/docs/news/1396728.html
700Wて
10年たってジャンクで入手しても個人で稼動して遊べるシロモノじゃなくなったな
https://pc.watch.impress.co.jp/docs/news/1396728.html
700Wて
10年たってジャンクで入手しても個人で稼動して遊べるシロモノじゃなくなったな
230デフォルトの名無しさん
2022/03/25(金) 15:57:54.09ID:9D1V2Tj7 電力はまだしも排熱が難しいな。
231デフォルトの名無しさん
2022/04/15(金) 16:37:56.16ID:sD2CwuNi CUDAてなんで3次元でスレッド管理するの?
DRAMが実装構造としては2次元でもアドレスでコーダがrow. columnは吸収して1次元で管理するように
スレッドもそうしちゃ駄目な理由を知りたい。
そもそも、3次元ってのとgrid, blockがなんの関係もないんじゃないの?
2次元を block として管理して
3次元の奥行が必要になった時点でgridが登場するならまだ理解できるんだけど。
しかも
threads/block = 1024 と少ない。こんなんじゃ32x32行列越えたら一挙にメンドクサイ
DRAMが実装構造としては2次元でもアドレスでコーダがrow. columnは吸収して1次元で管理するように
スレッドもそうしちゃ駄目な理由を知りたい。
そもそも、3次元ってのとgrid, blockがなんの関係もないんじゃないの?
2次元を block として管理して
3次元の奥行が必要になった時点でgridが登場するならまだ理解できるんだけど。
しかも
threads/block = 1024 と少ない。こんなんじゃ32x32行列越えたら一挙にメンドクサイ
232デフォルトの名無しさん
2022/04/15(金) 22:42:02.88ID:+O2sB4yV 3DCG処理やる場合、最初から3次元のID貰った方が楽じゃん?
233デフォルトの名無しさん
2022/04/15(金) 23:30:24.49ID:ySHkHnZ8 >>232
3DCGの次元とは全然別物だが
3DCGの次元とは全然別物だが
234デフォルトの名無しさん
2022/04/16(土) 07:46:19.05ID:njc5gQYC block,grid へのスレッドの割当て方とかでパフォーマンス変わりますか?
1000個のスレッドを起動したいとき、
block内だけで起動する方が速いのかいのか?
それとも
10個/grid, 100個/blockと分ける方が速いのか?
OpenCLでNVidiaがAMDほどパフォーマンスが上がらないのはスレッドの立ち上げかたで
癖のようなものがあるからってのはないですか?
block,gridってパーティションは単にソフトの問題なのかハード上の制約でこうしてるのかが知りたい
1000個のスレッドを起動したいとき、
block内だけで起動する方が速いのかいのか?
それとも
10個/grid, 100個/blockと分ける方が速いのか?
OpenCLでNVidiaがAMDほどパフォーマンスが上がらないのはスレッドの立ち上げかたで
癖のようなものがあるからってのはないですか?
block,gridってパーティションは単にソフトの問題なのかハード上の制約でこうしてるのかが知りたい
235デフォルトの名無しさん
2022/04/16(土) 09:18:24.96ID:lq6dfVd7 変わるけど、今のGPUそんなん意識しなくても速いからいいだろ
Keplerまでは色々考えないと速くならんかったけど、Maxwell以降はそんな考えなくてもよくなったからおけ
Keplerまでは色々考えないと速くならんかったけど、Maxwell以降はそんな考えなくてもよくなったからおけ
236デフォルトの名無しさん
2022/04/16(土) 10:42:24.69ID:njc5gQYC なるほど
じゃblockとかgridとかのパーティションはその時々作成するアプリ側の都合で
作りやすいように自由に設定していいってことですね?
OpwnCL使うとCUDAより大分速度低下する理由は何ですかね?
AMDはOpenCLしかないけどNVidiaでCUDAで書いたのと遜色ないぐらいのベンチマーク出してるサイトがあったんですが。
単にNvidiaがOpenCLやる気ないだけ?
じゃblockとかgridとかのパーティションはその時々作成するアプリ側の都合で
作りやすいように自由に設定していいってことですね?
OpwnCL使うとCUDAより大分速度低下する理由は何ですかね?
AMDはOpenCLしかないけどNVidiaでCUDAで書いたのと遜色ないぐらいのベンチマーク出してるサイトがあったんですが。
単にNvidiaがOpenCLやる気ないだけ?
237デフォルトの名無しさん
2022/04/16(土) 10:53:55.11ID:MoK8GTpb 昔ウチで試したときは同じGPUでCUDAとOpenCLはそんなに差は無かったがなぁ。
ものによってはOpenCLの方が速い場合もあったり。
そんなに差が出るのはバリバリにチューニングしたCUDAカーネルをOpenCLにベタ移植したとかかねぇ?
ものによってはOpenCLの方が速い場合もあったり。
そんなに差が出るのはバリバリにチューニングしたCUDAカーネルをOpenCLにベタ移植したとかかねぇ?
238デフォルトの名無しさん
2022/04/16(土) 11:06:17.75ID:lq6dfVd7 厳密には、ハードウェアを意識するならちゃんと考えたほうがいい
あと適当に言ったけどさすがに今の世代でも1スレッドブロックしか立ち上げないとかだとめっちゃ遅いと思う
GPUの並列性を埋めるなら、1SMに対して複数のスレッドブロックを当てられるぐらいであり、全SMに対してそれができるぐらい、つまり数万スレッドを立ち上げた方がいい
とはいえレジスタ数との兼ね合いもあるからそこはバランスを見て
あと適当に言ったけどさすがに今の世代でも1スレッドブロックしか立ち上げないとかだとめっちゃ遅いと思う
GPUの並列性を埋めるなら、1SMに対して複数のスレッドブロックを当てられるぐらいであり、全SMに対してそれができるぐらい、つまり数万スレッドを立ち上げた方がいい
とはいえレジスタ数との兼ね合いもあるからそこはバランスを見て
239デフォルトの名無しさん
2022/04/16(土) 11:11:10.82ID:lq6dfVd7 OpenCLとCUDAに本質的な速度の差はないよ。最適化がどれぐらいかかるかの違いじゃない?
一般的な使い方をするならOpenCLはオンラインコンパイルだからあんま最適化かからんけど、CUDAなら最適化がかかるとかそういう感じ
一般的な使い方をするならOpenCLはオンラインコンパイルだからあんま最適化かからんけど、CUDAなら最適化がかかるとかそういう感じ
240デフォルトの名無しさん
2022/04/16(土) 11:42:04.90ID:xCzrvTZx nVIDIAがCLやる気ないのはわかりきってることだろうに
241デフォルトの名無しさん
2022/04/16(土) 11:52:05.37ID:MoK8GTpb 一般にはオンラインコンパイラの方がその環境に合わせた最適化ができると思うがな。
NVIDIAがどこまでやってくれているかは知らないがIntel OpenCLは頑張っていた印象。
NVIDIAがどこまでやってくれているかは知らないがIntel OpenCLは頑張っていた印象。
242デフォルトの名無しさん
2022/04/16(土) 13:08:09.18ID:xCzrvTZx nVIDIAはclCreateProgramWithIL無いんだったなw
243デフォルトの名無しさん
2022/04/28(木) 01:34:13.82ID:tOn4KFIj 今度のゲフォ fp64で
ラデなみの速度でるとか情報ないの?
ラデなみの速度でるとか情報ないの?
244デフォルトの名無しさん
2022/05/14(土) 21:22:02.62ID:pnhp2Adq 11.7 にしたらoptix のdirect callがこわれた
245デフォルトの名無しさん
2022/06/29(水) 06:55:54.64ID:hJJv21MU 今月のIF誌GPUプログラム特集ですなー
AMDも含むけど
最近のIF誌Pythonとラスパイばっかでうんざりしてた
AMDも含むけど
最近のIF誌Pythonとラスパイばっかでうんざりしてた
246デフォルトの名無しさん
2022/07/03(日) 16:32:19.91ID:ZA7I4EsQ IF誌読んだけど、
中級以上のCUSAプログラマ諸氏にはなんの価値もないです
意識してコーディングするとたちまち複雑化するシェアードメモリになんらかの言及があると思ったのですが、
サンプルプログラムはシェアードメモリで速度かせいでます。
だけでした
そんな解説なら俺でも出来るわ
中級以上のCUSAプログラマ諸氏にはなんの価値もないです
意識してコーディングするとたちまち複雑化するシェアードメモリになんらかの言及があると思ったのですが、
サンプルプログラムはシェアードメモリで速度かせいでます。
だけでした
そんな解説なら俺でも出来るわ
247246
2022/07/03(日) 16:32:51.51ID:ZA7I4EsQ CUSA
じゃなく
CUDAです
じゃなく
CUDAです
248デフォルトの名無しさん
2022/07/03(日) 20:29:17.30ID:pCZRSLKH >>246
初級の私には役立ちそうですね‥‥ぽち‥‥
初級の私には役立ちそうですね‥‥ぽち‥‥
249デフォルトの名無しさん
2022/07/04(月) 13:18:06.68ID:/6oW4Zmu と思うなら読んでみればいいよ
Nvidiaのプログラミングガイド以上の情報あったら教えて
Nvidiaのプログラミングガイド以上の情報あったら教えて
250デフォルトの名無しさん
2022/07/04(月) 14:20:47.70ID:QcH7dMjb251デフォルトの名無しさん
2022/07/04(月) 14:25:19.24ID:QcH7dMjb bank conflictだった
252デフォルトの名無しさん
2022/07/05(火) 12:33:18.52ID:hRE3by/z cudaはグラボ2枚差し使えますか?
コンシューマ向きのグラボだとvramが24Gですが
48Gになれば購入したいです。
そもそもvram24Gもってる人でどんな処理をしてるのか
知りたいです。例えば深層学習で〇時間を▽というグラボで
こんだけ時間がかかるとか。
そういうデータがほしいです!
よろしく!
コンシューマ向きのグラボだとvramが24Gですが
48Gになれば購入したいです。
そもそもvram24Gもってる人でどんな処理をしてるのか
知りたいです。例えば深層学習で〇時間を▽というグラボで
こんだけ時間がかかるとか。
そういうデータがほしいです!
よろしく!
253デフォルトの名無しさん
2022/07/05(火) 15:28:47.86ID:CUrAgxNd とりあえず立ち読みしてくるわ
254デフォルトの名無しさん
2022/07/05(火) 23:08:08.38ID:r9k68Dlj >>252
A6000 (48GB) 使ってるけど pix2pix とかやったら画像1000枚でも数日かかるよ。
vgg16 とか mobilenet で数時間の学習が多いけど、画像集めるのに一週間かかる。
A6000 (48GB) 使ってるけど pix2pix とかやったら画像1000枚でも数日かかるよ。
vgg16 とか mobilenet で数時間の学習が多いけど、画像集めるのに一週間かかる。
255デフォルトの名無しさん
2022/08/08(月) 11:00:53.55ID:sinjC4yw 積分する関数をCUDAで書こうと思っています
リストのIntegrateのように関数テンプレートにすることで,
通常のC++であれば
呼び出し時に
被積分関数(ここではSinc)として
関数へのポインタでも,
ラムダ式でも
直接関数名を書いてもうまく動作させることができるのですが,
CUDAではうまくいかないようです.
もちろんIntegrateの中で被積分関数を直接記述すれば問題なく動作するのですが,
これだと毎回エディタでIntegrateの修正が必要になってきます.
呼び出し時の引数として被積分関数を与えるにはどーすればいいんでしょうか?
リストのIntegrateのように関数テンプレートにすることで,
通常のC++であれば
呼び出し時に
被積分関数(ここではSinc)として
関数へのポインタでも,
ラムダ式でも
直接関数名を書いてもうまく動作させることができるのですが,
CUDAではうまくいかないようです.
もちろんIntegrateの中で被積分関数を直接記述すれば問題なく動作するのですが,
これだと毎回エディタでIntegrateの修正が必要になってきます.
呼び出し時の引数として被積分関数を与えるにはどーすればいいんでしょうか?
256255
2022/08/08(月) 11:01:35.81ID:sinjC4yw プログラム リストです
__global__
void
//__device__
//float
Sinc() {
printf("Ahyahya\n");
//return start;
}
template< typename Functor>
__global__
void
Integrate(Functor func){
func <<<1, 1024>>> ();
//Sinc << <1, 1024 >> > ();
__syncthreads();
}
int
main() {
Integrate <<<1, 1>>> (0, 10, Sinc);
//Sinc << <1, 1024 >> > ();
}
__global__
void
//__device__
//float
Sinc() {
printf("Ahyahya\n");
//return start;
}
template< typename Functor>
__global__
void
Integrate(Functor func){
func <<<1, 1024>>> ();
//Sinc << <1, 1024 >> > ();
__syncthreads();
}
int
main() {
Integrate <<<1, 1>>> (0, 10, Sinc);
//Sinc << <1, 1024 >> > ();
}
257255
2022/08/08(月) 11:59:44.42ID:sinjC4yw main 中
誤 Integrate <<<1, 1>>> (0, 10, Sinc);
正 Integrate <<<1, 1>>> ( Sinc );
プログラムリストのコピペ時 0,10, を消すの忘れてました
誤 Integrate <<<1, 1>>> (0, 10, Sinc);
正 Integrate <<<1, 1>>> ( Sinc );
プログラムリストのコピペ時 0,10, を消すの忘れてました
258デフォルトの名無しさん
2022/08/08(月) 14:22:43.82ID:6PldGrDe すまんが、MacやdGPUのないWindowsノートでコード書けたらいいなと思うんだけどさ
CUDAを扱えるオンラインIDEとかエミュレーターとかなんかないもんなのかな?
CUDAを扱えるオンラインIDEとかエミュレーターとかなんかないもんなのかな?
259デフォルトの名無しさん
2022/08/08(月) 16:23:48.54ID:XhYLtnJ4 >>256
最近CUDA使ってないから間違ってるかもしれんが、__global__がついた関数からは__device__しか呼べなかったきがする。__global__関数から__global__が呼べるかちゃんとマニュアルで確認しよう。
最近CUDA使ってないから間違ってるかもしれんが、__global__がついた関数からは__device__しか呼べなかったきがする。__global__関数から__global__が呼べるかちゃんとマニュアルで確認しよう。
260デフォルトの名無しさん
2022/08/08(月) 16:31:00.99ID:XhYLtnJ4 >>258
google colaboratoryのGPUインスタンスで昔ちょっとしたCudaのコードを動かしたことはある。
基本はpythonで動かすことが前提なのでちょっと面倒なことしないとCのコードは動かせなかった。
後有料アカウントしないとGPUインスタンスに制限時間がつくかも。
google colaboratoryのGPUインスタンスで昔ちょっとしたCudaのコードを動かしたことはある。
基本はpythonで動かすことが前提なのでちょっと面倒なことしないとCのコードは動かせなかった。
後有料アカウントしないとGPUインスタンスに制限時間がつくかも。
261デフォルトの名無しさん
2022/08/09(火) 09:01:04.67ID:NQSwSFSX262デフォルトの名無しさん
2022/08/09(火) 09:20:50.28ID:NQSwSFSX >>256
AWS
AWS
263デフォルトの名無しさん
2022/08/09(火) 09:23:37.72ID:NQSwSFSX264デフォルトの名無しさん
2022/08/09(火) 13:15:46.68ID:FuYE0Ba9 せんきゅー!
Colaboratoryは怪しいことをしてると警告が出てビビっちゃうし、AWSは高いし、コードを書く時点で契約するには勇気がいるな・・・・
Colaboratoryは怪しいことをしてると警告が出てビビっちゃうし、AWSは高いし、コードを書く時点で契約するには勇気がいるな・・・・
265デフォルトの名無しさん
2022/08/09(火) 16:43:54.58ID:+p53eoJ7 >>264
Linux使うのでもよかったら一万円ぐらいのjetson nano買えばCuda使えるよ
Linux使うのでもよかったら一万円ぐらいのjetson nano買えばCuda使えるよ
266デフォルトの名無しさん
2022/08/12(金) 22:53:57.30ID:m8p3x/l6 んなもん使うぐらいならふつーにx64でコード書いたほうがよっぽどいい
エンベ用途でもないのに何を好んでわざわざワンボードマイコンで計算せにゃならんのだ
エンベ用途でもないのに何を好んでわざわざワンボードマイコンで計算せにゃならんのだ
267デフォルトの名無しさん
2022/08/13(土) 00:14:35.60ID:13DWsM+a268デフォルトの名無しさん
2022/08/13(土) 22:01:46.34ID:h81CLsAE269デフォルトの名無しさん
2022/08/14(日) 11:31:10.95ID:VI2zLni0 M5StickV 薦めてる香具師がいた
270264
2022/08/14(日) 13:40:06.95ID:p/YIGTAI コードを手元で書いて、実際に計算する際は実機を用意するかAWSを借りるつもりでいます
ただコードを書くだけの段階でAWSを借りると負担なので、何かいい方法があればいいなと思った次第です
ただコードを書くだけの段階でAWSを借りると負担なので、何かいい方法があればいいなと思った次第です
271デフォルトの名無しさん
2022/08/16(火) 22:23:45.49ID:dhgyOuoD >>270
https://www.%61mazon.co.jp/dp/B085TH77RT
カードに安いやつかっても10万円コース
AWSなくてもいけるが電気代要るわな
それとThunderboltがボトルネックになることはほぼ確定
https://www.%61mazon.co.jp/dp/B085TH77RT
カードに安いやつかっても10万円コース
AWSなくてもいけるが電気代要るわな
それとThunderboltがボトルネックになることはほぼ確定
272デフォルトの名無しさん
2022/08/16(火) 22:44:07.06ID:dhgyOuoD273デフォルトの名無しさん
2022/08/17(水) 01:02:58.66ID:V/z4ESnc Dynamic Parallelism で親スレッドと子スレッドの属するブロックを
同一ブロックに属するような指定はできますか?
同一ブロックにして親スレッドが確保したShared Memory を子スレッドからアクセスしたいんだですが.
同一ブロックに属するような指定はできますか?
同一ブロックにして親スレッドが確保したShared Memory を子スレッドからアクセスしたいんだですが.
274デフォルトの名無しさん
2022/08/17(水) 01:38:27.72ID:V/z4ESnc 訂正です
○同一ブロックにして親スレッドが確保したShared Memory を親スレッドからアクセスしたいんですが.
myKernel<<<gridSize, blockSize, nI*sizeof(int))>>>(...);
親スレッドで確保して子スレッドに引き渡すnI*sizeof(int)サイズのshared memoryですが
この領域を親スレッドからアクセスできないんでしょーか?
○同一ブロックにして親スレッドが確保したShared Memory を親スレッドからアクセスしたいんですが.
myKernel<<<gridSize, blockSize, nI*sizeof(int))>>>(...);
親スレッドで確保して子スレッドに引き渡すnI*sizeof(int)サイズのshared memoryですが
この領域を親スレッドからアクセスできないんでしょーか?
275273,274
2022/08/17(水) 08:15:14.36ID:GVtrukEl 事故レスです
そもそも親子スレッド間でグローバルメモリのローカル変数の参照渡しが無理らしい
ローカル変数なんかやめにして、大域変数にして__device__つけろとorz
当然のごとくshared memoryもだめっぽい
C++でUser I/Fを使いやすく仕上げたいと思ってたけど
そーゆーおしゃれなことは
いろんな制限が頭に入っるまでは素直にゴリゴリCで書いてたほうがよさそう
そもそも親子スレッド間でグローバルメモリのローカル変数の参照渡しが無理らしい
ローカル変数なんかやめにして、大域変数にして__device__つけろとorz
当然のごとくshared memoryもだめっぽい
C++でUser I/Fを使いやすく仕上げたいと思ってたけど
そーゆーおしゃれなことは
いろんな制限が頭に入っるまでは素直にゴリゴリCで書いてたほうがよさそう
276デフォルトの名無しさん
2022/08/27(土) 12:49:33.14ID:shuaF+y6 __global__のなかでnew,delete使えるので
もしやと思ってmake_unique使おうとしたらだめだった
もしやと思ってmake_unique使おうとしたらだめだった
277デフォルトの名無しさん
2022/08/27(土) 13:08:06.52ID:shuaF+y6 make_unique以前にstd::unique_ptrの時点でだめだったわ
cudaMalloc使ったunique_ptrバージョンはネットで公開してる人いるのめっけた
https://proc-cpuinfo.fixstars.com/2019/02/cuda_smart_pointer/
host側からgpuメモリ確保したいならコレでいいけど
__global__の中で使うmalloc,freeはGPUメモリを使うバージョンが正しくリンクされるので
malloc, free使って各関数は__device__指定すれば,
cuda::unique_ptrで正しく使えるのかな?
cudaMalloc使ったunique_ptrバージョンはネットで公開してる人いるのめっけた
https://proc-cpuinfo.fixstars.com/2019/02/cuda_smart_pointer/
host側からgpuメモリ確保したいならコレでいいけど
__global__の中で使うmalloc,freeはGPUメモリを使うバージョンが正しくリンクされるので
malloc, free使って各関数は__device__指定すれば,
cuda::unique_ptrで正しく使えるのかな?
278デフォルトの名無しさん
2022/08/30(火) 17:35:41.58ID:BUcEB6jI cudaMallocやcudaFreeってのはホスト側からGPUとのインターフェース用として
プログラムの中で1度呼ぶだけなんだよね
GPUへの初期設定メモリ inmem
GPUの計算結果 outmem
として
ホスト側で
kernel<<<1,1>>>(inmem, outmem);
を立ち上げる際 この前後でcudaMalloc, cudaMemcpy, cudaFreeを使うだけ
kernel関数で一旦制御をGP側に移したあと
おもむろにDynamic Parallelism を使ってkernel関数の中からマルチスレッドを起動する方がよっぽど書きやすい
new/deleteは__global__関数のなかで自由に使えるので
cudaMalloc/cudaFreeにuniqu_ptr使えてもあんま有り難みは少ないな
プログラムの中で1度呼ぶだけなんだよね
GPUへの初期設定メモリ inmem
GPUの計算結果 outmem
として
ホスト側で
kernel<<<1,1>>>(inmem, outmem);
を立ち上げる際 この前後でcudaMalloc, cudaMemcpy, cudaFreeを使うだけ
kernel関数で一旦制御をGP側に移したあと
おもむろにDynamic Parallelism を使ってkernel関数の中からマルチスレッドを起動する方がよっぽど書きやすい
new/deleteは__global__関数のなかで自由に使えるので
cudaMalloc/cudaFreeにuniqu_ptr使えてもあんま有り難みは少ないな
279デフォルトの名無しさん
2022/09/01(木) 19:39:29.54ID:Tzt57hSP 質問です。
cpuは64コア、gpuは年末のvram48ギガ2つ、メモリはddr5 256g
これ以上は経済的事情により無理ですw
vram48ギガ二つで深層学習したいんですけど
どの規模でどのくらいのデータ処理ができますか?
マルチcudaで処理速度はどれくらい高速化できますか?
CUDA Python (Numba) を使用して気象分析の分野で 200,000 倍高速化する
こういう記事がありました。
このようなデータがありましたが20万倍以上の高速化ってできますか?
きになります。もしグラボがvram48一つと二つで差がなければ
vram一つにしたいと思います。
cpuは64コア、gpuは年末のvram48ギガ2つ、メモリはddr5 256g
これ以上は経済的事情により無理ですw
vram48ギガ二つで深層学習したいんですけど
どの規模でどのくらいのデータ処理ができますか?
マルチcudaで処理速度はどれくらい高速化できますか?
CUDA Python (Numba) を使用して気象分析の分野で 200,000 倍高速化する
こういう記事がありました。
このようなデータがありましたが20万倍以上の高速化ってできますか?
きになります。もしグラボがvram48一つと二つで差がなければ
vram一つにしたいと思います。
280デフォルトの名無しさん
2022/09/01(木) 20:36:24.07ID:IftgsB+t NVIDIA HGX H100 はどうでしょう?
281デフォルトの名無しさん
2022/09/01(木) 20:37:55.19ID:Tzt57hSP 予算オーバーですw
282デフォルトの名無しさん
2022/09/01(木) 23:54:48.88ID:xm6voT2o >>279
VRAM48Gもあれば、相当の大きさのモデルでも、バッチサイズある程度取れると思う。
2枚にするなら、NVLINKやったかのボード間通信できるやつやらないと、
同時に使ってバッチサイズ倍にするぜってやつが遅い。
一枚でもいいんでない?って気はする。
何と比較して速くしたいのか分からんけど、3090ti(24GBメモリ)1枚でも普通のモデルなら
ちゃんと学習できる。長いと数日学習に時間がかかるけど。
爆速学習したいなら、クラウドで大富豪するしかないぞ。
具体的に動かしたいモデルとかあるの?
VRAM48Gもあれば、相当の大きさのモデルでも、バッチサイズある程度取れると思う。
2枚にするなら、NVLINKやったかのボード間通信できるやつやらないと、
同時に使ってバッチサイズ倍にするぜってやつが遅い。
一枚でもいいんでない?って気はする。
何と比較して速くしたいのか分からんけど、3090ti(24GBメモリ)1枚でも普通のモデルなら
ちゃんと学習できる。長いと数日学習に時間がかかるけど。
爆速学習したいなら、クラウドで大富豪するしかないぞ。
具体的に動かしたいモデルとかあるの?
283デフォルトの名無しさん
2022/09/02(金) 05:25:23.36ID:gNiGWU4j >>282
返信サンキュー!情報ありがとさん!!
気象予測がしたくて(とある記事に20万倍の高速化と書いてあった)
クラウドいいですね〜!
どうしてもpythonのnumbaがやりたくて!
ちなみにpycharmかgoogle coalb pro plusはどちらが良いのでしょうか?
返信サンキュー!情報ありがとさん!!
気象予測がしたくて(とある記事に20万倍の高速化と書いてあった)
クラウドいいですね〜!
どうしてもpythonのnumbaがやりたくて!
ちなみにpycharmかgoogle coalb pro plusはどちらが良いのでしょうか?
284デフォルトの名無しさん
2022/09/04(日) 06:32:34.26ID:Z3ORh9R5 >>254
cudaつかっても1週間もかかるんですか?
cudaつかっても1週間もかかるんですか?
285デフォルトの名無しさん
2022/09/04(日) 22:01:18.62ID:z+JpWVLU 気象予測て流体力学だろ
学習とかの前に基礎方程式がわかってるものは
粒子フィルタで検討したほうがいいんじゃないの?
もっぱら線形微分方程式に使われるカルマンフィルタを拡張した
アンサンブルカルマンフィルタで見たことあるけど
今だと線形非線形にかかわらず利用可能な粒子フィルタに頼るほうが簡単だと思うけど
学習とかの前に基礎方程式がわかってるものは
粒子フィルタで検討したほうがいいんじゃないの?
もっぱら線形微分方程式に使われるカルマンフィルタを拡張した
アンサンブルカルマンフィルタで見たことあるけど
今だと線形非線形にかかわらず利用可能な粒子フィルタに頼るほうが簡単だと思うけど
286デフォルトの名無しさん
2022/09/05(月) 05:17:33.36ID:xy0LK1q6 >>285
おすすめのサイトとかありますか?
おすすめのサイトとかありますか?
287デフォルトの名無しさん
2022/09/06(火) 12:58:14.35ID:c2oYpxoe288デフォルトの名無しさん
2022/09/06(火) 18:55:48.97ID:iU1ybZ8L289デフォルトの名無しさん
2022/09/16(金) 13:59:03.50ID:cImVlNrb RTX 4090 Ti
48GB
GDDR6X
これ買う人いますか?
48GB
GDDR6X
これ買う人いますか?
290デフォルトの名無しさん
2022/09/16(金) 20:06:35.06ID:fjE4y/uE 消費電力によります。
291デフォルトの名無しさん
2022/09/22(木) 11:24:00.63ID:RnuCJ+18292デフォルトの名無しさん
2022/09/23(金) 21:15:50.98ID:Qf6uDb81 RTX 4090 Tiを複数差せばおもしろそうやん?
293デフォルトの名無しさん
2022/09/23(金) 21:24:28.27ID:Qf6uDb81 600WのTBPで動作すると予想されます。
だそう。つまり3枚差せば1800wですね。
つまり電源ユニットを2枚で4000ワット以上必要ですね。
電源ユニットが3000wとか4000wとかでないのかな?
困るよね。
だそう。つまり3枚差せば1800wですね。
つまり電源ユニットを2枚で4000ワット以上必要ですね。
電源ユニットが3000wとか4000wとかでないのかな?
困るよね。
294デフォルトの名無しさん
2022/10/08(土) 13:36:18.12ID:d409kTqm .cuファイルで何とか普通のメモリと
GPUのVRAMを同居させて使えるなら
容量の大き過ぎる計算でもスピードは落ちるが
普通のCPUだけの時より速く計算できる、
とか出来たらいいんだけど、まず無理なんだろうなあ
(沖電気はそういうのを上手くやったらしいが詳細が分からない)
GPUのVRAMを同居させて使えるなら
容量の大き過ぎる計算でもスピードは落ちるが
普通のCPUだけの時より速く計算できる、
とか出来たらいいんだけど、まず無理なんだろうなあ
(沖電気はそういうのを上手くやったらしいが詳細が分からない)
295デフォルトの名無しさん
2022/10/08(土) 13:53:17.87ID:XEAL3BhY 何を問題視してるのかよくわからんけど
例えばmkl入れるとかじゃ駄目なのか?
例えばmkl入れるとかじゃ駄目なのか?
296デフォルトの名無しさん
2022/10/08(土) 14:37:57.21ID:TKlSmRLn >>294
LinuxならUnifiedMemoryでできるな。
LinuxならUnifiedMemoryでできるな。
297デフォルトの名無しさん
2022/10/08(土) 16:09:18.26ID:j9nJcF5K >>296
それは凄い!!!
それは凄い!!!
298デフォルトの名無しさん
2022/10/09(日) 00:49:49.72ID:KNQys/Sq ホスト側のメモリをピンして使うことはできるけど多分そういう用途ではないよなあ
レスを投稿する
ニュース
- 高市首相答弁を“引き出した”立民・岡田克也氏が改めて説明「なぜ慎重な答弁をされなかったのか。非常に残念に思っている」 ★9 [ぐれ★]
- 【news23】小川彩佳アナ「ここまでの広がりになるということを、高市総理はどれだけ想像できていたんでしょうね」 日中問題特集で [冬月記者★]
- 【野球】大谷翔平、佐々木朗希、山本由伸らがWBC辞退なら広がる不協和音… 『過去イチ盛り上がらない大会』になる可能性も★2 [冬月記者★]
- 【国際】ロシアはすでに戦争準備段階――ポーランド軍トップが警告 ★2 [ぐれ★]
- 「町中華」の“息切れ倒産”が増加 ブームにも支えられ職人技で踏ん張ってきたが… 大手チェーンは値上げでも絶好調 [ぐれ★]
- 毛寧(もう・ねい)報道官「中国に日本の水産品の市場は無い」 高市首相の国会答弁に「中国民衆の強い怒り」 ★2 [ぐれ★]
- 【高市核兵器】 小泉コメ防衛大臣「民主党政権 岡田外務大臣の “非核三原則” に関する国会答弁を引き継いでいる」 政策堅持を明言 [485983549]
- 海産物は雄の生殖器の方が美味しいの人体のバグだろ
- 【高市賃上げ】 自民党&維新の会「国会議員の給与を 月5万円アップさせる!」 今国会で歳費法改正。 月129万円→月134万円に [485983549]
- Apple Arcade凄い。ゲーム遊び放題。言うなればゲームの食べ放題。サブスク
- 犯罪者たち「刑事罰受けて罪は償った!被害者への賠償金?もう反省済みだから一円も払わねーよばーかwww」 [177178129]
- ㊗157円 [194819832]
