【GPGPU】くだすれCUDAスレ part8【NVIDIA】 [無断転載禁止]©2ch.net

**デフォルトの名無しさん** · 2018/02/01(木) 16:47:45.03

cuda9.1 でコンパイルに成功している人はいませんか？
サンプル simpleTemplates を VisualStudio2017(msvc++19.11) で鬼のようエラーが出てコンパイルできません
http://codepad.org/2kWkUrQ0

**デフォルトの名無しさん** · 2018/02/02(金) 07:32:53.45

エラー無視すんな

**デフォルトの名無しさん** · 2018/02/02(金) 14:42:34.94

>>105
メーカー提供のライブラリがこんなエラーを吐くんですが…

**デフォルトの名無しさん** · 2018/02/02(金) 16:24:33.04

>cl : コマンドライン warning D9002 : 不明なオプション 'Wp64' を無視します。

**デフォルトの名無しさん** · 2018/02/12(月) 10:28:57.39

nvccだけ使えればいいと思ってVirtualBox+Ubuntu16.04にCUDA 9.1 Toolkitをインストールしてみたら
ログイン直後にgnome-sessionが死ぬようになってGUIが使えなくなってしまった。
どこで聞こうか迷ったけど、とりあえず同じような経験の人いないだろうか。

ドライバ周りが原因のような気もするけど、Windows版みたいにディスプレイドライバだけ除いて
インストールするとかできないのかな。

**デフォルトの名無しさん** · 2018/02/12(月) 14:52:40.91

>>108
そもそも一般ユーザーでインストールすれば、ドライバが書き換わってしまうことはない

**デフォルトの名無しさん** · 2018/02/12(月) 16:57:29.11

cudaとかの大きなくくりのメタパッケージじゃなくてcuda-compilersとか個別に指定すりゃいいんだな。
ドライバを含まないcuda-toolkit-9-1でも駄目だったから何かGUIツールでも関係していたんだろうか。

**デフォルトの名無しさん** · 2018/02/16(金) 14:06:42.48

NVIDIA GeForce MX150 って使える？

**デフォルトの名無しさん** · 2018/02/16(金) 21:00:32.13

対応GPUがスタートガイドやマニュアルにあるからそれを確認

**デフォルトの名無しさん** · 2018/02/17(土) 02:17:22.97

逝けるよって書けば信用するのか
すばらしき２ちゃん

**デフォルトの名無しさん** · 2018/02/17(土) 02:31:09.51

ほれ
https://www.geforce.com/hardware/notebook-gpus/geforce-mx150/specifications

**デフォルトの名無しさん** · 2018/02/17(土) 02:36:13.64

こっちか
https://www.geforce.com/hardware/technology/cuda/supported-gpus?field_gpu_type_value=All&;page=3

**デフォルトの名無しさん** · 2018/02/18(日) 02:05:22.31

>>111
これな
https://devtalk.nvidia.com/default/topic/1023574/cuda-toolkit-9-is-not-available-in-geforce-mx150/

**デフォルトの名無しさん** · 2018/02/18(日) 11:07:01.37

これ古過ぎますか？まだ役に立つ？

CUDA C
https://www.amazon.co.jp/dp/4844338919

**デフォルトの名無しさん** · 2018/02/18(日) 11:32:49.61

これからCUDAを勉強するなら問題ないでしょ
基本は変わっていないんで

**デフォルトの名無しさん** · 2018/02/18(日) 13:03:27.13

問題なのは、最新のcuda9.1が最新のmsvc++ でコンパイルできないことなんだが…

**デフォルトの名無しさん** · 2018/02/19(月) 23:00:57.77

>>117
これかなりいいよ。
最新は網羅できてないが、日本語では最新じゃないかな。
cuda 6世代で検証は７でされてる

**デフォルトの名無しさん** · 2018/02/21(水) 14:09:43.32

>>119
gcc使おう！

**デフォルトの名無しさん** · 2018/02/21(水) 14:23:56.10

>>121
Windows バイナリーは microsoft VC++ にしか対応していない、とのこと
http://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/index.html

**デフォルトの名無しさん** · 2018/02/21(水) 15:49:25.59

そりゃバイナリならそうだがそういう話じゃなくて

**デフォルトの名無しさん** · 2018/02/21(水) 16:30:30.19

>>123
Windows 環境で cuda に対応するコードを生成するには、msvc++ しか選択できない、Windows で走るバイナリーを作るのに g++ は使えない

**デフォルトの名無しさん** · 2018/02/22(木) 17:44:56.30

>>122
WSLでubuntu動かせばよくね？

**デフォルトの名無しさん** · 2018/02/22(木) 18:06:40.02

>>125
その ubuntu 上で生成したコードは、ubuntu なしの　Windows 上で動くのか？
動かないのならば、よいわけがあるまい

**デフォルトの名無しさん** · 2018/02/23(金) 16:52:21.65

最新のはクロスコンパイル不可能なん？

**デフォルトの名無しさん** · 2018/02/23(金) 17:00:07.99

>>127
クロスコンパイルとはいわないのでは？
Linux 上で gcc を使ったコンパイル成果物は、Windows では動かない
Windows 上で cl を使ったコンパイル成果物は、Linux 上では動かない

**デフォルトの名無しさん** · 2018/02/23(金) 22:59:05.62

>>128
Linux上のgccでWindows用バイナリを吐くこともできる。

**デフォルトの名無しさん** · 2018/02/28(水) 14:29:08.26

(棒)すげー

**デフォルトの名無しさん** · 2018/03/11(日) 12:38:36.83

CUDA ToolkitはまだVS2017 15.4までしか対応してないんだよな。
もう15.6出たのから15.4は入手できなくなるし、どうにかしてほしいなぁ。

**デフォルトの名無しさん** · 2018/03/14(水) 22:02:39.83

え？コンパイルやビルドができないほど深刻な問題でてるっけ？

**デフォルトの名無しさん** · 2018/03/14(水) 23:17:19.01

やってみた？nvcc動かんよ。たしかNSIGHTのインストールも失敗するはず。
フォーラムでも公式が「サポートしてるのは15.4まで」と言っている。

**デフォルトの名無しさん** · 2018/03/15(木) 21:42:37.30

フォーラムの中の人も、半年くらい前は「申し訳ない」とかなんとか言ってたのが
最近はもう投げ遣りな感じだね。
修正がそんなに難しいのかね？NVIDIAの中で何が起きているんだろうか。

**デフォルトの名無しさん** · 2018/03/16(金) 14:20:39.88

公務員体質

**デフォルトの名無しさん** · 2018/03/16(金) 15:23:49.95

勘弁してほしい、VS installer を思わず起動してアップデートを開始させてしまっては後悔しているんだ…

**デフォルトの名無しさん** · 2018/03/17(土) 01:16:13.43

15.4.5 でも無理？
https://docs.microsoft.com/ja-jp/visualstudio/productinfo/installing-an-earlier-release-of-vs2017#installing-the-earlier-release

**デフォルトの名無しさん** · 2018/03/17(土) 07:59:31.00

15.4までが大丈夫。そのページが15.5になってしまったらおしまいってこと。

**デフォルトの名無しさん** · 2018/03/24(土) 20:53:51.41

CUDA試してみたいんですが、入門としてはGeforce GTX 1060くらいあれば有意にCPU core i7 4Ghz より速くなりますか？

**デフォルトの名無しさん** · 2018/03/25(日) 00:11:04.74

単精度で性能を活かせる処理なら速い
AVXを駆使しても1060の性能は出ない

**デフォルトの名無しさん** · 2018/03/25(日) 00:16:26.55

単精度
1060 2.8TFlops
i7 4GHz 0.5TFlops

**139** · 2018/03/25(日) 00:29:09.29

ほほう、５倍速以上ですか。
ありがとうございます。

**139** · 2018/03/25(日) 00:38:35.35

ちなみに用途はパイソンのディープラーニング用ライブラリの使用です。

**139** · 2018/03/25(日) 00:59:31.33

ちなみに主要な製品の>>141みたいな性能比較の一覧ってどこかにあります？

**デフォルトの名無しさん** · 2018/03/25(日) 02:40:05.71

Keras/TensorflowでCUDA9.0とCuDNN7.0.5を使ってるけど、
980でCPUの4～5倍ぐらい、1060・1070だと7～8倍ぐらい速くなった

あとは、GPUの性能よりもマザボやメモリとの相性が大きかったりする
ECCメモリ積んだサーバ機だと足を引っ張られるし、
1070のデスクトップ機よりも1060のゲーミング用ノートPCの方が速かったりする

あと、スペックの違うグラボを2枚挿しすると、単体運用よりも演算が遅くなることがあるから注意

**デフォルトの名無しさん** · 2018/03/25(日) 08:15:49.40

複数枚刺しでCUDA使うならSLI-offがデフォ。

**デフォルトの名無しさん** · 2018/03/25(日) 11:36:30.54

>143-144
https://ja.wikipedia.org/wiki/GPGPU

**デフォルトの名無しさん** · 2018/03/25(日) 11:53:57.75

>>144
自分で計算すれば良いんですよ
クロック、コア数、ベクタ長さ、同時計算数から

**139** · 2018/03/25(日) 19:52:41.28

Geforce GTX 1060買ってきました。
早速試そうと思ったが、電源ユニットに6pinケーブルがないT△T

電源も買い替えかなぁorz

**デフォルトの名無しさん** · 2018/03/25(日) 20:17:14.43

おめでとう
まずは2.8TFlopsで動くテストコードの記述から
単精度でひたすら積和

**デフォルトの名無しさん** · 2018/03/25(日) 20:51:30.02

スリムタワーなんか買うんじゃなかったorz
電源もそうだがグラボがケースに収まらないしorz orz
蓋外せば済むことだけど orz orz orz

**デフォルトの名無しさん** · 2018/03/26(月) 01:19:57.55

電源容量気をつけてな
300wとかだと足りないかもしれない

**デフォルトの名無しさん** · 2018/03/26(月) 04:49:23.49

>>151
わろた

蓋開けたままだと空冷効率却って悪くなるんじゃなかったかな
蓋開けるなら扇風機も当てた方がいい

**デフォルトの名無しさん** · 2018/03/26(月) 04:57:26.52

めも
http://chimolog.co/2017/08/bto-pc-airflow.html
https://akiba-pc.watch.impress.co.jp/docs/dosv/662237.html
https://akiba-pc.watch.impress.co.jp/docs/dosv/747742.html
http://ascii.jp/elem/000/001/215/1215731/

**139** · 2018/03/27(火) 22:47:39.83

一応電源買ったが平日はまとまった時間が取れないので土日で作業しよう。
保証期間とかあるけど平気だよね？

ちな750W

**デフォルトの名無しさん** · 2018/03/28(水) 06:47:45.49

また無駄にデカイ電源を

**デフォルトの名無しさん** · 2018/03/31(土) 00:00:36.28

いっそzen+で一台組もうか？ｗ

**デフォルトの名無しさん** · 2018/03/31(土) 04:23:03.69

極地に引っ越せ

**139** · 2018/04/01(日) 00:23:36.11

1060設置完了しました。
とりあえず、core i7 のiGPUから解像度が上がっていい感じ。
いままでディスプレイのMAX解像度出てなかったからね。
あとはpytorchが動いてくれれば…

**139** · 2018/04/02(月) 22:02:29.92

動いたっぽいけど消費時間の測り方が分からんｗ
まあパイソンの勉強するしかないか

**デフォルトの名無しさん** · 2018/04/03(火) 00:26:12.77

最近pythonスレで速度計測コード貼ってる人がいた

**139** · 2018/04/03(火) 22:11:12.18

kwsk

**デフォルトの名無しさん** · 2018/04/03(火) 23:12:19.70

1060安くなったね

**デフォルトの名無しさん** · 2018/04/10(火) 14:29:01.82

Nvidiaは今月で32ビットオペレーティングシステムのパフォーマンスの向上、新機能、バグ修正などのサポートを終了する
重要なセキュリティアップデートは、2019年1月まで32ビット用に提供されます。
これには、以下のオペレーティングシステムが含まれます。
- Microsoft Windows 7 8 / 8.1 10
- Linux FreeBSD

**デフォルトの名無しさん** · 2018/04/12(木) 21:45:56.77

すいません、自分のグラボがcudaのどのバージョンで使えるのか
どこを見たらわかるか教えていただけないでしょうか？

windows 10で
GeForceGT610という弱めのグラボを使っています。
↓グラボのHPを見るとCUDAは対応しているようなのですが
ttp://www.nvidia.co.jp/object/geforce-gt-610-jp.html#pdpContent=1

cudaのHPでは対応グラボにのってませんでした（例だから？）
ttp://www.nvidia.co.jp/object/cuda_learn_products_jp_old.html

**デフォルトの名無しさん** · 2018/04/13(金) 00:51:21.10

>>165
https://www.geforce.com/hardware/technology/cuda/supported-gpus
こっちはどう？全部見てないけど。

**デフォルトの名無しさん** · 2018/04/13(金) 02:54:37.02

610Mは演算能力2.1で最低スペックだけど、一応対応しているみたいだよ
https://developer.nvidia.com/cuda-gpus

**デフォルトの名無しさん** · 2018/04/13(金) 02:56:52.47

↑610Mだけじゃなくて、610の方でも同じ

**デフォルトの名無しさん** · 2018/04/13(金) 11:00:08.69

大昔のcuda コア数4個とかのグラボでも対応しているといえば対応してること　になるけど
おもちゃのつもりで買って結局ゴミにした思い出

悪いこと言わないので最低限でもgtx1070tiとかにしておけ

**デフォルトの名無しさん** · 2018/04/13(金) 12:53:26.22

>>165
例だからじゃなくて古いページの情報観てるからじゃね？

**165** · 2018/04/13(金) 22:53:22.51

>>166
>>167
ありがとうございます
自分のグラボでもcuda対応してるんですね
ほっとしました。
頑張って動かしてみます。

>>169
いままでグラボが必要になることがそんなになかったもので・・・
これでcuda動かせるようになったら買い替えも検討したいです

**デフォルトの名無しさん** · 2018/04/14(土) 09:03:48.32

gtx960利用でx265nvencエンコードしてるけどGPU可動が何時も30%くらいで少ないけど
もっとGPU使用率を増やすにはどうしたら良いですか?

**デフォルトの名無しさん** · 2018/04/14(土) 11:20:07.58

>>172
エンコって並列化できるん?
ならばプロセスを3つ同時に走らせるとか

**デフォルトの名無しさん** · 2018/04/14(土) 15:36:05.57

Occupancyが上がらない状態かバスが支配的なことが考えられるが、
とりあえずVisualProfilerかなんかでどこが原因か見てみれば？

**デフォルトの名無しさん** · 2018/05/23(水) 19:49:54.06

僕の知り合いの知り合いができたパソコン一台でお金持ちになれるやり方
役に立つかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法　モニアレフヌノ』

Q45FH

**デフォルトの名無しさん** · 2018/05/23(水) 21:24:03.57

Q45FH

**デフォルトの名無しさん** · 2018/07/05(木) 00:33:41.64

T85

**デフォルトの名無しさん** · 2018/10/08(月) 11:29:19.78

朗報
https://www.anaconda.com/blog/developer-blog/tensorflow-in-anaconda/

**デフォルトの名無しさん** · 2018/10/22(月) 20:29:13.91

RTXのtensorコアってどうなの？

**デフォルトの名無しさん** · 2019/01/03(木) 14:15:50.59

1080Ti買ってきてドライバインストールしたんだけど、GPU-Zで見たときOpen-CLだけチェック入ってなくて
困ってるんだけど、コレって別にドライバー持ってくる必要があるの？

**デフォルトの名無しさん** · 2019/01/03(木) 14:29:58.49

https://www.techpowerup.com/forums/threads/open-cl-disappeared.233623/
https://forums.guru3d.com/threads/not-showing-open-cl-support-in-gpu-z.319926/

**デフォルトの名無しさん** · 2019/07/23(火) 17:02:22.82

quadro p600のWSにcuda入れようとしてるのだけど
10.1がパスカル世代の面倒見るのはteslaだけって認識でいいの？
390系のドライバしか入らなくて困ってる。
cuda9.1だとこんどはgcc 6以上はあかんとサンプルプログラムのヘッダがコンパイル時にハネてくる。
なんか詰んでる

**デフォルトの名無しさん** · 2019/07/23(火) 17:03:06.53

>>179
倍精度ゲロ遅なんでしょ

**デフォルトの名無しさん** · 2019/08/04(日) 08:51:33.67

でかいjpegファイルを手頃なサイズに縮小することがよくあって、
数が多いので結構な時間(数時間)がかかる

これを何とかGPUのパワーで短縮できないものか

**デフォルトの名無しさん** · 2019/08/04(日) 10:17:38.13

スレチ

**デフォルトの名無しさん** · 2019/11/27(水) 13:29:04.23

GTX1080のあるPCでcudaとcuDNNとAnacondaとTensorflowをインストール

GTX1080には9.0が合うのかと調べて、VS2015をインストールしてからcudaもバージョン合わせて入れる

Anaconda入れて早速仮想環境作ったが何故かその時はPython3.7しか選べなかった
そしたらconda install tensorflow-gpuで勝手に2.0を選び、型が合わないとエラー

conda install tensorflow-gpu==1.15でもcuda runtimeと合わない
cudaが10じゃないとダメという

1.12にしたら、今度はPythonが3.6でないとダメという
つまりこの仮想環境丸ごとダメ

捨てたあとで、もう一回作ろうとしたらPython3.6選べた
だからconda install tensorflow-gpu==1.12で、やっと動いた

ちょっとでも古い機器だともう合わないとか、敏感だよなあ

**デフォルトの名無しさん** · 2019/12/04(水) 13:02:39.14

ところがRTX2000番台は事前にVSもCUDAもcuDNNも入れずにAnacondaだけで
tensorflowがインストールできてしまった

この数日で色々変わったらしい

**デフォルトの名無しさん** · 2019/12/04(水) 13:24:12.88

おめおめ

**デフォルトの名無しさん** · 2020/02/14(金) 11:55:27.53

RTX2000番台はAnacondaからPyTorchでGPUを使う設定に出来たがChainerでcupyからGPU呼ぶのは失敗

GTX1000番台はAnacondaからChainerでGPU使えるように苦労して設定したら、PyTorchは
「これ古すぎてGPU使えない」と表示された

一長一短
ところで16xx系列ではどうなるんだろう

**デフォルトの名無しさん** · 2020/04/08(水) 11:14:16.32

PyTorch使いたかったら2000番台がいいか

2070以上、せめて2060superがいいか
でも中古でもそれなりの値段

そしてGPU上のメモりが8gb以上ないと動かないモジュールも多くて2060無印があかん事に

**デフォルトの名無しさん** · 2020/06/25(木) 09:14:06.05

wddm2.7対応ドライバで
bandwidthTestにおいてpagedメモリの転送速度向上を確認した

pinedだとhtod、dtohともに13GB/sec
pageableだとwddm2.6は8GB/sec、2.7だと12GB/secくらい

**デフォルトの名無しさん** · 2020/09/29(火) 22:45:56.87

GTX 1660 SUPERはCUDAに対応してますか？

**デフォルトの名無しさん** · 2020/09/30(水) 01:11:13.65

>>192
https://www.nvidia.com/ja-jp/geforce/graphics-cards/gtx-1660-super/

GPU エンジンの仕様:
1408 NVIDIA CUDA® コア
6GB GDDR6標準メモリ構成
192-ビット

**デフォルトの名無しさん** · 2020/10/04(日) 03:16:42.67

CUDAのバージョンを不問とするならGeforce 200シリーズ(Tesla世代)から対応はしてる

って書こうとしたら8シリーズ(2007年)からあったんかよCUDA

**デフォルトの名無しさん** · 2020/10/13(火) 20:53:42.89

CPUでの画像処理で速度が上がらずCudaを使いたいです。（windows）
①画像をGPUメモリに読み込み
②領域分割、パラレルで画像処理
　（分割部エッジにオフセット？をつけたい）
③GPUメモリの処理結果をCPUメモリに返してファイルにおとす。
こういったサンプルプログラムでいいのないでしょうか？
画像処理部だけしたい処理に書き換えればいいような。
よろしくお願いします。

**デフォルトの名無しさん** · 2020/10/14(水) 13:17:48.94

numpyをcupyに替えて
ただしcupyはGPUを使うと宣言して

みたいな奴かなあ

**195** · 2020/10/14(水) 15:54:49.86

すみません。言語を書いていませんでした。使いたいのはPythonじゃないです。
WindowsでC++で実現したいです。

**デフォルトの名無しさん** · 2020/10/14(水) 16:32:24.96

ttps://qiita.com/Keech/items/381495ed90e012d69f1a
ttps://www.kkaneko.jp/tools/win/cuda10.html

**デフォルトの名無しさん** · 2020/10/14(水) 16:34:20.05

ttps://ameblo.jp/naginosen/entry-12443269443.html

**デフォルトの名無しさん** · 2020/11/19(木) 09:55:49.41

RTX3080などで、cuda11が使えるようになってる
だがtensorflowは現時点でまだ使えない

だがPyTorchが動くとのこと！

**デフォルトの名無しさん** · 2020/12/01(火) 20:58:05.41

cudaええな。
2万3千円の GF 1660 SUPER で tensorflow が
2x Xeon E5 2697A v4 の10倍速くなった

**デフォルトの名無しさん** · 2020/12/07(月) 14:54:49.93

1660sでも天下のXEON様の10倍も速いのか

cudaコア数に速度が比例するからなあ
3090だと更に7倍?

**デフォルトの名無しさん** · 2020/12/07(月) 21:54:00.27

intelのコンパイラ買えばCPUももうちょっとマシなんだろうけどケチってやってない。

GPUのメモリの量で、やれることとやれないことが変わってくるので
コア数クロック低くてもメモリ多いみたいなのがあればいいのにね

**デフォルトの名無しさん** · 2020/12/08(火) 15:17:27.13

パソコン工房のブログ記事に
RTX2060superを2枚使って、しかしSLIとかVLLinkとか使わずに性能1.8倍って例が出ている
34308番の記事か

**デフォルトの名無しさん** · 2020/12/10(木) 23:34:49.63

3080tiでpytorch回してえ

**デフォルトの名無しさん** · 2021/01/12(火) 01:54:13.37

1050で戦ってるが、ぐぐるこらぼの半分の速度しか出ねえ
今買い換えるならおすすめどれ？
3万くらいなら払えそう

**デフォルトの名無しさん** · 2021/01/13(水) 07:56:47.02

1660SUPERぐらいなら買えそう

**デフォルトの名無しさん** · 2021/01/14(木) 10:18:01.38

RTX3060デスクトップ版のコスパが
これまでのNVIDIAの一般ユーザー向けGPUでは深層学習に最適かな

3584cudaコアとVRAM12GBでアメリカ価格329ドルは有難い
教師データが巨大でも助かる
なおノート向けはcudaコアはちょっと多いがVRAM6GBなので注意

またRTX30xx番台はcuda11を使えばTensorflowを動かせるとのこと

**195** · 2021/01/14(木) 13:43:39.46

caffeが異様にメモリ食うんだが。
困った。

**デフォルトの名無しさん** · 2021/01/14(木) 21:42:12.40

RTX3060良さそうだよな。
Google colab は無料なのは助かるけど、毎回環境構築しなきゃいけないし、やっぱりローカルで動かせると捗る。

**デフォルトの名無しさん** · 2021/01/18(月) 09:07:06.27

3000番台はまだSLI出来るんだっけ
2060superでただ2枚挿しただけでとりあえず深層学習用途なら性能上がったというのが気になる

ノートPC用のRTX3080って16GBなんだなあ
是非欲しいけど当面は総額40万円くらいだろうな

**デフォルトの名無しさん** · 2021/01/18(月) 12:33:28.51

ゲームやらんし
3060でいいかな

**デフォルトの名無しさん** · 2021/02/25(木) 09:17:50.75

3060発売日か

**デフォルトの名無しさん** · 2021/03/01(月) 12:17:15.83

機械学習しようとrtx3090を2枚買ったんだが中古でも25万円で売れるから売ってrtx A6000に買い替えるメリットある？
gpgpu的な観点から

**デフォルトの名無しさん** · 2021/03/01(月) 15:53:37.93

電力は少なくて済むな

**デフォルトの名無しさん** · 2021/06/02(水) 02:14:34.84

3080tiと3070tiが販売されるか
しかし3080tiでもVRAM12GB

**デフォルトの名無しさん** · 2022/03/11(金) 11:03:09.15

ようやく
CPUマルチスレッドをCUDAプログラミングに乗り換えようと来てみたけど
ほんと人少ないな。
ompオフロードじゃなくCUDAでやろうとしてる

ちょっと思ったのはデバイス側のスレッドから、複数のデバイス側のスレッドを起動できれば
ホストデバイス間のメモリ転送をぐっと少なく出切るんだけど
こういうことって出来ないのかな?

__device__
void
SubThread()
{
...
}

__gloval__
void
SubThread()
{

}

**デフォルトの名無しさん** · 2022/03/11(金) 15:20:37.94

途中で送信してしもた

__device__
void
SubThread(){
...
}

__gloval__
void
Thread(){
SubThread<<<1,1024>>>();
}

int
main(){
Thread<<<1,1>>>Thread();
}

みたいな。
これができないとCPUマルチコアプログラムからGPUプログラムに簡単に移行できんわ。
CPUもC#やインテルコンパイラから入ったんで、大体様子がわかって、
ompでは用意されてなかったPartitionerを先ず作ってめちゃ楽にコーディングできるようになった。
GPUはまだ手探り状態

**デフォルトの名無しさん** · 2022/03/11(金) 18:41:56.87

細かく見てないけどSubThread をグローバルにしたら呼べる

**デフォルトの名無しさん** · 2022/03/12(土) 01:12:58.32

>>218
CUDA Dynamic Parallelism

**デフォルトの名無しさん** · 2022/03/12(土) 10:13:53.90

__device__を__global__に置換してみたけど
__global__内でスレッドを立ち上げるコードを書くと
THread内のSubThread<<<1,1024>>>(); 行と
main関数のThread<<<1,1>>>Thread(); 行の2箇所で"式が必要です"とコンパイルがエラーがでる
もちろん
Thread内のSubThread<<<1,1024>>>();をコメントアウトするとコンパイルもとおるし、正しく実行できる

**デフォルトの名無しさん** · 2022/03/12(土) 10:16:20.60

>>220
ありがと
調べてみます

**デフォルトの名無しさん** · 2022/03/12(土) 18:11:29.89

ようやくわかりました
Relocatable Deice Code をenableでコンパイルが通りました
あちがとうございました

**デフォルトの名無しさん** · 2022/03/23(水) 16:55:21.73

今のGeForceは倍精度遅すぎてなんとかならんか?とおもてたら
Kelper世代のTeslaが8万円ぐらいで売ってるのな 1.8TFlps
c.f.
R3090 FP64 0.556TFPS ww なんそれッ

**デフォルトの名無しさん** · 2022/03/23(水) 19:49:40.61

k80とか外付けGPUBOXで正常動作すんのかな?
動作報告探してみたけど見つからないんでよくわからん
消費電力大きいし、使いたいときだけつないぎたい

**デフォルトの名無しさん** · 2022/03/23(水) 21:39:42.99

8万円分AWSのGPUインスタンス借りたほうがよくね？

**デフォルトの名無しさん** · 2022/03/24(木) 04:46:34.26

課金がアクセス時間なのか正味のGPU駆動時間かわからんけど
8万だとほぼほぼ1ケ月やね。k80本体は6.7万ってのを見つけたわ
機材レンタルじゃないのでもっと上衣スペックのGPUサービスとか期待してチェックしたけど
目ん玉飛び出るぐらい高いね。もっと安くしてくれ

**デフォルトの名無しさん** · 2022/03/24(木) 05:17:57.72

A100ならAWSよりGPUSOROBANが半額以下やね
22万/月なんて個人じゃ出せないけど

**デフォルトの名無しさん** · 2022/03/25(金) 15:16:22.97

仮面ライダー GPGPU
https://pc.watch.impress.co.jp/docs/news/1396728.html
700Wて
10年たってジャンクで入手しても個人で稼動して遊べるシロモノじゃなくなったな

**デフォルトの名無しさん** · 2022/03/25(金) 15:57:54.09

電力はまだしも排熱が難しいな。

**デフォルトの名無しさん** · 2022/04/15(金) 16:37:56.16

CUDAてなんで3次元でスレッド管理するの?
DRAMが実装構造としては2次元でもアドレスでコーダがrow. columnは吸収して1次元で管理するように
スレッドもそうしちゃ駄目な理由を知りたい。
そもそも、3次元ってのとgrid, blockがなんの関係もないんじゃないの?
2次元を block として管理して
3次元の奥行が必要になった時点でgridが登場するならまだ理解できるんだけど。
しかも
threads/block = 1024 と少ない。こんなんじゃ32x32行列越えたら一挙にメンドクサイ

**デフォルトの名無しさん** · 2022/04/15(金) 22:42:02.88

3DCG処理やる場合、最初から3次元のID貰った方が楽じゃん？

**デフォルトの名無しさん** · 2022/04/15(金) 23:30:24.49

>>232
3DCGの次元とは全然別物だが

**デフォルトの名無しさん** · 2022/04/16(土) 07:46:19.05

block,grid へのスレッドの割当て方とかでパフォーマンス変わりますか?
1000個のスレッドを起動したいとき、
block内だけで起動する方が速いのかいのか?
それとも
10個/grid, 100個/blockと分ける方が速いのか?
OpenCLでNVidiaがAMDほどパフォーマンスが上がらないのはスレッドの立ち上げかたで
癖のようなものがあるからってのはないですか?
block,gridってパーティションは単にソフトの問題なのかハード上の制約でこうしてるのかが知りたい

**デフォルトの名無しさん** · 2022/04/16(土) 09:18:24.96

変わるけど、今のGPUそんなん意識しなくても速いからいいだろ
Keplerまでは色々考えないと速くならんかったけど、Maxwell以降はそんな考えなくてもよくなったからおけ

**デフォルトの名無しさん** · 2022/04/16(土) 10:42:24.69

なるほど
じゃblockとかgridとかのパーティションはその時々作成するアプリ側の都合で
作りやすいように自由に設定していいってことですね?
OpwnCL使うとCUDAより大分速度低下する理由は何ですかね?
AMDはOpenCLしかないけどNVidiaでCUDAで書いたのと遜色ないぐらいのベンチマーク出してるサイトがあったんですが。
単にNvidiaがOpenCLやる気ないだけ?

**デフォルトの名無しさん** · 2022/04/16(土) 10:53:55.11

昔ウチで試したときは同じGPUでCUDAとOpenCLはそんなに差は無かったがなぁ。
ものによってはOpenCLの方が速い場合もあったり。

そんなに差が出るのはバリバリにチューニングしたCUDAカーネルをOpenCLにベタ移植したとかかねぇ？

**デフォルトの名無しさん** · 2022/04/16(土) 11:06:17.75

厳密には、ハードウェアを意識するならちゃんと考えたほうがいい
あと適当に言ったけどさすがに今の世代でも1スレッドブロックしか立ち上げないとかだとめっちゃ遅いと思う
GPUの並列性を埋めるなら、1SMに対して複数のスレッドブロックを当てられるぐらいであり、全SMに対してそれができるぐらい、つまり数万スレッドを立ち上げた方がいい
とはいえレジスタ数との兼ね合いもあるからそこはバランスを見て

**デフォルトの名無しさん** · 2022/04/16(土) 11:11:10.82

OpenCLとCUDAに本質的な速度の差はないよ。最適化がどれぐらいかかるかの違いじゃない？
一般的な使い方をするならOpenCLはオンラインコンパイルだからあんま最適化かからんけど、CUDAなら最適化がかかるとかそういう感じ

**デフォルトの名無しさん** · 2022/04/16(土) 11:42:04.90

nVIDIAがCLやる気ないのはわかりきってることだろうに

**デフォルトの名無しさん** · 2022/04/16(土) 11:52:05.37

一般にはオンラインコンパイラの方がその環境に合わせた最適化ができると思うがな。
NVIDIAがどこまでやってくれているかは知らないがIntel OpenCLは頑張っていた印象。

**デフォルトの名無しさん** · 2022/04/16(土) 13:08:09.18

nVIDIAはclCreateProgramWithIL無いんだったなｗ

**デフォルトの名無しさん** · 2022/04/28(木) 01:34:13.82

今度のゲフォ fp64で
ラデなみの速度でるとか情報ないの?

**デフォルトの名無しさん** · 2022/05/14(土) 21:22:02.62

11.7 にしたらoptix のdirect callがこわれた

**デフォルトの名無しさん** · 2022/06/29(水) 06:55:54.64

今月のIF誌GPUプログラム特集ですなー
AMDも含むけど
最近のIF誌Pythonとラスパイばっかでうんざりしてた

**デフォルトの名無しさん** · 2022/07/03(日) 16:32:19.91

IF誌読んだけど、
中級以上のCUSAプログラマ諸氏にはなんの価値もないです
意識してコーディングするとたちまち複雑化するシェアードメモリになんらかの言及があると思ったのですが、
サンプルプログラムはシェアードメモリで速度かせいでます。
だけでした
そんな解説なら俺でも出来るわ

**246** · 2022/07/03(日) 16:32:51.51

CUSA
じゃなく
CUDAです

**デフォルトの名無しさん** · 2022/07/03(日) 20:29:17.30

>>246
初級の私には役立ちそうですね‥‥ぽち‥‥

**デフォルトの名無しさん** · 2022/07/04(月) 13:18:06.68

と思うなら読んでみればいいよ
Nvidiaのプログラミングガイド以上の情報あったら教えて

**デフォルトの名無しさん** · 2022/07/04(月) 14:20:47.70

>>246
読んでねえしCUDA知らんけど、書くにしても
チャネルコンフリクトを避けるように書きましょう！
たとえばこうやってずれるように・・・
って程度じゃねえかなあ

**デフォルトの名無しさん** · 2022/07/04(月) 14:25:19.24

bank conflictだった

**デフォルトの名無しさん** · 2022/07/05(火) 12:33:18.52

cudaはグラボ2枚差し使えますか？
コンシューマ向きのグラボだとvramが24Gですが
48Gになれば購入したいです。
そもそもvram24Gもってる人でどんな処理をしてるのか
知りたいです。例えば深層学習で〇時間を▽というグラボで
こんだけ時間がかかるとか。
そういうデータがほしいです！
よろしく！

**デフォルトの名無しさん** · 2022/07/05(火) 15:28:47.86

とりあえず立ち読みしてくるわ

**デフォルトの名無しさん** · 2022/07/05(火) 23:08:08.38

>>252
A6000 (48GB) 使ってるけど pix2pix とかやったら画像1000枚でも数日かかるよ。
vgg16 とか mobilenet で数時間の学習が多いけど、画像集めるのに一週間かかる。

**デフォルトの名無しさん** · 2022/08/08(月) 11:00:53.55

積分する関数をCUDAで書こうと思っています
リストのIntegrateのように関数テンプレートにすることで,
通常のC++であれば
呼び出し時に
被積分関数(ここではSinc)として
関数へのポインタでも,
ラムダ式でも
直接関数名を書いてもうまく動作させることができるのですが,
CUDAではうまくいかないようです.
もちろんIntegrateの中で被積分関数を直接記述すれば問題なく動作するのですが,
これだと毎回エディタでIntegrateの修正が必要になってきます.
呼び出し時の引数として被積分関数を与えるにはどーすればいいんでしょうか?

**255** · 2022/08/08(月) 11:01:35.81

プログラムリストです
__global__
void
//__device__
//float
Sinc() {
printf("Ahyahya\n");
//return start;
}

template< typename Functor>
__global__
void
Integrate(Functor func){
func <<<1, 1024>>> ();
//Sinc << <1, 1024 >> > ();
__syncthreads();
}

int
main() {
Integrate <<<1, 1>>> (0, 10, Sinc);
//Sinc << <1, 1024 >> > ();
}

**255** · 2022/08/08(月) 11:59:44.42

main 中
誤 Integrate <<<1, 1>>> (0, 10, Sinc);
正 Integrate <<<1, 1>>> ( Sinc );

プログラムリストのコピペ時 0,10, を消すの忘れてました

**デフォルトの名無しさん** · 2022/08/08(月) 14:22:43.82

すまんが、MacやdGPUのないWindowsノートでコード書けたらいいなと思うんだけどさ
CUDAを扱えるオンラインIDEとかエミュレーターとかなんかないもんなのかな？

**デフォルトの名無しさん** · 2022/08/08(月) 16:23:48.54

>>256
最近CUDA使ってないから間違ってるかもしれんが、__global__がついた関数からは__device__しか呼べなかったきがする。__global__関数から__global__が呼べるかちゃんとマニュアルで確認しよう。

**デフォルトの名無しさん** · 2022/08/08(月) 16:31:00.99

>>258
google colaboratoryのGPUインスタンスで昔ちょっとしたCudaのコードを動かしたことはある。
基本はpythonで動かすことが前提なのでちょっと面倒なことしないとCのコードは動かせなかった。
後有料アカウントしないとGPUインスタンスに制限時間がつくかも。

**デフォルトの名無しさん** · 2022/08/09(火) 09:01:04.67

>>259
いや__global__から__global__を呼ぶことは何も問題ない
>>256のリストにある関数Integrateの中でコメントアウトしてる部分がそれ,
直接呼ぶのは何も問題ないのに, ファンクタとして間接的に呼べないんで困ってる

**デフォルトの名無しさん** · 2022/08/09(火) 09:20:50.28

>>256
AWS

**デフォルトの名無しさん** · 2022/08/09(火) 09:23:37.72

アンカー間違い
>>258
AWS

**デフォルトの名無しさん** · 2022/08/09(火) 13:15:46.68

せんきゅー！
Colaboratoryは怪しいことをしてると警告が出てビビっちゃうし、AWSは高いし、コードを書く時点で契約するには勇気がいるな・・・・

**デフォルトの名無しさん** · 2022/08/09(火) 16:43:54.58

>>264
Linux使うのでもよかったら一万円ぐらいのjetson nano買えばCuda使えるよ

**デフォルトの名無しさん** · 2022/08/12(金) 22:53:57.30

んなもん使うぐらいならふつーにx64でコード書いたほうがよっぽどいい
エンベ用途でもないのに何を好んでわざわざワンボードマイコンで計算せにゃならんのだ

**デフォルトの名無しさん** · 2022/08/13(土) 00:14:35.60

>>266
小さいものを愛でる気持ちがないのかな?
お金が掛からないしGPIO使えるし。
GPUの性能が今売ってるGPUよりかだいぶ低いけど。
普通のPCからクロスコンパイルもできるらしいよ。

**デフォルトの名無しさん** · 2022/08/13(土) 22:01:46.34

文脈から想像するに>>264はCPUよりGPU計算が速いことを期待して
ノートからGPUを使ってみたいんだろうよ
それを単にCUDAが乗ってるだけでx64のマルチコアに遠く及ばないワンボードマイコンごときのGPUを何のためにわざわざ使う必要があるんだ?

組込用途とかでこれまでFPGA起こしたりASIC起こしたりしてた部分で
ワンボードマイコンのGPUが代わることもあるだろう．
実際、産業機械にRasPiをまんま組込む用途も増えてる
しかし、どーかんがえてもそっち系じゃない>>264にワンボードマイコンすすめてどーすんだって話

**デフォルトの名無しさん** · 2022/08/14(日) 11:31:10.95

M5StickV 薦めてる香具師がいた

**264** · 2022/08/14(日) 13:40:06.95

コードを手元で書いて、実際に計算する際は実機を用意するかAWSを借りるつもりでいます
ただコードを書くだけの段階でAWSを借りると負担なので、何かいい方法があればいいなと思った次第です

**デフォルトの名無しさん** · 2022/08/16(火) 22:23:45.49

>>270
https://www.%61mazon.co.jp/dp/B085TH77RT

カードに安いやつかっても10万円コース
AWSなくてもいけるが電気代要るわな
それとThunderboltがボトルネックになることはほぼ確定

**デフォルトの名無しさん** · 2022/08/16(火) 22:44:07.06

sharedメモリは
https://zukaaax.com/archives/530
ここの最後に書いてる

>シェアードメモリを使用しなくても高速にできるようにする方針

これホント?

**デフォルトの名無しさん** · 2022/08/17(水) 01:02:58.66

Dynamic Parallelism で親スレッドと子スレッドの属するブロックを
同一ブロックに属するような指定はできますか?
同一ブロックにして親スレッドが確保したShared Memory を子スレッドからアクセスしたいんだですが．

**デフォルトの名無しさん** · 2022/08/17(水) 01:38:27.72

訂正です
○同一ブロックにして親スレッドが確保したShared Memory を親スレッドからアクセスしたいんですが．

myKernel<<<gridSize, blockSize, nI*sizeof(int))>>>(...);

親スレッドで確保して子スレッドに引き渡すnI*sizeof(int)サイズのshared memoryですが
この領域を親スレッドからアクセスできないんでしょーか?

**273,274** · 2022/08/17(水) 08:15:14.36

事故レスです
そもそも親子スレッド間でグローバルメモリのローカル変数の参照渡しが無理らしい
ローカル変数なんかやめにして、大域変数にして__device__つけろとorz
当然のごとくshared memoryもだめっぽい

C++でUser I/Fを使いやすく仕上げたいと思ってたけど
そーゆーおしゃれなことは
いろんな制限が頭に入っるまでは素直にゴリゴリCで書いてたほうがよさそう

**デフォルトの名無しさん** · 2022/08/27(土) 12:49:33.14

__global__のなかでnew,delete使えるので
もしやと思ってmake_unique使おうとしたらだめだった

**デフォルトの名無しさん** · 2022/08/27(土) 13:08:06.52

make_unique以前にstd::unique_ptrの時点でだめだったわ
cudaMalloc使ったunique_ptrバージョンはネットで公開してる人いるのめっけた
https://proc-cpuinfo.fixstars.com/2019/02/cuda_smart_pointer/

host側からgpuメモリ確保したいならコレでいいけど
__global__の中で使うmalloc,freeはGPUメモリを使うバージョンが正しくリンクされるので
malloc, free使って各関数は__device__指定すれば,
cuda::unique_ptrで正しく使えるのかな?

**デフォルトの名無しさん** · 2022/08/30(火) 17:35:41.58

cudaMallocやcudaFreeってのはホスト側からGPUとのインターフェース用として
プログラムの中で1度呼ぶだけなんだよね
GPUへの初期設定メモリ inmem
GPUの計算結果 outmem
として
ホスト側で
kernel<<<1,1>>>(inmem, outmem);
を立ち上げる際この前後でcudaMalloc, cudaMemcpy, cudaFreeを使うだけ
kernel関数で一旦制御をGP側に移したあと
おもむろにDynamic Parallelism を使ってkernel関数の中からマルチスレッドを起動する方がよっぽど書きやすい
new/deleteは__global__関数のなかで自由に使えるので
cudaMalloc/cudaFreeにuniqu_ptr使えてもあんま有り難みは少ないな

**デフォルトの名無しさん** · 2022/09/01(木) 19:39:29.54

質問です。
cpuは６４コア、gpuは年末のvram48ギガ２つ、メモリはddr5 256g
これ以上は経済的事情により無理ですｗ
vram48ギガ二つで深層学習したいんですけど
どの規模でどのくらいのデータ処理ができますか？
マルチcudaで処理速度はどれくらい高速化できますか？
CUDA Python (Numba) を使用して気象分析の分野で 200,000 倍高速化する
こういう記事がありました。
このようなデータがありましたが２０万倍以上の高速化ってできますか？
きになります。もしグラボがvram48一つと二つで差がなければ
vram一つにしたいと思います。

**デフォルトの名無しさん** · 2022/09/01(木) 20:36:24.07

NVIDIA HGX H100 はどうでしょう？

**デフォルトの名無しさん** · 2022/09/01(木) 20:37:55.19

予算オーバーですｗ

**デフォルトの名無しさん** · 2022/09/01(木) 23:54:48.88

>>279
VRAM48Gもあれば、相当の大きさのモデルでも、バッチサイズある程度取れると思う。
2枚にするなら、NVLINKやったかのボード間通信できるやつやらないと、
同時に使ってバッチサイズ倍にするぜってやつが遅い。
一枚でもいいんでない？って気はする。
何と比較して速くしたいのか分からんけど、3090ti(24GBメモリ)1枚でも普通のモデルなら
ちゃんと学習できる。長いと数日学習に時間がかかるけど。
爆速学習したいなら、クラウドで大富豪するしかないぞ。
具体的に動かしたいモデルとかあるの？

**デフォルトの名無しさん** · 2022/09/02(金) 05:25:23.36

>>282
返信サンキュー！情報ありがとさん！！
気象予測がしたくて（とある記事に２０万倍の高速化と書いてあった）
クラウドいいですね～！
どうしてもpythonのnumbaがやりたくて！
ちなみにpycharmかgoogle coalb pro plusはどちらが良いのでしょうか？

**デフォルトの名無しさん** · 2022/09/04(日) 06:32:34.26

>>254
cudaつかっても１週間もかかるんですか？

**デフォルトの名無しさん** · 2022/09/04(日) 22:01:18.62

気象予測て流体力学だろ
学習とかの前に基礎方程式がわかってるものは
粒子フィルタで検討したほうがいいんじゃないの?
もっぱら線形微分方程式に使われるカルマンフィルタを拡張した
アンサンブルカルマンフィルタで見たことあるけど
今だと線形非線形にかかわらず利用可能な粒子フィルタに頼るほうが簡単だと思うけど

**デフォルトの名無しさん** · 2022/09/05(月) 05:17:33.36

>>285
おすすめのサイトとかありますか？

**デフォルトの名無しさん** · 2022/09/06(火) 12:58:14.35

https://www.sice.jp/
https://www.nagare.or.jp/
https://www.saiensu.co.jp/magazine/

**デフォルトの名無しさん** · 2022/09/06(火) 18:55:48.97

https://www.cradle.co.jp/media/column/a188

**デフォルトの名無しさん** · 2022/09/16(金) 13:59:03.50

RTX 4090 Ti
48GB
GDDR6X
これ買う人いますか？

**デフォルトの名無しさん** · 2022/09/16(金) 20:06:35.06

消費電力によります。

**デフォルトの名無しさん** · 2022/09/22(木) 11:24:00.63

>>289
その辺のが一般化してきたら
albertを使った実装例とかがもっと増えるか
ま、もっと高性能なのがクラウドに多数デプロイされそうだけど

**デフォルトの名無しさん** · 2022/09/23(金) 21:15:50.98

RTX 4090 Tiを複数差せばおもしろそうやん？

**デフォルトの名無しさん** · 2022/09/23(金) 21:24:28.27

600WのTBPで動作すると予想されます。
だそう。つまり3枚差せば1800ｗですね。
つまり電源ユニットを２枚で４０００ワット以上必要ですね。
電源ユニットが３０００ｗとか４０００ｗとかでないのかな？
困るよね。

**デフォルトの名無しさん** · 2022/10/08(土) 13:36:18.12

.cuファイルで何とか普通のメモリと
GPUのVRAMを同居させて使えるなら
容量の大き過ぎる計算でもスピードは落ちるが
普通のCPUだけの時より速く計算できる、

とか出来たらいいんだけど、まず無理なんだろうなあ
(沖電気はそういうのを上手くやったらしいが詳細が分からない)

**デフォルトの名無しさん** · 2022/10/08(土) 13:53:17.87

何を問題視してるのかよくわからんけど
例えばmkl入れるとかじゃ駄目なのか？

**デフォルトの名無しさん** · 2022/10/08(土) 14:37:57.21

>>294
LinuxならUnifiedMemoryでできるな。

**デフォルトの名無しさん** · 2022/10/08(土) 16:09:18.26

>>296
それは凄い！！！

**デフォルトの名無しさん** · 2022/10/09(日) 00:49:49.72

ホスト側のメモリをピンして使うことはできるけど多分そういう用途ではないよなあ

**デフォルトの名無しさん** · 2022/10/09(日) 08:33:30.58

>>294が言ってるのはOversubscriptionだろ。

**デフォルトの名無しさん** · 2022/10/26(水) 02:06:11.16

C#でCUDAを使おうとして悪戦苦闘してようやくこのスレにたどり着いたのだが・・・
GPUで計算した結果をCPUに取り出すには結局どうやったらいいんだ？
検索してもサンプルプログラムはほとんど出てこないし、GPU動かして終わりでその結果を使うやり方が示されてない。
教えろくださいお願いしますだ

**デフォルトの名無しさん** · 2022/10/26(水) 05:14:53.09

CUDAでdll作成してC#に読み込ませる
こんだけ

**デフォルトの名無しさん** · 2022/10/26(水) 10:08:16.86

>>268
C言語で普通にCuda使うときだったら、GPU側にメモリ確保してGPUで計算した結果をそこに書き込む。
GPUでの計算が終わったらGPU側のメモリをCPU側のメモリにコピーするみたいな感じだ。
後unified memoryとかいうのでGPUから直接CPU側のメモリに書き込めるらしい。
C言語だったらCUDA sdkにサンプルコードがたくさん入ってるだけどね。
どういう関数使えばいいかはCUDAのドキュメントをちゃんと読めば見つけられるでしょう。

**デフォルトの名無しさん** · 2022/10/26(水) 10:09:44.08

↑のは>>300への返信です。