【GPGPU】くだすれCUDAスレ part8【NVIDIA】 [無断転載禁止]©2ch.net
このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
http://peace.2ch.net/test/read.cgi/tech/1281876470/
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
【GPGPU】くだすれCUDAスレ part7【NVIDIA】
http://echo.2ch.net/test/read.cgi/tech/1416492886/ >>125
その ubuntu 上で生成したコードは、ubuntu なしの Windows 上で動くのか?
動かないのならば、よいわけがあるまい >>127
クロスコンパイルとはいわないのでは?
Linux 上で gcc を使ったコンパイル成果物は、Windows では動かない
Windows 上で cl を使ったコンパイル成果物は、Linux 上では動かない >>128
Linux上のgccでWindows用バイナリを吐くこともできる。 CUDA ToolkitはまだVS2017 15.4までしか対応してないんだよな。
もう15.6出たのから15.4は入手できなくなるし、どうにかしてほしいなぁ。 え?コンパイルやビルドができないほど深刻な問題でてるっけ? やってみた?nvcc動かんよ。たしかNSIGHTのインストールも失敗するはず。
フォーラムでも公式が「サポートしてるのは15.4まで」と言っている。 フォーラムの中の人も、半年くらい前は「申し訳ない」とかなんとか言ってたのが
最近はもう投げ遣りな感じだね。
修正がそんなに難しいのかね?NVIDIAの中で何が起きているんだろうか。 勘弁してほしい、VS installer を思わず起動してアップデートを開始させてしまっては後悔しているんだ… 15.4までが大丈夫。そのページが15.5になってしまったらおしまいってこと。 CUDA試してみたいんですが、入門としてはGeforce GTX 1060くらいあれば有意にCPU core i7 4Ghz より速くなりますか? 単精度で性能を活かせる処理なら速い
AVXを駆使しても1060の性能は出ない 単精度
1060 2.8TFlops
i7 4GHz 0.5TFlops ほほう、5倍速以上ですか。
ありがとうございます。 ちなみに用途はパイソンのディープラーニング用ライブラリの使用です。 ちなみに主要な製品の>>141みたいな性能比較の一覧ってどこかにあります? Keras/TensorflowでCUDA9.0とCuDNN7.0.5を使ってるけど、
980でCPUの4〜5倍ぐらい、1060・1070だと7〜8倍ぐらい速くなった
あとは、GPUの性能よりもマザボやメモリとの相性が大きかったりする
ECCメモリ積んだサーバ機だと足を引っ張られるし、
1070のデスクトップ機よりも1060のゲーミング用ノートPCの方が速かったりする
あと、スペックの違うグラボを2枚挿しすると、単体運用よりも演算が遅くなることがあるから注意 複数枚刺しでCUDA使うならSLI-offがデフォ。 >>144
自分で計算すれば良いんですよ
クロック、コア数、ベクタ長さ、同時計算数 から Geforce GTX 1060買ってきました。
早速試そうと思ったが、電源ユニットに6pinケーブルがないT△T
電源も買い替えかなぁorz おめでとう
まずは2.8TFlopsで動くテストコードの記述から
単精度でひたすら積和 スリムタワーなんか買うんじゃなかったorz
電源もそうだがグラボがケースに収まらないしorz orz
蓋外せば済むことだけど orz orz orz 電源容量気をつけてな
300wとかだと足りないかもしれない >>151
わろた
蓋開けたままだと空冷効率却って悪くなるんじゃなかったかな
蓋開けるなら扇風機も当てた方がいい 一応電源買ったが平日はまとまった時間が取れないので土日で作業しよう。
保証期間とかあるけど平気だよね?
ちな750W 1060設置完了しました。
とりあえず、core i7 のiGPUから解像度が上がっていい感じ。
いままでディスプレイのMAX解像度出てなかったからね。
あとはpytorchが動いてくれれば… 動いたっぽいけど消費時間の測り方が分からんw
まあパイソンの勉強するしかないか 最近pythonスレで速度計測コード貼ってる人がいた Nvidiaは今月で32ビットオペレーティングシステムのパフォーマンスの向上、新機能、バグ修正などのサポートを終了する
重要なセキュリティアップデートは、2019年1月まで32ビット用に提供されます。
これには、以下のオペレーティングシステムが含まれます。
- Microsoft Windows 7 8 / 8.1 10
- Linux FreeBSD すいません、自分のグラボがcudaのどのバージョンで使えるのか
どこを見たらわかるか教えていただけないでしょうか?
windows 10で
GeForceGT610という弱めのグラボを使っています。
↓グラボのHPを見るとCUDAは対応しているようなのですが
ttp://www.nvidia.co.jp/object/geforce-gt-610-jp.html#pdpContent=1
cudaのHPでは対応グラボにのってませんでした(例だから?)
ttp://www.nvidia.co.jp/object/cuda_learn_products_jp_old.html 大昔のcuda コア数4個とかのグラボでも対応しているといえば対応してること になるけど
おもちゃのつもりで買って結局ゴミにした思い出
悪いこと言わないので最低限でもgtx1070tiとかにしておけ >>165
例だからじゃなくて古いページの情報観てるからじゃね? >>166
>>167
ありがとうございます
自分のグラボでもcuda対応してるんですね
ほっとしました。
頑張って動かしてみます。
>>169
いままでグラボが必要になることがそんなになかったもので・・・
これでcuda動かせるようになったら買い替えも検討したいです gtx960利用でx265nvencエンコードしてるけどGPU可動が何時も30%くらいで少ないけど
もっとGPU使用率を増やすにはどうしたら良いですか? >>172
エンコって並列化できるん?
ならばプロセスを3つ同時に走らせるとか Occupancyが上がらない状態かバスが支配的なことが考えられるが、
とりあえずVisualProfilerかなんかでどこが原因か見てみれば? 僕の知り合いの知り合いができたパソコン一台でお金持ちになれるやり方
役に立つかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』
Q45FH 1080Ti買ってきてドライバインストールしたんだけど、GPU-Zで見たときOpen-CLだけチェック入ってなくて
困ってるんだけど、コレって別にドライバー持ってくる必要があるの? quadro p600のWSにcuda入れようとしてるのだけど
10.1がパスカル世代の面倒見るのはteslaだけって認識でいいの?
390系のドライバしか入らなくて困ってる。
cuda9.1だとこんどはgcc 6以上はあかんとサンプルプログラムのヘッダがコンパイル時にハネてくる。
なんか詰んでる でかいjpegファイルを手頃なサイズに縮小することがよくあって、
数が多いので結構な時間(数時間)がかかる
これを何とかGPUのパワーで短縮できないものか GTX1080のあるPCでcudaとcuDNNとAnacondaとTensorflowをインストール
GTX1080には9.0が合うのかと調べて、VS2015をインストールしてからcudaもバージョン合わせて入れる
Anaconda入れて早速仮想環境作ったが何故かその時はPython3.7しか選べなかった
そしたらconda install tensorflow-gpuで勝手に2.0を選び、型が合わないとエラー
conda install tensorflow-gpu==1.15でもcuda runtimeと合わない
cudaが10じゃないとダメという
1.12にしたら、今度はPythonが3.6でないとダメという
つまりこの仮想環境丸ごとダメ
捨てたあとで、もう一回作ろうとしたらPython3.6選べた
だからconda install tensorflow-gpu==1.12で、やっと動いた
ちょっとでも古い機器だともう合わないとか、敏感だよなあ ところがRTX2000番台は事前にVSもCUDAもcuDNNも入れずにAnacondaだけで
tensorflowがインストールできてしまった
この数日で色々変わったらしい RTX2000番台はAnacondaからPyTorchでGPUを使う設定に出来たがChainerでcupyからGPU呼ぶのは失敗
GTX1000番台はAnacondaからChainerでGPU使えるように苦労して設定したら、PyTorchは
「これ古すぎてGPU使えない」と表示された
一長一短
ところで16xx系列ではどうなるんだろう PyTorch使いたかったら2000番台がいいか
2070以上、せめて2060superがいいか
でも中古でもそれなりの値段
そしてGPU上のメモりが8gb以上ないと動かないモジュールも多くて2060無印があかん事に wddm2.7対応ドライバで
bandwidthTestにおいてpagedメモリの転送速度向上を確認した
pinedだとhtod、dtohともに13GB/sec
pageableだとwddm2.6は8GB/sec、2.7だと12GB/secくらい GTX 1660 SUPERはCUDAに対応してますか? CUDAのバージョンを不問とするならGeforce 200シリーズ(Tesla世代)から対応はしてる
って書こうとしたら8シリーズ(2007年)からあったんかよCUDA CPUでの画像処理で速度が上がらずCudaを使いたいです。(windows)
@画像をGPUメモリに読み込み
A領域分割、パラレルで画像処理
(分割部エッジにオフセット?をつけたい)
BGPUメモリの処理結果をCPUメモリに返してファイルにおとす。
こういったサンプルプログラムでいいのないでしょうか?
画像処理部だけしたい処理に書き換えればいいような。
よろしくお願いします。 numpyをcupyに替えて
ただしcupyはGPUを使うと宣言して
みたいな奴かなあ すみません。言語を書いていませんでした。使いたいのはPythonじゃないです。
WindowsでC++で実現したいです。 ttps://qiita.com/Keech/items/381495ed90e012d69f1a
ttps://www.kkaneko.jp/tools/win/cuda10.html ttps://ameblo.jp/naginosen/entry-12443269443.html RTX3080などで、cuda11が使えるようになってる
だがtensorflowは現時点でまだ使えない
だがPyTorchが動くとのこと! cudaええな。
2万3千円の GF 1660 SUPER で tensorflow が
2x Xeon E5 2697A v4 の10倍速くなった 1660sでも天下のXEON様の10倍も速いのか
cudaコア数に速度が比例するからなあ
3090だと更に7倍? intelのコンパイラ買えばCPUももうちょっとマシなんだろうけどケチってやってない。
GPUのメモリの量で、やれることとやれないことが変わってくるので
コア数クロック低くてもメモリ多いみたいなのがあればいいのにね パソコン工房のブログ記事に
RTX2060superを2枚使って、しかしSLIとかVLLinkとか使わずに性能1.8倍って例が出ている
34308番の記事か 1050で戦ってるが、ぐぐるこらぼの半分の速度しか出ねえ
今買い換えるならおすすめどれ?
3万くらいなら払えそう RTX3060デスクトップ版のコスパが
これまでのNVIDIAの一般ユーザー向けGPUでは深層学習に最適かな
3584cudaコアとVRAM12GBでアメリカ価格329ドルは有難い
教師データが巨大でも助かる
なおノート向けはcudaコアはちょっと多いがVRAM6GBなので注意
またRTX30xx番台はcuda11を使えばTensorflowを動かせるとのこと RTX3060良さそうだよな。
Google colab は無料なのは助かるけど、毎回環境構築しなきゃいけないし、やっぱりローカルで動かせると捗る。 3000番台はまだSLI出来るんだっけ
2060superでただ2枚挿しただけでとりあえず深層学習用途なら性能上がったというのが気になる
ノートPC用のRTX3080って16GBなんだなあ
是非欲しいけど当面は総額40万円くらいだろうな 機械学習しようとrtx3090を2枚買ったんだが中古でも25万円で売れるから売ってrtx A6000に買い替えるメリットある?
gpgpu的な観点から 3080tiと3070tiが販売されるか
しかし3080tiでもVRAM12GB ようやく
CPUマルチスレッドをCUDAプログラミングに乗り換えようと来てみたけど
ほんと人少ないな。
ompオフロードじゃなくCUDAでやろうとしてる
ちょっと思ったのはデバイス側のスレッドから、複数のデバイス側のスレッドを起動できれば
ホストデバイス間のメモリ転送をぐっと少なく出切るんだけど
こういうことって出来ないのかな?
__device__
void
SubThread()
{
...
}
__gloval__
void
SubThread()
{
} 途中で送信してしもた
__device__
void
SubThread(){
...
}
__gloval__
void
Thread(){
SubThread<<<1,1024>>>();
}
int
main(){
Thread<<<1,1>>>Thread();
}
みたいな。
これができないとCPUマルチコアプログラムからGPUプログラムに簡単に移行できんわ。
CPUもC#やインテルコンパイラから入ったんで、大体様子がわかって、
ompでは用意されてなかったPartitionerを先ず作ってめちゃ楽にコーディングできるようになった。
GPUはまだ手探り状態 細かく見てないけどSubThread をグローバルにしたら呼べる >>218
CUDA Dynamic Parallelism __device__を__global__に置換してみたけど
__global__内でスレッドを立ち上げるコードを書くと
THread内のSubThread<<<1,1024>>>(); 行と
main関数のThread<<<1,1>>>Thread(); 行の2箇所で"式が必要です"とコンパイルがエラーがでる
もちろん
Thread内のSubThread<<<1,1024>>>();をコメントアウトするとコンパイルもとおるし、正しく実行できる ようやくわかりました
Relocatable Deice Code をenableでコンパイルが通りました
あちがとうございました 今のGeForceは倍精度遅すぎてなんとかならんか?とおもてたら
Kelper世代のTeslaが8万円ぐらいで売ってるのな 1.8TFlps
c.f.
R3090 FP64 0.556TFPS ww なんそれッ k80とか外付けGPUBOXで正常動作すんのかな?
動作報告探してみたけど見つからないんでよくわからん
消費電力大きいし、使いたいときだけつないぎたい