このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
探検
【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2014/11/20(木) 23:14:46.66ID:jr3oZn27
2015/03/07(土) 20:42:36.10ID:CzdLWIdo
thinkpad w550sのquadro K620mはダメなの?
ノートパソコンだよ
ノートパソコンだよ
88デフォルトの名無しさん
2015/03/08(日) 10:25:35.13ID:TYY6zzsE レスありがとうございます
安くあげたいので予算的に厳しいかと
最初だけ計算量は多いですけど
要所ごとに定数化すれば、その後は計算量がへるかと思っているので外での使用は少ないデータ量でプログラムチェックができればいいかなと考えています。
K1がのったタブレットも安いのでそこから考えてみようと思います
ありがとうございました
安くあげたいので予算的に厳しいかと
最初だけ計算量は多いですけど
要所ごとに定数化すれば、その後は計算量がへるかと思っているので外での使用は少ないデータ量でプログラムチェックができればいいかなと考えています。
K1がのったタブレットも安いのでそこから考えてみようと思います
ありがとうございました
2015/03/18(水) 02:36:15.45ID:jKTvW/7W
うわ、titan xの倍精度、しょぼ過ぎ・・・。
https://twitter.com/search?q=titan%20x&src=typd
https://twitter.com/search?q=titan%20x&src=typd
2015/03/18(水) 09:22:22.19ID:33RtPIwm
単精度が7TFLOPS、倍精度が0.2TFLOPSで良いんだよな??
詳しい事は良く分からないんだけど倍精度ってそんなに使わないものなの?
PhysXっていう物理エンジン使ったりするのに
詳しい事は良く分からないんだけど倍精度ってそんなに使わないものなの?
PhysXっていう物理エンジン使ったりするのに
2015/03/18(水) 10:23:22.30ID:C11qPS4w
92デフォルトの名無しさん
2015/03/19(木) 07:37:41.52ID:M0RYJxHF https://developer.nvidia.com/cuda-downloads
CUDA 7 Downloads
CUDA 7 Downloads
93デフォルトの名無しさん
2015/03/19(木) 07:39:40.96ID:M0RYJxHF Dear Developer,
The CUDA? 7.0 Production Release is now available to the public. Run your application faster with this latest version of the CUDA Toolkit. It features 64-bit ARM support and the simplified programming model enabled by Unified Memory. Highlights include:
New cuSOLVER library
? Accelerates key LAPACK routines, 12x faster direct sparse solvers
New C++11 language features
? Increases productivity with lambdas, auto, and more
Runtime Compilation
? Enables highly optimized kernels to be generated at runtime
Download the CUDA 7 Production Release at www.nvidia.com/getcuda
Learn more about CUDA 7 by attending these webinars:
CUDA 7 Feature Review
Date/Time: Friday, April 10th at 10:00 AM PDT
Register: https://cc.readytalk.com/r/4b0lwgeqgzrk&eom
CUDA 7 Performance Overview
Date/Time: Wednesday, April 15th at 11:30 AM PDT
Register: https://cc.readytalk.com/r/empyu1qc65l6&eom
Best regards,
Nadeem Mohammad
NVIDIA Developer Relations Team
The CUDA? 7.0 Production Release is now available to the public. Run your application faster with this latest version of the CUDA Toolkit. It features 64-bit ARM support and the simplified programming model enabled by Unified Memory. Highlights include:
New cuSOLVER library
? Accelerates key LAPACK routines, 12x faster direct sparse solvers
New C++11 language features
? Increases productivity with lambdas, auto, and more
Runtime Compilation
? Enables highly optimized kernels to be generated at runtime
Download the CUDA 7 Production Release at www.nvidia.com/getcuda
Learn more about CUDA 7 by attending these webinars:
CUDA 7 Feature Review
Date/Time: Friday, April 10th at 10:00 AM PDT
Register: https://cc.readytalk.com/r/4b0lwgeqgzrk&eom
CUDA 7 Performance Overview
Date/Time: Wednesday, April 15th at 11:30 AM PDT
Register: https://cc.readytalk.com/r/empyu1qc65l6&eom
Best regards,
Nadeem Mohammad
NVIDIA Developer Relations Team
2015/03/24(火) 05:27:05.96ID:7oVKj7vD
CUDAがgcc4.8でうまく動かない問題ってもう解決したの?
2015/03/25(水) 15:16:29.51ID:9JMqB0KU
うん
2015/03/25(水) 21:19:25.13ID:WRhchtaz
Driver API使ってコンパイル済みのptxを実行するプログラムを作ろうとしているんだけど、
64bitのホストコードから32bitのptxを実行することってできるんだっけ?
64bitのホストコードから32bitのptxを実行することってできるんだっけ?
2015/04/10(金) 02:15:05.70ID:C60yUXFO
nvidia-smiでutilizationやmemory usageを確認できると思うのですが、全てのパラメータを確認できるのはtesla、quadro、Titanです。
Geforce系のGPUで、utilization、各プロセスのmemory usage等を確認するにはどうすればいいでしょうか?
Geforce系のGPUで、utilization、各プロセスのmemory usage等を確認するにはどうすればいいでしょうか?
2015/04/10(金) 07:26:02.69ID:nzpIVsUT
2015/04/12(日) 23:53:21.24ID:g4+PudFo
古いGeforceでもOpenCL1.1のプログラムなら動くのでしょうか
100デフォルトの名無しさん
2015/04/13(月) 00:39:39.73ID:NPPeHBbv 少なくともCUDA対応している必要があるが、基本的にGeForce8シリーズ以降で動くはず。
特定の機種について知りたいならGeeks3Dのデータベース検索してみるとか。
しかしスレチ。
特定の機種について知りたいならGeeks3Dのデータベース検索してみるとか。
しかしスレチ。
101デフォルトの名無しさん
2015/04/13(月) 16:29:29.85ID:EBHbrztF thinkpadに入ってるquadro K620Mはcudaのサポート無いんだな
インストールしようとしてワラタ
インストールしようとしてワラタ
102デフォルトの名無しさん
2015/04/14(火) 18:39:28.21ID:hgZdA2dw Linux(CentOS6)の環境でTITAN BLACKでCUDA(Ver.6.5 or 7.0)使ってるのだけど、計算走らせると
NVIDIA X Server SettingsのPerformance LevelsのLevelが3から2に落ちてMemory Transfer Rateが7000Mhzから6000Mhzに落ちてしまう。
で結果的にノーマルTITANと性能が同じになってしまう。このメモリクロックを固定させることはできませんかね?
ちなみにTelsa K20 での固定クロックの方法はnvidia-smiがTITANに対応してないらしくできなかった。
ちなみにPreferred Modeは「Prefer Maxmum Performance」になっていて、
CUDAで計算しなければLevel3でメモリクロックも7000Mhzとなっています。
NVIDIA X Server SettingsのPerformance LevelsのLevelが3から2に落ちてMemory Transfer Rateが7000Mhzから6000Mhzに落ちてしまう。
で結果的にノーマルTITANと性能が同じになってしまう。このメモリクロックを固定させることはできませんかね?
ちなみにTelsa K20 での固定クロックの方法はnvidia-smiがTITANに対応してないらしくできなかった。
ちなみにPreferred Modeは「Prefer Maxmum Performance」になっていて、
CUDAで計算しなければLevel3でメモリクロックも7000Mhzとなっています。
103デフォルトの名無しさん
2015/04/14(火) 21:44:04.71ID:frAktQrJ 空冷を見直す。
104デフォルトの名無しさん
2015/04/15(水) 11:49:47.50ID:DmeNPmdM >>102
何時間もフルで使ってるならまだしも、GPU叩いた瞬間に7000Mhzから6000Mhzに落ちるって、TITAN BLACKの公称メモリクロック「7GHz」ってのは詐欺にならないか?
これじゃノーマルTITANと同じ性能・・・
何時間もフルで使ってるならまだしも、GPU叩いた瞬間に7000Mhzから6000Mhzに落ちるって、TITAN BLACKの公称メモリクロック「7GHz」ってのは詐欺にならないか?
これじゃノーマルTITANと同じ性能・・・
105デフォルトの名無しさん
2015/04/15(水) 23:05:57.76ID:+7B/lj1n 環境がわからんからなんとも言えんが、
どうしても固定したければどっかからbiosを引っ張ってくるしかないね。
どうしても固定したければどっかからbiosを引っ張ってくるしかないね。
106デフォルトの名無しさん
2015/04/16(木) 13:27:15.95ID:xeug049T ん?TITANのクロック制御はマザーのBIOSが管理してるのか?
107デフォルトの名無しさん
2015/04/16(木) 14:34:33.50ID:PYEjJT3R VGAボード側のだよ。
108デフォルトの名無しさん
2015/04/23(木) 12:42:01.23ID:GK/TBYtY pycudaで既存のコンパイル済みのオブジェクトとリンクして
実行させるにはどうすればいいのでしょうか
実行させるにはどうすればいいのでしょうか
109デフォルトの名無しさん
2015/04/23(木) 18:12:10.80ID:GK/TBYtY cmakeの自動configがGTX900シリーズなのにsm_20とか言ってくるのなんとかならないの?
110デフォルトの名無しさん
2015/04/27(月) 00:54:11.64ID:XOkfLgXW 最近のマザーボードってビデオカード2枚刺して
両方に計算させることもできるの?
自分のcore2duoのパソコンだと1つしか刺す場所ないけど
最近のddr4を使うマザーみると
それらしき場所が3つぐらいあるから3並列計算できるってことかな?
両方に計算させることもできるの?
自分のcore2duoのパソコンだと1つしか刺す場所ないけど
最近のddr4を使うマザーみると
それらしき場所が3つぐらいあるから3並列計算できるってことかな?
111デフォルトの名無しさん
2015/04/29(水) 08:43:39.45ID:2J/vCqrD >>110
場合によっては、計算用のGPUと出力用のGPUで分けてたりする。少なくともNVIDIAはそういう方針
場合によっては、計算用のGPUと出力用のGPUで分けてたりする。少なくともNVIDIAはそういう方針
112デフォルトの名無しさん
2015/04/30(木) 22:40:28.09ID:4E7PVA8Y vexclのサンプルコードをcudaでコンパイルしようとしてるんだけど
エラーだらけ
何か依存パッケージが足りないのかな?
エラーだらけ
何か依存パッケージが足りないのかな?
113デフォルトの名無しさん
2015/04/30(木) 22:46:37.84ID:4E7PVA8Y .bashrcに設定する変数名が
CUDA_PATH
だったり
CUDA_ROOT
だったりみんな違う
なんで統一しないのか
CUDA_PATH
だったり
CUDA_ROOT
だったりみんな違う
なんで統一しないのか
114デフォルトの名無しさん
2015/05/07(木) 18:56:17.28ID:oEZIeMhu vexclについてくるexampleプログラムの中のベンチマークってプログラムが面白い
このプログラムのベンチマークによると
GT430とかいう古いビデオカードなのに最近のCPUの10倍の計算速度でてる
このプログラムのベンチマークによると
GT430とかいう古いビデオカードなのに最近のCPUの10倍の計算速度でてる
115101
2015/05/13(水) 12:03:41.64ID:3UCLt7KQ thinkpad w550sのquadroでもcudaなんも問題なかった
やっと勉強できる
やっと勉強できる
116デフォルトの名無しさん
2015/05/13(水) 19:42:38.26ID:SKtXN3hT 3D映像でパストレーシングやモンテカルロ法を行いたい場合、光線とシーン中
のあらゆるポリゴンとの交差を判定し、条件分岐を行う必要があります。
しかし、GPGPUは条件分岐が遅いらしいので、もしかするとCPUと役割分担を
行うべきなのでしょうか?
例えば、シーン中のポリゴンとの交差判定はCPUでやった方が良いとか?
のあらゆるポリゴンとの交差を判定し、条件分岐を行う必要があります。
しかし、GPGPUは条件分岐が遅いらしいので、もしかするとCPUと役割分担を
行うべきなのでしょうか?
例えば、シーン中のポリゴンとの交差判定はCPUでやった方が良いとか?
117デフォルトの名無しさん
2015/05/13(水) 23:31:21.84ID:xMqj1fKt if
A
else
B
end
のような文なら、AとBは逐次の処理になる
if
A
end
なら、Aを行わないスレッドは待つだけだから問題ない
もし3項演算で解決できる条件分岐なら3項演算子を用いて書く
A
else
B
end
のような文なら、AとBは逐次の処理になる
if
A
end
なら、Aを行わないスレッドは待つだけだから問題ない
もし3項演算で解決できる条件分岐なら3項演算子を用いて書く
118デフォルトの名無しさん
2015/05/14(木) 07:59:10.95ID:CyZl9DuQ119デフォルトの名無しさん
2015/05/14(木) 09:14:40.23ID:CyZl9DuQ Intel系CPUの場合、確か cmov などという命令は、bool 値が1の時だけ
転送するのだったと思います。そういう命令は無いんでしょうか?
仮に何かあったとして、CUDA や OpenCL でどうやってそのような
「専用命令」を生成する事は可能でしょうか?
転送するのだったと思います。そういう命令は無いんでしょうか?
仮に何かあったとして、CUDA や OpenCL でどうやってそのような
「専用命令」を生成する事は可能でしょうか?
120デフォルトの名無しさん
2015/05/15(金) 01:05:26.23ID:WYo5pZkW 分岐命令の代わりに使えるプレディケート付き命令があるかという話なら
それは存在するし、分岐のあるコードではコンパイラさんがよしなにやってくれる。
と、ヘネパタ本には書いてあった。
それは存在するし、分岐のあるコードではコンパイラさんがよしなにやってくれる。
と、ヘネパタ本には書いてあった。
122デフォルトの名無しさん
2015/05/15(金) 09:39:10.09ID:mDU8aVUi >>121
warp divergenceの話じゃないの?
warp divergenceの話じゃないの?
123デフォルトの名無しさん
2015/05/15(金) 15:58:50.84ID:pyCNH+0F124デフォルトの名無しさん
2015/05/17(日) 10:18:02.33ID:R3tkd0Ad >>121
AとB両方実行されるよ
AとB両方実行されるよ
125デフォルトの名無しさん
2015/05/19(火) 21:33:47.52ID:spimwXxa 今まで一つのソースファイルで書いてきたのですが、いい加減見づらくなってきたのでソースファイルを分けてみたところエラーがでたので質問させてください
extern __constant__ unsigned short v[n]; //nは#defineで定義しています。
メインのソースファイルで
__constant__ unsigned short v[n];
と定義し、ビルドすると「メインの方で再定義されている」というエラーが出てしまいます
他にも、__device__ double atomicAdd の定義をサブのソースファイルに書くと
ptxas fatal : Unresolved extern function '_Z9atomicAddPdd'
とエラーが出てしまいます。どうか解決方法を教えてください。
環境は
NVIDIA Nsight Visual Studio Edition v.4.2
CUDA 7.0 Toolkit
のはずです
extern __constant__ unsigned short v[n]; //nは#defineで定義しています。
メインのソースファイルで
__constant__ unsigned short v[n];
と定義し、ビルドすると「メインの方で再定義されている」というエラーが出てしまいます
他にも、__device__ double atomicAdd の定義をサブのソースファイルに書くと
ptxas fatal : Unresolved extern function '_Z9atomicAddPdd'
とエラーが出てしまいます。どうか解決方法を教えてください。
環境は
NVIDIA Nsight Visual Studio Edition v.4.2
CUDA 7.0 Toolkit
のはずです
126125
2015/05/19(火) 21:42:34.97ID:spimwXxa ×CUDA 7.0
○CUDA 6.5
でした
○CUDA 6.5
でした
127125
2015/05/20(水) 16:28:14.38ID:MP+tATlH CUDA5.0以降ではrdcを「はい」にするとファイルの分割が出来るという情報を得たのでさっそく試してみたところ
>>125のエラーは無くなったのですが
1>sub.cu.obj : error LNK2005: "long __cdecl genrand_int31(void)" (?genrand_int31@@YAJXZ) は既に main.cu.obj で定義されています。
上記のような二重定義エラーがいくつか出てきました
また、ヘッダファイルの拡張子を.cuhとしている方を見かけたのですが、.hとの違いはあるのでしょうか?
>>125のエラーは無くなったのですが
1>sub.cu.obj : error LNK2005: "long __cdecl genrand_int31(void)" (?genrand_int31@@YAJXZ) は既に main.cu.obj で定義されています。
上記のような二重定義エラーがいくつか出てきました
また、ヘッダファイルの拡張子を.cuhとしている方を見かけたのですが、.hとの違いはあるのでしょうか?
128デフォルトの名無しさん
2015/05/20(水) 22:26:00.46ID:tQNdJIhT デバイス関数ってインライン展開されるんじゃなかったっけ。
でもって、他のファイルからは使えなかったのでは?
でもって、他のファイルからは使えなかったのでは?
130デフォルトの名無しさん
2015/05/21(木) 04:25:30.08ID:Dige6mTv とりあえずCUDAの日本語wikiがあるから、そこの分割コンパイルの項目をみたらどうかな?
OSによっては解決できるかも
OSによっては解決できるかも
131デフォルトの名無しさん
2015/05/21(木) 09:09:27.02ID:BxelVpyp cuファイルをcuファイルにインクルードしてみるとか。
133125
2015/05/24(日) 22:10:36.84ID:FupD4mQN >>127の方法で分割コンパイルに一応成功しました!
一応と言ったのはrdcを「はい」にした場合と「いいえ」にした場合とでプログラムの挙動が少し変わってしまうのです
今書いているプログラムは何億回もの計算結果を足し合わせていくものなので、誤差の蓄積による影響を受けていると思います
コンパイルの方法を変えた(?)事で誤差の蓄積が変化(?)し、プログラムの挙動が変わったということなのでしょうか?
コンパイルと誤差がどう関係するのかは分かりませんが
一応と言ったのはrdcを「はい」にした場合と「いいえ」にした場合とでプログラムの挙動が少し変わってしまうのです
今書いているプログラムは何億回もの計算結果を足し合わせていくものなので、誤差の蓄積による影響を受けていると思います
コンパイルの方法を変えた(?)事で誤差の蓄積が変化(?)し、プログラムの挙動が変わったということなのでしょうか?
コンパイルと誤差がどう関係するのかは分かりませんが
134125
2015/05/24(日) 22:19:49.55ID:FupD4mQN >>「はい」にした場合と「いいえ」にした場合
ファイルを分割するともちろん「いいえ」では動かないので、一つのファイルで完結しているプログラムでの話です
ファイルを分割するともちろん「いいえ」では動かないので、一つのファイルで完結しているプログラムでの話です
135デフォルトの名無しさん
2015/05/26(火) 06:54:20.42ID:VVQAbCqm 最適化の仕方が変わるのかもね
誤差が出て困るなら、なるべく誤差が少なくなるような組み方を考えるしかない
誤差が出て困るなら、なるべく誤差が少なくなるような組み方を考えるしかない
136デフォルトの名無しさん
2015/05/26(火) 07:49:49.21ID:3GnQrGbV 誤差にも種類があるが・・・
浮動小数点演算等の誤差なのか
同期ミスによる誤差なのか・・・
浮動小数点演算等の誤差なのか
同期ミスによる誤差なのか・・・
137デフォルトの名無しさん
2015/05/26(火) 22:03:46.38ID:f2qMZr+T138デフォルトの名無しさん
2015/05/26(火) 22:55:29.89ID:sIi3toQP つうか最適化で結果が変わったら
それはバグ以外に無いけどねえ。
それはバグ以外に無いけどねえ。
139デフォルトの名無しさん
2015/06/03(水) 15:26:06.85ID:f+QtTKYD140デフォルトの名無しさん
2015/06/17(水) 22:35:16.09ID:uTokHIG4 今年はGTC Japan開催のリリース出ないな
例年ならもう出ているのに
中止かもしくは時期がずれたのかな
例年ならもう出ているのに
中止かもしくは時期がずれたのかな
141デフォルトの名無しさん
2015/06/18(木) 12:56:34.78ID:0ZPzSsHT >>140
今年は9月18日に虎ノ門ヒルズで開催、だったかと。
今年は9月18日に虎ノ門ヒルズで開催、だったかと。
142デフォルトの名無しさん
2015/06/18(木) 13:04:11.34ID:9mEYqdNq Visual studioでCUDAプログラムを作成しています
Nsightでstart CUDA debuggingからプログラムを走らせた時だけプログラムが動かないんですが
どのような原因が考えられますか?
以下の条件ではすべて正常に動作・終了します
デバッグなしで開始(debug,release共に)
start CUDA debuggingでブレイクポイントを仕掛けて1スレッドずつ動かす
Nsightでstart CUDA debuggingからプログラムを走らせた時だけプログラムが動かないんですが
どのような原因が考えられますか?
以下の条件ではすべて正常に動作・終了します
デバッグなしで開始(debug,release共に)
start CUDA debuggingでブレイクポイントを仕掛けて1スレッドずつ動かす
143142
2015/06/18(木) 13:16:06.49ID:9mEYqdNq 追加です
プログラムの詳細ですが
ある無向グラフに対して,与えられた2点が連結かどうか調べるプログラム
枝重み0と仮定してダイクストラのアルゴリズムを用いて判定しています.
1ブロックにつき16スレッドが同時に走ります.
その判定関数をfoo()とすると
if( blockIdx.x == tmp )
foo();
というように一つのブロックのみで扱うようにすると
tmpがどのような値でも正常に動作するのですが
2ブロック以上でfooに行くようにすると動かなくなります
エラーがでないことと,printfによるチェックですが
配列のアドレスも問題ありません
プログラムの詳細ですが
ある無向グラフに対して,与えられた2点が連結かどうか調べるプログラム
枝重み0と仮定してダイクストラのアルゴリズムを用いて判定しています.
1ブロックにつき16スレッドが同時に走ります.
その判定関数をfoo()とすると
if( blockIdx.x == tmp )
foo();
というように一つのブロックのみで扱うようにすると
tmpがどのような値でも正常に動作するのですが
2ブロック以上でfooに行くようにすると動かなくなります
エラーがでないことと,printfによるチェックですが
配列のアドレスも問題ありません
144デフォルトの名無しさん
2015/06/19(金) 21:29:02.20ID:tQGft1o9 >>143
何かスレッドの実行順序に依存した処理があるか、排他が必要な競合でもあるんじゃね?
何かスレッドの実行順序に依存した処理があるか、排他が必要な競合でもあるんじゃね?
145デフォルトの名無しさん
2015/06/19(金) 22:01:43.75ID:FLqfhWNF >>141情報感謝です
146デフォルトの名無しさん
2015/06/22(月) 21:23:14.11ID:FYteK6ai デバイスメモリの内容を一時的にホスト側からアクセスしたいんですが、OpenCLでいう
clEnqueueMapBufferに相当する機能はCUDAにあるんでしょうか?
ちょっと調べてみたんですが、cudaHostRegisterは方向が逆だし、cudaMallocManagedは
既にあるデバイスメモリにアクセスするものではなさそうなので。
cudaMemcpyで読み出して終わったらまた書き出すという方法しかないんでしょうか。
clEnqueueMapBufferに相当する機能はCUDAにあるんでしょうか?
ちょっと調べてみたんですが、cudaHostRegisterは方向が逆だし、cudaMallocManagedは
既にあるデバイスメモリにアクセスするものではなさそうなので。
cudaMemcpyで読み出して終わったらまた書き出すという方法しかないんでしょうか。
147デフォルトの名無しさん
2015/06/23(火) 13:14:37.10ID:DUXK3D31 OpenCLを知らないので外してるかも知れないけど、
基本的にはcudamemcpyするしかない。
CUDA6.0からUnified Memoryっていう機能が入って、
GPU上のメモリをホストメモリと同じように読めて、
自動的に同期を取ってくれる機能。用途によっては使えるかも。
基本的にはcudamemcpyするしかない。
CUDA6.0からUnified Memoryっていう機能が入って、
GPU上のメモリをホストメモリと同じように読めて、
自動的に同期を取ってくれる機能。用途によっては使えるかも。
148デフォルトの名無しさん
2015/06/24(水) 08:02:13.81ID:wFw+UOzE >>147
ありがとう。やっぱりcudaMemcpyするしかないのか。
ありがとう。やっぱりcudaMemcpyするしかないのか。
149デフォルトの名無しさん
2015/06/25(木) 22:41:21.74ID:t3bjYB8L 今日はじめてCUDAを入れた者ですが、VS2013でサンプルをビルドするとerror MSB3721…\simpleTemplates.cu"" はコード 1 で終了しました
って出るんだが何か設定とか必要ですか?
あとインストールの確認(?)でコマンドプロンプトでnvcc -Vのコマンド入れてもアクセスが拒否されましたと出る…
これが原因ですかね?
いろいろ調べてみましたが、これといった解決方法はなかったので助けて下さい。
よろしくお願いします。
って出るんだが何か設定とか必要ですか?
あとインストールの確認(?)でコマンドプロンプトでnvcc -Vのコマンド入れてもアクセスが拒否されましたと出る…
これが原因ですかね?
いろいろ調べてみましたが、これといった解決方法はなかったので助けて下さい。
よろしくお願いします。
150149
2015/06/25(木) 23:09:29.97ID:t3bjYB8L151デフォルトの名無しさん
2015/06/26(金) 01:26:56.82ID:f2ddT7MK 750Tiってあんまりいけてないのか…
CUDA試したくてあんまり調べずに衝動買いしてしまった
900台にした方が良かったのかなあ
CUDA試したくてあんまり調べずに衝動買いしてしまった
900台にした方が良かったのかなあ
152デフォルトの名無しさん
2015/06/26(金) 08:33:52.91ID:h0LNB3lK ゲームするならかなりいけてるが倍精度はしょぼいな
倍精度が欲しいならfermiかgk110コアのがいいのか?
ゲームしないならamdでopenCLの方がコスパ良さそうなんだがどうなの?
倍精度が欲しいならfermiかgk110コアのがいいのか?
ゲームしないならamdでopenCLの方がコスパ良さそうなんだがどうなの?
153デフォルトの名無しさん
2015/06/26(金) 09:30:43.08ID:gBS6mhz7 >>150
ちゃんとアンチウイルス入れておけよ。
ちゃんとアンチウイルス入れておけよ。
154デフォルトの名無しさん
2015/06/26(金) 11:48:22.16ID:JVzNXP51 CUDA7入れたのですが、
cublas.hが見つからないと出てしまいました。
cublas使うには他に何か必要なのでしょうか?
cublas.hが見つからないと出てしまいました。
cublas使うには他に何か必要なのでしょうか?
155デフォルトの名無しさん
2015/06/26(金) 12:57:38.26ID:1v0mrakI >>154
C:> dir /s /b "%CUDA_PATH%\cublas.h"
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include\cublas.h
C:> dir /s /b "%CUDA_PATH%\cublas.h"
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include\cublas.h
156デフォルトの名無しさん
2015/06/26(金) 13:07:12.91ID:JVzNXP51 ありがとうございます。
みつかりました
みつかりました
157デフォルトの名無しさん
2015/06/26(金) 23:47:30.95ID:f2ddT7MK >>152
>ゲームするならかなりいけてる
こういうのがイマイチよくわかりません
単純にFLOPSで性能を見ちゃいけないのでしょうか
ゲームやGPUプログラミングに向いてるかどうかってどうやって判断してるんでしょうか
>ゲームするならかなりいけてる
こういうのがイマイチよくわかりません
単純にFLOPSで性能を見ちゃいけないのでしょうか
ゲームやGPUプログラミングに向いてるかどうかってどうやって判断してるんでしょうか
158デフォルトの名無しさん
2015/06/27(土) 03:38:35.85ID:y7j5+l1E >>157
プロはGPGPUするのにゲーム用のGFやRadeonをはあんまり使わない
趣味レベルでOKのGPGPUならGPGPUがオマケであるゲーム用(ゲームドライバ)のVGAでも良いが。
Xeonが一般的な業務サーバーに普通のデスクトップPCをいっぱい使うなことは
しないのと同じ。あと、FLOPSは目的のGPGPUするのに必要なレベルあれあば良い。
低FLOPSでOKなGPGPU処理に超高FLOPSのものを使うって趣味だし
プロはGPGPUするのにゲーム用のGFやRadeonをはあんまり使わない
趣味レベルでOKのGPGPUならGPGPUがオマケであるゲーム用(ゲームドライバ)のVGAでも良いが。
Xeonが一般的な業務サーバーに普通のデスクトップPCをいっぱい使うなことは
しないのと同じ。あと、FLOPSは目的のGPGPUするのに必要なレベルあれあば良い。
低FLOPSでOKなGPGPU処理に超高FLOPSのものを使うって趣味だし
159デフォルトの名無しさん
2015/06/27(土) 09:17:14.69ID:f1QkQQtg プロだってコスパ考えるだろ。
倍精度演算性能と信頼性で妥協できるならゲーム用GPUの方が圧倒的に安いしな。
倍精度演算性能と信頼性で妥協できるならゲーム用GPUの方が圧倒的に安いしな。
2015/06/27(土) 23:23:04.05ID:XHzW5ECE
まあ中国の天河1号はFireStreamですらないRadeonのデュアルGPUカードを大量搭載したが
結局実用にならなくて次の更新で全部Teslaに差し替えたからね
額面のFLOPS数だけで実用性は評価できない
結局実用にならなくて次の更新で全部Teslaに差し替えたからね
額面のFLOPS数だけで実用性は評価できない
161デフォルトの名無しさん
2015/06/28(日) 09:51:05.56ID:MpgQMMEq 中国はスパコンにTESLAとか使えなくなったから、NVIDIAやインテルは大口顧客を失った。
162デフォルトの名無しさん
2015/06/28(日) 16:33:48.10ID:zku7pwa+ >NVIDIAやインテルは大口顧客を失った。
その損失分は米国内の大型スパコンでの便宜をはかることで補填されてるから企業としては差し引きOKとなったはず
その損失分は米国内の大型スパコンでの便宜をはかることで補填されてるから企業としては差し引きOKとなったはず
163デフォルトの名無しさん
2015/06/29(月) 08:06:36.49ID:FIYCVjDt windows7でchainer試そうとすると
pycudaでなんか不具合出る
pycudaでなんか不具合出る
164デフォルトの名無しさん
2015/06/29(月) 08:13:35.83ID:FIYCVjDt165デフォルトの名無しさん
2015/06/29(月) 09:25:13.60ID:uPSGGZxo 並列計算でGTX780Ti使ってるんだけどGTX980Tiにしたら倍精度の計算って遅くなる?
166デフォルトの名無しさん
2015/06/30(火) 16:00:18.94ID:vWTsPJO/ cudaってMFCのcppから呼べますか?
サンプルで.cuから.cppを呼んでるのは見つけたんですが。
サンプルで.cuから.cppを呼んでるのは見つけたんですが。
167デフォルトの名無しさん
2015/06/30(火) 17:26:54.94ID:vWTsPJO/ あーexternで呼べました
168デフォルトの名無しさん
2015/07/02(木) 01:47:05.99ID:cql5ELb9 >>165
単精度演算性能 コア数×クロック数×2
倍精度演算性能 単精度演算性能/24(Kepler), 単精度演算性能/32(Maxwell)
として計算すると、
780Tiが2880×875×2/24=205GFLOPS
980Tiが2816×1000×2/32=172GLOPS
だから、遅くなるんじゃね?
単精度演算性能 コア数×クロック数×2
倍精度演算性能 単精度演算性能/24(Kepler), 単精度演算性能/32(Maxwell)
として計算すると、
780Tiが2880×875×2/24=205GFLOPS
980Tiが2816×1000×2/32=172GLOPS
だから、遅くなるんじゃね?
169デフォルトの名無しさん
2015/07/02(木) 15:34:36.77ID:bfg1NSwR CUDAって仕様上できないこともコンパイルとおるのか〜
170デフォルトの名無しさん
2015/07/02(木) 23:26:03.68ID:Pfy0Io9G Nvはゲームにゲーム用VGAには倍精度演算イラネから省くって流れだから
ゲーム用VGAで倍精度演算性能ほしいならRadeにしたほうがいいよな
ゲーム用VGAで倍精度演算性能ほしいならRadeにしたほうがいいよな
171デフォルトの名無しさん
2015/07/03(金) 14:37:16.26ID:WUZUNux9172デフォルトの名無しさん
2015/07/03(金) 23:30:48.50ID:dkeXuonA TITANヤフオクで探すのはどうでしょ
173デフォルトの名無しさん
2015/07/05(日) 22:31:36.27ID:tW1t1zZP 全く値段見ないでカンで言うけど
中古の無印TITANならウンコに混じったコーン位の値段で売ってんじゃないの?
中古の無印TITANならウンコに混じったコーン位の値段で売ってんじゃないの?
174デフォルトの名無しさん
2015/07/07(火) 16:43:12.64ID:y9jINuhY CULAのエラーでpos 1022ってなんですか?
LAPACKドキュメントを見よとか書いてありますが、見当たりません
LAPACKドキュメントを見よとか書いてありますが、見当たりません
175デフォルトの名無しさん
2015/07/08(水) 10:49:51.33ID:UJb9gmN3 CUDA7.5 RC
176デフォルトの名無しさん
2015/07/08(水) 20:10:01.47ID:h2HOA+i0 最近始めたんだけどversionって無理して最新にする必要無いのかな
7入れるのに結構苦労したんであんまり変えたくない
みなさんはガンガン上げてく感じですか?
7入れるのに結構苦労したんであんまり変えたくない
みなさんはガンガン上げてく感じですか?
177デフォルトの名無しさん
2015/07/08(水) 20:20:41.59ID:QsV0kvB4 共存できるやん
178デフォルトの名無しさん
2015/07/11(土) 13:57:32.12ID:QRzfcgY3 困らなければ基本的に更新とかはしないと思うけど…
179デフォルトの名無しさん
2015/07/13(月) 01:32:34.78ID:BK2wG7MT でも最新のほうが速くなったりするかもしれないし
180デフォルトの名無しさん
2015/07/27(月) 20:50:16.33ID:0YcBUgDv 分割コンパイルができないんだけど、どうしたらいいんだろ?
ビルドどころか1ファイルのコンパイルもエラーになる
vs2013ce, cuda7.0, fermi, debug,x64
D:\cuda_test\cuda_test>
"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\bin\nvcc.exe"
-gencode=arch=compute_20,code=\"sm_20,compute_20\" --use-local-env --cl-version 2013
-ccbin "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin\x86_amd64" -rdc=true
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\lib\x64"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-G --keep-dir x64\Debug -maxrregcount=0 --machine 64
--compile -cudart static -g -DWIN32 -DWIN64 -D_DEBUG -D_CONSOLE -D_UNICODE -DUNICODE
-Xcompiler "/EHsc /W3 /nologo /Od /Zi /RTC1 /MDd "/wd 4819""
-o x64\Debug\cuda_body.cu.obj "D:\cuda_test\cuda_test\cuda_body.cu"
1> nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
ビルドどころか1ファイルのコンパイルもエラーになる
vs2013ce, cuda7.0, fermi, debug,x64
D:\cuda_test\cuda_test>
"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\bin\nvcc.exe"
-gencode=arch=compute_20,code=\"sm_20,compute_20\" --use-local-env --cl-version 2013
-ccbin "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin\x86_amd64" -rdc=true
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\lib\x64"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-G --keep-dir x64\Debug -maxrregcount=0 --machine 64
--compile -cudart static -g -DWIN32 -DWIN64 -D_DEBUG -D_CONSOLE -D_UNICODE -DUNICODE
-Xcompiler "/EHsc /W3 /nologo /Od /Zi /RTC1 /MDd "/wd 4819""
-o x64\Debug\cuda_body.cu.obj "D:\cuda_test\cuda_test\cuda_body.cu"
1> nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
181デフォルトの名無しさん
2015/07/27(月) 20:55:02.52ID:0YcBUgDv nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
コンパイルフェーズで出力ファイル指定するときは1ファイルでやれっていうけど、出力ファイル指定しないと何にも出力されないし、
cuda5.0以降は分割コンパイルは対応してるよね? rdcもdlinkも指定してるし何がいけないんだ
コンパイルフェーズで出力ファイル指定するときは1ファイルでやれっていうけど、出力ファイル指定しないと何にも出力されないし、
cuda5.0以降は分割コンパイルは対応してるよね? rdcもdlinkも指定してるし何がいけないんだ
182デフォルトの名無しさん
2015/08/02(日) 15:01:41.54ID:LFE7g0os 別にCUDAじゃなくても良いんですが、
GPUで直接JPEGを、DirectXのテクスチャに展開して、そのまま表示したいです。
そういったライブラリって無いですか?
かなり需要がありそうなんですが
GPUで直接JPEGを、DirectXのテクスチャに展開して、そのまま表示したいです。
そういったライブラリって無いですか?
かなり需要がありそうなんですが
183デフォルトの名無しさん
2015/09/07(月) 00:27:30.12ID:nK71AIt7 ヘッダファイルで定義した定数は__device__内では使えないのでしょうか?
184183
2015/09/08(火) 02:08:23.68ID:V+WRCKAL 少し分かったことがありました
グローバルで
const int i = 1;
const double d = 1;
と定義すると
__device__内でiは使えてdは使えませんでした
error: identifier "d" is undefined in device code
とエラーが出てしまいます
どうしてdouble型だとエラーになるのでしょうか?
グローバルで
const int i = 1;
const double d = 1;
と定義すると
__device__内でiは使えてdは使えませんでした
error: identifier "d" is undefined in device code
とエラーが出てしまいます
どうしてdouble型だとエラーになるのでしょうか?
185デフォルトの名無しさん
2015/09/11(金) 23:39:48.38ID:myHMFCwl floatやlongは?
186デフォルトの名無しさん
2015/09/14(月) 22:17:35.79ID:2IqUP8/H floatはダメでlong intはOK
だめならだめで引数とすれば良いんですけどね
整数だけというのはcudaの仕様ですかね?
だめならだめで引数とすれば良いんですけどね
整数だけというのはcudaの仕様ですかね?
187デフォルトの名無しさん
2015/09/15(火) 09:01:24.15ID:10B5WSYL なんでだろうな。全く調べていないので100%想像だけど、
GPU上にstatic変数が確保されているとは思えないから、
(無いとは言い切れないが)
コンパイル時に定数展開しているんだろうな。
C++の言語仕様としてconst intは定数展開していいし、
(厳密な言い方だと間違いかもしれん)
クラスのstaticメンバにしても宣言のみで定義が不要ってのがあるから、
それに則った処理なんじゃなかろうか。
GPU上にstatic変数が確保されているとは思えないから、
(無いとは言い切れないが)
コンパイル時に定数展開しているんだろうな。
C++の言語仕様としてconst intは定数展開していいし、
(厳密な言い方だと間違いかもしれん)
クラスのstaticメンバにしても宣言のみで定義が不要ってのがあるから、
それに則った処理なんじゃなかろうか。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- サナエノミクスについて力説 積極的な財政出動で「所得増える 消費マインド上がる 税収増える」片山さつき財務大臣 ★3 [少考さん★]
- 中国軍機のレーダー照射1週間 駆け引き続く 中国、米のレッドライン模索 日本、米以外の同志国とも連携探る 米は対立から距離置く★2 [ぐれ★]
- 鈴木農相「おこめ券はお米しか買えないわけではない。例えば卵、味噌、しょうゆ、こうした購入に利用可能」 ★4 [Hitzeschleier★]
- 【芸能】粗品、日本テレビに苦言 客のレベルが「かなり低い。あいつら分かってない」「拍手したいだけやねん」 [冬月記者★]
- 橋下徹氏「総理なら岡田さんに何を聴かれても耐えてほしかった」 高市首相の台湾有事めぐる答弁に# [jinjin★]
- 【静岡】伊東市長選、前市議の杉本氏初当選 学歴詐称疑惑の田久保氏は及ばず 市長選3700万円、市議選6300万円の計1億円費やされる [ぐれ★]
- 【人権と意思】琉球は「万国津梁」と呼ばれ、かつては中国の藩属国であったが、日本は武力で琉球を併合した_大学教授 [979264442]
- pixivにイラスト投稿してまだ半日経ってないのに120ブクマ超えた
- パチンコパチスロこてんぱんにやられたら3ヶ月くらい行かなくても平気になるんだが俺は依存症じゃないの?
- プロレスラーって場外に向かって飛ぶと受け止めようとするけど
- 昔居た5chの面白い人どこいったのかなーと思ってたんだが判明した
- 邦楽で最後にバグパイプ使ったアーティストがドリームズカムトゥルーとかいう事実
