このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
探検
【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2014/11/20(木) 23:14:46.66ID:jr3oZn27
102デフォルトの名無しさん
2015/04/14(火) 18:39:28.21ID:hgZdA2dw Linux(CentOS6)の環境でTITAN BLACKでCUDA(Ver.6.5 or 7.0)使ってるのだけど、計算走らせると
NVIDIA X Server SettingsのPerformance LevelsのLevelが3から2に落ちてMemory Transfer Rateが7000Mhzから6000Mhzに落ちてしまう。
で結果的にノーマルTITANと性能が同じになってしまう。このメモリクロックを固定させることはできませんかね?
ちなみにTelsa K20 での固定クロックの方法はnvidia-smiがTITANに対応してないらしくできなかった。
ちなみにPreferred Modeは「Prefer Maxmum Performance」になっていて、
CUDAで計算しなければLevel3でメモリクロックも7000Mhzとなっています。
NVIDIA X Server SettingsのPerformance LevelsのLevelが3から2に落ちてMemory Transfer Rateが7000Mhzから6000Mhzに落ちてしまう。
で結果的にノーマルTITANと性能が同じになってしまう。このメモリクロックを固定させることはできませんかね?
ちなみにTelsa K20 での固定クロックの方法はnvidia-smiがTITANに対応してないらしくできなかった。
ちなみにPreferred Modeは「Prefer Maxmum Performance」になっていて、
CUDAで計算しなければLevel3でメモリクロックも7000Mhzとなっています。
103デフォルトの名無しさん
2015/04/14(火) 21:44:04.71ID:frAktQrJ 空冷を見直す。
104デフォルトの名無しさん
2015/04/15(水) 11:49:47.50ID:DmeNPmdM >>102
何時間もフルで使ってるならまだしも、GPU叩いた瞬間に7000Mhzから6000Mhzに落ちるって、TITAN BLACKの公称メモリクロック「7GHz」ってのは詐欺にならないか?
これじゃノーマルTITANと同じ性能・・・
何時間もフルで使ってるならまだしも、GPU叩いた瞬間に7000Mhzから6000Mhzに落ちるって、TITAN BLACKの公称メモリクロック「7GHz」ってのは詐欺にならないか?
これじゃノーマルTITANと同じ性能・・・
105デフォルトの名無しさん
2015/04/15(水) 23:05:57.76ID:+7B/lj1n 環境がわからんからなんとも言えんが、
どうしても固定したければどっかからbiosを引っ張ってくるしかないね。
どうしても固定したければどっかからbiosを引っ張ってくるしかないね。
106デフォルトの名無しさん
2015/04/16(木) 13:27:15.95ID:xeug049T ん?TITANのクロック制御はマザーのBIOSが管理してるのか?
107デフォルトの名無しさん
2015/04/16(木) 14:34:33.50ID:PYEjJT3R VGAボード側のだよ。
108デフォルトの名無しさん
2015/04/23(木) 12:42:01.23ID:GK/TBYtY pycudaで既存のコンパイル済みのオブジェクトとリンクして
実行させるにはどうすればいいのでしょうか
実行させるにはどうすればいいのでしょうか
109デフォルトの名無しさん
2015/04/23(木) 18:12:10.80ID:GK/TBYtY cmakeの自動configがGTX900シリーズなのにsm_20とか言ってくるのなんとかならないの?
110デフォルトの名無しさん
2015/04/27(月) 00:54:11.64ID:XOkfLgXW 最近のマザーボードってビデオカード2枚刺して
両方に計算させることもできるの?
自分のcore2duoのパソコンだと1つしか刺す場所ないけど
最近のddr4を使うマザーみると
それらしき場所が3つぐらいあるから3並列計算できるってことかな?
両方に計算させることもできるの?
自分のcore2duoのパソコンだと1つしか刺す場所ないけど
最近のddr4を使うマザーみると
それらしき場所が3つぐらいあるから3並列計算できるってことかな?
111デフォルトの名無しさん
2015/04/29(水) 08:43:39.45ID:2J/vCqrD >>110
場合によっては、計算用のGPUと出力用のGPUで分けてたりする。少なくともNVIDIAはそういう方針
場合によっては、計算用のGPUと出力用のGPUで分けてたりする。少なくともNVIDIAはそういう方針
112デフォルトの名無しさん
2015/04/30(木) 22:40:28.09ID:4E7PVA8Y vexclのサンプルコードをcudaでコンパイルしようとしてるんだけど
エラーだらけ
何か依存パッケージが足りないのかな?
エラーだらけ
何か依存パッケージが足りないのかな?
113デフォルトの名無しさん
2015/04/30(木) 22:46:37.84ID:4E7PVA8Y .bashrcに設定する変数名が
CUDA_PATH
だったり
CUDA_ROOT
だったりみんな違う
なんで統一しないのか
CUDA_PATH
だったり
CUDA_ROOT
だったりみんな違う
なんで統一しないのか
114デフォルトの名無しさん
2015/05/07(木) 18:56:17.28ID:oEZIeMhu vexclについてくるexampleプログラムの中のベンチマークってプログラムが面白い
このプログラムのベンチマークによると
GT430とかいう古いビデオカードなのに最近のCPUの10倍の計算速度でてる
このプログラムのベンチマークによると
GT430とかいう古いビデオカードなのに最近のCPUの10倍の計算速度でてる
115101
2015/05/13(水) 12:03:41.64ID:3UCLt7KQ thinkpad w550sのquadroでもcudaなんも問題なかった
やっと勉強できる
やっと勉強できる
116デフォルトの名無しさん
2015/05/13(水) 19:42:38.26ID:SKtXN3hT 3D映像でパストレーシングやモンテカルロ法を行いたい場合、光線とシーン中
のあらゆるポリゴンとの交差を判定し、条件分岐を行う必要があります。
しかし、GPGPUは条件分岐が遅いらしいので、もしかするとCPUと役割分担を
行うべきなのでしょうか?
例えば、シーン中のポリゴンとの交差判定はCPUでやった方が良いとか?
のあらゆるポリゴンとの交差を判定し、条件分岐を行う必要があります。
しかし、GPGPUは条件分岐が遅いらしいので、もしかするとCPUと役割分担を
行うべきなのでしょうか?
例えば、シーン中のポリゴンとの交差判定はCPUでやった方が良いとか?
117デフォルトの名無しさん
2015/05/13(水) 23:31:21.84ID:xMqj1fKt if
A
else
B
end
のような文なら、AとBは逐次の処理になる
if
A
end
なら、Aを行わないスレッドは待つだけだから問題ない
もし3項演算で解決できる条件分岐なら3項演算子を用いて書く
A
else
B
end
のような文なら、AとBは逐次の処理になる
if
A
end
なら、Aを行わないスレッドは待つだけだから問題ない
もし3項演算で解決できる条件分岐なら3項演算子を用いて書く
118デフォルトの名無しさん
2015/05/14(木) 07:59:10.95ID:CyZl9DuQ119デフォルトの名無しさん
2015/05/14(木) 09:14:40.23ID:CyZl9DuQ Intel系CPUの場合、確か cmov などという命令は、bool 値が1の時だけ
転送するのだったと思います。そういう命令は無いんでしょうか?
仮に何かあったとして、CUDA や OpenCL でどうやってそのような
「専用命令」を生成する事は可能でしょうか?
転送するのだったと思います。そういう命令は無いんでしょうか?
仮に何かあったとして、CUDA や OpenCL でどうやってそのような
「専用命令」を生成する事は可能でしょうか?
120デフォルトの名無しさん
2015/05/15(金) 01:05:26.23ID:WYo5pZkW 分岐命令の代わりに使えるプレディケート付き命令があるかという話なら
それは存在するし、分岐のあるコードではコンパイラさんがよしなにやってくれる。
と、ヘネパタ本には書いてあった。
それは存在するし、分岐のあるコードではコンパイラさんがよしなにやってくれる。
と、ヘネパタ本には書いてあった。
122デフォルトの名無しさん
2015/05/15(金) 09:39:10.09ID:mDU8aVUi >>121
warp divergenceの話じゃないの?
warp divergenceの話じゃないの?
123デフォルトの名無しさん
2015/05/15(金) 15:58:50.84ID:pyCNH+0F124デフォルトの名無しさん
2015/05/17(日) 10:18:02.33ID:R3tkd0Ad >>121
AとB両方実行されるよ
AとB両方実行されるよ
125デフォルトの名無しさん
2015/05/19(火) 21:33:47.52ID:spimwXxa 今まで一つのソースファイルで書いてきたのですが、いい加減見づらくなってきたのでソースファイルを分けてみたところエラーがでたので質問させてください
extern __constant__ unsigned short v[n]; //nは#defineで定義しています。
メインのソースファイルで
__constant__ unsigned short v[n];
と定義し、ビルドすると「メインの方で再定義されている」というエラーが出てしまいます
他にも、__device__ double atomicAdd の定義をサブのソースファイルに書くと
ptxas fatal : Unresolved extern function '_Z9atomicAddPdd'
とエラーが出てしまいます。どうか解決方法を教えてください。
環境は
NVIDIA Nsight Visual Studio Edition v.4.2
CUDA 7.0 Toolkit
のはずです
extern __constant__ unsigned short v[n]; //nは#defineで定義しています。
メインのソースファイルで
__constant__ unsigned short v[n];
と定義し、ビルドすると「メインの方で再定義されている」というエラーが出てしまいます
他にも、__device__ double atomicAdd の定義をサブのソースファイルに書くと
ptxas fatal : Unresolved extern function '_Z9atomicAddPdd'
とエラーが出てしまいます。どうか解決方法を教えてください。
環境は
NVIDIA Nsight Visual Studio Edition v.4.2
CUDA 7.0 Toolkit
のはずです
126125
2015/05/19(火) 21:42:34.97ID:spimwXxa ×CUDA 7.0
○CUDA 6.5
でした
○CUDA 6.5
でした
127125
2015/05/20(水) 16:28:14.38ID:MP+tATlH CUDA5.0以降ではrdcを「はい」にするとファイルの分割が出来るという情報を得たのでさっそく試してみたところ
>>125のエラーは無くなったのですが
1>sub.cu.obj : error LNK2005: "long __cdecl genrand_int31(void)" (?genrand_int31@@YAJXZ) は既に main.cu.obj で定義されています。
上記のような二重定義エラーがいくつか出てきました
また、ヘッダファイルの拡張子を.cuhとしている方を見かけたのですが、.hとの違いはあるのでしょうか?
>>125のエラーは無くなったのですが
1>sub.cu.obj : error LNK2005: "long __cdecl genrand_int31(void)" (?genrand_int31@@YAJXZ) は既に main.cu.obj で定義されています。
上記のような二重定義エラーがいくつか出てきました
また、ヘッダファイルの拡張子を.cuhとしている方を見かけたのですが、.hとの違いはあるのでしょうか?
128デフォルトの名無しさん
2015/05/20(水) 22:26:00.46ID:tQNdJIhT デバイス関数ってインライン展開されるんじゃなかったっけ。
でもって、他のファイルからは使えなかったのでは?
でもって、他のファイルからは使えなかったのでは?
130デフォルトの名無しさん
2015/05/21(木) 04:25:30.08ID:Dige6mTv とりあえずCUDAの日本語wikiがあるから、そこの分割コンパイルの項目をみたらどうかな?
OSによっては解決できるかも
OSによっては解決できるかも
131デフォルトの名無しさん
2015/05/21(木) 09:09:27.02ID:BxelVpyp cuファイルをcuファイルにインクルードしてみるとか。
133125
2015/05/24(日) 22:10:36.84ID:FupD4mQN >>127の方法で分割コンパイルに一応成功しました!
一応と言ったのはrdcを「はい」にした場合と「いいえ」にした場合とでプログラムの挙動が少し変わってしまうのです
今書いているプログラムは何億回もの計算結果を足し合わせていくものなので、誤差の蓄積による影響を受けていると思います
コンパイルの方法を変えた(?)事で誤差の蓄積が変化(?)し、プログラムの挙動が変わったということなのでしょうか?
コンパイルと誤差がどう関係するのかは分かりませんが
一応と言ったのはrdcを「はい」にした場合と「いいえ」にした場合とでプログラムの挙動が少し変わってしまうのです
今書いているプログラムは何億回もの計算結果を足し合わせていくものなので、誤差の蓄積による影響を受けていると思います
コンパイルの方法を変えた(?)事で誤差の蓄積が変化(?)し、プログラムの挙動が変わったということなのでしょうか?
コンパイルと誤差がどう関係するのかは分かりませんが
134125
2015/05/24(日) 22:19:49.55ID:FupD4mQN >>「はい」にした場合と「いいえ」にした場合
ファイルを分割するともちろん「いいえ」では動かないので、一つのファイルで完結しているプログラムでの話です
ファイルを分割するともちろん「いいえ」では動かないので、一つのファイルで完結しているプログラムでの話です
135デフォルトの名無しさん
2015/05/26(火) 06:54:20.42ID:VVQAbCqm 最適化の仕方が変わるのかもね
誤差が出て困るなら、なるべく誤差が少なくなるような組み方を考えるしかない
誤差が出て困るなら、なるべく誤差が少なくなるような組み方を考えるしかない
136デフォルトの名無しさん
2015/05/26(火) 07:49:49.21ID:3GnQrGbV 誤差にも種類があるが・・・
浮動小数点演算等の誤差なのか
同期ミスによる誤差なのか・・・
浮動小数点演算等の誤差なのか
同期ミスによる誤差なのか・・・
137デフォルトの名無しさん
2015/05/26(火) 22:03:46.38ID:f2qMZr+T138デフォルトの名無しさん
2015/05/26(火) 22:55:29.89ID:sIi3toQP つうか最適化で結果が変わったら
それはバグ以外に無いけどねえ。
それはバグ以外に無いけどねえ。
139デフォルトの名無しさん
2015/06/03(水) 15:26:06.85ID:f+QtTKYD140デフォルトの名無しさん
2015/06/17(水) 22:35:16.09ID:uTokHIG4 今年はGTC Japan開催のリリース出ないな
例年ならもう出ているのに
中止かもしくは時期がずれたのかな
例年ならもう出ているのに
中止かもしくは時期がずれたのかな
141デフォルトの名無しさん
2015/06/18(木) 12:56:34.78ID:0ZPzSsHT >>140
今年は9月18日に虎ノ門ヒルズで開催、だったかと。
今年は9月18日に虎ノ門ヒルズで開催、だったかと。
142デフォルトの名無しさん
2015/06/18(木) 13:04:11.34ID:9mEYqdNq Visual studioでCUDAプログラムを作成しています
Nsightでstart CUDA debuggingからプログラムを走らせた時だけプログラムが動かないんですが
どのような原因が考えられますか?
以下の条件ではすべて正常に動作・終了します
デバッグなしで開始(debug,release共に)
start CUDA debuggingでブレイクポイントを仕掛けて1スレッドずつ動かす
Nsightでstart CUDA debuggingからプログラムを走らせた時だけプログラムが動かないんですが
どのような原因が考えられますか?
以下の条件ではすべて正常に動作・終了します
デバッグなしで開始(debug,release共に)
start CUDA debuggingでブレイクポイントを仕掛けて1スレッドずつ動かす
143142
2015/06/18(木) 13:16:06.49ID:9mEYqdNq 追加です
プログラムの詳細ですが
ある無向グラフに対して,与えられた2点が連結かどうか調べるプログラム
枝重み0と仮定してダイクストラのアルゴリズムを用いて判定しています.
1ブロックにつき16スレッドが同時に走ります.
その判定関数をfoo()とすると
if( blockIdx.x == tmp )
foo();
というように一つのブロックのみで扱うようにすると
tmpがどのような値でも正常に動作するのですが
2ブロック以上でfooに行くようにすると動かなくなります
エラーがでないことと,printfによるチェックですが
配列のアドレスも問題ありません
プログラムの詳細ですが
ある無向グラフに対して,与えられた2点が連結かどうか調べるプログラム
枝重み0と仮定してダイクストラのアルゴリズムを用いて判定しています.
1ブロックにつき16スレッドが同時に走ります.
その判定関数をfoo()とすると
if( blockIdx.x == tmp )
foo();
というように一つのブロックのみで扱うようにすると
tmpがどのような値でも正常に動作するのですが
2ブロック以上でfooに行くようにすると動かなくなります
エラーがでないことと,printfによるチェックですが
配列のアドレスも問題ありません
144デフォルトの名無しさん
2015/06/19(金) 21:29:02.20ID:tQGft1o9 >>143
何かスレッドの実行順序に依存した処理があるか、排他が必要な競合でもあるんじゃね?
何かスレッドの実行順序に依存した処理があるか、排他が必要な競合でもあるんじゃね?
145デフォルトの名無しさん
2015/06/19(金) 22:01:43.75ID:FLqfhWNF >>141情報感謝です
146デフォルトの名無しさん
2015/06/22(月) 21:23:14.11ID:FYteK6ai デバイスメモリの内容を一時的にホスト側からアクセスしたいんですが、OpenCLでいう
clEnqueueMapBufferに相当する機能はCUDAにあるんでしょうか?
ちょっと調べてみたんですが、cudaHostRegisterは方向が逆だし、cudaMallocManagedは
既にあるデバイスメモリにアクセスするものではなさそうなので。
cudaMemcpyで読み出して終わったらまた書き出すという方法しかないんでしょうか。
clEnqueueMapBufferに相当する機能はCUDAにあるんでしょうか?
ちょっと調べてみたんですが、cudaHostRegisterは方向が逆だし、cudaMallocManagedは
既にあるデバイスメモリにアクセスするものではなさそうなので。
cudaMemcpyで読み出して終わったらまた書き出すという方法しかないんでしょうか。
147デフォルトの名無しさん
2015/06/23(火) 13:14:37.10ID:DUXK3D31 OpenCLを知らないので外してるかも知れないけど、
基本的にはcudamemcpyするしかない。
CUDA6.0からUnified Memoryっていう機能が入って、
GPU上のメモリをホストメモリと同じように読めて、
自動的に同期を取ってくれる機能。用途によっては使えるかも。
基本的にはcudamemcpyするしかない。
CUDA6.0からUnified Memoryっていう機能が入って、
GPU上のメモリをホストメモリと同じように読めて、
自動的に同期を取ってくれる機能。用途によっては使えるかも。
148デフォルトの名無しさん
2015/06/24(水) 08:02:13.81ID:wFw+UOzE >>147
ありがとう。やっぱりcudaMemcpyするしかないのか。
ありがとう。やっぱりcudaMemcpyするしかないのか。
149デフォルトの名無しさん
2015/06/25(木) 22:41:21.74ID:t3bjYB8L 今日はじめてCUDAを入れた者ですが、VS2013でサンプルをビルドするとerror MSB3721…\simpleTemplates.cu"" はコード 1 で終了しました
って出るんだが何か設定とか必要ですか?
あとインストールの確認(?)でコマンドプロンプトでnvcc -Vのコマンド入れてもアクセスが拒否されましたと出る…
これが原因ですかね?
いろいろ調べてみましたが、これといった解決方法はなかったので助けて下さい。
よろしくお願いします。
って出るんだが何か設定とか必要ですか?
あとインストールの確認(?)でコマンドプロンプトでnvcc -Vのコマンド入れてもアクセスが拒否されましたと出る…
これが原因ですかね?
いろいろ調べてみましたが、これといった解決方法はなかったので助けて下さい。
よろしくお願いします。
150149
2015/06/25(木) 23:09:29.97ID:t3bjYB8L151デフォルトの名無しさん
2015/06/26(金) 01:26:56.82ID:f2ddT7MK 750Tiってあんまりいけてないのか…
CUDA試したくてあんまり調べずに衝動買いしてしまった
900台にした方が良かったのかなあ
CUDA試したくてあんまり調べずに衝動買いしてしまった
900台にした方が良かったのかなあ
152デフォルトの名無しさん
2015/06/26(金) 08:33:52.91ID:h0LNB3lK ゲームするならかなりいけてるが倍精度はしょぼいな
倍精度が欲しいならfermiかgk110コアのがいいのか?
ゲームしないならamdでopenCLの方がコスパ良さそうなんだがどうなの?
倍精度が欲しいならfermiかgk110コアのがいいのか?
ゲームしないならamdでopenCLの方がコスパ良さそうなんだがどうなの?
153デフォルトの名無しさん
2015/06/26(金) 09:30:43.08ID:gBS6mhz7 >>150
ちゃんとアンチウイルス入れておけよ。
ちゃんとアンチウイルス入れておけよ。
154デフォルトの名無しさん
2015/06/26(金) 11:48:22.16ID:JVzNXP51 CUDA7入れたのですが、
cublas.hが見つからないと出てしまいました。
cublas使うには他に何か必要なのでしょうか?
cublas.hが見つからないと出てしまいました。
cublas使うには他に何か必要なのでしょうか?
155デフォルトの名無しさん
2015/06/26(金) 12:57:38.26ID:1v0mrakI >>154
C:> dir /s /b "%CUDA_PATH%\cublas.h"
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include\cublas.h
C:> dir /s /b "%CUDA_PATH%\cublas.h"
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include\cublas.h
156デフォルトの名無しさん
2015/06/26(金) 13:07:12.91ID:JVzNXP51 ありがとうございます。
みつかりました
みつかりました
157デフォルトの名無しさん
2015/06/26(金) 23:47:30.95ID:f2ddT7MK >>152
>ゲームするならかなりいけてる
こういうのがイマイチよくわかりません
単純にFLOPSで性能を見ちゃいけないのでしょうか
ゲームやGPUプログラミングに向いてるかどうかってどうやって判断してるんでしょうか
>ゲームするならかなりいけてる
こういうのがイマイチよくわかりません
単純にFLOPSで性能を見ちゃいけないのでしょうか
ゲームやGPUプログラミングに向いてるかどうかってどうやって判断してるんでしょうか
158デフォルトの名無しさん
2015/06/27(土) 03:38:35.85ID:y7j5+l1E >>157
プロはGPGPUするのにゲーム用のGFやRadeonをはあんまり使わない
趣味レベルでOKのGPGPUならGPGPUがオマケであるゲーム用(ゲームドライバ)のVGAでも良いが。
Xeonが一般的な業務サーバーに普通のデスクトップPCをいっぱい使うなことは
しないのと同じ。あと、FLOPSは目的のGPGPUするのに必要なレベルあれあば良い。
低FLOPSでOKなGPGPU処理に超高FLOPSのものを使うって趣味だし
プロはGPGPUするのにゲーム用のGFやRadeonをはあんまり使わない
趣味レベルでOKのGPGPUならGPGPUがオマケであるゲーム用(ゲームドライバ)のVGAでも良いが。
Xeonが一般的な業務サーバーに普通のデスクトップPCをいっぱい使うなことは
しないのと同じ。あと、FLOPSは目的のGPGPUするのに必要なレベルあれあば良い。
低FLOPSでOKなGPGPU処理に超高FLOPSのものを使うって趣味だし
159デフォルトの名無しさん
2015/06/27(土) 09:17:14.69ID:f1QkQQtg プロだってコスパ考えるだろ。
倍精度演算性能と信頼性で妥協できるならゲーム用GPUの方が圧倒的に安いしな。
倍精度演算性能と信頼性で妥協できるならゲーム用GPUの方が圧倒的に安いしな。
2015/06/27(土) 23:23:04.05ID:XHzW5ECE
まあ中国の天河1号はFireStreamですらないRadeonのデュアルGPUカードを大量搭載したが
結局実用にならなくて次の更新で全部Teslaに差し替えたからね
額面のFLOPS数だけで実用性は評価できない
結局実用にならなくて次の更新で全部Teslaに差し替えたからね
額面のFLOPS数だけで実用性は評価できない
161デフォルトの名無しさん
2015/06/28(日) 09:51:05.56ID:MpgQMMEq 中国はスパコンにTESLAとか使えなくなったから、NVIDIAやインテルは大口顧客を失った。
162デフォルトの名無しさん
2015/06/28(日) 16:33:48.10ID:zku7pwa+ >NVIDIAやインテルは大口顧客を失った。
その損失分は米国内の大型スパコンでの便宜をはかることで補填されてるから企業としては差し引きOKとなったはず
その損失分は米国内の大型スパコンでの便宜をはかることで補填されてるから企業としては差し引きOKとなったはず
163デフォルトの名無しさん
2015/06/29(月) 08:06:36.49ID:FIYCVjDt windows7でchainer試そうとすると
pycudaでなんか不具合出る
pycudaでなんか不具合出る
164デフォルトの名無しさん
2015/06/29(月) 08:13:35.83ID:FIYCVjDt165デフォルトの名無しさん
2015/06/29(月) 09:25:13.60ID:uPSGGZxo 並列計算でGTX780Ti使ってるんだけどGTX980Tiにしたら倍精度の計算って遅くなる?
166デフォルトの名無しさん
2015/06/30(火) 16:00:18.94ID:vWTsPJO/ cudaってMFCのcppから呼べますか?
サンプルで.cuから.cppを呼んでるのは見つけたんですが。
サンプルで.cuから.cppを呼んでるのは見つけたんですが。
167デフォルトの名無しさん
2015/06/30(火) 17:26:54.94ID:vWTsPJO/ あーexternで呼べました
168デフォルトの名無しさん
2015/07/02(木) 01:47:05.99ID:cql5ELb9 >>165
単精度演算性能 コア数×クロック数×2
倍精度演算性能 単精度演算性能/24(Kepler), 単精度演算性能/32(Maxwell)
として計算すると、
780Tiが2880×875×2/24=205GFLOPS
980Tiが2816×1000×2/32=172GLOPS
だから、遅くなるんじゃね?
単精度演算性能 コア数×クロック数×2
倍精度演算性能 単精度演算性能/24(Kepler), 単精度演算性能/32(Maxwell)
として計算すると、
780Tiが2880×875×2/24=205GFLOPS
980Tiが2816×1000×2/32=172GLOPS
だから、遅くなるんじゃね?
169デフォルトの名無しさん
2015/07/02(木) 15:34:36.77ID:bfg1NSwR CUDAって仕様上できないこともコンパイルとおるのか〜
170デフォルトの名無しさん
2015/07/02(木) 23:26:03.68ID:Pfy0Io9G Nvはゲームにゲーム用VGAには倍精度演算イラネから省くって流れだから
ゲーム用VGAで倍精度演算性能ほしいならRadeにしたほうがいいよな
ゲーム用VGAで倍精度演算性能ほしいならRadeにしたほうがいいよな
171デフォルトの名無しさん
2015/07/03(金) 14:37:16.26ID:WUZUNux9172デフォルトの名無しさん
2015/07/03(金) 23:30:48.50ID:dkeXuonA TITANヤフオクで探すのはどうでしょ
173デフォルトの名無しさん
2015/07/05(日) 22:31:36.27ID:tW1t1zZP 全く値段見ないでカンで言うけど
中古の無印TITANならウンコに混じったコーン位の値段で売ってんじゃないの?
中古の無印TITANならウンコに混じったコーン位の値段で売ってんじゃないの?
174デフォルトの名無しさん
2015/07/07(火) 16:43:12.64ID:y9jINuhY CULAのエラーでpos 1022ってなんですか?
LAPACKドキュメントを見よとか書いてありますが、見当たりません
LAPACKドキュメントを見よとか書いてありますが、見当たりません
175デフォルトの名無しさん
2015/07/08(水) 10:49:51.33ID:UJb9gmN3 CUDA7.5 RC
176デフォルトの名無しさん
2015/07/08(水) 20:10:01.47ID:h2HOA+i0 最近始めたんだけどversionって無理して最新にする必要無いのかな
7入れるのに結構苦労したんであんまり変えたくない
みなさんはガンガン上げてく感じですか?
7入れるのに結構苦労したんであんまり変えたくない
みなさんはガンガン上げてく感じですか?
177デフォルトの名無しさん
2015/07/08(水) 20:20:41.59ID:QsV0kvB4 共存できるやん
178デフォルトの名無しさん
2015/07/11(土) 13:57:32.12ID:QRzfcgY3 困らなければ基本的に更新とかはしないと思うけど…
179デフォルトの名無しさん
2015/07/13(月) 01:32:34.78ID:BK2wG7MT でも最新のほうが速くなったりするかもしれないし
180デフォルトの名無しさん
2015/07/27(月) 20:50:16.33ID:0YcBUgDv 分割コンパイルができないんだけど、どうしたらいいんだろ?
ビルドどころか1ファイルのコンパイルもエラーになる
vs2013ce, cuda7.0, fermi, debug,x64
D:\cuda_test\cuda_test>
"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\bin\nvcc.exe"
-gencode=arch=compute_20,code=\"sm_20,compute_20\" --use-local-env --cl-version 2013
-ccbin "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin\x86_amd64" -rdc=true
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\lib\x64"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-G --keep-dir x64\Debug -maxrregcount=0 --machine 64
--compile -cudart static -g -DWIN32 -DWIN64 -D_DEBUG -D_CONSOLE -D_UNICODE -DUNICODE
-Xcompiler "/EHsc /W3 /nologo /Od /Zi /RTC1 /MDd "/wd 4819""
-o x64\Debug\cuda_body.cu.obj "D:\cuda_test\cuda_test\cuda_body.cu"
1> nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
ビルドどころか1ファイルのコンパイルもエラーになる
vs2013ce, cuda7.0, fermi, debug,x64
D:\cuda_test\cuda_test>
"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\bin\nvcc.exe"
-gencode=arch=compute_20,code=\"sm_20,compute_20\" --use-local-env --cl-version 2013
-ccbin "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin\x86_amd64" -rdc=true
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\lib\x64"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-G --keep-dir x64\Debug -maxrregcount=0 --machine 64
--compile -cudart static -g -DWIN32 -DWIN64 -D_DEBUG -D_CONSOLE -D_UNICODE -DUNICODE
-Xcompiler "/EHsc /W3 /nologo /Od /Zi /RTC1 /MDd "/wd 4819""
-o x64\Debug\cuda_body.cu.obj "D:\cuda_test\cuda_test\cuda_body.cu"
1> nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
181デフォルトの名無しさん
2015/07/27(月) 20:55:02.52ID:0YcBUgDv nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
コンパイルフェーズで出力ファイル指定するときは1ファイルでやれっていうけど、出力ファイル指定しないと何にも出力されないし、
cuda5.0以降は分割コンパイルは対応してるよね? rdcもdlinkも指定してるし何がいけないんだ
コンパイルフェーズで出力ファイル指定するときは1ファイルでやれっていうけど、出力ファイル指定しないと何にも出力されないし、
cuda5.0以降は分割コンパイルは対応してるよね? rdcもdlinkも指定してるし何がいけないんだ
182デフォルトの名無しさん
2015/08/02(日) 15:01:41.54ID:LFE7g0os 別にCUDAじゃなくても良いんですが、
GPUで直接JPEGを、DirectXのテクスチャに展開して、そのまま表示したいです。
そういったライブラリって無いですか?
かなり需要がありそうなんですが
GPUで直接JPEGを、DirectXのテクスチャに展開して、そのまま表示したいです。
そういったライブラリって無いですか?
かなり需要がありそうなんですが
183デフォルトの名無しさん
2015/09/07(月) 00:27:30.12ID:nK71AIt7 ヘッダファイルで定義した定数は__device__内では使えないのでしょうか?
184183
2015/09/08(火) 02:08:23.68ID:V+WRCKAL 少し分かったことがありました
グローバルで
const int i = 1;
const double d = 1;
と定義すると
__device__内でiは使えてdは使えませんでした
error: identifier "d" is undefined in device code
とエラーが出てしまいます
どうしてdouble型だとエラーになるのでしょうか?
グローバルで
const int i = 1;
const double d = 1;
と定義すると
__device__内でiは使えてdは使えませんでした
error: identifier "d" is undefined in device code
とエラーが出てしまいます
どうしてdouble型だとエラーになるのでしょうか?
185デフォルトの名無しさん
2015/09/11(金) 23:39:48.38ID:myHMFCwl floatやlongは?
186デフォルトの名無しさん
2015/09/14(月) 22:17:35.79ID:2IqUP8/H floatはダメでlong intはOK
だめならだめで引数とすれば良いんですけどね
整数だけというのはcudaの仕様ですかね?
だめならだめで引数とすれば良いんですけどね
整数だけというのはcudaの仕様ですかね?
187デフォルトの名無しさん
2015/09/15(火) 09:01:24.15ID:10B5WSYL なんでだろうな。全く調べていないので100%想像だけど、
GPU上にstatic変数が確保されているとは思えないから、
(無いとは言い切れないが)
コンパイル時に定数展開しているんだろうな。
C++の言語仕様としてconst intは定数展開していいし、
(厳密な言い方だと間違いかもしれん)
クラスのstaticメンバにしても宣言のみで定義が不要ってのがあるから、
それに則った処理なんじゃなかろうか。
GPU上にstatic変数が確保されているとは思えないから、
(無いとは言い切れないが)
コンパイル時に定数展開しているんだろうな。
C++の言語仕様としてconst intは定数展開していいし、
(厳密な言い方だと間違いかもしれん)
クラスのstaticメンバにしても宣言のみで定義が不要ってのがあるから、
それに則った処理なんじゃなかろうか。
188デフォルトの名無しさん
2015/09/15(火) 14:26:04.38ID:8ArN6+Sd Visual Studioでエラーでた
似たような状況の人いたら教えてほしいです
環境
CPU core i5 4570
GPU GTX 980
Visual Studio 2010 Ultimate
CUDA v7.0
NSIGHT v5.0
使用言語はC
エラーが起こる状況↓
__device__ function1(){
int array1[ 1000 ];
function2( array1 );
}
__device__ function2( int *array1 ){
int array2[ 1000 ];
for( int k = 0 ; k < 1000 ; k++ ){
array1[ k ] = rand(); // rand()は何らかの乱数を返す関数
array2[ k ] = rand();
}
}
function1を呼び出したとき,時折だがarray1の値がarray2の値と同じになってしまう
エラーが起きた状況で以下のことは確認済み
・array1,2ともにグローバルメモリに確保されている
・array1とarray2のポインタは異なっている
・rand()が異なる値を返している
また,array2の宣言をfunction1で行い,function2にarray2のポインタを返すことで回避ができる
似たような状況の人いたら教えてほしいです
環境
CPU core i5 4570
GPU GTX 980
Visual Studio 2010 Ultimate
CUDA v7.0
NSIGHT v5.0
使用言語はC
エラーが起こる状況↓
__device__ function1(){
int array1[ 1000 ];
function2( array1 );
}
__device__ function2( int *array1 ){
int array2[ 1000 ];
for( int k = 0 ; k < 1000 ; k++ ){
array1[ k ] = rand(); // rand()は何らかの乱数を返す関数
array2[ k ] = rand();
}
}
function1を呼び出したとき,時折だがarray1の値がarray2の値と同じになってしまう
エラーが起きた状況で以下のことは確認済み
・array1,2ともにグローバルメモリに確保されている
・array1とarray2のポインタは異なっている
・rand()が異なる値を返している
また,array2の宣言をfunction1で行い,function2にarray2のポインタを返すことで回避ができる
189デフォルトの名無しさん
2015/09/15(火) 14:29:46.25ID:JgRUCOJR 全然知らんけど、スタックオーバーフローじゃね?
static int array2[1000];にすれば解決
static int array2[1000];にすれば解決
190デフォルトの名無しさん
2015/09/17(木) 00:01:30.77ID:6wQsOGVx >>184
device修飾してないだけとか馬鹿なおちはないよな?
device修飾してないだけとか馬鹿なおちはないよな?
191デフォルトの名無しさん
2015/09/27(日) 11:58:09.30ID:X6SDQWu/ VS2013 cuda7.0で
intelisenseがcudaの関数やthreadIdxなんかに赤線つけるんだけど
intelisenseを無効化させる方法ではなく、対応させられない?
intelisenseがcudaの関数やthreadIdxなんかに赤線つけるんだけど
intelisenseを無効化させる方法ではなく、対応させられない?
192デフォルトの名無しさん
2015/09/29(火) 16:27:34.89ID:++1fLQj6 CUDAって余計な決まり事が多くてGLSLよりわかりにくくなってると思うんだけど
193デフォルトの名無しさん
2015/09/30(水) 06:44:35.73ID:OmftLuOo194デフォルトの名無しさん
2015/10/01(木) 00:53:18.68ID:44xt2+tf cuda_header.hに以下をまとめて、これを.cuでインクルードしてるんだけど、インテリセンスがエラーとして表示したままなんだ。
また従来のcutil系の代わりのhelper関数のヘッダが開けないともなぜか出る。(プロジェクトの追加のインクルードDirには指定してあるんだが・・)
でもコンパイルはされるんだよ・・・。インテリセンスのキャッシュクリアしようと考えたんだが2013のメニューにはないみたいだし・・。
#include <cuda.h>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>
#include <device_functions.h>
#include <math_constants.h>
#include <helper_cuda.h>
#include <helper_math.h>
また従来のcutil系の代わりのhelper関数のヘッダが開けないともなぜか出る。(プロジェクトの追加のインクルードDirには指定してあるんだが・・)
でもコンパイルはされるんだよ・・・。インテリセンスのキャッシュクリアしようと考えたんだが2013のメニューにはないみたいだし・・。
#include <cuda.h>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>
#include <device_functions.h>
#include <math_constants.h>
#include <helper_cuda.h>
#include <helper_math.h>
195デフォルトの名無しさん
2015/11/11(水) 20:55:36.03ID:FAkUvGGr 超初歩的な質問ですがよろしければお願いします
環境 windows7 64bit Visual Studio 2013 community CUDA7.5
CUDAインストール時にはVS2013をインストール済みと判定するものの
コマンドプロンプトからnvccでサンプルを実行させると
nvcc fatal : nvcc cannot find a supported version of microsoft visual studio
とエラーが発生します
パスなどの設定の問題なのでしょうか?
環境 windows7 64bit Visual Studio 2013 community CUDA7.5
CUDAインストール時にはVS2013をインストール済みと判定するものの
コマンドプロンプトからnvccでサンプルを実行させると
nvcc fatal : nvcc cannot find a supported version of microsoft visual studio
とエラーが発生します
パスなどの設定の問題なのでしょうか?
196デフォルトの名無しさん
2015/11/11(水) 22:32:08.88ID:kzShUi9X コマンドプロンプトからcl.exe叩くのと同じだろう。
VSの開発者コマンドプロンプトからやってみれば?
VSの開発者コマンドプロンプトからやってみれば?
197デフォルトの名無しさん
2015/11/12(木) 06:18:25.24ID:oFlt1n6m Communityでもいけるんだ?
少し前に断念してProにした記憶がある
少し前に断念してProにした記憶がある
198デフォルトの名無しさん
2015/11/16(月) 00:30:41.16ID:wFEoXPFZ 質問です
OpenGLとCUDAを使って流体のシミュレーションをしようと考えています
OpenGLの描画とCUDAの計算を別スレッドで行ってCUDAの計算の完了を待たずに描画をしようとするとプログラムが落ちてしまいます
そもそもこういう使い方は間違いですか?
GPUを二つ使わないと不可能なのでしょうか?
OpenGLとCUDAを使って流体のシミュレーションをしようと考えています
OpenGLの描画とCUDAの計算を別スレッドで行ってCUDAの計算の完了を待たずに描画をしようとするとプログラムが落ちてしまいます
そもそもこういう使い方は間違いですか?
GPUを二つ使わないと不可能なのでしょうか?
199デフォルトの名無しさん
2015/11/16(月) 04:31:20.12ID:yRzaBdvH CUDAを待たずにどういったデータで描画してるの?
200デフォルトの名無しさん
2015/11/16(月) 11:12:07.65ID:wFEoXPFZ 正確には
CUDAで計算
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算 ←ここを並列化したい
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算
↓
といった処理の流れです
描画と計算の処理の合計が少しでも速くなれば最終的には速くなる見込みなんですが、描画とCUDAは同時にはできないのでしょうか?
CUDAで計算
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算 ←ここを並列化したい
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算
↓
といった処理の流れです
描画と計算の処理の合計が少しでも速くなれば最終的には速くなる見込みなんですが、描画とCUDAは同時にはできないのでしょうか?
201デフォルトの名無しさん
2015/11/16(月) 13:12:47.35ID:tPyDrti9■ このスレッドは過去ログ倉庫に格納されています
ニュース
- なぜリベラルは人気がないのか 斎藤幸平さんが指し示す未来への道筋:朝日新聞 ★3 [少考さん★]
- 鈴木農相「おこめ券はお米しか買えないわけではない。例えば卵、味噌、しょうゆ、こうした購入に利用可能」 ★2 [Hitzeschleier★]
- 三谷幸喜氏 温泉嫌いの理由を熱弁「知らない人の股間を素通りしたお湯なんですよ」「おじさんの肛門を通り過ぎたお湯が自分の前に」 [Ailuropoda melanoleuca★]
- なぜリベラルは人気がないのか 斎藤幸平さんが指し示す未来への道筋:朝日新聞 ★4 [少考さん★]
- 【伊原剛志】62歳俳優、夫婦別姓に「選択出来るならしたい人はする したくない人はしない 何が問題?」 [少考さん★]
- M-1審査員 今年も松本人志の名前なし 9人発表 ミルクボーイ駒場、フット後藤は初 21日決勝 [ひかり★]
- 【悲報】自民党の壺ヒゲ「現場の船からちょろっと『今から戦闘機が飛びますよ』と言ったぐらいじゃ駄目だろ!」 [616817505]
- 【悲報】すまん何で日本ってこんなに反『中国』が増えたんだ?ネトウヨどころかそこらの一般人レベルでもゴロゴロいる [483447288]
- 安倍晋三(合同結婚式ver)純白ドレスでプライズのフィギュア化キタ━━━━(゚∀゚)━━━━!! [347751896]
- あ、出ちゃう、イクッ😫💦🏡
- 拓殖大学教授(小野田母校)「日中対立が立憲の仕掛けで発生したのなら立憲が中国と抗議して問題を解決しろ」高市 [931948549]
- 【実況】博衣こよりのえちえちドラクエ1&4リメイク🧪★2
