【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net

**デフォルトの名無しさん** · 2014/11/20(木) 23:14:46.66

このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/

**デフォルトの名無しさん** · 2014/11/20(木) 23:15:41.57

関連サイト
CUDA
http://www.nvidia.co.jp/object/cuda_home_new_jp.html

CUDAに触れてみる
http://chihara.naist.jp/people/STAFF/imura/computer/OpenGL/cuda1/disp_content

CUDA のインストール
http://blog.goo.ne.jp/sdpaninf/e/9533f75438b670a174af345f4a33bd51

NVIDIAの「GeForce 8800 GT(G92)」と次に控える64-bit GPUアーキテクチャ
http://pc.watch.impress.co.jp/docs/2007/1031/kaigai398.htm

CUDAを使う
http://tech.ckme.co.jp/cuda.shtml

NVIDIA CUDAを弄ってみたその2
http://dvd-r.sblo.jp/article/10422960.html

CUDAベンチ
http://wataco.air-nifty.com/syacho/2008/02/cuda_2044.html

KNOPPIX for CUDA
http://www.yasuoka.mech.keio.ac.jp/cuda/

【東電 69.8 %】 · 2014/11/21(金) 00:13:37.04

>>1
ああ、キミ！また会えたね。久しぶりだ。どうだいあの件は？どうなったか説明したまえな。

神戸市の東、芦屋西宮の知的障害者施設で未成年利用者に性的な行為をして淫行条例で逮捕された三田谷学園元職員の堂垣直人(西宮市老松町)は、結局どういう罪になったの？
被害者家族のケアを芦屋市役所と兵庫県警はちゃんとやったのか？
差別や虐待は環境を選べない子供には関係ない。

http://www.youtube.com/watch?v=JxMzW3ZlV4g&;sns=em

まあ、こっちに座れよ。ゆっくり話そうじゃないか。

**デフォルトの名無しさん** · 2014/11/21(金) 07:36:45.42

http://i.imgur.com/SduT7qR.jpg
http://i.imgur.com/2f8fP3F.jpg
http://i.imgur.com/u0ymg8c.jpg
http://i.imgur.com/LruEssT.png
http://i.imgur.com/AeSQqRT.jpg
http://cisburger.com/up/bnf/6016.jpg
http://up.pangya.tv/src/www_pangya_tv18594.jpg

**デフォルトの名無しさん** · 2014/11/21(金) 18:05:42.00

syncthreadsとthreadfence_blockの違いが分かりません
syncthreadsだけで十分な気がしますが、どういう時に使い分けるのでしょうか？

**デフォルトの名無しさん** · 2014/11/22(土) 13:34:27.11

>>5
http://shobomaru.wordpress.com/2013/09/13/synchronizing-instruction-in-direct-compute-and-cuda/

メモリの書き込み競合防止をするかどうかの違いみたいです。

これってatomic命令より軽いのか知らん?

**デフォルトの名無しさん** · 2014/11/22(土) 13:48:05.92

>>6
競合防止なんて書いてる？
複数のスレッドが同じメモリに書き込む時はatomicをsyncthreadsやthreadfenceと同時に使わないといけない気がする(誰か教えてください)

**デフォルトの名無しさん** · 2014/11/22(土) 22:18:58.72

すみません、誤読しました。
「同じブロック内の全スレッドがこの命令にたどり着く」
まで待つかどうかの違いですね。

**デフォルトの名無しさん** · 2014/11/24(月) 04:18:18.83

今一番コスパ高いカードってなに？

**デフォルトの名無しさん** · 2014/11/24(月) 04:21:35.17

謝罪文みても思い上がりが激しい

**デフォルトの名無しさん** · 2014/11/25(火) 19:26:42.72

プログラムのカーネル部分がどうしても実行されません(サンプルプログラムでは実行されていました)
どなたか原因に心当たりはありませんか？(私はありません)
ブレークポイントで確認したところカーネルの上下にあるクロックは実行されており、
カーネルだけが実行されていませんでした(カーネルの中へ入って行かないという意味です)

以下が呼び出しで、dim3はグローバルで定義してあります
dim3 blocks((num + max - 1) / max, (num + max - 1) / max);
dim3 threads(max, (1024 + max - 1) / max, 1);

void calculation(void)
{
clock_t start, end;
start = clock();
cal<<<blocks, threads>>>(con, num, points, data);
end = clock();
cout << double(end - start) / CLOCKS_PER_SEC << "\n";
}

**デフォルトの名無しさん** · 2014/11/25(火) 21:02:59.83

>>11
dim3構造体のメンバ変数をプリントしたらどうなりますか?

**デフォルトの名無しさん** · 2014/11/25(火) 21:44:27.45

>>12
>11のcalculation()の最後の行にプリントの一文を入れてみましたが
ブロックが(128,128)、スレッドが(128,8)と想定通りでした
(スレッドは1ブロック当たり1024個まで配置可能なのでギリギリセーフなはずです)

忘れていましたが、呼び出し先です
この中にブレークポイントを配置してもプログラムが止まらないという魔の領域となっています
(もちろんnsightのcuda debuggingでデバッグしています)
__global__ void cal(double con, int num, a_data *points, b_data *data)
{・・・}

**デフォルトの名無しさん** · 2014/11/26(水) 18:34:20.92

>>13
カーネルが実行されているかどうかはどうやって確認していますか?

**デフォルトの名無しさん** · 2014/11/26(水) 19:30:35.81

>>14
>>13に書いた通り、ブレークポイントをカーネルの中に入れて実行されているかどうかを確認しています
描画をするプログラムなので図形が動くか動かないかでも判断できます

**デフォルトの名無しさん** · 2014/11/26(水) 20:04:14.26

おれもカーネルに入らないケース出たわ
原因調査中・・・

**デフォルトの名無しさん** · 2014/11/27(木) 08:04:41.88

>>15
CUDAのデバッガ使った事がない(ひたすらprintf)ので
一般論的な事しか言えませんが、
怪しそうな処理をコメントアウトしていったらどうでしょう?
変なメモリアクセスで落ちるとか割とありがちな気が。

**デフォルトの名無しさん** · 2014/11/28(金) 22:55:16.84

おれもカーネルに入らない
ただなぜかcygwinでコンパイルするとカーネルが起動する
なんでじゃ・・・

例のvisual studio2013もインストールしてみたいな～

**デフォルトの名無しさん** · 2014/11/28(金) 23:06:00.72

>>18だけど
osはwindows8.1
コンパイラはcuda6.5+vs2013 express
カーネルは担当する要素を＋1するだけのもの
これをコマンドプロンプトでコンパイルしてもカーネルは動かなかった(?)
動かないと判断したのは結果をmemcpyしてホスト側に返しても＋１されてなかったから
もしかしたら正常にmemcpyされてないだけかもしれない

カーネルに入らない人はcygwin使ってみるといいかもね
本質的な解決にはならないけど・・・

**デフォルトの名無しさん** · 2014/11/30(日) 20:47:05.05

ビジュアルプロファイラー使ってみたら。

**デフォルトの名無しさん** · 2014/12/03(水) 14:38:19.35

kernel実行後にcudaGetLastError()でRCを取得
そうするとkernel実行結果が分かる
RCの数値は自分で調べてね

**16,21** · 2014/12/04(木) 22:23:47.78

21の情報は役だったかな？
自分の場合（LINUX）、RC=7（too many resources requested for launch）だったので
コンパイルオプションに　-Xptxas -vを追加して使用レジスタ数を確認。

結果ハードウェアのレジスタ数を超過したためにカーネルの処理が行われなかったことが判明。
スレッドサイズを小さくして問題解決。
因みに使用レジスタはハードウェアによって変わる。

**デフォルトの名無しさん** · 2014/12/05(金) 14:06:24.56

>>22
ちょっと興味があるんですけれど、
カーネルのサイズは動的に決めてるんですか?

前にソースコードにブロック数とスレッド数をべた書きで
大きいサイズを指定したらコンパイルの段階ではじかれた事があったんで。

**>>15** · 2014/12/05(金) 15:37:53.47

>>21
ありがとうすごく役に立ったよ
ここ最近忙しくてｐｃ触れなかったんだ
自分も同じく「error: too many resources requested for launch」だった
原因を調べてみるよ

あと、自動でエラー内容もだせるみたいだね
http://homepage2.nifty.com/takaaki024/tips/programs/gpgpu/cuda.html

>>20
ビジュアルプロファイラーも便利そうだから調べてみるよ

**デフォルトの名無しさん** · 2014/12/07(日) 18:17:39.03

x,y,zの3つの変数から成る構造体配列A,B(同じサイズ)があったとして
BからAへそれぞれ対応するデータを転送する場合

Ax,Ay,Az,Bx,By,Bzという同じサイズの構造体でない配列が6つあったとして
BからAへそれぞれ対応するデータを転送する場合(BxからAxなど)

前者と後者では後者の方が転送速度は上がりますか？

**デフォルトの名無しさん** · 2014/12/08(月) 12:53:10.47

>>25
一般論としてデータ量が同じなら一回にまとめてを転送した方が効率はよくなりますね。

**デフォルトの名無しさん** · 2014/12/11(木) 11:46:54.75

memcpyって同期とるもんね

**デフォルトの名無しさん** · 2014/12/12(金) 21:54:58.15

kernelの中で使えるタイマー関数はありますか？

**デフォルトの名無しさん** · 2014/12/12(金) 23:43:18.27

clock()関数が使えるよ。

**名無しさん＠そうだ選挙に行こう** · 2014/12/13(土) 22:02:15.64

>>29
サンキュー
試してみるよ

**デフォルトの名無しさん** · 2014/12/16(火) 21:07:44.74

自分の持っていないGPUの共有メモリの量などの詳細を知ることはできますか？

**デフォルトの名無しさん** · 2014/12/17(水) 08:36:19.04

http://en.wikipedia.org/wiki/CUDA#Version_features_and_specifications
の
Maximum amount of shared memory per multiprocessor
あたりかな。

**デフォルトの名無しさん** · 2014/12/17(水) 20:16:42.59

>>32
ありがとうございます
嬉しいことに5.0以降から容量が増えてるみたいですね

**デフォルトの名無しさん** · 2014/12/17(水) 20:55:04.06

なんでCCのバージョン3.5から5.0に飛んでるの？
SDKのバージョンと合わせたのか？

**デフォルトの名無しさん** · 2014/12/19(金) 18:38:15.45

二つ以上のGPUでVBOを使用する場合、データの流れはどうなっているのでしょう？
やはり一旦ディスプレイに接続側のGPU出力データが集められ出力されるのですか？

**デフォルトの名無しさん** · 2014/12/20(土) 13:19:39.58

プロファイラ使えばわかるんじゃない？

**デフォルトの名無しさん** · 2014/12/20(土) 13:33:50.56

>>34
ゲフォの800番台がスルーされたからかも?

35 · 2014/12/20(土) 22:32:39.87

>>36
少し気になって質問してみただけで今自分は一つしか持っていません！

もう一つGPUを購入した時の為にvisual profilerを使えるようになっておこうと思い
ビルドした実行ファイルでプロファイラを使用してみたところ「Warning: No CUDA application was profiled, exiting」とエラーが出てしまいました
6.5のツールキットを使用して新しいセッションを作成→ビルドした実行ファイルを選択→設定はデフォルト、としたのですが何がダメだったのでしょう？
nvidiaの説明書を見てもさっぱりです。ヒントだけでもいいので教えてください

**デフォルトの名無しさん** · 2014/12/21(日) 12:30:22.37

>>38
cudaDeviceReset() が必要のはず。

Visual Studioで「CUDA X.X Runtime」のプロジェクトを作ったら、
kernel.cu の return 0; の直前のコードに、以下のように書いてある。

// cudaDeviceReset must be called before exiting in order for profiling and
// tracing tools such as Nsight and Visual Profiler to show complete traces.
cudaStatus = cudaDeviceReset();

35 · 2014/12/21(日) 22:57:23.15

>>39
ループしているプログラムなのでエスケープキーを押すと後処理関数をatexit関数で呼び出して終了するようになっています
その後処理関数の中にcudaDeviceReset();を入れているのですがこれではダメなようです
それともcudaError_t cudaStatus = cudaDeviceReset();としてcudaStatusをどこかへ渡すのでしょうか？

**デフォルトの名無しさん** · 2014/12/22(月) 00:14:29.09

>>40
とりあえず、>>39を新規プロジェクト作ってプロファイラの
動作を確かめてから、あらためて自分のソースコードに反映すれば？

**デフォルトの名無しさん** · 2014/12/23(火) 15:40:43.82

>>41
新規プロジェクトでサンプルプログラムが生成されるのを忘れていました
おそらくサンプルのプロファイルに成功したので自分のプログラムに反映させようと思います
ありがとうございました

42 · 2014/12/24(水) 18:51:30.92

一応書いておきます
調べてみた結果、必要なものはcudaDeviceReset();を呼び出すことのみでした
自分のプログラムがプロファイル出来なかった原因は.dllが.exeと同じ場所に無かったからでした

**デフォルトの名無しさん** · 2014/12/24(水) 20:32:20.58

並列化についての質問です
スレッドやブロックを増やしてもあまり計算速度に差が出ないのですがどのような理由が挙げられますか

**デフォルトの名無しさん** · 2014/12/24(水) 20:59:33.63

どう変わると思った？計算量自体は変わらんのだぞ。

**デフォルトの名無しさん** · 2014/12/24(水) 21:07:44.58

最初は一つのスレッドにつき4回ほどループさせ計算をしていました
その後、スレッド数を2倍にしてループ数を半分の2回しました
計算速度は2倍になるだろうと予想していましたが、あまり変わりませんでした

**デフォルトの名無しさん** · 2014/12/24(水) 21:23:52.28

ハード的に同時に実行できるスレッドは有限なんだから、それ以上スレッドを増やしても
物理的に速くなりようがない。

**デフォルトの名無しさん** · 2014/12/24(水) 22:24:43.11

プログラム上のスレッド数とハード上のスレッド数は違うと言うことですか

**デフォルトの名無しさん** · 2014/12/24(水) 22:50:48.00

スレッドが多ければ、メモリアクセスでスレッドが止まっている間
cudaコアは別のスレッドを実行できる

**デフォルトの名無しさん** · 2014/12/27(土) 01:57:38.03

基本的にはcudaコアの数だけしか並列計算出来ないのですか

だけしかと言ってもコアは何百もありますが

**デフォルトの名無しさん** · 2014/12/27(土) 06:52:06.91

ある瞬間、実際に並列に処理されているということと、理論上並列に扱われるということは別の話ですよ

上のレスにもありますが、計算速度的には実際に処理を行うヤツが足りていなければそこで頭打ちになるのは当然かと

**デフォルトの名無しさん** · 2014/12/27(土) 10:09:35.39

cudaコアの数以上にスレッドを生成する利点は
メモリアクセスの遅延の隠蔽にある

**デフォルトの名無しさん** · 2014/12/28(日) 20:39:13.97

550TIで使っていたプログラムを750TIで走らせて見たところ1.5倍ほど遅くなってしまいました
何故でしょうか？

**デフォルトの名無しさん** · 2014/12/29(月) 02:19:31.23

腐ってやがる。早すぎたんだ

**デフォルトの名無しさん** · 2014/12/29(月) 09:47:06.28

>>53
一度のカーネル実行で処理するデータ量を増やしたら改善しませんか?

**デフォルトの名無しさん** · 2014/12/29(月) 09:51:11.07

>>53
maxwellは倍精度がそーとーしょぼいので、
cuda-zかなんかで性能をチェックした方がよいかもしれません。
http://sourceforge.jp/projects/sfnet_cuda-z/

**デフォルトの名無しさん** · 2014/12/29(月) 12:03:33.25

>>56
本当にしょぼかった。陽子ビームぶち込みたい。
どうやらマクスウェルさんは演算用には向いていないようですね

**デフォルトの名無しさん** · 2014/12/29(月) 12:51:57.86

コア数が3倍になっていることを考慮すればそれでも遅い気がしますね

**デフォルトの名無しさん** · 2014/12/31(水) 21:08:03.80

CUDA初学者です
cudaBindTexture2D()のpitchとoffsetは何を表しているのですか？
手元の書籍のサンプルから推測するに
pitchは一次元の配列を二次元のテクスチャに入れる場合の折り返し地点のようなもの
でしょうか？それならwidthとhighだけでも十分ではないかと言う疑問も出てきます。

そして一番の疑問がテクスチャメモリの存在です。
いくら二次元、三次元配列が使えるとは言え512バイトしか容量のないテクスチャメモリは64キロバイトもあるコンスタントメモリに劣るのではないでしょうか？
長々と失礼いたしましたm(_ _)m

**デフォルトの名無しさん** · 2014/12/31(水) 23:07:39.94

>>52
それじゃあストリームは何のためにあるのさ？

**デフォルトの名無しさん** · 2015/01/01(木) 12:48:51.81

>>60
どっちも使えるなら、実験して早い方を採用
同時に並んでいるスレッド数を増やしてcudaコアが遊ばない状況
を作り出すことが重要

ストリームの使い道は異なるカーネルの並列実行だと思ってる

**デフォルトの名無しさん** · 2015/01/02(金) 01:42:39.20

>>61
なるほどね

**デフォルトの名無しさん** · 2015/01/03(土) 13:07:05.02

970/980は確かにゲームのパフォーマンスは上がってるが帯域減ってるから
GPGPU用途では微妙になってしまったな

**デフォルトの名無しさん** · 2015/01/09(金) 00:33:57.02

Toolkit 6.0 + VS 2008から
Toolkit 6.5 + VS 2013に移行したら
遅くなっちゃったんだけど、そういう人ほかにいる?

**デフォルトの名無しさん** · 2015/01/12(月) 00:15:12.48

CUDAの日本語ページって4.0とかの古い情報ばっかりじゃね
6.0/6.5では全然仕様が違ってて全然使えない

**デフォルトの名無しさん** · 2015/01/16(金) 07:53:04.52

CUDA7.0 RC

**デフォルトの名無しさん** · 2015/01/16(金) 09:02:56.43

もうCUDAも成熟してしまった感があるなあ。

**デフォルトの名無しさん** · 2015/01/25(日) 10:58:33.86

970の影響でGPUメモリテストが流行っているね。

**デフォルトの名無しさん** · 2015/02/06(金) 21:35:53.90

ここ何週間かデバッグを続けているのですが原因を突き止めることが出来ません
初学者がはまりやすいミスやデバッグのこつなんかを教えてもらえませんか？
明らかなバグなら原因を突き止めやすいのですが、かなり微妙なバグなのでなかなか見つけられず困っています

**デフォルトの名無しさん** · 2015/02/07(土) 00:48:46.19

printfとかで要素を表示してデバックしてみれば？

**デフォルトの名無しさん** · 2015/02/07(土) 13:10:14.61

syncthreadとか？
if文の中に書いてたりすると同期ずれが起こったりするなー
他には確保してないメモリへのアクセスとか？

>>70の通り、printfとかで、配列の添字とか値を表示するしかないのかな？

**デフォルトの名無しさん** · 2015/02/08(日) 15:23:01.85

>>70
>>71
ありがとうございます
1セットの計算量があまりにも多いのでprintfの方法は難しいです
シンクロや範囲外アクセスもありませんでした

原因が分かっちゃったかも知れないので質問です
中間計算結果→atomicAdd
中間計算結果→配列→atomicAdd
こんな風に同じ数値を使った計算でも一度配列を通してしまうとatomicAddによって追加された計算結果に差が出たりしますか？

**デフォルトの名無しさん** · 2015/02/08(日) 15:48:00.96

変数に入れると精度は落ちますね
お騒がせしました

**デフォルトの名無しさん** · 2015/02/08(日) 21:32:20.44

>>72
ちょっと面倒だけど、要素が多い場合は減らしてやってみるとか、どうだろうか？

何はともあれ、原因判明したみたいで、おめでとう

**デフォルトの名無しさん** · 2015/02/08(日) 22:56:08.44

>>74
それは意外な盲点でした
数を減らせば良かったのですね

**デフォルトの名無しさん** · 2015/02/09(月) 10:20:08.08

>>72
fpが(a+b)+c != a+(b+c)を知らないとかではないよね？

**デフォルトの名無しさん** · 2015/02/09(月) 23:18:25.64

volatile使うとか？
変数の宣言とか関数の引数の型の前にvolatileをいれると・・・

**デフォルトの名無しさん** · 2015/02/17(火) 21:40:32.15

>>53
750TIでGPGPUって考えていたけど、750TIって2世代前の同ランクぐらいの550TIより性能悪いのか。
一般ゲーム用VGAではGPGPU能力ってたいして要らないから落としたのかな

いろいろなゲーム用VGAの単精度、倍精度の能力が載ったホームページ教えてください

**undefined** · 2015/02/19(木) 11:23:20.97

質問☆
cudaってドライバインストして、画像表示をcuda設定にするだけでは
効果ない？

**デフォルトの名無しさん** · 2015/02/19(木) 14:30:54.02

>>78
FP32とFP64の一覧表ならこれとか。
ttp://www.geeks3d.com/20140305/amd-radeon-and-nvidia-geforce-fp32-fp64-gflops-table-computing/

ボトルネックになりうる点は他にもあるから、Compute Capability毎の仕様の違いも結構重要だと思う。

**デフォルトの名無しさん** · 2015/02/19(木) 23:45:36.57

maxwellさん自体にに倍精度が無いようだから
一世代前のkeplerさんか次世代のpascalさんを選べば良いんじゃないかな

**デフォルトの名無しさん** · 2015/02/19(木) 23:54:19.28

>>80
有難う。750TiのFP64悪すぎだな。
なんか大衆向け用でGPGPUするならFP32よ、FP64は使わないでだな。

**デフォルトの名無しさん** · 2015/02/20(金) 04:05:21.12

>>81
KeplerはMaxwell以上にピーキーだったような。
自分の用途がはっきりしていて、それがKeplerやMaxwellに向いているならありだろうけど。
64bit変数をほとんど使わなくても、不向きな処理ではGTX 680が570に惨敗したりする。

CUDAの開発環境とか情報量に魅力を感じて、あえて今から始めてみるという人に勧めるとすれば、個人的には
投げ売り続行中のGTX 570や580で、余裕があるなら型落ちCPU・マザボ・メモリのセット等と
組み合わせてCUDA専用マシンを用意かな。

>>82
それは差別化とか、グラフィック用途でのワットパフォーマンスとかで仕方がないかと。

**デフォルトの名無しさん** · 2015/02/20(金) 08:52:57.87

keplerはinteger bit shiftが弱いGK110(tesla)以外は
maxwellはkepler比で2倍のスループットになってる

**デフォルトの名無しさん** · 2015/02/22(日) 18:45:23.46

適当なプログラム作ってみても
maxwellの方がはやいね

shared memoryが倍になったのも大きいなぁ

**名無し** · 2015/03/07(土) 10:52:38.85

スレチなら申し訳ない
当方、モバイルでCUDAを使用したいけど
安い方法はどれが良いと思います？
（速度はそこそこで良く、外でテストして
　パワーがいる場合はデスクトップを使用するつもり）

モバイル用は安く上げたいので
Chromebookかタブレットで探した方が良いですかね？
奇をてらってJetsonのtk1にACアダプタ用のバッテリーを積むとか
（可能かどうかわからないですが）
ちなみにゲームはやるつもりありません。

**デフォルトの名無しさん** · 2015/03/07(土) 20:42:36.10

thinkpad w550sのquadro K620mはダメなの？
ノートパソコンだよ

**デフォルトの名無しさん** · 2015/03/08(日) 10:25:35.13

レスありがとうございます
安くあげたいので予算的に厳しいかと
最初だけ計算量は多いですけど
要所ごとに定数化すれば、その後は計算量がへるかと思っているので外での使用は少ないデータ量でプログラムチェックができればいいかなと考えています。
K1がのったタブレットも安いのでそこから考えてみようと思います
ありがとうございました

**デフォルトの名無しさん** · 2015/03/18(水) 02:36:15.45

うわ、titan xの倍精度、しょぼ過ぎ・・・。
https://twitter.com/search?q=titan%20x&;src=typd

**デフォルトの名無しさん** · 2015/03/18(水) 09:22:22.19

単精度が7TFLOPS、倍精度が0.2TFLOPSで良いんだよな？？

詳しい事は良く分からないんだけど倍精度ってそんなに使わないものなの？
PhysXっていう物理エンジン使ったりするのに

**デフォルトの名無しさん** · 2015/03/18(水) 10:23:22.30

>>90
ゲームだと単精度で十分だったりするからじゃない？
もともとゲームのために作られたような物だから、倍精度の性能なんかあまりこだわってないと思う

**デフォルトの名無しさん** · 2015/03/19(木) 07:37:41.52

https://developer.nvidia.com/cuda-downloads
CUDA 7 Downloads

**デフォルトの名無しさん** · 2015/03/19(木) 07:39:40.96

Dear Developer,

The CUDA? 7.0 Production Release is now available to the public. Run your application faster with this latest version of the CUDA Toolkit. It features 64-bit ARM support and the simplified programming model enabled by Unified Memory. Highlights include:

New cuSOLVER library
? Accelerates key LAPACK routines, 12x faster direct sparse solvers

New C++11 language features
? Increases productivity with lambdas, auto, and more

Runtime Compilation
? Enables highly optimized kernels to be generated at runtime

Download the CUDA 7 Production Release at www.nvidia.com/getcuda

Learn more about CUDA 7 by attending these webinars:

CUDA 7 Feature Review
Date/Time: Friday, April 10th at 10:00 AM PDT
Register: https://cc.readytalk.com/r/4b0lwgeqgzrk&;eom

CUDA 7 Performance Overview

Date/Time: Wednesday, April 15th at 11:30 AM PDT
Register: https://cc.readytalk.com/r/empyu1qc65l6&;eom

Best regards,

Nadeem Mohammad
NVIDIA Developer Relations Team

**デフォルトの名無しさん** · 2015/03/24(火) 05:27:05.96

CUDAがgcc4.8でうまく動かない問題ってもう解決したの？

**デフォルトの名無しさん** · 2015/03/25(水) 15:16:29.51

うん

**デフォルトの名無しさん** · 2015/03/25(水) 21:19:25.13

Driver API使ってコンパイル済みのptxを実行するプログラムを作ろうとしているんだけど、
64bitのホストコードから32bitのptxを実行することってできるんだっけ？

**デフォルトの名無しさん** · 2015/04/10(金) 02:15:05.70

nvidia-smiでutilizationやmemory usageを確認できると思うのですが、全てのパラメータを確認できるのはtesla、quadro、Titanです。
Geforce系のGPUで、utilization、各プロセスのmemory usage等を確認するにはどうすればいいでしょうか？

**デフォルトの名無しさん** · 2015/04/10(金) 07:26:02.69

>>97
nvapi
http://masafumi.cocolog-nifty.com/masafumis_diary/2008/09/nvapi.html

**デフォルトの名無しさん** · 2015/04/12(日) 23:53:21.24

古いGeforceでもOpenCL1.1のプログラムなら動くのでしょうか

**デフォルトの名無しさん** · 2015/04/13(月) 00:39:39.73

少なくともCUDA対応している必要があるが、基本的にGeForce8シリーズ以降で動くはず。
特定の機種について知りたいならGeeks3Dのデータベース検索してみるとか。
しかしスレチ。

**デフォルトの名無しさん** · 2015/04/13(月) 16:29:29.85

thinkpadに入ってるquadro K620Mはcudaのサポート無いんだな
インストールしようとしてワラタ

**デフォルトの名無しさん** · 2015/04/14(火) 18:39:28.21

Linux(CentOS6)の環境でTITAN BLACKでCUDA(Ver.6.5 or 7.0)使ってるのだけど、計算走らせると
NVIDIA X Server SettingsのPerformance LevelsのLevelが3から2に落ちてMemory Transfer Rateが7000Mhzから6000Mhzに落ちてしまう。
で結果的にノーマルTITANと性能が同じになってしまう。このメモリクロックを固定させることはできませんかね？
ちなみにTelsa K20 での固定クロックの方法はnvidia-smiがTITANに対応してないらしくできなかった。
ちなみにPreferred Modeは「Prefer Maxmum Performance」になっていて、
CUDAで計算しなければLevel3でメモリクロックも7000Mhzとなっています。

**デフォルトの名無しさん** · 2015/04/14(火) 21:44:04.71

空冷を見直す。

**デフォルトの名無しさん** · 2015/04/15(水) 11:49:47.50

>>102
何時間もフルで使ってるならまだしも、GPU叩いた瞬間に7000Mhzから6000Mhzに落ちるって、TITAN BLACKの公称メモリクロック「7GHz」ってのは詐欺にならないか？
これじゃノーマルTITANと同じ性能・・・

**デフォルトの名無しさん** · 2015/04/15(水) 23:05:57.76

環境がわからんからなんとも言えんが、
どうしても固定したければどっかからbiosを引っ張ってくるしかないね。

**デフォルトの名無しさん** · 2015/04/16(木) 13:27:15.95

ん？TITANのクロック制御はマザーのBIOSが管理してるのか？

**デフォルトの名無しさん** · 2015/04/16(木) 14:34:33.50

VGAボード側のだよ。

**デフォルトの名無しさん** · 2015/04/23(木) 12:42:01.23

pycudaで既存のコンパイル済みのオブジェクトとリンクして
実行させるにはどうすればいいのでしょうか

**デフォルトの名無しさん** · 2015/04/23(木) 18:12:10.80

cmakeの自動configがGTX900シリーズなのにsm_20とか言ってくるのなんとかならないの？

**デフォルトの名無しさん** · 2015/04/27(月) 00:54:11.64

最近のマザーボードってビデオカード2枚刺して
両方に計算させることもできるの？
自分のcore2duoのパソコンだと１つしか刺す場所ないけど
最近のddr4を使うマザーみると
それらしき場所が３つぐらいあるから3並列計算できるってことかな？

**デフォルトの名無しさん** · 2015/04/29(水) 08:43:39.45

>>110
場合によっては、計算用のGPUと出力用のGPUで分けてたりする。少なくともNVIDIAはそういう方針

**デフォルトの名無しさん** · 2015/04/30(木) 22:40:28.09

vexclのサンプルコードをcudaでコンパイルしようとしてるんだけど
エラーだらけ
何か依存パッケージが足りないのかな？

**デフォルトの名無しさん** · 2015/04/30(木) 22:46:37.84

.bashrcに設定する変数名が
CUDA_PATH
だったり
CUDA_ROOT
だったりみんな違う

なんで統一しないのか

**デフォルトの名無しさん** · 2015/05/07(木) 18:56:17.28

vexclについてくるexampleプログラムの中のベンチマークってプログラムが面白い
このプログラムのベンチマークによると
GT430とかいう古いビデオカードなのに最近のCPUの10倍の計算速度でてる

**101** · 2015/05/13(水) 12:03:41.64

thinkpad w550sのquadroでもcudaなんも問題なかった
やっと勉強できる

**デフォルトの名無しさん** · 2015/05/13(水) 19:42:38.26

3D映像でパストレーシングやモンテカルロ法を行いたい場合、光線とシーン中
のあらゆるポリゴンとの交差を判定し、条件分岐を行う必要があります。
しかし、GPGPUは条件分岐が遅いらしいので、もしかするとCPUと役割分担を
行うべきなのでしょうか？
例えば、シーン中のポリゴンとの交差判定はCPUでやった方が良いとか？

**デフォルトの名無しさん** · 2015/05/13(水) 23:31:21.84

if
　 A
else
　 B
end
のような文なら、AとBは逐次の処理になる

if
　　A
end
なら、Aを行わないスレッドは待つだけだから問題ない

もし３項演算で解決できる条件分岐なら３項演算子を用いて書く

**デフォルトの名無しさん** · 2015/05/14(木) 07:59:10.95

>>117
>AとBは逐次の処理になる

これはどういう意味でしょう？
AとBが内部的には必ず両方とも実行されてしまうと言うことでしょうか？

**デフォルトの名無しさん** · 2015/05/14(木) 09:14:40.23

Intel系CPUの場合、確か cmov などという命令は、bool 値が1の時だけ
転送するのだったと思います。そういう命令は無いんでしょうか？
仮に何かあったとして、CUDA や OpenCL でどうやってそのような
「専用命令」を生成する事は可能でしょうか？

**デフォルトの名無しさん** · 2015/05/15(金) 01:05:26.23

分岐命令の代わりに使えるプレディケート付き命令があるかという話なら
それは存在するし、分岐のあるコードではコンパイラさんがよしなにやってくれる。
と、ヘネパタ本には書いてあった。

**デフォルトの名無しさん** · 2015/05/15(金) 08:19:31.91

>>120
ありがとうございます。

では、「>>118」の方はどうですか？

**デフォルトの名無しさん** · 2015/05/15(金) 09:39:10.09

>>121
warp divergenceの話じゃないの？

**デフォルトの名無しさん** · 2015/05/15(金) 15:58:50.84

>>122
習慣的に（？）「ウォープ・ダイバージェンス」と読み、

http://news.mynavi.jp/special/2008/cuda/001.html

のことのようですね。

**デフォルトの名無しさん** · 2015/05/17(日) 10:18:02.33

>>121
AとB両方実行されるよ

**デフォルトの名無しさん** · 2015/05/19(火) 21:33:47.52

今まで一つのソースファイルで書いてきたのですが、いい加減見づらくなってきたのでソースファイルを分けてみたところエラーがでたので質問させてください
extern __constant__ unsigned short v[n]; //nは#defineで定義しています。
メインのソースファイルで
__constant__ unsigned short v[n];
と定義し、ビルドすると「メインの方で再定義されている」というエラーが出てしまいます

他にも、__device__ double atomicAdd の定義をサブのソースファイルに書くと
ptxas fatal : Unresolved extern function '_Z9atomicAddPdd'
とエラーが出てしまいます。どうか解決方法を教えてください。

環境は
NVIDIA Nsight Visual Studio Edition v.4.2
CUDA 7.0 Toolkit
のはずです

**125** · 2015/05/19(火) 21:42:34.97

×CUDA 7.0
○CUDA 6.5
でした

**125** · 2015/05/20(水) 16:28:14.38

CUDA5.0以降ではrdcを「はい」にするとファイルの分割が出来るという情報を得たのでさっそく試してみたところ
>>125のエラーは無くなったのですが
1>sub.cu.obj : error LNK2005: "long __cdecl genrand_int31(void)" (?genrand_int31@@YAJXZ) は既に main.cu.obj で定義されています。
上記のような二重定義エラーがいくつか出てきました

また、ヘッダファイルの拡張子を.cuhとしている方を見かけたのですが、.hとの違いはあるのでしょうか？

**デフォルトの名無しさん** · 2015/05/20(水) 22:26:00.46

デバイス関数ってインライン展開されるんじゃなかったっけ。
でもって、他のファイルからは使えなかったのでは?

**125** · 2015/05/20(水) 23:53:16.57

>>128
ファイルを分割出来ないとなるとすごく不便になので、何かしらの方法があるのでは？と思っています

**デフォルトの名無しさん** · 2015/05/21(木) 04:25:30.08

とりあえずCUDAの日本語wikiがあるから、そこの分割コンパイルの項目をみたらどうかな？
OSによっては解決できるかも

**デフォルトの名無しさん** · 2015/05/21(木) 09:09:27.02

cuファイルをcuファイルにインクルードしてみるとか。

**125** · 2015/05/21(木) 17:23:47.43

レスありがとうございます

どうやら>>127のエラーはCUDAとは関係なさそうなのでC++のスレで聞いてきます

**125** · 2015/05/24(日) 22:10:36.84

>>127の方法で分割コンパイルに一応成功しました！
一応と言ったのはrdcを「はい」にした場合と「いいえ」にした場合とでプログラムの挙動が少し変わってしまうのです
今書いているプログラムは何億回もの計算結果を足し合わせていくものなので、誤差の蓄積による影響を受けていると思います
コンパイルの方法を変えた(?)事で誤差の蓄積が変化(?)し、プログラムの挙動が変わったということなのでしょうか？
コンパイルと誤差がどう関係するのかは分かりませんが

**125** · 2015/05/24(日) 22:19:49.55

>>「はい」にした場合と「いいえ」にした場合
ファイルを分割するともちろん「いいえ」では動かないので、一つのファイルで完結しているプログラムでの話です

**デフォルトの名無しさん** · 2015/05/26(火) 06:54:20.42

最適化の仕方が変わるのかもね
誤差が出て困るなら、なるべく誤差が少なくなるような組み方を考えるしかない

**デフォルトの名無しさん** · 2015/05/26(火) 07:49:49.21

誤差にも種類があるが・・・
浮動小数点演算等の誤差なのか
同期ミスによる誤差なのか・・・

**デフォルトの名無しさん** · 2015/05/26(火) 22:03:46.38

>>135
かもね
今はatomicAddをそのまま使っているので、情報落ちをなんとかして誤差は減らす予定です

>>136
原因と結果の関係性が分からないのでなんとも言えないです
ちなみに同期ミスによる誤差とは何でしょうか？

**デフォルトの名無しさん** · 2015/05/26(火) 22:55:29.89

つうか最適化で結果が変わったら
それはバグ以外に無いけどねえ。

**デフォルトの名無しさん** · 2015/06/03(水) 15:26:06.85

http://www.geeks3d.com/20140305/amd-radeon-and-nvidia-geforce-fp32-fp64-gflops-table-computing/
だれかこれの最新版を知らんかえ？

**デフォルトの名無しさん** · 2015/06/17(水) 22:35:16.09

今年はGTC Japan開催のリリース出ないな
例年ならもう出ているのに
中止かもしくは時期がずれたのかな

**デフォルトの名無しさん** · 2015/06/18(木) 12:56:34.78

>>140
今年は9月18日に虎ノ門ヒルズで開催、だったかと。

**デフォルトの名無しさん** · 2015/06/18(木) 13:04:11.34

Visual studioでCUDAプログラムを作成しています
Nsightでstart CUDA debuggingからプログラムを走らせた時だけプログラムが動かないんですが
どのような原因が考えられますか？

以下の条件ではすべて正常に動作・終了します
デバッグなしで開始（debug,release共に）
start CUDA debuggingでブレイクポイントを仕掛けて1スレッドずつ動かす

**142** · 2015/06/18(木) 13:16:06.49

追加です
プログラムの詳細ですが
ある無向グラフに対して，与えられた2点が連結かどうか調べるプログラム
枝重み0と仮定してダイクストラのアルゴリズムを用いて判定しています．

1ブロックにつき16スレッドが同時に走ります．
その判定関数をfoo()とすると

if(　blockIdx.x == tmp )
foo();
というように一つのブロックのみで扱うようにすると
tmpがどのような値でも正常に動作するのですが
2ブロック以上でfooに行くようにすると動かなくなります
エラーがでないことと，printfによるチェックですが
配列のアドレスも問題ありません

**デフォルトの名無しさん** · 2015/06/19(金) 21:29:02.20

>>143
何かスレッドの実行順序に依存した処理があるか、排他が必要な競合でもあるんじゃね?

**デフォルトの名無しさん** · 2015/06/19(金) 22:01:43.75

>>141情報感謝です

**デフォルトの名無しさん** · 2015/06/22(月) 21:23:14.11

デバイスメモリの内容を一時的にホスト側からアクセスしたいんですが、OpenCLでいう
clEnqueueMapBufferに相当する機能はCUDAにあるんでしょうか？
ちょっと調べてみたんですが、cudaHostRegisterは方向が逆だし、cudaMallocManagedは
既にあるデバイスメモリにアクセスするものではなさそうなので。
cudaMemcpyで読み出して終わったらまた書き出すという方法しかないんでしょうか。

**デフォルトの名無しさん** · 2015/06/23(火) 13:14:37.10

OpenCLを知らないので外してるかも知れないけど、
基本的にはcudamemcpyするしかない。

CUDA6.0からUnified Memoryっていう機能が入って、
GPU上のメモリをホストメモリと同じように読めて、
自動的に同期を取ってくれる機能。用途によっては使えるかも。

**デフォルトの名無しさん** · 2015/06/24(水) 08:02:13.81

>>147
ありがとう。やっぱりcudaMemcpyするしかないのか。

**デフォルトの名無しさん** · 2015/06/25(木) 22:41:21.74

今日はじめてCUDAを入れた者ですが、VS2013でサンプルをビルドするとerror MSB3721…\simpleTemplates.cu"" はコード 1 で終了しました
って出るんだが何か設定とか必要ですか？

あとインストールの確認（？）でコマンドプロンプトでnvcc -Vのコマンド入れてもアクセスが拒否されましたと出る…
これが原因ですかね？

いろいろ調べてみましたが、これといった解決方法はなかったので助けて下さい。
よろしくお願いします。

**149** · 2015/06/25(木) 23:09:29.97

>>149です。
すいません自己解決いたしました。
ウィルスソフトが邪魔をしていたようです・・・
スレ汚し申し訳ございませんでした。

**デフォルトの名無しさん** · 2015/06/26(金) 01:26:56.82

750Tiってあんまりいけてないのか…
CUDA試したくてあんまり調べずに衝動買いしてしまった
900台にした方が良かったのかなあ

**デフォルトの名無しさん** · 2015/06/26(金) 08:33:52.91

ゲームするならかなりいけてるが倍精度はしょぼいな
倍精度が欲しいならfermiかgk110コアのがいいのか？
ゲームしないならamdでopenCLの方がコスパ良さそうなんだがどうなの？

**デフォルトの名無しさん** · 2015/06/26(金) 09:30:43.08

>>150
ちゃんとアンチウイルス入れておけよ。

**デフォルトの名無しさん** · 2015/06/26(金) 11:48:22.16

CUDA7入れたのですが、
cublas.hが見つからないと出てしまいました。

cublas使うには他に何か必要なのでしょうか？

**デフォルトの名無しさん** · 2015/06/26(金) 12:57:38.26

>>154
C:> dir /s /b "%CUDA_PATH%\cublas.h"
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include\cublas.h

**デフォルトの名無しさん** · 2015/06/26(金) 13:07:12.91

ありがとうございます。
みつかりました

**デフォルトの名無しさん** · 2015/06/26(金) 23:47:30.95

>>152
>ゲームするならかなりいけてる

こういうのがイマイチよくわかりません
単純にFLOPSで性能を見ちゃいけないのでしょうか
ゲームやGPUプログラミングに向いてるかどうかってどうやって判断してるんでしょうか

**デフォルトの名無しさん** · 2015/06/27(土) 03:38:35.85

>>157
プロはGPGPUするのにゲーム用のGFやRadeonをはあんまり使わない
趣味レベルでOKのGPGPUならGPGPUがオマケであるゲーム用(ゲームドライバ)のVGAでも良いが。
Xeonが一般的な業務サーバーに普通のデスクトップPCをいっぱい使うなことは
しないのと同じ。あと、FLOPSは目的のGPGPUするのに必要なレベルあれあば良い。
低FLOPSでOKなGPGPU処理に超高FLOPSのものを使うって趣味だし

**デフォルトの名無しさん** · 2015/06/27(土) 09:17:14.69

プロだってコスパ考えるだろ。
倍精度演算性能と信頼性で妥協できるならゲーム用GPUの方が圧倒的に安いしな。

**,,・´∀｀・,,）っ-○○○** · 2015/06/27(土) 23:23:04.05

まあ中国の天河1号はFireStreamですらないRadeonのデュアルGPUカードを大量搭載したが
結局実用にならなくて次の更新で全部Teslaに差し替えたからね
額面のFLOPS数だけで実用性は評価できない

**デフォルトの名無しさん** · 2015/06/28(日) 09:51:05.56

中国はスパコンにTESLAとか使えなくなったから、NVIDIAやインテルは大口顧客を失った。

**デフォルトの名無しさん** · 2015/06/28(日) 16:33:48.10

＞NVIDIAやインテルは大口顧客を失った。
その損失分は米国内の大型スパコンでの便宜をはかることで補填されてるから企業としては差し引きOKとなったはず

**デフォルトの名無しさん** · 2015/06/29(月) 08:06:36.49

windows7でchainer試そうとすると
pycudaでなんか不具合出る

**デフォルトの名無しさん** · 2015/06/29(月) 08:13:35.83

>>151

そうでもない
http://studylog.hateblo.jp/entry/2015/06/26/210516

**デフォルトの名無しさん** · 2015/06/29(月) 09:25:13.60

並列計算でGTX780Ti使ってるんだけどGTX980Tiにしたら倍精度の計算って遅くなる？

**デフォルトの名無しさん** · 2015/06/30(火) 16:00:18.94

cudaってMFCのcppから呼べますか？
サンプルで.cuから.cppを呼んでるのは見つけたんですが。

**デフォルトの名無しさん** · 2015/06/30(火) 17:26:54.94

あーexternで呼べました

**デフォルトの名無しさん** · 2015/07/02(木) 01:47:05.99

>>165
単精度演算性能コア数×クロック数×2
倍精度演算性能単精度演算性能/24(Kepler), 単精度演算性能/32(Maxwell)
として計算すると、
780Tiが2880×875×2/24=205GFLOPS
980Tiが2816×1000×2/32=172GLOPS
だから、遅くなるんじゃね?

**デフォルトの名無しさん** · 2015/07/02(木) 15:34:36.77

CUDAって仕様上できないこともコンパイルとおるのか～

**デフォルトの名無しさん** · 2015/07/02(木) 23:26:03.68

Nvはゲームにゲーム用VGAには倍精度演算イラネから省くって流れだから
ゲーム用VGAで倍精度演算性能ほしいならRadeにしたほうがいいよな

**デフォルトの名無しさん** · 2015/07/03(金) 14:37:16.26

>>168
ありがとう
Teslaは高くて買えないからPascalまで待つか

**デフォルトの名無しさん** · 2015/07/03(金) 23:30:48.50

TITANヤフオクで探すのはどうでしょ

**デフォルトの名無しさん** · 2015/07/05(日) 22:31:36.27

全く値段見ないでカンで言うけど
中古の無印TITANならウンコに混じったコーン位の値段で売ってんじゃないの？

**デフォルトの名無しさん** · 2015/07/07(火) 16:43:12.64

CULAのエラーでpos 1022ってなんですか？

LAPACKドキュメントを見よとか書いてありますが、見当たりません

**デフォルトの名無しさん** · 2015/07/08(水) 10:49:51.33

CUDA7.5 RC

**デフォルトの名無しさん** · 2015/07/08(水) 20:10:01.47

最近始めたんだけどversionって無理して最新にする必要無いのかな
7入れるのに結構苦労したんであんまり変えたくない
みなさんはガンガン上げてく感じですか？

**デフォルトの名無しさん** · 2015/07/08(水) 20:20:41.59

共存できるやん

**デフォルトの名無しさん** · 2015/07/11(土) 13:57:32.12

困らなければ基本的に更新とかはしないと思うけど…

**デフォルトの名無しさん** · 2015/07/13(月) 01:32:34.78

でも最新のほうが速くなったりするかもしれないし

**デフォルトの名無しさん** · 2015/07/27(月) 20:50:16.33

分割コンパイルができないんだけど、どうしたらいいんだろ？
ビルドどころか１ファイルのコンパイルもエラーになる

vs2013ce, cuda7.0, fermi, debug,x64

D:\cuda_test\cuda_test>
"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\bin\nvcc.exe"
-gencode=arch=compute_20,code=\"sm_20,compute_20\" --use-local-env --cl-version 2013
-ccbin "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin\x86_amd64" -rdc=true
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\lib\x64"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-G --keep-dir x64\Debug -maxrregcount=0 --machine 64
--compile -cudart static -g -DWIN32 -DWIN64 -D_DEBUG -D_CONSOLE -D_UNICODE -DUNICODE
-Xcompiler "/EHsc /W3 /nologo /Od /Zi /RTC1 /MDd "/wd 4819""
-o x64\Debug\cuda_body.cu.obj "D:\cuda_test\cuda_test\cuda_body.cu"

1> nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified

**デフォルトの名無しさん** · 2015/07/27(月) 20:55:02.52

nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
コンパイルフェーズで出力ファイル指定するときは１ファイルでやれっていうけど、出力ファイル指定しないと何にも出力されないし、
cuda5.0以降は分割コンパイルは対応してるよね？　rdcもdlinkも指定してるし何がいけないんだ

**デフォルトの名無しさん** · 2015/08/02(日) 15:01:41.54

別にCUDAじゃなくても良いんですが、
GPUで直接JPEGを、DirectXのテクスチャに展開して、そのまま表示したいです。
そういったライブラリって無いですか？
かなり需要がありそうなんですが

**デフォルトの名無しさん** · 2015/09/07(月) 00:27:30.12

ヘッダファイルで定義した定数は__device__内では使えないのでしょうか？

**183** · 2015/09/08(火) 02:08:23.68

少し分かったことがありました
グローバルで
const int i = 1;
const double d = 1;
と定義すると
__device__内でiは使えてdは使えませんでした
error: identifier "d" is undefined in device code
とエラーが出てしまいます
どうしてdouble型だとエラーになるのでしょうか？

**デフォルトの名無しさん** · 2015/09/11(金) 23:39:48.38

floatやlongは？

**デフォルトの名無しさん** · 2015/09/14(月) 22:17:35.79

floatはダメでlong intはOK
だめならだめで引数とすれば良いんですけどね
整数だけというのはcudaの仕様ですかね？

**デフォルトの名無しさん** · 2015/09/15(火) 09:01:24.15

なんでだろうな。全く調べていないので100％想像だけど、
GPU上にstatic変数が確保されているとは思えないから、
（無いとは言い切れないが）
コンパイル時に定数展開しているんだろうな。
C++の言語仕様としてconst intは定数展開していいし、
（厳密な言い方だと間違いかもしれん）
クラスのstaticメンバにしても宣言のみで定義が不要ってのがあるから、
それに則った処理なんじゃなかろうか。

**デフォルトの名無しさん** · 2015/09/15(火) 14:26:04.38

Visual Studioでエラーでた
似たような状況の人いたら教えてほしいです

環境
CPU core i5 4570
GPU GTX 980

Visual Studio 2010 Ultimate
CUDA v7.0
NSIGHT v5.0
使用言語はC
エラーが起こる状況↓
__device__ function1(){
int array1[ 1000 ];
function2( array1 );
}
__device__ function2( int *array1 ){
int array2[ 1000 ];
for( int k = 0 ; k < 1000 ; k++ ){
array1[ k ] = rand(); // rand()は何らかの乱数を返す関数
array2[ k ] = rand();
}
}
function1を呼び出したとき，時折だがarray1の値がarray2の値と同じになってしまう
エラーが起きた状況で以下のことは確認済み
・array1,2ともにグローバルメモリに確保されている
・array1とarray2のポインタは異なっている
・rand()が異なる値を返している
また，array2の宣言をfunction1で行い，function2にarray2のポインタを返すことで回避ができる

**デフォルトの名無しさん** · 2015/09/15(火) 14:29:46.25

全然知らんけど、スタックオーバーフローじゃね？
static int array2[1000];にすれば解決

**デフォルトの名無しさん** · 2015/09/17(木) 00:01:30.77

>>184
device修飾してないだけとか馬鹿なおちはないよな？

**デフォルトの名無しさん** · 2015/09/27(日) 11:58:09.30

VS2013　cuda7.0で
intelisenseがcudaの関数やthreadIdxなんかに赤線つけるんだけど
intelisenseを無効化させる方法ではなく、対応させられない？

**デフォルトの名無しさん** · 2015/09/29(火) 16:27:34.89

CUDAって余計な決まり事が多くてGLSLよりわかりにくくなってると思うんだけど

**デフォルトの名無しさん** · 2015/09/30(水) 06:44:35.73

>>191
#include<device_launch_parameters.h>
で消えない？

**デフォルトの名無しさん** · 2015/10/01(木) 00:53:18.68

cuda_header.hに以下をまとめて、これを.cuでインクルードしてるんだけど、インテリセンスがエラーとして表示したままなんだ。
また従来のcutil系の代わりのhelper関数のヘッダが開けないともなぜか出る。（プロジェクトの追加のインクルードDirには指定してあるんだが・・）
でもコンパイルはされるんだよ・・・。インテリセンスのキャッシュクリアしようと考えたんだが２０１３のメニューにはないみたいだし・・。

#include <cuda.h>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>
#include <device_functions.h>
#include <math_constants.h>

#include <helper_cuda.h>
#include <helper_math.h>

**デフォルトの名無しさん** · 2015/11/11(水) 20:55:36.03

超初歩的な質問ですがよろしければお願いします
環境 windows7 64bit Visual Studio 2013 community CUDA7.5
CUDAインストール時にはVS2013をインストール済みと判定するものの
コマンドプロンプトからnvccでサンプルを実行させると
nvcc fatal : nvcc cannot find a supported version of microsoft visual studio
とエラーが発生します
パスなどの設定の問題なのでしょうか？

**デフォルトの名無しさん** · 2015/11/11(水) 22:32:08.88

コマンドプロンプトからcl.exe叩くのと同じだろう。
VSの開発者コマンドプロンプトからやってみれば？

**デフォルトの名無しさん** · 2015/11/12(木) 06:18:25.24

Communityでもいけるんだ？
少し前に断念してProにした記憶がある

**デフォルトの名無しさん** · 2015/11/16(月) 00:30:41.16

質問です
OpenGLとCUDAを使って流体のシミュレーションをしようと考えています
OpenGLの描画とCUDAの計算を別スレッドで行ってCUDAの計算の完了を待たずに描画をしようとするとプログラムが落ちてしまいます
そもそもこういう使い方は間違いですか？
GPUを二つ使わないと不可能なのでしょうか？

**デフォルトの名無しさん** · 2015/11/16(月) 04:31:20.12

CUDAを待たずにどういったデータで描画してるの？

**デフォルトの名無しさん** · 2015/11/16(月) 11:12:07.65

正確には
　　　　　　CUDAで計算
　　　　　　　　　　↓
計算用と描画用として二つのデータをメモリにコピー
　　　　　↓　　　　　　　　↓
グラフィック描画　　CUDAで計算　　←ここを並列化したい
　　　　　　　　　　　　　　　↓
計算用と描画用として二つのデータをメモリにコピー
　　　　　↓　　　　　　　　↓
グラフィック描画　　CUDAで計算
　　　　　　　　　　　　　　　↓

といった処理の流れです
描画と計算の処理の合計が少しでも速くなれば最終的には速くなる見込みなんですが、描画とCUDAは同時にはできないのでしょうか？