このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2014/11/20(木) 23:14:46.66ID:jr3oZn27
2014/11/20(木) 23:15:41.57ID:jr3oZn27
関連サイト
CUDA
http://www.nvidia.co.jp/object/cuda_home_new_jp.html
CUDAに触れてみる
http://chihara.naist.jp/people/STAFF/imura/computer/OpenGL/cuda1/disp_content
CUDA のインストール
http://blog.goo.ne.jp/sdpaninf/e/9533f75438b670a174af345f4a33bd51
NVIDIAの「GeForce 8800 GT(G92)」と次に控える64-bit GPUアーキテクチャ
http://pc.watch.impress.co.jp/docs/2007/1031/kaigai398.htm
CUDAを使う
http://tech.ckme.co.jp/cuda.shtml
NVIDIA CUDAを弄ってみた その2
http://dvd-r.sblo.jp/article/10422960.html
CUDAベンチ
http://wataco.air-nifty.com/syacho/2008/02/cuda_2044.html
KNOPPIX for CUDA
http://www.yasuoka.mech.keio.ac.jp/cuda/
CUDA
http://www.nvidia.co.jp/object/cuda_home_new_jp.html
CUDAに触れてみる
http://chihara.naist.jp/people/STAFF/imura/computer/OpenGL/cuda1/disp_content
CUDA のインストール
http://blog.goo.ne.jp/sdpaninf/e/9533f75438b670a174af345f4a33bd51
NVIDIAの「GeForce 8800 GT(G92)」と次に控える64-bit GPUアーキテクチャ
http://pc.watch.impress.co.jp/docs/2007/1031/kaigai398.htm
CUDAを使う
http://tech.ckme.co.jp/cuda.shtml
NVIDIA CUDAを弄ってみた その2
http://dvd-r.sblo.jp/article/10422960.html
CUDAベンチ
http://wataco.air-nifty.com/syacho/2008/02/cuda_2044.html
KNOPPIX for CUDA
http://www.yasuoka.mech.keio.ac.jp/cuda/
>>1
ああ、キミ!また会えたね。久しぶりだ。どうだいあの件は?どうなったか説明したまえな。
神戸市の東、芦屋西宮の知的障害者施設で未成年利用者に性的な行為をして淫行条例で逮捕された三田谷学園元職員の堂垣直人(西宮市老松町)は、結局どういう罪になったの?
被害者家族のケアを芦屋市役所と兵庫県警はちゃんとやったのか?
差別や虐待は環境を選べない子供には関係ない。
http://www.youtube.com/watch?v=JxMzW3ZlV4g&sns=em
まあ、こっちに座れよ。ゆっくり話そうじゃないか。
ああ、キミ!また会えたね。久しぶりだ。どうだいあの件は?どうなったか説明したまえな。
神戸市の東、芦屋西宮の知的障害者施設で未成年利用者に性的な行為をして淫行条例で逮捕された三田谷学園元職員の堂垣直人(西宮市老松町)は、結局どういう罪になったの?
被害者家族のケアを芦屋市役所と兵庫県警はちゃんとやったのか?
差別や虐待は環境を選べない子供には関係ない。
http://www.youtube.com/watch?v=JxMzW3ZlV4g&sns=em
まあ、こっちに座れよ。ゆっくり話そうじゃないか。
2014/11/21(金) 07:36:45.42ID:JsFj8Vej
2014/11/21(金) 18:05:42.00ID:qiUQrZk/
syncthreadsとthreadfence_blockの違いが分かりません
syncthreadsだけで十分な気がしますが、どういう時に使い分けるのでしょうか?
syncthreadsだけで十分な気がしますが、どういう時に使い分けるのでしょうか?
2014/11/22(土) 13:34:27.11ID:Ke1g3qvZ
>>5
http://shobomaru.wordpress.com/2013/09/13/synchronizing-instruction-in-direct-compute-and-cuda/
メモリの書き込み競合防止をするかどうかの違いみたいです。
これってatomic命令より軽いのか知らん?
http://shobomaru.wordpress.com/2013/09/13/synchronizing-instruction-in-direct-compute-and-cuda/
メモリの書き込み競合防止をするかどうかの違いみたいです。
これってatomic命令より軽いのか知らん?
2014/11/22(土) 13:48:05.92ID:S8C7U0PL
2014/11/22(土) 22:18:58.72ID:Ke1g3qvZ
すみません、誤読しました。
「同じブロック内の全スレッドがこの命令にたどり着く」
まで待つかどうかの違いですね。
「同じブロック内の全スレッドがこの命令にたどり着く」
まで待つかどうかの違いですね。
2014/11/24(月) 04:18:18.83ID:qPQKDlD6
今一番コスパ高いカードってなに?
2014/11/24(月) 04:21:35.17ID:qPQKDlD6
謝罪文みても思い上がりが激しい
11デフォルトの名無しさん
2014/11/25(火) 19:26:42.72ID:kFuypilU プログラムのカーネル部分がどうしても実行されません(サンプルプログラムでは実行されていました)
どなたか原因に心当たりはありませんか?(私はありません)
ブレークポイントで確認したところカーネルの上下にあるクロックは実行されており、
カーネルだけが実行されていませんでした(カーネルの中へ入って行かないという意味です)
以下が呼び出しで、dim3はグローバルで定義してあります
dim3 blocks((num + max - 1) / max, (num + max - 1) / max);
dim3 threads(max, (1024 + max - 1) / max, 1);
void calculation(void)
{
clock_t start, end;
start = clock();
cal<<<blocks, threads>>>(con, num, points, data);
end = clock();
cout << double(end - start) / CLOCKS_PER_SEC << "\n";
}
どなたか原因に心当たりはありませんか?(私はありません)
ブレークポイントで確認したところカーネルの上下にあるクロックは実行されており、
カーネルだけが実行されていませんでした(カーネルの中へ入って行かないという意味です)
以下が呼び出しで、dim3はグローバルで定義してあります
dim3 blocks((num + max - 1) / max, (num + max - 1) / max);
dim3 threads(max, (1024 + max - 1) / max, 1);
void calculation(void)
{
clock_t start, end;
start = clock();
cal<<<blocks, threads>>>(con, num, points, data);
end = clock();
cout << double(end - start) / CLOCKS_PER_SEC << "\n";
}
2014/11/25(火) 21:02:59.83ID:N/U8okyJ
>>11
dim3構造体のメンバ変数をプリントしたらどうなりますか?
dim3構造体のメンバ変数をプリントしたらどうなりますか?
2014/11/25(火) 21:44:27.45ID:kFuypilU
>>12
>11のcalculation()の最後の行にプリントの一文を入れてみましたが
ブロックが(128,128)、スレッドが(128,8)と想定通りでした
(スレッドは1ブロック当たり1024個まで配置可能なのでギリギリセーフなはずです)
忘れていましたが、呼び出し先です
この中にブレークポイントを配置してもプログラムが止まらないという魔の領域となっています
(もちろんnsightのcuda debuggingでデバッグしています)
__global__ void cal(double con, int num, a_data *points, b_data *data)
{・・・}
>11のcalculation()の最後の行にプリントの一文を入れてみましたが
ブロックが(128,128)、スレッドが(128,8)と想定通りでした
(スレッドは1ブロック当たり1024個まで配置可能なのでギリギリセーフなはずです)
忘れていましたが、呼び出し先です
この中にブレークポイントを配置してもプログラムが止まらないという魔の領域となっています
(もちろんnsightのcuda debuggingでデバッグしています)
__global__ void cal(double con, int num, a_data *points, b_data *data)
{・・・}
2014/11/26(水) 18:34:20.92ID:cpKKMAIz
>>13
カーネルが実行されているかどうかはどうやって確認していますか?
カーネルが実行されているかどうかはどうやって確認していますか?
2014/11/26(水) 19:30:35.81ID:mOjmGjn5
2014/11/26(水) 20:04:14.26ID:qey6HT7s
おれもカーネルに入らないケース出たわ
原因調査中・・・
原因調査中・・・
2014/11/27(木) 08:04:41.88ID:7alpN+o4
>>15
CUDAのデバッガ使った事がない(ひたすらprintf)ので
一般論的な事しか言えませんが、
怪しそうな処理をコメントアウトしていったらどうでしょう?
変なメモリアクセスで落ちるとか割とありがちな気が。
CUDAのデバッガ使った事がない(ひたすらprintf)ので
一般論的な事しか言えませんが、
怪しそうな処理をコメントアウトしていったらどうでしょう?
変なメモリアクセスで落ちるとか割とありがちな気が。
2014/11/28(金) 22:55:16.84ID:JeOcX4pA
おれもカーネルに入らない
ただなぜかcygwinでコンパイルするとカーネルが起動する
なんでじゃ・・・
例のvisual studio2013もインストールしてみたいな〜
ただなぜかcygwinでコンパイルするとカーネルが起動する
なんでじゃ・・・
例のvisual studio2013もインストールしてみたいな〜
2014/11/28(金) 23:06:00.72ID:JeOcX4pA
>>18だけど
osはwindows8.1
コンパイラはcuda6.5+vs2013 express
カーネルは担当する要素を+1するだけのもの
これをコマンドプロンプトでコンパイルしてもカーネルは動かなかった(?)
動かないと判断したのは結果をmemcpyしてホスト側に返しても+1されてなかったから
もしかしたら正常にmemcpyされてないだけかもしれない
カーネルに入らない人はcygwin使ってみるといいかもね
本質的な解決にはならないけど・・・
osはwindows8.1
コンパイラはcuda6.5+vs2013 express
カーネルは担当する要素を+1するだけのもの
これをコマンドプロンプトでコンパイルしてもカーネルは動かなかった(?)
動かないと判断したのは結果をmemcpyしてホスト側に返しても+1されてなかったから
もしかしたら正常にmemcpyされてないだけかもしれない
カーネルに入らない人はcygwin使ってみるといいかもね
本質的な解決にはならないけど・・・
2014/11/30(日) 20:47:05.05ID:NdicNENH
ビジュアルプロファイラー使ってみたら。
2014/12/03(水) 14:38:19.35ID:GXBajCbw
kernel実行後にcudaGetLastError()でRCを取得
そうするとkernel実行結果が分かる
RCの数値は自分で調べてね
そうするとkernel実行結果が分かる
RCの数値は自分で調べてね
2216,21
2014/12/04(木) 22:23:47.78ID:EZ4odEf+ 21の情報は役だったかな?
自分の場合(LINUX)、RC=7(too many resources requested for launch)だったので
コンパイルオプションに -Xptxas -vを追加して使用レジスタ数を確認。
結果ハードウェアのレジスタ数を超過したためにカーネルの処理が行われなかったことが判明。
スレッドサイズを小さくして問題解決。
因みに使用レジスタはハードウェアによって変わる。
自分の場合(LINUX)、RC=7(too many resources requested for launch)だったので
コンパイルオプションに -Xptxas -vを追加して使用レジスタ数を確認。
結果ハードウェアのレジスタ数を超過したためにカーネルの処理が行われなかったことが判明。
スレッドサイズを小さくして問題解決。
因みに使用レジスタはハードウェアによって変わる。
2014/12/05(金) 14:06:24.56ID:+nFWXccn
>>22
ちょっと興味があるんですけれど、
カーネルのサイズは動的に決めてるんですか?
前にソースコードにブロック数とスレッド数をべた書きで
大きいサイズを指定したらコンパイルの段階ではじかれた事があったんで。
ちょっと興味があるんですけれど、
カーネルのサイズは動的に決めてるんですか?
前にソースコードにブロック数とスレッド数をべた書きで
大きいサイズを指定したらコンパイルの段階ではじかれた事があったんで。
24>>15
2014/12/05(金) 15:37:53.47ID:fpNGtjbn >>21
ありがとうすごく役に立ったよ
ここ最近忙しくてpc触れなかったんだ
自分も同じく「error: too many resources requested for launch」だった
原因を調べてみるよ
あと、自動でエラー内容もだせるみたいだね
http://homepage2.nifty.com/takaaki024/tips/programs/gpgpu/cuda.html
>>20
ビジュアルプロファイラーも便利そうだから調べてみるよ
ありがとうすごく役に立ったよ
ここ最近忙しくてpc触れなかったんだ
自分も同じく「error: too many resources requested for launch」だった
原因を調べてみるよ
あと、自動でエラー内容もだせるみたいだね
http://homepage2.nifty.com/takaaki024/tips/programs/gpgpu/cuda.html
>>20
ビジュアルプロファイラーも便利そうだから調べてみるよ
2014/12/07(日) 18:17:39.03ID:g9DGYGEw
x,y,zの3つの変数から成る構造体配列A,B(同じサイズ)があったとして
BからAへそれぞれ対応するデータを転送する場合
Ax,Ay,Az,Bx,By,Bzという同じサイズの構造体でない配列が6つあったとして
BからAへそれぞれ対応するデータを転送する場合(BxからAxなど)
前者と後者では後者の方が転送速度は上がりますか?
BからAへそれぞれ対応するデータを転送する場合
Ax,Ay,Az,Bx,By,Bzという同じサイズの構造体でない配列が6つあったとして
BからAへそれぞれ対応するデータを転送する場合(BxからAxなど)
前者と後者では後者の方が転送速度は上がりますか?
2014/12/08(月) 12:53:10.47ID:JbpvX5Qi
>>25
一般論としてデータ量が同じなら一回にまとめてを転送した方が効率はよくなりますね。
一般論としてデータ量が同じなら一回にまとめてを転送した方が効率はよくなりますね。
2014/12/11(木) 11:46:54.75ID:kV0/O7vj
memcpyって同期とるもんね
2014/12/12(金) 21:54:58.15ID:PdQu+k/h
kernelの中で使えるタイマー関数はありますか?
2014/12/12(金) 23:43:18.27ID:q1FKM2bt
clock()関数が使えるよ。
2014/12/13(土) 22:02:15.64ID:B9P4oQcX
2014/12/16(火) 21:07:44.74ID:6hyQD5WD
自分の持っていないGPUの共有メモリの量などの詳細を知ることはできますか?
2014/12/17(水) 08:36:19.04ID:0flByQKi
http://en.wikipedia.org/wiki/CUDA#Version_features_and_specifications
の
Maximum amount of shared memory per multiprocessor
あたりかな。
の
Maximum amount of shared memory per multiprocessor
あたりかな。
2014/12/17(水) 20:16:42.59ID:D/43rANg
2014/12/17(水) 20:55:04.06ID:vfaS5qRM
なんでCCのバージョン3.5から5.0に飛んでるの?
SDKのバージョンと合わせたのか?
SDKのバージョンと合わせたのか?
2014/12/19(金) 18:38:15.45ID:dxBCSCiu
二つ以上のGPUでVBOを使用する場合、データの流れはどうなっているのでしょう?
やはり一旦ディスプレイに接続側のGPU出力データが集められ出力されるのですか?
やはり一旦ディスプレイに接続側のGPU出力データが集められ出力されるのですか?
2014/12/20(土) 13:19:39.58ID:hlsDA/2G
プロファイラ使えばわかるんじゃない?
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- なぜリベラルは人気がないのか 斎藤幸平さんが指し示す未来への道筋:朝日新聞 ★4 [少考さん★]
- 鈴木農相「おこめ券はお米しか買えないわけではない。例えば卵、味噌、しょうゆ、こうした購入に利用可能」 ★3 [Hitzeschleier★]
- 三谷幸喜氏 温泉嫌いの理由を熱弁「知らない人の股間を素通りしたお湯なんですよ」「おじさんの肛門を通り過ぎたお湯が自分の前に」 [Ailuropoda melanoleuca★]
- 「ヒートテックに寿命があります」ユニクロが明かした“3年劣化”の理由 暖かさが落ちる意外な原因とは [ぐれ★]
- 【名古屋】警備員にけがをさせ逃走 刻みネギのパックをエコバッグに入れる姿を見て声をかけたところ… 女は20代ぐらい 南へ逃走 [煮卵★]
- サナエノミクスについて力説 積極的な財政出動で「所得増える 消費マインド上がる 税収増える」片山さつき財務大臣 [少考さん★]
- 他サポ2025-301
- 他サポ2025-300
- 阪神競馬5回4日目 阪神JF
- 【NJPW】新日本プロレスワールド part.2431
- 第80回甲子園ボウル 立命館大学 vs 関西学院大学★1
- 中山競馬5回4日目その2カペラエス
- 【神展開】安倍晋三「高市早苗からわーくにを救うために私は地獄からカムバックいたしました」 [517791167]
- 喜多川海夢(その着せ替え人形は恋をする)純白ドレスでプライズのフィギュア化キタ━━━━(゚∀゚)━━━━!!​ [395563314]
- 喜多川海夢​(その着せ替え人形は恋をする)純白ドレスでプライズのフィギュア化キタ━━━━(゚∀゚)━━━━!!​ [395563314]
- 喜多川海夢(その着せ替え人形は恋をする)水着シーンのフィギュア化キタ━━━━(゚∀゚)━━━━! [723839345]
- ワイ32歳Fラン文系卒都内「年収550万です」←どうなん?
- あ、出ちゃう、イクッ😫💦🏡
