このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2014/11/20(木) 23:14:46.66ID:jr3oZn27
2014/11/20(木) 23:15:41.57ID:jr3oZn27
関連サイト
CUDA
http://www.nvidia.co.jp/object/cuda_home_new_jp.html
CUDAに触れてみる
http://chihara.naist.jp/people/STAFF/imura/computer/OpenGL/cuda1/disp_content
CUDA のインストール
http://blog.goo.ne.jp/sdpaninf/e/9533f75438b670a174af345f4a33bd51
NVIDIAの「GeForce 8800 GT(G92)」と次に控える64-bit GPUアーキテクチャ
http://pc.watch.impress.co.jp/docs/2007/1031/kaigai398.htm
CUDAを使う
http://tech.ckme.co.jp/cuda.shtml
NVIDIA CUDAを弄ってみた その2
http://dvd-r.sblo.jp/article/10422960.html
CUDAベンチ
http://wataco.air-nifty.com/syacho/2008/02/cuda_2044.html
KNOPPIX for CUDA
http://www.yasuoka.mech.keio.ac.jp/cuda/
CUDA
http://www.nvidia.co.jp/object/cuda_home_new_jp.html
CUDAに触れてみる
http://chihara.naist.jp/people/STAFF/imura/computer/OpenGL/cuda1/disp_content
CUDA のインストール
http://blog.goo.ne.jp/sdpaninf/e/9533f75438b670a174af345f4a33bd51
NVIDIAの「GeForce 8800 GT(G92)」と次に控える64-bit GPUアーキテクチャ
http://pc.watch.impress.co.jp/docs/2007/1031/kaigai398.htm
CUDAを使う
http://tech.ckme.co.jp/cuda.shtml
NVIDIA CUDAを弄ってみた その2
http://dvd-r.sblo.jp/article/10422960.html
CUDAベンチ
http://wataco.air-nifty.com/syacho/2008/02/cuda_2044.html
KNOPPIX for CUDA
http://www.yasuoka.mech.keio.ac.jp/cuda/
>>1
ああ、キミ!また会えたね。久しぶりだ。どうだいあの件は?どうなったか説明したまえな。
神戸市の東、芦屋西宮の知的障害者施設で未成年利用者に性的な行為をして淫行条例で逮捕された三田谷学園元職員の堂垣直人(西宮市老松町)は、結局どういう罪になったの?
被害者家族のケアを芦屋市役所と兵庫県警はちゃんとやったのか?
差別や虐待は環境を選べない子供には関係ない。
http://www.youtube.com/watch?v=JxMzW3ZlV4g&sns=em
まあ、こっちに座れよ。ゆっくり話そうじゃないか。
ああ、キミ!また会えたね。久しぶりだ。どうだいあの件は?どうなったか説明したまえな。
神戸市の東、芦屋西宮の知的障害者施設で未成年利用者に性的な行為をして淫行条例で逮捕された三田谷学園元職員の堂垣直人(西宮市老松町)は、結局どういう罪になったの?
被害者家族のケアを芦屋市役所と兵庫県警はちゃんとやったのか?
差別や虐待は環境を選べない子供には関係ない。
http://www.youtube.com/watch?v=JxMzW3ZlV4g&sns=em
まあ、こっちに座れよ。ゆっくり話そうじゃないか。
2014/11/21(金) 07:36:45.42ID:JsFj8Vej
2014/11/21(金) 18:05:42.00ID:qiUQrZk/
syncthreadsとthreadfence_blockの違いが分かりません
syncthreadsだけで十分な気がしますが、どういう時に使い分けるのでしょうか?
syncthreadsだけで十分な気がしますが、どういう時に使い分けるのでしょうか?
2014/11/22(土) 13:34:27.11ID:Ke1g3qvZ
>>5
http://shobomaru.wordpress.com/2013/09/13/synchronizing-instruction-in-direct-compute-and-cuda/
メモリの書き込み競合防止をするかどうかの違いみたいです。
これってatomic命令より軽いのか知らん?
http://shobomaru.wordpress.com/2013/09/13/synchronizing-instruction-in-direct-compute-and-cuda/
メモリの書き込み競合防止をするかどうかの違いみたいです。
これってatomic命令より軽いのか知らん?
2014/11/22(土) 13:48:05.92ID:S8C7U0PL
2014/11/22(土) 22:18:58.72ID:Ke1g3qvZ
すみません、誤読しました。
「同じブロック内の全スレッドがこの命令にたどり着く」
まで待つかどうかの違いですね。
「同じブロック内の全スレッドがこの命令にたどり着く」
まで待つかどうかの違いですね。
2014/11/24(月) 04:18:18.83ID:qPQKDlD6
今一番コスパ高いカードってなに?
2014/11/24(月) 04:21:35.17ID:qPQKDlD6
謝罪文みても思い上がりが激しい
11デフォルトの名無しさん
2014/11/25(火) 19:26:42.72ID:kFuypilU プログラムのカーネル部分がどうしても実行されません(サンプルプログラムでは実行されていました)
どなたか原因に心当たりはありませんか?(私はありません)
ブレークポイントで確認したところカーネルの上下にあるクロックは実行されており、
カーネルだけが実行されていませんでした(カーネルの中へ入って行かないという意味です)
以下が呼び出しで、dim3はグローバルで定義してあります
dim3 blocks((num + max - 1) / max, (num + max - 1) / max);
dim3 threads(max, (1024 + max - 1) / max, 1);
void calculation(void)
{
clock_t start, end;
start = clock();
cal<<<blocks, threads>>>(con, num, points, data);
end = clock();
cout << double(end - start) / CLOCKS_PER_SEC << "\n";
}
どなたか原因に心当たりはありませんか?(私はありません)
ブレークポイントで確認したところカーネルの上下にあるクロックは実行されており、
カーネルだけが実行されていませんでした(カーネルの中へ入って行かないという意味です)
以下が呼び出しで、dim3はグローバルで定義してあります
dim3 blocks((num + max - 1) / max, (num + max - 1) / max);
dim3 threads(max, (1024 + max - 1) / max, 1);
void calculation(void)
{
clock_t start, end;
start = clock();
cal<<<blocks, threads>>>(con, num, points, data);
end = clock();
cout << double(end - start) / CLOCKS_PER_SEC << "\n";
}
2014/11/25(火) 21:02:59.83ID:N/U8okyJ
>>11
dim3構造体のメンバ変数をプリントしたらどうなりますか?
dim3構造体のメンバ変数をプリントしたらどうなりますか?
2014/11/25(火) 21:44:27.45ID:kFuypilU
>>12
>11のcalculation()の最後の行にプリントの一文を入れてみましたが
ブロックが(128,128)、スレッドが(128,8)と想定通りでした
(スレッドは1ブロック当たり1024個まで配置可能なのでギリギリセーフなはずです)
忘れていましたが、呼び出し先です
この中にブレークポイントを配置してもプログラムが止まらないという魔の領域となっています
(もちろんnsightのcuda debuggingでデバッグしています)
__global__ void cal(double con, int num, a_data *points, b_data *data)
{・・・}
>11のcalculation()の最後の行にプリントの一文を入れてみましたが
ブロックが(128,128)、スレッドが(128,8)と想定通りでした
(スレッドは1ブロック当たり1024個まで配置可能なのでギリギリセーフなはずです)
忘れていましたが、呼び出し先です
この中にブレークポイントを配置してもプログラムが止まらないという魔の領域となっています
(もちろんnsightのcuda debuggingでデバッグしています)
__global__ void cal(double con, int num, a_data *points, b_data *data)
{・・・}
2014/11/26(水) 18:34:20.92ID:cpKKMAIz
>>13
カーネルが実行されているかどうかはどうやって確認していますか?
カーネルが実行されているかどうかはどうやって確認していますか?
2014/11/26(水) 19:30:35.81ID:mOjmGjn5
2014/11/26(水) 20:04:14.26ID:qey6HT7s
おれもカーネルに入らないケース出たわ
原因調査中・・・
原因調査中・・・
2014/11/27(木) 08:04:41.88ID:7alpN+o4
>>15
CUDAのデバッガ使った事がない(ひたすらprintf)ので
一般論的な事しか言えませんが、
怪しそうな処理をコメントアウトしていったらどうでしょう?
変なメモリアクセスで落ちるとか割とありがちな気が。
CUDAのデバッガ使った事がない(ひたすらprintf)ので
一般論的な事しか言えませんが、
怪しそうな処理をコメントアウトしていったらどうでしょう?
変なメモリアクセスで落ちるとか割とありがちな気が。
2014/11/28(金) 22:55:16.84ID:JeOcX4pA
おれもカーネルに入らない
ただなぜかcygwinでコンパイルするとカーネルが起動する
なんでじゃ・・・
例のvisual studio2013もインストールしてみたいな〜
ただなぜかcygwinでコンパイルするとカーネルが起動する
なんでじゃ・・・
例のvisual studio2013もインストールしてみたいな〜
2014/11/28(金) 23:06:00.72ID:JeOcX4pA
>>18だけど
osはwindows8.1
コンパイラはcuda6.5+vs2013 express
カーネルは担当する要素を+1するだけのもの
これをコマンドプロンプトでコンパイルしてもカーネルは動かなかった(?)
動かないと判断したのは結果をmemcpyしてホスト側に返しても+1されてなかったから
もしかしたら正常にmemcpyされてないだけかもしれない
カーネルに入らない人はcygwin使ってみるといいかもね
本質的な解決にはならないけど・・・
osはwindows8.1
コンパイラはcuda6.5+vs2013 express
カーネルは担当する要素を+1するだけのもの
これをコマンドプロンプトでコンパイルしてもカーネルは動かなかった(?)
動かないと判断したのは結果をmemcpyしてホスト側に返しても+1されてなかったから
もしかしたら正常にmemcpyされてないだけかもしれない
カーネルに入らない人はcygwin使ってみるといいかもね
本質的な解決にはならないけど・・・
2014/11/30(日) 20:47:05.05ID:NdicNENH
ビジュアルプロファイラー使ってみたら。
2014/12/03(水) 14:38:19.35ID:GXBajCbw
kernel実行後にcudaGetLastError()でRCを取得
そうするとkernel実行結果が分かる
RCの数値は自分で調べてね
そうするとkernel実行結果が分かる
RCの数値は自分で調べてね
2216,21
2014/12/04(木) 22:23:47.78ID:EZ4odEf+ 21の情報は役だったかな?
自分の場合(LINUX)、RC=7(too many resources requested for launch)だったので
コンパイルオプションに -Xptxas -vを追加して使用レジスタ数を確認。
結果ハードウェアのレジスタ数を超過したためにカーネルの処理が行われなかったことが判明。
スレッドサイズを小さくして問題解決。
因みに使用レジスタはハードウェアによって変わる。
自分の場合(LINUX)、RC=7(too many resources requested for launch)だったので
コンパイルオプションに -Xptxas -vを追加して使用レジスタ数を確認。
結果ハードウェアのレジスタ数を超過したためにカーネルの処理が行われなかったことが判明。
スレッドサイズを小さくして問題解決。
因みに使用レジスタはハードウェアによって変わる。
2014/12/05(金) 14:06:24.56ID:+nFWXccn
>>22
ちょっと興味があるんですけれど、
カーネルのサイズは動的に決めてるんですか?
前にソースコードにブロック数とスレッド数をべた書きで
大きいサイズを指定したらコンパイルの段階ではじかれた事があったんで。
ちょっと興味があるんですけれど、
カーネルのサイズは動的に決めてるんですか?
前にソースコードにブロック数とスレッド数をべた書きで
大きいサイズを指定したらコンパイルの段階ではじかれた事があったんで。
24>>15
2014/12/05(金) 15:37:53.47ID:fpNGtjbn >>21
ありがとうすごく役に立ったよ
ここ最近忙しくてpc触れなかったんだ
自分も同じく「error: too many resources requested for launch」だった
原因を調べてみるよ
あと、自動でエラー内容もだせるみたいだね
http://homepage2.nifty.com/takaaki024/tips/programs/gpgpu/cuda.html
>>20
ビジュアルプロファイラーも便利そうだから調べてみるよ
ありがとうすごく役に立ったよ
ここ最近忙しくてpc触れなかったんだ
自分も同じく「error: too many resources requested for launch」だった
原因を調べてみるよ
あと、自動でエラー内容もだせるみたいだね
http://homepage2.nifty.com/takaaki024/tips/programs/gpgpu/cuda.html
>>20
ビジュアルプロファイラーも便利そうだから調べてみるよ
2014/12/07(日) 18:17:39.03ID:g9DGYGEw
x,y,zの3つの変数から成る構造体配列A,B(同じサイズ)があったとして
BからAへそれぞれ対応するデータを転送する場合
Ax,Ay,Az,Bx,By,Bzという同じサイズの構造体でない配列が6つあったとして
BからAへそれぞれ対応するデータを転送する場合(BxからAxなど)
前者と後者では後者の方が転送速度は上がりますか?
BからAへそれぞれ対応するデータを転送する場合
Ax,Ay,Az,Bx,By,Bzという同じサイズの構造体でない配列が6つあったとして
BからAへそれぞれ対応するデータを転送する場合(BxからAxなど)
前者と後者では後者の方が転送速度は上がりますか?
2014/12/08(月) 12:53:10.47ID:JbpvX5Qi
>>25
一般論としてデータ量が同じなら一回にまとめてを転送した方が効率はよくなりますね。
一般論としてデータ量が同じなら一回にまとめてを転送した方が効率はよくなりますね。
2014/12/11(木) 11:46:54.75ID:kV0/O7vj
memcpyって同期とるもんね
2014/12/12(金) 21:54:58.15ID:PdQu+k/h
kernelの中で使えるタイマー関数はありますか?
2014/12/12(金) 23:43:18.27ID:q1FKM2bt
clock()関数が使えるよ。
2014/12/13(土) 22:02:15.64ID:B9P4oQcX
2014/12/16(火) 21:07:44.74ID:6hyQD5WD
自分の持っていないGPUの共有メモリの量などの詳細を知ることはできますか?
2014/12/17(水) 08:36:19.04ID:0flByQKi
http://en.wikipedia.org/wiki/CUDA#Version_features_and_specifications
の
Maximum amount of shared memory per multiprocessor
あたりかな。
の
Maximum amount of shared memory per multiprocessor
あたりかな。
2014/12/17(水) 20:16:42.59ID:D/43rANg
2014/12/17(水) 20:55:04.06ID:vfaS5qRM
なんでCCのバージョン3.5から5.0に飛んでるの?
SDKのバージョンと合わせたのか?
SDKのバージョンと合わせたのか?
2014/12/19(金) 18:38:15.45ID:dxBCSCiu
二つ以上のGPUでVBOを使用する場合、データの流れはどうなっているのでしょう?
やはり一旦ディスプレイに接続側のGPU出力データが集められ出力されるのですか?
やはり一旦ディスプレイに接続側のGPU出力データが集められ出力されるのですか?
2014/12/20(土) 13:19:39.58ID:hlsDA/2G
プロファイラ使えばわかるんじゃない?
2014/12/20(土) 13:33:50.56ID:ARYnLzi0
>>34
ゲフォの800番台がスルーされたからかも?
ゲフォの800番台がスルーされたからかも?
3835
2014/12/20(土) 22:32:39.87ID:ovXiOWlC >>36
少し気になって質問してみただけで今自分は一つしか持っていません!
もう一つGPUを購入した時の為にvisual profilerを使えるようになっておこうと思い
ビルドした実行ファイルでプロファイラを使用してみたところ「Warning: No CUDA application was profiled, exiting」とエラーが出てしまいました
6.5のツールキットを使用して新しいセッションを作成→ビルドした実行ファイルを選択→設定はデフォルト、としたのですが何がダメだったのでしょう?
nvidiaの説明書を見てもさっぱりです。ヒントだけでもいいので教えてください
少し気になって質問してみただけで今自分は一つしか持っていません!
もう一つGPUを購入した時の為にvisual profilerを使えるようになっておこうと思い
ビルドした実行ファイルでプロファイラを使用してみたところ「Warning: No CUDA application was profiled, exiting」とエラーが出てしまいました
6.5のツールキットを使用して新しいセッションを作成→ビルドした実行ファイルを選択→設定はデフォルト、としたのですが何がダメだったのでしょう?
nvidiaの説明書を見てもさっぱりです。ヒントだけでもいいので教えてください
2014/12/21(日) 12:30:22.37ID:C04pqXsd
>>38
cudaDeviceReset() が必要のはず。
Visual Studioで「CUDA X.X Runtime」のプロジェクトを作ったら、
kernel.cu の return 0; の直前のコードに、以下のように書いてある。
// cudaDeviceReset must be called before exiting in order for profiling and
// tracing tools such as Nsight and Visual Profiler to show complete traces.
cudaStatus = cudaDeviceReset();
cudaDeviceReset() が必要のはず。
Visual Studioで「CUDA X.X Runtime」のプロジェクトを作ったら、
kernel.cu の return 0; の直前のコードに、以下のように書いてある。
// cudaDeviceReset must be called before exiting in order for profiling and
// tracing tools such as Nsight and Visual Profiler to show complete traces.
cudaStatus = cudaDeviceReset();
4035
2014/12/21(日) 22:57:23.15ID:McLr4XTH >>39
ループしているプログラムなのでエスケープキーを押すと後処理関数をatexit関数で呼び出して終了するようになっています
その後処理関数の中にcudaDeviceReset();を入れているのですがこれではダメなようです
それともcudaError_t cudaStatus = cudaDeviceReset();としてcudaStatusをどこかへ渡すのでしょうか?
ループしているプログラムなのでエスケープキーを押すと後処理関数をatexit関数で呼び出して終了するようになっています
その後処理関数の中にcudaDeviceReset();を入れているのですがこれではダメなようです
それともcudaError_t cudaStatus = cudaDeviceReset();としてcudaStatusをどこかへ渡すのでしょうか?
2014/12/22(月) 00:14:29.09ID:6pNe5aqW
2014/12/23(火) 15:40:43.82ID:bsnZ8h6l
4342
2014/12/24(水) 18:51:30.92ID:/5m6EieY 一応書いておきます
調べてみた結果、必要なものはcudaDeviceReset();を呼び出すことのみでした
自分のプログラムがプロファイル出来なかった原因は.dllが.exeと同じ場所に無かったからでした
調べてみた結果、必要なものはcudaDeviceReset();を呼び出すことのみでした
自分のプログラムがプロファイル出来なかった原因は.dllが.exeと同じ場所に無かったからでした
2014/12/24(水) 20:32:20.58ID:6fZpwBGv
並列化についての質問です
スレッドやブロックを増やしてもあまり計算速度に差が出ないのですがどのような理由が挙げられますか
スレッドやブロックを増やしてもあまり計算速度に差が出ないのですがどのような理由が挙げられますか
2014/12/24(水) 20:59:33.63ID:SBHK+d/x
どう変わると思った?計算量自体は変わらんのだぞ。
2014/12/24(水) 21:07:44.58ID:6fZpwBGv
最初は一つのスレッドにつき4回ほどループさせ計算をしていました
その後、スレッド数を2倍にしてループ数を半分の2回しました
計算速度は2倍になるだろうと予想していましたが、あまり変わりませんでした
その後、スレッド数を2倍にしてループ数を半分の2回しました
計算速度は2倍になるだろうと予想していましたが、あまり変わりませんでした
2014/12/24(水) 21:23:52.28ID:SBHK+d/x
ハード的に同時に実行できるスレッドは有限なんだから、それ以上スレッドを増やしても
物理的に速くなりようがない。
物理的に速くなりようがない。
2014/12/24(水) 22:24:43.11ID:pbZqH+Xm
プログラム上のスレッド数とハード上のスレッド数は違うと言うことですか
2014/12/24(水) 22:50:48.00ID:3hqu78L7
スレッドが多ければ、メモリアクセスでスレッドが止まっている間
cudaコアは別のスレッドを実行できる
cudaコアは別のスレッドを実行できる
2014/12/27(土) 01:57:38.03ID:u9BI3CqV
基本的にはcudaコアの数だけしか並列計算出来ないのですか
だけしかと言ってもコアは何百もありますが
だけしかと言ってもコアは何百もありますが
2014/12/27(土) 06:52:06.91ID:fxVjSbuk
ある瞬間、実際に並列に処理されているということと、理論上並列に扱われるということは別の話ですよ
上のレスにもありますが、計算速度的には実際に処理を行うヤツが足りていなければそこで頭打ちになるのは当然かと
上のレスにもありますが、計算速度的には実際に処理を行うヤツが足りていなければそこで頭打ちになるのは当然かと
2014/12/27(土) 10:09:35.39ID:W6Y2DM4+
cudaコアの数以上にスレッドを生成する利点は
メモリアクセスの遅延の隠蔽にある
メモリアクセスの遅延の隠蔽にある
2014/12/28(日) 20:39:13.97ID:52BL0aAq
550TIで使っていたプログラムを750TIで走らせて見たところ1.5倍ほど遅くなってしまいました
何故でしょうか?
何故でしょうか?
2014/12/29(月) 02:19:31.23ID:YUQudPNs
腐ってやがる。早すぎたんだ
2014/12/29(月) 09:47:06.28ID:Sx0YYE+e
>>53
一度のカーネル実行で処理するデータ量を増やしたら改善しませんか?
一度のカーネル実行で処理するデータ量を増やしたら改善しませんか?
2014/12/29(月) 09:51:11.07ID:Sx0YYE+e
>>53
maxwellは倍精度がそーとーしょぼいので、
cuda-zかなんかで性能をチェックした方がよいかもしれません。
http://sourceforge.jp/projects/sfnet_cuda-z/
maxwellは倍精度がそーとーしょぼいので、
cuda-zかなんかで性能をチェックした方がよいかもしれません。
http://sourceforge.jp/projects/sfnet_cuda-z/
2014/12/29(月) 12:03:33.25ID:oV4aoJAy
2014/12/29(月) 12:51:57.86ID:oV4aoJAy
コア数が3倍になっていることを考慮すればそれでも遅い気がしますね
2014/12/31(水) 21:08:03.80ID:3b0Wn462
CUDA初学者です
cudaBindTexture2D()のpitchとoffsetは何を表しているのですか?
手元の書籍のサンプルから推測するに
pitchは一次元の配列を二次元のテクスチャに入れる場合の折り返し地点のようなもの
でしょうか?それならwidthとhighだけでも十分ではないかと言う疑問も出てきます。
そして一番の疑問がテクスチャメモリの存在です。
いくら二次元、三次元配列が使えるとは言え512バイトしか容量のないテクスチャメモリは64キロバイトもあるコンスタントメモリに劣るのではないでしょうか?
長々と失礼いたしましたm(_ _)m
cudaBindTexture2D()のpitchとoffsetは何を表しているのですか?
手元の書籍のサンプルから推測するに
pitchは一次元の配列を二次元のテクスチャに入れる場合の折り返し地点のようなもの
でしょうか?それならwidthとhighだけでも十分ではないかと言う疑問も出てきます。
そして一番の疑問がテクスチャメモリの存在です。
いくら二次元、三次元配列が使えるとは言え512バイトしか容量のないテクスチャメモリは64キロバイトもあるコンスタントメモリに劣るのではないでしょうか?
長々と失礼いたしましたm(_ _)m
2014/12/31(水) 23:07:39.94ID:WrP28EMy
>>52
それじゃあストリームは何のためにあるのさ?
それじゃあストリームは何のためにあるのさ?
2015/01/01(木) 12:48:51.81ID:82JnHkZd
2015/01/02(金) 01:42:39.20ID:aooXGYY5
>>61
なるほどね
なるほどね
2015/01/03(土) 13:07:05.02ID:yWVdPt25
970/980は確かにゲームのパフォーマンスは上がってるが帯域減ってるから
GPGPU用途では微妙になってしまったな
GPGPU用途では微妙になってしまったな
2015/01/09(金) 00:33:57.02ID:Iq4Pw+IC
Toolkit 6.0 + VS 2008から
Toolkit 6.5 + VS 2013に移行したら
遅くなっちゃったんだけど、そういう人ほかにいる?
Toolkit 6.5 + VS 2013に移行したら
遅くなっちゃったんだけど、そういう人ほかにいる?
2015/01/12(月) 00:15:12.48ID:crrCnhEj
CUDAの日本語ページって4.0とかの古い情報ばっかりじゃね
6.0/6.5では全然仕様が違ってて全然使えない
6.0/6.5では全然仕様が違ってて全然使えない
66デフォルトの名無しさん
2015/01/16(金) 07:53:04.52ID:IHSf0jGJ CUDA7.0 RC
2015/01/16(金) 09:02:56.43ID:VQ2eHsT0
もうCUDAも成熟してしまった感があるなあ。
2015/01/25(日) 10:58:33.86ID:m2kue9j8
970の影響でGPUメモリテストが流行っているね。
2015/02/06(金) 21:35:53.90ID:72/Q/UeS
ここ何週間かデバッグを続けているのですが原因を突き止めることが出来ません
初学者がはまりやすいミスやデバッグのこつなんかを教えてもらえませんか?
明らかなバグなら原因を突き止めやすいのですが、かなり微妙なバグなのでなかなか見つけられず困っています
初学者がはまりやすいミスやデバッグのこつなんかを教えてもらえませんか?
明らかなバグなら原因を突き止めやすいのですが、かなり微妙なバグなのでなかなか見つけられず困っています
2015/02/07(土) 00:48:46.19ID:OS4q1AxS
printfとかで要素を表示してデバックしてみれば?
2015/02/07(土) 13:10:14.61ID:4cvxubK6
syncthreadとか?
if文の中に書いてたりすると同期ずれが起こったりするなー
他には確保してないメモリへのアクセスとか?
>>70の通り、printfとかで、配列の添字とか値を表示するしかないのかな?
if文の中に書いてたりすると同期ずれが起こったりするなー
他には確保してないメモリへのアクセスとか?
>>70の通り、printfとかで、配列の添字とか値を表示するしかないのかな?
2015/02/08(日) 15:23:01.85ID:E04CIgi2
2015/02/08(日) 15:48:00.96ID:E04CIgi2
変数に入れると精度は落ちますね
お騒がせしました
お騒がせしました
2015/02/08(日) 21:32:20.44ID:BpjOkBmf
2015/02/08(日) 22:56:08.44ID:KLuvC02r
2015/02/09(月) 10:20:08.08ID:pN+UjOmC
>>72
fpが(a+b)+c != a+(b+c)を知らないとかではないよね?
fpが(a+b)+c != a+(b+c)を知らないとかではないよね?
2015/02/09(月) 23:18:25.64ID:QR2S1do8
volatile使うとか?
変数の宣言とか関数の引数の型の前にvolatileをいれると・・・
変数の宣言とか関数の引数の型の前にvolatileをいれると・・・
2015/02/17(火) 21:40:32.15ID:K8c74Rhe
>>53
750TIでGPGPUって考えていたけど、750TIって2世代前の同ランクぐらいの550TIより性能悪いのか。
一般ゲーム用VGAではGPGPU能力ってたいして要らないから落としたのかな
いろいろなゲーム用VGAの単精度、倍精度の能力が載ったホームページ教えてください
750TIでGPGPUって考えていたけど、750TIって2世代前の同ランクぐらいの550TIより性能悪いのか。
一般ゲーム用VGAではGPGPU能力ってたいして要らないから落としたのかな
いろいろなゲーム用VGAの単精度、倍精度の能力が載ったホームページ教えてください
2015/02/19(木) 11:23:20.97ID:aqLRWkl1
質問☆
cudaってドライバインストして、画像表示をcuda設定にするだけでは
効果ない?
cudaってドライバインストして、画像表示をcuda設定にするだけでは
効果ない?
2015/02/19(木) 14:30:54.02ID:iKdaAUCi
>>78
FP32とFP64の一覧表ならこれとか。
ttp://www.geeks3d.com/20140305/amd-radeon-and-nvidia-geforce-fp32-fp64-gflops-table-computing/
ボトルネックになりうる点は他にもあるから、Compute Capability毎の仕様の違いも結構重要だと思う。
FP32とFP64の一覧表ならこれとか。
ttp://www.geeks3d.com/20140305/amd-radeon-and-nvidia-geforce-fp32-fp64-gflops-table-computing/
ボトルネックになりうる点は他にもあるから、Compute Capability毎の仕様の違いも結構重要だと思う。
2015/02/19(木) 23:45:36.57ID:ngPIgbTR
maxwellさん自体にに倍精度が無いようだから
一世代前のkeplerさんか次世代のpascalさんを選べば良いんじゃないかな
一世代前のkeplerさんか次世代のpascalさんを選べば良いんじゃないかな
2015/02/19(木) 23:54:19.28ID:Lt8lBsrZ
2015/02/20(金) 04:05:21.12ID:fPdGyDpl
84デフォルトの名無しさん
2015/02/20(金) 08:52:57.87ID:xG3c1huj keplerはinteger bit shiftが弱いGK110(tesla)以外は
maxwellはkepler比で2倍のスループットになってる
maxwellはkepler比で2倍のスループットになってる
2015/02/22(日) 18:45:23.46ID:JhGx5uct
適当なプログラム作ってみても
maxwellの方がはやいね
shared memoryが倍になったのも大きいなぁ
maxwellの方がはやいね
shared memoryが倍になったのも大きいなぁ
86名無し
2015/03/07(土) 10:52:38.85ID:UBzBpgz5 スレチなら申し訳ない
当方、モバイルでCUDAを使用したいけど
安い方法はどれが良いと思います?
(速度はそこそこで良く、外でテストして
パワーがいる場合はデスクトップを使用するつもり)
モバイル用は安く上げたいので
Chromebookかタブレットで探した方が良いですかね?
奇をてらってJetsonのtk1にACアダプタ用のバッテリーを積むとか
(可能かどうかわからないですが)
ちなみにゲームはやるつもりありません。
当方、モバイルでCUDAを使用したいけど
安い方法はどれが良いと思います?
(速度はそこそこで良く、外でテストして
パワーがいる場合はデスクトップを使用するつもり)
モバイル用は安く上げたいので
Chromebookかタブレットで探した方が良いですかね?
奇をてらってJetsonのtk1にACアダプタ用のバッテリーを積むとか
(可能かどうかわからないですが)
ちなみにゲームはやるつもりありません。
2015/03/07(土) 20:42:36.10ID:CzdLWIdo
thinkpad w550sのquadro K620mはダメなの?
ノートパソコンだよ
ノートパソコンだよ
88デフォルトの名無しさん
2015/03/08(日) 10:25:35.13ID:TYY6zzsE レスありがとうございます
安くあげたいので予算的に厳しいかと
最初だけ計算量は多いですけど
要所ごとに定数化すれば、その後は計算量がへるかと思っているので外での使用は少ないデータ量でプログラムチェックができればいいかなと考えています。
K1がのったタブレットも安いのでそこから考えてみようと思います
ありがとうございました
安くあげたいので予算的に厳しいかと
最初だけ計算量は多いですけど
要所ごとに定数化すれば、その後は計算量がへるかと思っているので外での使用は少ないデータ量でプログラムチェックができればいいかなと考えています。
K1がのったタブレットも安いのでそこから考えてみようと思います
ありがとうございました
2015/03/18(水) 02:36:15.45ID:jKTvW/7W
うわ、titan xの倍精度、しょぼ過ぎ・・・。
https://twitter.com/search?q=titan%20x&src=typd
https://twitter.com/search?q=titan%20x&src=typd
2015/03/18(水) 09:22:22.19ID:33RtPIwm
単精度が7TFLOPS、倍精度が0.2TFLOPSで良いんだよな??
詳しい事は良く分からないんだけど倍精度ってそんなに使わないものなの?
PhysXっていう物理エンジン使ったりするのに
詳しい事は良く分からないんだけど倍精度ってそんなに使わないものなの?
PhysXっていう物理エンジン使ったりするのに
2015/03/18(水) 10:23:22.30ID:C11qPS4w
92デフォルトの名無しさん
2015/03/19(木) 07:37:41.52ID:M0RYJxHF https://developer.nvidia.com/cuda-downloads
CUDA 7 Downloads
CUDA 7 Downloads
93デフォルトの名無しさん
2015/03/19(木) 07:39:40.96ID:M0RYJxHF Dear Developer,
The CUDA? 7.0 Production Release is now available to the public. Run your application faster with this latest version of the CUDA Toolkit. It features 64-bit ARM support and the simplified programming model enabled by Unified Memory. Highlights include:
New cuSOLVER library
? Accelerates key LAPACK routines, 12x faster direct sparse solvers
New C++11 language features
? Increases productivity with lambdas, auto, and more
Runtime Compilation
? Enables highly optimized kernels to be generated at runtime
Download the CUDA 7 Production Release at www.nvidia.com/getcuda
Learn more about CUDA 7 by attending these webinars:
CUDA 7 Feature Review
Date/Time: Friday, April 10th at 10:00 AM PDT
Register: https://cc.readytalk.com/r/4b0lwgeqgzrk&eom
CUDA 7 Performance Overview
Date/Time: Wednesday, April 15th at 11:30 AM PDT
Register: https://cc.readytalk.com/r/empyu1qc65l6&eom
Best regards,
Nadeem Mohammad
NVIDIA Developer Relations Team
The CUDA? 7.0 Production Release is now available to the public. Run your application faster with this latest version of the CUDA Toolkit. It features 64-bit ARM support and the simplified programming model enabled by Unified Memory. Highlights include:
New cuSOLVER library
? Accelerates key LAPACK routines, 12x faster direct sparse solvers
New C++11 language features
? Increases productivity with lambdas, auto, and more
Runtime Compilation
? Enables highly optimized kernels to be generated at runtime
Download the CUDA 7 Production Release at www.nvidia.com/getcuda
Learn more about CUDA 7 by attending these webinars:
CUDA 7 Feature Review
Date/Time: Friday, April 10th at 10:00 AM PDT
Register: https://cc.readytalk.com/r/4b0lwgeqgzrk&eom
CUDA 7 Performance Overview
Date/Time: Wednesday, April 15th at 11:30 AM PDT
Register: https://cc.readytalk.com/r/empyu1qc65l6&eom
Best regards,
Nadeem Mohammad
NVIDIA Developer Relations Team
2015/03/24(火) 05:27:05.96ID:7oVKj7vD
CUDAがgcc4.8でうまく動かない問題ってもう解決したの?
2015/03/25(水) 15:16:29.51ID:9JMqB0KU
うん
2015/03/25(水) 21:19:25.13ID:WRhchtaz
Driver API使ってコンパイル済みのptxを実行するプログラムを作ろうとしているんだけど、
64bitのホストコードから32bitのptxを実行することってできるんだっけ?
64bitのホストコードから32bitのptxを実行することってできるんだっけ?
2015/04/10(金) 02:15:05.70ID:C60yUXFO
nvidia-smiでutilizationやmemory usageを確認できると思うのですが、全てのパラメータを確認できるのはtesla、quadro、Titanです。
Geforce系のGPUで、utilization、各プロセスのmemory usage等を確認するにはどうすればいいでしょうか?
Geforce系のGPUで、utilization、各プロセスのmemory usage等を確認するにはどうすればいいでしょうか?
2015/04/10(金) 07:26:02.69ID:nzpIVsUT
2015/04/12(日) 23:53:21.24ID:g4+PudFo
古いGeforceでもOpenCL1.1のプログラムなら動くのでしょうか
100デフォルトの名無しさん
2015/04/13(月) 00:39:39.73ID:NPPeHBbv 少なくともCUDA対応している必要があるが、基本的にGeForce8シリーズ以降で動くはず。
特定の機種について知りたいならGeeks3Dのデータベース検索してみるとか。
しかしスレチ。
特定の機種について知りたいならGeeks3Dのデータベース検索してみるとか。
しかしスレチ。
101デフォルトの名無しさん
2015/04/13(月) 16:29:29.85ID:EBHbrztF thinkpadに入ってるquadro K620Mはcudaのサポート無いんだな
インストールしようとしてワラタ
インストールしようとしてワラタ
■ このスレッドは過去ログ倉庫に格納されています
