このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
探検
【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net
レス数が1000を超えています。これ以上書き込みはできません。
2014/11/20(木) 23:14:46.66ID:jr3oZn27
2014/11/20(木) 23:15:41.57ID:jr3oZn27
関連サイト
CUDA
http://www.nvidia.co.jp/object/cuda_home_new_jp.html
CUDAに触れてみる
http://chihara.naist.jp/people/STAFF/imura/computer/OpenGL/cuda1/disp_content
CUDA のインストール
http://blog.goo.ne.jp/sdpaninf/e/9533f75438b670a174af345f4a33bd51
NVIDIAの「GeForce 8800 GT(G92)」と次に控える64-bit GPUアーキテクチャ
http://pc.watch.impress.co.jp/docs/2007/1031/kaigai398.htm
CUDAを使う
http://tech.ckme.co.jp/cuda.shtml
NVIDIA CUDAを弄ってみた その2
http://dvd-r.sblo.jp/article/10422960.html
CUDAベンチ
http://wataco.air-nifty.com/syacho/2008/02/cuda_2044.html
KNOPPIX for CUDA
http://www.yasuoka.mech.keio.ac.jp/cuda/
CUDA
http://www.nvidia.co.jp/object/cuda_home_new_jp.html
CUDAに触れてみる
http://chihara.naist.jp/people/STAFF/imura/computer/OpenGL/cuda1/disp_content
CUDA のインストール
http://blog.goo.ne.jp/sdpaninf/e/9533f75438b670a174af345f4a33bd51
NVIDIAの「GeForce 8800 GT(G92)」と次に控える64-bit GPUアーキテクチャ
http://pc.watch.impress.co.jp/docs/2007/1031/kaigai398.htm
CUDAを使う
http://tech.ckme.co.jp/cuda.shtml
NVIDIA CUDAを弄ってみた その2
http://dvd-r.sblo.jp/article/10422960.html
CUDAベンチ
http://wataco.air-nifty.com/syacho/2008/02/cuda_2044.html
KNOPPIX for CUDA
http://www.yasuoka.mech.keio.ac.jp/cuda/
>>1
ああ、キミ!また会えたね。久しぶりだ。どうだいあの件は?どうなったか説明したまえな。
神戸市の東、芦屋西宮の知的障害者施設で未成年利用者に性的な行為をして淫行条例で逮捕された三田谷学園元職員の堂垣直人(西宮市老松町)は、結局どういう罪になったの?
被害者家族のケアを芦屋市役所と兵庫県警はちゃんとやったのか?
差別や虐待は環境を選べない子供には関係ない。
http://www.youtube.com/watch?v=JxMzW3ZlV4g&sns=em
まあ、こっちに座れよ。ゆっくり話そうじゃないか。
ああ、キミ!また会えたね。久しぶりだ。どうだいあの件は?どうなったか説明したまえな。
神戸市の東、芦屋西宮の知的障害者施設で未成年利用者に性的な行為をして淫行条例で逮捕された三田谷学園元職員の堂垣直人(西宮市老松町)は、結局どういう罪になったの?
被害者家族のケアを芦屋市役所と兵庫県警はちゃんとやったのか?
差別や虐待は環境を選べない子供には関係ない。
http://www.youtube.com/watch?v=JxMzW3ZlV4g&sns=em
まあ、こっちに座れよ。ゆっくり話そうじゃないか。
2014/11/21(金) 07:36:45.42ID:JsFj8Vej
2014/11/21(金) 18:05:42.00ID:qiUQrZk/
syncthreadsとthreadfence_blockの違いが分かりません
syncthreadsだけで十分な気がしますが、どういう時に使い分けるのでしょうか?
syncthreadsだけで十分な気がしますが、どういう時に使い分けるのでしょうか?
2014/11/22(土) 13:34:27.11ID:Ke1g3qvZ
>>5
http://shobomaru.wordpress.com/2013/09/13/synchronizing-instruction-in-direct-compute-and-cuda/
メモリの書き込み競合防止をするかどうかの違いみたいです。
これってatomic命令より軽いのか知らん?
http://shobomaru.wordpress.com/2013/09/13/synchronizing-instruction-in-direct-compute-and-cuda/
メモリの書き込み競合防止をするかどうかの違いみたいです。
これってatomic命令より軽いのか知らん?
2014/11/22(土) 13:48:05.92ID:S8C7U0PL
2014/11/22(土) 22:18:58.72ID:Ke1g3qvZ
すみません、誤読しました。
「同じブロック内の全スレッドがこの命令にたどり着く」
まで待つかどうかの違いですね。
「同じブロック内の全スレッドがこの命令にたどり着く」
まで待つかどうかの違いですね。
2014/11/24(月) 04:18:18.83ID:qPQKDlD6
今一番コスパ高いカードってなに?
2014/11/24(月) 04:21:35.17ID:qPQKDlD6
謝罪文みても思い上がりが激しい
11デフォルトの名無しさん
2014/11/25(火) 19:26:42.72ID:kFuypilU プログラムのカーネル部分がどうしても実行されません(サンプルプログラムでは実行されていました)
どなたか原因に心当たりはありませんか?(私はありません)
ブレークポイントで確認したところカーネルの上下にあるクロックは実行されており、
カーネルだけが実行されていませんでした(カーネルの中へ入って行かないという意味です)
以下が呼び出しで、dim3はグローバルで定義してあります
dim3 blocks((num + max - 1) / max, (num + max - 1) / max);
dim3 threads(max, (1024 + max - 1) / max, 1);
void calculation(void)
{
clock_t start, end;
start = clock();
cal<<<blocks, threads>>>(con, num, points, data);
end = clock();
cout << double(end - start) / CLOCKS_PER_SEC << "\n";
}
どなたか原因に心当たりはありませんか?(私はありません)
ブレークポイントで確認したところカーネルの上下にあるクロックは実行されており、
カーネルだけが実行されていませんでした(カーネルの中へ入って行かないという意味です)
以下が呼び出しで、dim3はグローバルで定義してあります
dim3 blocks((num + max - 1) / max, (num + max - 1) / max);
dim3 threads(max, (1024 + max - 1) / max, 1);
void calculation(void)
{
clock_t start, end;
start = clock();
cal<<<blocks, threads>>>(con, num, points, data);
end = clock();
cout << double(end - start) / CLOCKS_PER_SEC << "\n";
}
2014/11/25(火) 21:02:59.83ID:N/U8okyJ
>>11
dim3構造体のメンバ変数をプリントしたらどうなりますか?
dim3構造体のメンバ変数をプリントしたらどうなりますか?
2014/11/25(火) 21:44:27.45ID:kFuypilU
>>12
>11のcalculation()の最後の行にプリントの一文を入れてみましたが
ブロックが(128,128)、スレッドが(128,8)と想定通りでした
(スレッドは1ブロック当たり1024個まで配置可能なのでギリギリセーフなはずです)
忘れていましたが、呼び出し先です
この中にブレークポイントを配置してもプログラムが止まらないという魔の領域となっています
(もちろんnsightのcuda debuggingでデバッグしています)
__global__ void cal(double con, int num, a_data *points, b_data *data)
{・・・}
>11のcalculation()の最後の行にプリントの一文を入れてみましたが
ブロックが(128,128)、スレッドが(128,8)と想定通りでした
(スレッドは1ブロック当たり1024個まで配置可能なのでギリギリセーフなはずです)
忘れていましたが、呼び出し先です
この中にブレークポイントを配置してもプログラムが止まらないという魔の領域となっています
(もちろんnsightのcuda debuggingでデバッグしています)
__global__ void cal(double con, int num, a_data *points, b_data *data)
{・・・}
2014/11/26(水) 18:34:20.92ID:cpKKMAIz
>>13
カーネルが実行されているかどうかはどうやって確認していますか?
カーネルが実行されているかどうかはどうやって確認していますか?
2014/11/26(水) 19:30:35.81ID:mOjmGjn5
2014/11/26(水) 20:04:14.26ID:qey6HT7s
おれもカーネルに入らないケース出たわ
原因調査中・・・
原因調査中・・・
2014/11/27(木) 08:04:41.88ID:7alpN+o4
>>15
CUDAのデバッガ使った事がない(ひたすらprintf)ので
一般論的な事しか言えませんが、
怪しそうな処理をコメントアウトしていったらどうでしょう?
変なメモリアクセスで落ちるとか割とありがちな気が。
CUDAのデバッガ使った事がない(ひたすらprintf)ので
一般論的な事しか言えませんが、
怪しそうな処理をコメントアウトしていったらどうでしょう?
変なメモリアクセスで落ちるとか割とありがちな気が。
2014/11/28(金) 22:55:16.84ID:JeOcX4pA
おれもカーネルに入らない
ただなぜかcygwinでコンパイルするとカーネルが起動する
なんでじゃ・・・
例のvisual studio2013もインストールしてみたいな〜
ただなぜかcygwinでコンパイルするとカーネルが起動する
なんでじゃ・・・
例のvisual studio2013もインストールしてみたいな〜
2014/11/28(金) 23:06:00.72ID:JeOcX4pA
>>18だけど
osはwindows8.1
コンパイラはcuda6.5+vs2013 express
カーネルは担当する要素を+1するだけのもの
これをコマンドプロンプトでコンパイルしてもカーネルは動かなかった(?)
動かないと判断したのは結果をmemcpyしてホスト側に返しても+1されてなかったから
もしかしたら正常にmemcpyされてないだけかもしれない
カーネルに入らない人はcygwin使ってみるといいかもね
本質的な解決にはならないけど・・・
osはwindows8.1
コンパイラはcuda6.5+vs2013 express
カーネルは担当する要素を+1するだけのもの
これをコマンドプロンプトでコンパイルしてもカーネルは動かなかった(?)
動かないと判断したのは結果をmemcpyしてホスト側に返しても+1されてなかったから
もしかしたら正常にmemcpyされてないだけかもしれない
カーネルに入らない人はcygwin使ってみるといいかもね
本質的な解決にはならないけど・・・
2014/11/30(日) 20:47:05.05ID:NdicNENH
ビジュアルプロファイラー使ってみたら。
2014/12/03(水) 14:38:19.35ID:GXBajCbw
kernel実行後にcudaGetLastError()でRCを取得
そうするとkernel実行結果が分かる
RCの数値は自分で調べてね
そうするとkernel実行結果が分かる
RCの数値は自分で調べてね
2216,21
2014/12/04(木) 22:23:47.78ID:EZ4odEf+ 21の情報は役だったかな?
自分の場合(LINUX)、RC=7(too many resources requested for launch)だったので
コンパイルオプションに -Xptxas -vを追加して使用レジスタ数を確認。
結果ハードウェアのレジスタ数を超過したためにカーネルの処理が行われなかったことが判明。
スレッドサイズを小さくして問題解決。
因みに使用レジスタはハードウェアによって変わる。
自分の場合(LINUX)、RC=7(too many resources requested for launch)だったので
コンパイルオプションに -Xptxas -vを追加して使用レジスタ数を確認。
結果ハードウェアのレジスタ数を超過したためにカーネルの処理が行われなかったことが判明。
スレッドサイズを小さくして問題解決。
因みに使用レジスタはハードウェアによって変わる。
2014/12/05(金) 14:06:24.56ID:+nFWXccn
>>22
ちょっと興味があるんですけれど、
カーネルのサイズは動的に決めてるんですか?
前にソースコードにブロック数とスレッド数をべた書きで
大きいサイズを指定したらコンパイルの段階ではじかれた事があったんで。
ちょっと興味があるんですけれど、
カーネルのサイズは動的に決めてるんですか?
前にソースコードにブロック数とスレッド数をべた書きで
大きいサイズを指定したらコンパイルの段階ではじかれた事があったんで。
24>>15
2014/12/05(金) 15:37:53.47ID:fpNGtjbn >>21
ありがとうすごく役に立ったよ
ここ最近忙しくてpc触れなかったんだ
自分も同じく「error: too many resources requested for launch」だった
原因を調べてみるよ
あと、自動でエラー内容もだせるみたいだね
http://homepage2.nifty.com/takaaki024/tips/programs/gpgpu/cuda.html
>>20
ビジュアルプロファイラーも便利そうだから調べてみるよ
ありがとうすごく役に立ったよ
ここ最近忙しくてpc触れなかったんだ
自分も同じく「error: too many resources requested for launch」だった
原因を調べてみるよ
あと、自動でエラー内容もだせるみたいだね
http://homepage2.nifty.com/takaaki024/tips/programs/gpgpu/cuda.html
>>20
ビジュアルプロファイラーも便利そうだから調べてみるよ
2014/12/07(日) 18:17:39.03ID:g9DGYGEw
x,y,zの3つの変数から成る構造体配列A,B(同じサイズ)があったとして
BからAへそれぞれ対応するデータを転送する場合
Ax,Ay,Az,Bx,By,Bzという同じサイズの構造体でない配列が6つあったとして
BからAへそれぞれ対応するデータを転送する場合(BxからAxなど)
前者と後者では後者の方が転送速度は上がりますか?
BからAへそれぞれ対応するデータを転送する場合
Ax,Ay,Az,Bx,By,Bzという同じサイズの構造体でない配列が6つあったとして
BからAへそれぞれ対応するデータを転送する場合(BxからAxなど)
前者と後者では後者の方が転送速度は上がりますか?
2014/12/08(月) 12:53:10.47ID:JbpvX5Qi
>>25
一般論としてデータ量が同じなら一回にまとめてを転送した方が効率はよくなりますね。
一般論としてデータ量が同じなら一回にまとめてを転送した方が効率はよくなりますね。
2014/12/11(木) 11:46:54.75ID:kV0/O7vj
memcpyって同期とるもんね
2014/12/12(金) 21:54:58.15ID:PdQu+k/h
kernelの中で使えるタイマー関数はありますか?
2014/12/12(金) 23:43:18.27ID:q1FKM2bt
clock()関数が使えるよ。
2014/12/13(土) 22:02:15.64ID:B9P4oQcX
2014/12/16(火) 21:07:44.74ID:6hyQD5WD
自分の持っていないGPUの共有メモリの量などの詳細を知ることはできますか?
2014/12/17(水) 08:36:19.04ID:0flByQKi
http://en.wikipedia.org/wiki/CUDA#Version_features_and_specifications
の
Maximum amount of shared memory per multiprocessor
あたりかな。
の
Maximum amount of shared memory per multiprocessor
あたりかな。
2014/12/17(水) 20:16:42.59ID:D/43rANg
2014/12/17(水) 20:55:04.06ID:vfaS5qRM
なんでCCのバージョン3.5から5.0に飛んでるの?
SDKのバージョンと合わせたのか?
SDKのバージョンと合わせたのか?
2014/12/19(金) 18:38:15.45ID:dxBCSCiu
二つ以上のGPUでVBOを使用する場合、データの流れはどうなっているのでしょう?
やはり一旦ディスプレイに接続側のGPU出力データが集められ出力されるのですか?
やはり一旦ディスプレイに接続側のGPU出力データが集められ出力されるのですか?
2014/12/20(土) 13:19:39.58ID:hlsDA/2G
プロファイラ使えばわかるんじゃない?
2014/12/20(土) 13:33:50.56ID:ARYnLzi0
>>34
ゲフォの800番台がスルーされたからかも?
ゲフォの800番台がスルーされたからかも?
3835
2014/12/20(土) 22:32:39.87ID:ovXiOWlC >>36
少し気になって質問してみただけで今自分は一つしか持っていません!
もう一つGPUを購入した時の為にvisual profilerを使えるようになっておこうと思い
ビルドした実行ファイルでプロファイラを使用してみたところ「Warning: No CUDA application was profiled, exiting」とエラーが出てしまいました
6.5のツールキットを使用して新しいセッションを作成→ビルドした実行ファイルを選択→設定はデフォルト、としたのですが何がダメだったのでしょう?
nvidiaの説明書を見てもさっぱりです。ヒントだけでもいいので教えてください
少し気になって質問してみただけで今自分は一つしか持っていません!
もう一つGPUを購入した時の為にvisual profilerを使えるようになっておこうと思い
ビルドした実行ファイルでプロファイラを使用してみたところ「Warning: No CUDA application was profiled, exiting」とエラーが出てしまいました
6.5のツールキットを使用して新しいセッションを作成→ビルドした実行ファイルを選択→設定はデフォルト、としたのですが何がダメだったのでしょう?
nvidiaの説明書を見てもさっぱりです。ヒントだけでもいいので教えてください
2014/12/21(日) 12:30:22.37ID:C04pqXsd
>>38
cudaDeviceReset() が必要のはず。
Visual Studioで「CUDA X.X Runtime」のプロジェクトを作ったら、
kernel.cu の return 0; の直前のコードに、以下のように書いてある。
// cudaDeviceReset must be called before exiting in order for profiling and
// tracing tools such as Nsight and Visual Profiler to show complete traces.
cudaStatus = cudaDeviceReset();
cudaDeviceReset() が必要のはず。
Visual Studioで「CUDA X.X Runtime」のプロジェクトを作ったら、
kernel.cu の return 0; の直前のコードに、以下のように書いてある。
// cudaDeviceReset must be called before exiting in order for profiling and
// tracing tools such as Nsight and Visual Profiler to show complete traces.
cudaStatus = cudaDeviceReset();
4035
2014/12/21(日) 22:57:23.15ID:McLr4XTH >>39
ループしているプログラムなのでエスケープキーを押すと後処理関数をatexit関数で呼び出して終了するようになっています
その後処理関数の中にcudaDeviceReset();を入れているのですがこれではダメなようです
それともcudaError_t cudaStatus = cudaDeviceReset();としてcudaStatusをどこかへ渡すのでしょうか?
ループしているプログラムなのでエスケープキーを押すと後処理関数をatexit関数で呼び出して終了するようになっています
その後処理関数の中にcudaDeviceReset();を入れているのですがこれではダメなようです
それともcudaError_t cudaStatus = cudaDeviceReset();としてcudaStatusをどこかへ渡すのでしょうか?
2014/12/22(月) 00:14:29.09ID:6pNe5aqW
2014/12/23(火) 15:40:43.82ID:bsnZ8h6l
4342
2014/12/24(水) 18:51:30.92ID:/5m6EieY 一応書いておきます
調べてみた結果、必要なものはcudaDeviceReset();を呼び出すことのみでした
自分のプログラムがプロファイル出来なかった原因は.dllが.exeと同じ場所に無かったからでした
調べてみた結果、必要なものはcudaDeviceReset();を呼び出すことのみでした
自分のプログラムがプロファイル出来なかった原因は.dllが.exeと同じ場所に無かったからでした
2014/12/24(水) 20:32:20.58ID:6fZpwBGv
並列化についての質問です
スレッドやブロックを増やしてもあまり計算速度に差が出ないのですがどのような理由が挙げられますか
スレッドやブロックを増やしてもあまり計算速度に差が出ないのですがどのような理由が挙げられますか
2014/12/24(水) 20:59:33.63ID:SBHK+d/x
どう変わると思った?計算量自体は変わらんのだぞ。
2014/12/24(水) 21:07:44.58ID:6fZpwBGv
最初は一つのスレッドにつき4回ほどループさせ計算をしていました
その後、スレッド数を2倍にしてループ数を半分の2回しました
計算速度は2倍になるだろうと予想していましたが、あまり変わりませんでした
その後、スレッド数を2倍にしてループ数を半分の2回しました
計算速度は2倍になるだろうと予想していましたが、あまり変わりませんでした
2014/12/24(水) 21:23:52.28ID:SBHK+d/x
ハード的に同時に実行できるスレッドは有限なんだから、それ以上スレッドを増やしても
物理的に速くなりようがない。
物理的に速くなりようがない。
2014/12/24(水) 22:24:43.11ID:pbZqH+Xm
プログラム上のスレッド数とハード上のスレッド数は違うと言うことですか
2014/12/24(水) 22:50:48.00ID:3hqu78L7
スレッドが多ければ、メモリアクセスでスレッドが止まっている間
cudaコアは別のスレッドを実行できる
cudaコアは別のスレッドを実行できる
2014/12/27(土) 01:57:38.03ID:u9BI3CqV
基本的にはcudaコアの数だけしか並列計算出来ないのですか
だけしかと言ってもコアは何百もありますが
だけしかと言ってもコアは何百もありますが
2014/12/27(土) 06:52:06.91ID:fxVjSbuk
ある瞬間、実際に並列に処理されているということと、理論上並列に扱われるということは別の話ですよ
上のレスにもありますが、計算速度的には実際に処理を行うヤツが足りていなければそこで頭打ちになるのは当然かと
上のレスにもありますが、計算速度的には実際に処理を行うヤツが足りていなければそこで頭打ちになるのは当然かと
2014/12/27(土) 10:09:35.39ID:W6Y2DM4+
cudaコアの数以上にスレッドを生成する利点は
メモリアクセスの遅延の隠蔽にある
メモリアクセスの遅延の隠蔽にある
2014/12/28(日) 20:39:13.97ID:52BL0aAq
550TIで使っていたプログラムを750TIで走らせて見たところ1.5倍ほど遅くなってしまいました
何故でしょうか?
何故でしょうか?
2014/12/29(月) 02:19:31.23ID:YUQudPNs
腐ってやがる。早すぎたんだ
2014/12/29(月) 09:47:06.28ID:Sx0YYE+e
>>53
一度のカーネル実行で処理するデータ量を増やしたら改善しませんか?
一度のカーネル実行で処理するデータ量を増やしたら改善しませんか?
2014/12/29(月) 09:51:11.07ID:Sx0YYE+e
>>53
maxwellは倍精度がそーとーしょぼいので、
cuda-zかなんかで性能をチェックした方がよいかもしれません。
http://sourceforge.jp/projects/sfnet_cuda-z/
maxwellは倍精度がそーとーしょぼいので、
cuda-zかなんかで性能をチェックした方がよいかもしれません。
http://sourceforge.jp/projects/sfnet_cuda-z/
2014/12/29(月) 12:03:33.25ID:oV4aoJAy
2014/12/29(月) 12:51:57.86ID:oV4aoJAy
コア数が3倍になっていることを考慮すればそれでも遅い気がしますね
2014/12/31(水) 21:08:03.80ID:3b0Wn462
CUDA初学者です
cudaBindTexture2D()のpitchとoffsetは何を表しているのですか?
手元の書籍のサンプルから推測するに
pitchは一次元の配列を二次元のテクスチャに入れる場合の折り返し地点のようなもの
でしょうか?それならwidthとhighだけでも十分ではないかと言う疑問も出てきます。
そして一番の疑問がテクスチャメモリの存在です。
いくら二次元、三次元配列が使えるとは言え512バイトしか容量のないテクスチャメモリは64キロバイトもあるコンスタントメモリに劣るのではないでしょうか?
長々と失礼いたしましたm(_ _)m
cudaBindTexture2D()のpitchとoffsetは何を表しているのですか?
手元の書籍のサンプルから推測するに
pitchは一次元の配列を二次元のテクスチャに入れる場合の折り返し地点のようなもの
でしょうか?それならwidthとhighだけでも十分ではないかと言う疑問も出てきます。
そして一番の疑問がテクスチャメモリの存在です。
いくら二次元、三次元配列が使えるとは言え512バイトしか容量のないテクスチャメモリは64キロバイトもあるコンスタントメモリに劣るのではないでしょうか?
長々と失礼いたしましたm(_ _)m
2014/12/31(水) 23:07:39.94ID:WrP28EMy
>>52
それじゃあストリームは何のためにあるのさ?
それじゃあストリームは何のためにあるのさ?
2015/01/01(木) 12:48:51.81ID:82JnHkZd
2015/01/02(金) 01:42:39.20ID:aooXGYY5
>>61
なるほどね
なるほどね
2015/01/03(土) 13:07:05.02ID:yWVdPt25
970/980は確かにゲームのパフォーマンスは上がってるが帯域減ってるから
GPGPU用途では微妙になってしまったな
GPGPU用途では微妙になってしまったな
2015/01/09(金) 00:33:57.02ID:Iq4Pw+IC
Toolkit 6.0 + VS 2008から
Toolkit 6.5 + VS 2013に移行したら
遅くなっちゃったんだけど、そういう人ほかにいる?
Toolkit 6.5 + VS 2013に移行したら
遅くなっちゃったんだけど、そういう人ほかにいる?
2015/01/12(月) 00:15:12.48ID:crrCnhEj
CUDAの日本語ページって4.0とかの古い情報ばっかりじゃね
6.0/6.5では全然仕様が違ってて全然使えない
6.0/6.5では全然仕様が違ってて全然使えない
66デフォルトの名無しさん
2015/01/16(金) 07:53:04.52ID:IHSf0jGJ CUDA7.0 RC
2015/01/16(金) 09:02:56.43ID:VQ2eHsT0
もうCUDAも成熟してしまった感があるなあ。
2015/01/25(日) 10:58:33.86ID:m2kue9j8
970の影響でGPUメモリテストが流行っているね。
2015/02/06(金) 21:35:53.90ID:72/Q/UeS
ここ何週間かデバッグを続けているのですが原因を突き止めることが出来ません
初学者がはまりやすいミスやデバッグのこつなんかを教えてもらえませんか?
明らかなバグなら原因を突き止めやすいのですが、かなり微妙なバグなのでなかなか見つけられず困っています
初学者がはまりやすいミスやデバッグのこつなんかを教えてもらえませんか?
明らかなバグなら原因を突き止めやすいのですが、かなり微妙なバグなのでなかなか見つけられず困っています
2015/02/07(土) 00:48:46.19ID:OS4q1AxS
printfとかで要素を表示してデバックしてみれば?
2015/02/07(土) 13:10:14.61ID:4cvxubK6
syncthreadとか?
if文の中に書いてたりすると同期ずれが起こったりするなー
他には確保してないメモリへのアクセスとか?
>>70の通り、printfとかで、配列の添字とか値を表示するしかないのかな?
if文の中に書いてたりすると同期ずれが起こったりするなー
他には確保してないメモリへのアクセスとか?
>>70の通り、printfとかで、配列の添字とか値を表示するしかないのかな?
2015/02/08(日) 15:23:01.85ID:E04CIgi2
2015/02/08(日) 15:48:00.96ID:E04CIgi2
変数に入れると精度は落ちますね
お騒がせしました
お騒がせしました
2015/02/08(日) 21:32:20.44ID:BpjOkBmf
2015/02/08(日) 22:56:08.44ID:KLuvC02r
2015/02/09(月) 10:20:08.08ID:pN+UjOmC
>>72
fpが(a+b)+c != a+(b+c)を知らないとかではないよね?
fpが(a+b)+c != a+(b+c)を知らないとかではないよね?
2015/02/09(月) 23:18:25.64ID:QR2S1do8
volatile使うとか?
変数の宣言とか関数の引数の型の前にvolatileをいれると・・・
変数の宣言とか関数の引数の型の前にvolatileをいれると・・・
2015/02/17(火) 21:40:32.15ID:K8c74Rhe
>>53
750TIでGPGPUって考えていたけど、750TIって2世代前の同ランクぐらいの550TIより性能悪いのか。
一般ゲーム用VGAではGPGPU能力ってたいして要らないから落としたのかな
いろいろなゲーム用VGAの単精度、倍精度の能力が載ったホームページ教えてください
750TIでGPGPUって考えていたけど、750TIって2世代前の同ランクぐらいの550TIより性能悪いのか。
一般ゲーム用VGAではGPGPU能力ってたいして要らないから落としたのかな
いろいろなゲーム用VGAの単精度、倍精度の能力が載ったホームページ教えてください
2015/02/19(木) 11:23:20.97ID:aqLRWkl1
質問☆
cudaってドライバインストして、画像表示をcuda設定にするだけでは
効果ない?
cudaってドライバインストして、画像表示をcuda設定にするだけでは
効果ない?
2015/02/19(木) 14:30:54.02ID:iKdaAUCi
>>78
FP32とFP64の一覧表ならこれとか。
ttp://www.geeks3d.com/20140305/amd-radeon-and-nvidia-geforce-fp32-fp64-gflops-table-computing/
ボトルネックになりうる点は他にもあるから、Compute Capability毎の仕様の違いも結構重要だと思う。
FP32とFP64の一覧表ならこれとか。
ttp://www.geeks3d.com/20140305/amd-radeon-and-nvidia-geforce-fp32-fp64-gflops-table-computing/
ボトルネックになりうる点は他にもあるから、Compute Capability毎の仕様の違いも結構重要だと思う。
2015/02/19(木) 23:45:36.57ID:ngPIgbTR
maxwellさん自体にに倍精度が無いようだから
一世代前のkeplerさんか次世代のpascalさんを選べば良いんじゃないかな
一世代前のkeplerさんか次世代のpascalさんを選べば良いんじゃないかな
2015/02/19(木) 23:54:19.28ID:Lt8lBsrZ
2015/02/20(金) 04:05:21.12ID:fPdGyDpl
84デフォルトの名無しさん
2015/02/20(金) 08:52:57.87ID:xG3c1huj keplerはinteger bit shiftが弱いGK110(tesla)以外は
maxwellはkepler比で2倍のスループットになってる
maxwellはkepler比で2倍のスループットになってる
2015/02/22(日) 18:45:23.46ID:JhGx5uct
適当なプログラム作ってみても
maxwellの方がはやいね
shared memoryが倍になったのも大きいなぁ
maxwellの方がはやいね
shared memoryが倍になったのも大きいなぁ
86名無し
2015/03/07(土) 10:52:38.85ID:UBzBpgz5 スレチなら申し訳ない
当方、モバイルでCUDAを使用したいけど
安い方法はどれが良いと思います?
(速度はそこそこで良く、外でテストして
パワーがいる場合はデスクトップを使用するつもり)
モバイル用は安く上げたいので
Chromebookかタブレットで探した方が良いですかね?
奇をてらってJetsonのtk1にACアダプタ用のバッテリーを積むとか
(可能かどうかわからないですが)
ちなみにゲームはやるつもりありません。
当方、モバイルでCUDAを使用したいけど
安い方法はどれが良いと思います?
(速度はそこそこで良く、外でテストして
パワーがいる場合はデスクトップを使用するつもり)
モバイル用は安く上げたいので
Chromebookかタブレットで探した方が良いですかね?
奇をてらってJetsonのtk1にACアダプタ用のバッテリーを積むとか
(可能かどうかわからないですが)
ちなみにゲームはやるつもりありません。
2015/03/07(土) 20:42:36.10ID:CzdLWIdo
thinkpad w550sのquadro K620mはダメなの?
ノートパソコンだよ
ノートパソコンだよ
88デフォルトの名無しさん
2015/03/08(日) 10:25:35.13ID:TYY6zzsE レスありがとうございます
安くあげたいので予算的に厳しいかと
最初だけ計算量は多いですけど
要所ごとに定数化すれば、その後は計算量がへるかと思っているので外での使用は少ないデータ量でプログラムチェックができればいいかなと考えています。
K1がのったタブレットも安いのでそこから考えてみようと思います
ありがとうございました
安くあげたいので予算的に厳しいかと
最初だけ計算量は多いですけど
要所ごとに定数化すれば、その後は計算量がへるかと思っているので外での使用は少ないデータ量でプログラムチェックができればいいかなと考えています。
K1がのったタブレットも安いのでそこから考えてみようと思います
ありがとうございました
2015/03/18(水) 02:36:15.45ID:jKTvW/7W
うわ、titan xの倍精度、しょぼ過ぎ・・・。
https://twitter.com/search?q=titan%20x&src=typd
https://twitter.com/search?q=titan%20x&src=typd
2015/03/18(水) 09:22:22.19ID:33RtPIwm
単精度が7TFLOPS、倍精度が0.2TFLOPSで良いんだよな??
詳しい事は良く分からないんだけど倍精度ってそんなに使わないものなの?
PhysXっていう物理エンジン使ったりするのに
詳しい事は良く分からないんだけど倍精度ってそんなに使わないものなの?
PhysXっていう物理エンジン使ったりするのに
2015/03/18(水) 10:23:22.30ID:C11qPS4w
92デフォルトの名無しさん
2015/03/19(木) 07:37:41.52ID:M0RYJxHF https://developer.nvidia.com/cuda-downloads
CUDA 7 Downloads
CUDA 7 Downloads
93デフォルトの名無しさん
2015/03/19(木) 07:39:40.96ID:M0RYJxHF Dear Developer,
The CUDA? 7.0 Production Release is now available to the public. Run your application faster with this latest version of the CUDA Toolkit. It features 64-bit ARM support and the simplified programming model enabled by Unified Memory. Highlights include:
New cuSOLVER library
? Accelerates key LAPACK routines, 12x faster direct sparse solvers
New C++11 language features
? Increases productivity with lambdas, auto, and more
Runtime Compilation
? Enables highly optimized kernels to be generated at runtime
Download the CUDA 7 Production Release at www.nvidia.com/getcuda
Learn more about CUDA 7 by attending these webinars:
CUDA 7 Feature Review
Date/Time: Friday, April 10th at 10:00 AM PDT
Register: https://cc.readytalk.com/r/4b0lwgeqgzrk&eom
CUDA 7 Performance Overview
Date/Time: Wednesday, April 15th at 11:30 AM PDT
Register: https://cc.readytalk.com/r/empyu1qc65l6&eom
Best regards,
Nadeem Mohammad
NVIDIA Developer Relations Team
The CUDA? 7.0 Production Release is now available to the public. Run your application faster with this latest version of the CUDA Toolkit. It features 64-bit ARM support and the simplified programming model enabled by Unified Memory. Highlights include:
New cuSOLVER library
? Accelerates key LAPACK routines, 12x faster direct sparse solvers
New C++11 language features
? Increases productivity with lambdas, auto, and more
Runtime Compilation
? Enables highly optimized kernels to be generated at runtime
Download the CUDA 7 Production Release at www.nvidia.com/getcuda
Learn more about CUDA 7 by attending these webinars:
CUDA 7 Feature Review
Date/Time: Friday, April 10th at 10:00 AM PDT
Register: https://cc.readytalk.com/r/4b0lwgeqgzrk&eom
CUDA 7 Performance Overview
Date/Time: Wednesday, April 15th at 11:30 AM PDT
Register: https://cc.readytalk.com/r/empyu1qc65l6&eom
Best regards,
Nadeem Mohammad
NVIDIA Developer Relations Team
2015/03/24(火) 05:27:05.96ID:7oVKj7vD
CUDAがgcc4.8でうまく動かない問題ってもう解決したの?
2015/03/25(水) 15:16:29.51ID:9JMqB0KU
うん
2015/03/25(水) 21:19:25.13ID:WRhchtaz
Driver API使ってコンパイル済みのptxを実行するプログラムを作ろうとしているんだけど、
64bitのホストコードから32bitのptxを実行することってできるんだっけ?
64bitのホストコードから32bitのptxを実行することってできるんだっけ?
2015/04/10(金) 02:15:05.70ID:C60yUXFO
nvidia-smiでutilizationやmemory usageを確認できると思うのですが、全てのパラメータを確認できるのはtesla、quadro、Titanです。
Geforce系のGPUで、utilization、各プロセスのmemory usage等を確認するにはどうすればいいでしょうか?
Geforce系のGPUで、utilization、各プロセスのmemory usage等を確認するにはどうすればいいでしょうか?
2015/04/10(金) 07:26:02.69ID:nzpIVsUT
2015/04/12(日) 23:53:21.24ID:g4+PudFo
古いGeforceでもOpenCL1.1のプログラムなら動くのでしょうか
100デフォルトの名無しさん
2015/04/13(月) 00:39:39.73ID:NPPeHBbv 少なくともCUDA対応している必要があるが、基本的にGeForce8シリーズ以降で動くはず。
特定の機種について知りたいならGeeks3Dのデータベース検索してみるとか。
しかしスレチ。
特定の機種について知りたいならGeeks3Dのデータベース検索してみるとか。
しかしスレチ。
101デフォルトの名無しさん
2015/04/13(月) 16:29:29.85ID:EBHbrztF thinkpadに入ってるquadro K620Mはcudaのサポート無いんだな
インストールしようとしてワラタ
インストールしようとしてワラタ
102デフォルトの名無しさん
2015/04/14(火) 18:39:28.21ID:hgZdA2dw Linux(CentOS6)の環境でTITAN BLACKでCUDA(Ver.6.5 or 7.0)使ってるのだけど、計算走らせると
NVIDIA X Server SettingsのPerformance LevelsのLevelが3から2に落ちてMemory Transfer Rateが7000Mhzから6000Mhzに落ちてしまう。
で結果的にノーマルTITANと性能が同じになってしまう。このメモリクロックを固定させることはできませんかね?
ちなみにTelsa K20 での固定クロックの方法はnvidia-smiがTITANに対応してないらしくできなかった。
ちなみにPreferred Modeは「Prefer Maxmum Performance」になっていて、
CUDAで計算しなければLevel3でメモリクロックも7000Mhzとなっています。
NVIDIA X Server SettingsのPerformance LevelsのLevelが3から2に落ちてMemory Transfer Rateが7000Mhzから6000Mhzに落ちてしまう。
で結果的にノーマルTITANと性能が同じになってしまう。このメモリクロックを固定させることはできませんかね?
ちなみにTelsa K20 での固定クロックの方法はnvidia-smiがTITANに対応してないらしくできなかった。
ちなみにPreferred Modeは「Prefer Maxmum Performance」になっていて、
CUDAで計算しなければLevel3でメモリクロックも7000Mhzとなっています。
103デフォルトの名無しさん
2015/04/14(火) 21:44:04.71ID:frAktQrJ 空冷を見直す。
104デフォルトの名無しさん
2015/04/15(水) 11:49:47.50ID:DmeNPmdM >>102
何時間もフルで使ってるならまだしも、GPU叩いた瞬間に7000Mhzから6000Mhzに落ちるって、TITAN BLACKの公称メモリクロック「7GHz」ってのは詐欺にならないか?
これじゃノーマルTITANと同じ性能・・・
何時間もフルで使ってるならまだしも、GPU叩いた瞬間に7000Mhzから6000Mhzに落ちるって、TITAN BLACKの公称メモリクロック「7GHz」ってのは詐欺にならないか?
これじゃノーマルTITANと同じ性能・・・
105デフォルトの名無しさん
2015/04/15(水) 23:05:57.76ID:+7B/lj1n 環境がわからんからなんとも言えんが、
どうしても固定したければどっかからbiosを引っ張ってくるしかないね。
どうしても固定したければどっかからbiosを引っ張ってくるしかないね。
106デフォルトの名無しさん
2015/04/16(木) 13:27:15.95ID:xeug049T ん?TITANのクロック制御はマザーのBIOSが管理してるのか?
107デフォルトの名無しさん
2015/04/16(木) 14:34:33.50ID:PYEjJT3R VGAボード側のだよ。
108デフォルトの名無しさん
2015/04/23(木) 12:42:01.23ID:GK/TBYtY pycudaで既存のコンパイル済みのオブジェクトとリンクして
実行させるにはどうすればいいのでしょうか
実行させるにはどうすればいいのでしょうか
109デフォルトの名無しさん
2015/04/23(木) 18:12:10.80ID:GK/TBYtY cmakeの自動configがGTX900シリーズなのにsm_20とか言ってくるのなんとかならないの?
110デフォルトの名無しさん
2015/04/27(月) 00:54:11.64ID:XOkfLgXW 最近のマザーボードってビデオカード2枚刺して
両方に計算させることもできるの?
自分のcore2duoのパソコンだと1つしか刺す場所ないけど
最近のddr4を使うマザーみると
それらしき場所が3つぐらいあるから3並列計算できるってことかな?
両方に計算させることもできるの?
自分のcore2duoのパソコンだと1つしか刺す場所ないけど
最近のddr4を使うマザーみると
それらしき場所が3つぐらいあるから3並列計算できるってことかな?
111デフォルトの名無しさん
2015/04/29(水) 08:43:39.45ID:2J/vCqrD >>110
場合によっては、計算用のGPUと出力用のGPUで分けてたりする。少なくともNVIDIAはそういう方針
場合によっては、計算用のGPUと出力用のGPUで分けてたりする。少なくともNVIDIAはそういう方針
112デフォルトの名無しさん
2015/04/30(木) 22:40:28.09ID:4E7PVA8Y vexclのサンプルコードをcudaでコンパイルしようとしてるんだけど
エラーだらけ
何か依存パッケージが足りないのかな?
エラーだらけ
何か依存パッケージが足りないのかな?
113デフォルトの名無しさん
2015/04/30(木) 22:46:37.84ID:4E7PVA8Y .bashrcに設定する変数名が
CUDA_PATH
だったり
CUDA_ROOT
だったりみんな違う
なんで統一しないのか
CUDA_PATH
だったり
CUDA_ROOT
だったりみんな違う
なんで統一しないのか
114デフォルトの名無しさん
2015/05/07(木) 18:56:17.28ID:oEZIeMhu vexclについてくるexampleプログラムの中のベンチマークってプログラムが面白い
このプログラムのベンチマークによると
GT430とかいう古いビデオカードなのに最近のCPUの10倍の計算速度でてる
このプログラムのベンチマークによると
GT430とかいう古いビデオカードなのに最近のCPUの10倍の計算速度でてる
115101
2015/05/13(水) 12:03:41.64ID:3UCLt7KQ thinkpad w550sのquadroでもcudaなんも問題なかった
やっと勉強できる
やっと勉強できる
116デフォルトの名無しさん
2015/05/13(水) 19:42:38.26ID:SKtXN3hT 3D映像でパストレーシングやモンテカルロ法を行いたい場合、光線とシーン中
のあらゆるポリゴンとの交差を判定し、条件分岐を行う必要があります。
しかし、GPGPUは条件分岐が遅いらしいので、もしかするとCPUと役割分担を
行うべきなのでしょうか?
例えば、シーン中のポリゴンとの交差判定はCPUでやった方が良いとか?
のあらゆるポリゴンとの交差を判定し、条件分岐を行う必要があります。
しかし、GPGPUは条件分岐が遅いらしいので、もしかするとCPUと役割分担を
行うべきなのでしょうか?
例えば、シーン中のポリゴンとの交差判定はCPUでやった方が良いとか?
117デフォルトの名無しさん
2015/05/13(水) 23:31:21.84ID:xMqj1fKt if
A
else
B
end
のような文なら、AとBは逐次の処理になる
if
A
end
なら、Aを行わないスレッドは待つだけだから問題ない
もし3項演算で解決できる条件分岐なら3項演算子を用いて書く
A
else
B
end
のような文なら、AとBは逐次の処理になる
if
A
end
なら、Aを行わないスレッドは待つだけだから問題ない
もし3項演算で解決できる条件分岐なら3項演算子を用いて書く
118デフォルトの名無しさん
2015/05/14(木) 07:59:10.95ID:CyZl9DuQ119デフォルトの名無しさん
2015/05/14(木) 09:14:40.23ID:CyZl9DuQ Intel系CPUの場合、確か cmov などという命令は、bool 値が1の時だけ
転送するのだったと思います。そういう命令は無いんでしょうか?
仮に何かあったとして、CUDA や OpenCL でどうやってそのような
「専用命令」を生成する事は可能でしょうか?
転送するのだったと思います。そういう命令は無いんでしょうか?
仮に何かあったとして、CUDA や OpenCL でどうやってそのような
「専用命令」を生成する事は可能でしょうか?
120デフォルトの名無しさん
2015/05/15(金) 01:05:26.23ID:WYo5pZkW 分岐命令の代わりに使えるプレディケート付き命令があるかという話なら
それは存在するし、分岐のあるコードではコンパイラさんがよしなにやってくれる。
と、ヘネパタ本には書いてあった。
それは存在するし、分岐のあるコードではコンパイラさんがよしなにやってくれる。
と、ヘネパタ本には書いてあった。
122デフォルトの名無しさん
2015/05/15(金) 09:39:10.09ID:mDU8aVUi >>121
warp divergenceの話じゃないの?
warp divergenceの話じゃないの?
123デフォルトの名無しさん
2015/05/15(金) 15:58:50.84ID:pyCNH+0F124デフォルトの名無しさん
2015/05/17(日) 10:18:02.33ID:R3tkd0Ad >>121
AとB両方実行されるよ
AとB両方実行されるよ
125デフォルトの名無しさん
2015/05/19(火) 21:33:47.52ID:spimwXxa 今まで一つのソースファイルで書いてきたのですが、いい加減見づらくなってきたのでソースファイルを分けてみたところエラーがでたので質問させてください
extern __constant__ unsigned short v[n]; //nは#defineで定義しています。
メインのソースファイルで
__constant__ unsigned short v[n];
と定義し、ビルドすると「メインの方で再定義されている」というエラーが出てしまいます
他にも、__device__ double atomicAdd の定義をサブのソースファイルに書くと
ptxas fatal : Unresolved extern function '_Z9atomicAddPdd'
とエラーが出てしまいます。どうか解決方法を教えてください。
環境は
NVIDIA Nsight Visual Studio Edition v.4.2
CUDA 7.0 Toolkit
のはずです
extern __constant__ unsigned short v[n]; //nは#defineで定義しています。
メインのソースファイルで
__constant__ unsigned short v[n];
と定義し、ビルドすると「メインの方で再定義されている」というエラーが出てしまいます
他にも、__device__ double atomicAdd の定義をサブのソースファイルに書くと
ptxas fatal : Unresolved extern function '_Z9atomicAddPdd'
とエラーが出てしまいます。どうか解決方法を教えてください。
環境は
NVIDIA Nsight Visual Studio Edition v.4.2
CUDA 7.0 Toolkit
のはずです
126125
2015/05/19(火) 21:42:34.97ID:spimwXxa ×CUDA 7.0
○CUDA 6.5
でした
○CUDA 6.5
でした
127125
2015/05/20(水) 16:28:14.38ID:MP+tATlH CUDA5.0以降ではrdcを「はい」にするとファイルの分割が出来るという情報を得たのでさっそく試してみたところ
>>125のエラーは無くなったのですが
1>sub.cu.obj : error LNK2005: "long __cdecl genrand_int31(void)" (?genrand_int31@@YAJXZ) は既に main.cu.obj で定義されています。
上記のような二重定義エラーがいくつか出てきました
また、ヘッダファイルの拡張子を.cuhとしている方を見かけたのですが、.hとの違いはあるのでしょうか?
>>125のエラーは無くなったのですが
1>sub.cu.obj : error LNK2005: "long __cdecl genrand_int31(void)" (?genrand_int31@@YAJXZ) は既に main.cu.obj で定義されています。
上記のような二重定義エラーがいくつか出てきました
また、ヘッダファイルの拡張子を.cuhとしている方を見かけたのですが、.hとの違いはあるのでしょうか?
128デフォルトの名無しさん
2015/05/20(水) 22:26:00.46ID:tQNdJIhT デバイス関数ってインライン展開されるんじゃなかったっけ。
でもって、他のファイルからは使えなかったのでは?
でもって、他のファイルからは使えなかったのでは?
130デフォルトの名無しさん
2015/05/21(木) 04:25:30.08ID:Dige6mTv とりあえずCUDAの日本語wikiがあるから、そこの分割コンパイルの項目をみたらどうかな?
OSによっては解決できるかも
OSによっては解決できるかも
131デフォルトの名無しさん
2015/05/21(木) 09:09:27.02ID:BxelVpyp cuファイルをcuファイルにインクルードしてみるとか。
133125
2015/05/24(日) 22:10:36.84ID:FupD4mQN >>127の方法で分割コンパイルに一応成功しました!
一応と言ったのはrdcを「はい」にした場合と「いいえ」にした場合とでプログラムの挙動が少し変わってしまうのです
今書いているプログラムは何億回もの計算結果を足し合わせていくものなので、誤差の蓄積による影響を受けていると思います
コンパイルの方法を変えた(?)事で誤差の蓄積が変化(?)し、プログラムの挙動が変わったということなのでしょうか?
コンパイルと誤差がどう関係するのかは分かりませんが
一応と言ったのはrdcを「はい」にした場合と「いいえ」にした場合とでプログラムの挙動が少し変わってしまうのです
今書いているプログラムは何億回もの計算結果を足し合わせていくものなので、誤差の蓄積による影響を受けていると思います
コンパイルの方法を変えた(?)事で誤差の蓄積が変化(?)し、プログラムの挙動が変わったということなのでしょうか?
コンパイルと誤差がどう関係するのかは分かりませんが
134125
2015/05/24(日) 22:19:49.55ID:FupD4mQN >>「はい」にした場合と「いいえ」にした場合
ファイルを分割するともちろん「いいえ」では動かないので、一つのファイルで完結しているプログラムでの話です
ファイルを分割するともちろん「いいえ」では動かないので、一つのファイルで完結しているプログラムでの話です
135デフォルトの名無しさん
2015/05/26(火) 06:54:20.42ID:VVQAbCqm 最適化の仕方が変わるのかもね
誤差が出て困るなら、なるべく誤差が少なくなるような組み方を考えるしかない
誤差が出て困るなら、なるべく誤差が少なくなるような組み方を考えるしかない
136デフォルトの名無しさん
2015/05/26(火) 07:49:49.21ID:3GnQrGbV 誤差にも種類があるが・・・
浮動小数点演算等の誤差なのか
同期ミスによる誤差なのか・・・
浮動小数点演算等の誤差なのか
同期ミスによる誤差なのか・・・
137デフォルトの名無しさん
2015/05/26(火) 22:03:46.38ID:f2qMZr+T138デフォルトの名無しさん
2015/05/26(火) 22:55:29.89ID:sIi3toQP つうか最適化で結果が変わったら
それはバグ以外に無いけどねえ。
それはバグ以外に無いけどねえ。
139デフォルトの名無しさん
2015/06/03(水) 15:26:06.85ID:f+QtTKYD140デフォルトの名無しさん
2015/06/17(水) 22:35:16.09ID:uTokHIG4 今年はGTC Japan開催のリリース出ないな
例年ならもう出ているのに
中止かもしくは時期がずれたのかな
例年ならもう出ているのに
中止かもしくは時期がずれたのかな
141デフォルトの名無しさん
2015/06/18(木) 12:56:34.78ID:0ZPzSsHT >>140
今年は9月18日に虎ノ門ヒルズで開催、だったかと。
今年は9月18日に虎ノ門ヒルズで開催、だったかと。
142デフォルトの名無しさん
2015/06/18(木) 13:04:11.34ID:9mEYqdNq Visual studioでCUDAプログラムを作成しています
Nsightでstart CUDA debuggingからプログラムを走らせた時だけプログラムが動かないんですが
どのような原因が考えられますか?
以下の条件ではすべて正常に動作・終了します
デバッグなしで開始(debug,release共に)
start CUDA debuggingでブレイクポイントを仕掛けて1スレッドずつ動かす
Nsightでstart CUDA debuggingからプログラムを走らせた時だけプログラムが動かないんですが
どのような原因が考えられますか?
以下の条件ではすべて正常に動作・終了します
デバッグなしで開始(debug,release共に)
start CUDA debuggingでブレイクポイントを仕掛けて1スレッドずつ動かす
143142
2015/06/18(木) 13:16:06.49ID:9mEYqdNq 追加です
プログラムの詳細ですが
ある無向グラフに対して,与えられた2点が連結かどうか調べるプログラム
枝重み0と仮定してダイクストラのアルゴリズムを用いて判定しています.
1ブロックにつき16スレッドが同時に走ります.
その判定関数をfoo()とすると
if( blockIdx.x == tmp )
foo();
というように一つのブロックのみで扱うようにすると
tmpがどのような値でも正常に動作するのですが
2ブロック以上でfooに行くようにすると動かなくなります
エラーがでないことと,printfによるチェックですが
配列のアドレスも問題ありません
プログラムの詳細ですが
ある無向グラフに対して,与えられた2点が連結かどうか調べるプログラム
枝重み0と仮定してダイクストラのアルゴリズムを用いて判定しています.
1ブロックにつき16スレッドが同時に走ります.
その判定関数をfoo()とすると
if( blockIdx.x == tmp )
foo();
というように一つのブロックのみで扱うようにすると
tmpがどのような値でも正常に動作するのですが
2ブロック以上でfooに行くようにすると動かなくなります
エラーがでないことと,printfによるチェックですが
配列のアドレスも問題ありません
144デフォルトの名無しさん
2015/06/19(金) 21:29:02.20ID:tQGft1o9 >>143
何かスレッドの実行順序に依存した処理があるか、排他が必要な競合でもあるんじゃね?
何かスレッドの実行順序に依存した処理があるか、排他が必要な競合でもあるんじゃね?
145デフォルトの名無しさん
2015/06/19(金) 22:01:43.75ID:FLqfhWNF >>141情報感謝です
146デフォルトの名無しさん
2015/06/22(月) 21:23:14.11ID:FYteK6ai デバイスメモリの内容を一時的にホスト側からアクセスしたいんですが、OpenCLでいう
clEnqueueMapBufferに相当する機能はCUDAにあるんでしょうか?
ちょっと調べてみたんですが、cudaHostRegisterは方向が逆だし、cudaMallocManagedは
既にあるデバイスメモリにアクセスするものではなさそうなので。
cudaMemcpyで読み出して終わったらまた書き出すという方法しかないんでしょうか。
clEnqueueMapBufferに相当する機能はCUDAにあるんでしょうか?
ちょっと調べてみたんですが、cudaHostRegisterは方向が逆だし、cudaMallocManagedは
既にあるデバイスメモリにアクセスするものではなさそうなので。
cudaMemcpyで読み出して終わったらまた書き出すという方法しかないんでしょうか。
147デフォルトの名無しさん
2015/06/23(火) 13:14:37.10ID:DUXK3D31 OpenCLを知らないので外してるかも知れないけど、
基本的にはcudamemcpyするしかない。
CUDA6.0からUnified Memoryっていう機能が入って、
GPU上のメモリをホストメモリと同じように読めて、
自動的に同期を取ってくれる機能。用途によっては使えるかも。
基本的にはcudamemcpyするしかない。
CUDA6.0からUnified Memoryっていう機能が入って、
GPU上のメモリをホストメモリと同じように読めて、
自動的に同期を取ってくれる機能。用途によっては使えるかも。
148デフォルトの名無しさん
2015/06/24(水) 08:02:13.81ID:wFw+UOzE >>147
ありがとう。やっぱりcudaMemcpyするしかないのか。
ありがとう。やっぱりcudaMemcpyするしかないのか。
149デフォルトの名無しさん
2015/06/25(木) 22:41:21.74ID:t3bjYB8L 今日はじめてCUDAを入れた者ですが、VS2013でサンプルをビルドするとerror MSB3721…\simpleTemplates.cu"" はコード 1 で終了しました
って出るんだが何か設定とか必要ですか?
あとインストールの確認(?)でコマンドプロンプトでnvcc -Vのコマンド入れてもアクセスが拒否されましたと出る…
これが原因ですかね?
いろいろ調べてみましたが、これといった解決方法はなかったので助けて下さい。
よろしくお願いします。
って出るんだが何か設定とか必要ですか?
あとインストールの確認(?)でコマンドプロンプトでnvcc -Vのコマンド入れてもアクセスが拒否されましたと出る…
これが原因ですかね?
いろいろ調べてみましたが、これといった解決方法はなかったので助けて下さい。
よろしくお願いします。
150149
2015/06/25(木) 23:09:29.97ID:t3bjYB8L151デフォルトの名無しさん
2015/06/26(金) 01:26:56.82ID:f2ddT7MK 750Tiってあんまりいけてないのか…
CUDA試したくてあんまり調べずに衝動買いしてしまった
900台にした方が良かったのかなあ
CUDA試したくてあんまり調べずに衝動買いしてしまった
900台にした方が良かったのかなあ
152デフォルトの名無しさん
2015/06/26(金) 08:33:52.91ID:h0LNB3lK ゲームするならかなりいけてるが倍精度はしょぼいな
倍精度が欲しいならfermiかgk110コアのがいいのか?
ゲームしないならamdでopenCLの方がコスパ良さそうなんだがどうなの?
倍精度が欲しいならfermiかgk110コアのがいいのか?
ゲームしないならamdでopenCLの方がコスパ良さそうなんだがどうなの?
153デフォルトの名無しさん
2015/06/26(金) 09:30:43.08ID:gBS6mhz7 >>150
ちゃんとアンチウイルス入れておけよ。
ちゃんとアンチウイルス入れておけよ。
154デフォルトの名無しさん
2015/06/26(金) 11:48:22.16ID:JVzNXP51 CUDA7入れたのですが、
cublas.hが見つからないと出てしまいました。
cublas使うには他に何か必要なのでしょうか?
cublas.hが見つからないと出てしまいました。
cublas使うには他に何か必要なのでしょうか?
155デフォルトの名無しさん
2015/06/26(金) 12:57:38.26ID:1v0mrakI >>154
C:> dir /s /b "%CUDA_PATH%\cublas.h"
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include\cublas.h
C:> dir /s /b "%CUDA_PATH%\cublas.h"
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include\cublas.h
156デフォルトの名無しさん
2015/06/26(金) 13:07:12.91ID:JVzNXP51 ありがとうございます。
みつかりました
みつかりました
157デフォルトの名無しさん
2015/06/26(金) 23:47:30.95ID:f2ddT7MK >>152
>ゲームするならかなりいけてる
こういうのがイマイチよくわかりません
単純にFLOPSで性能を見ちゃいけないのでしょうか
ゲームやGPUプログラミングに向いてるかどうかってどうやって判断してるんでしょうか
>ゲームするならかなりいけてる
こういうのがイマイチよくわかりません
単純にFLOPSで性能を見ちゃいけないのでしょうか
ゲームやGPUプログラミングに向いてるかどうかってどうやって判断してるんでしょうか
158デフォルトの名無しさん
2015/06/27(土) 03:38:35.85ID:y7j5+l1E >>157
プロはGPGPUするのにゲーム用のGFやRadeonをはあんまり使わない
趣味レベルでOKのGPGPUならGPGPUがオマケであるゲーム用(ゲームドライバ)のVGAでも良いが。
Xeonが一般的な業務サーバーに普通のデスクトップPCをいっぱい使うなことは
しないのと同じ。あと、FLOPSは目的のGPGPUするのに必要なレベルあれあば良い。
低FLOPSでOKなGPGPU処理に超高FLOPSのものを使うって趣味だし
プロはGPGPUするのにゲーム用のGFやRadeonをはあんまり使わない
趣味レベルでOKのGPGPUならGPGPUがオマケであるゲーム用(ゲームドライバ)のVGAでも良いが。
Xeonが一般的な業務サーバーに普通のデスクトップPCをいっぱい使うなことは
しないのと同じ。あと、FLOPSは目的のGPGPUするのに必要なレベルあれあば良い。
低FLOPSでOKなGPGPU処理に超高FLOPSのものを使うって趣味だし
159デフォルトの名無しさん
2015/06/27(土) 09:17:14.69ID:f1QkQQtg プロだってコスパ考えるだろ。
倍精度演算性能と信頼性で妥協できるならゲーム用GPUの方が圧倒的に安いしな。
倍精度演算性能と信頼性で妥協できるならゲーム用GPUの方が圧倒的に安いしな。
2015/06/27(土) 23:23:04.05ID:XHzW5ECE
まあ中国の天河1号はFireStreamですらないRadeonのデュアルGPUカードを大量搭載したが
結局実用にならなくて次の更新で全部Teslaに差し替えたからね
額面のFLOPS数だけで実用性は評価できない
結局実用にならなくて次の更新で全部Teslaに差し替えたからね
額面のFLOPS数だけで実用性は評価できない
161デフォルトの名無しさん
2015/06/28(日) 09:51:05.56ID:MpgQMMEq 中国はスパコンにTESLAとか使えなくなったから、NVIDIAやインテルは大口顧客を失った。
162デフォルトの名無しさん
2015/06/28(日) 16:33:48.10ID:zku7pwa+ >NVIDIAやインテルは大口顧客を失った。
その損失分は米国内の大型スパコンでの便宜をはかることで補填されてるから企業としては差し引きOKとなったはず
その損失分は米国内の大型スパコンでの便宜をはかることで補填されてるから企業としては差し引きOKとなったはず
163デフォルトの名無しさん
2015/06/29(月) 08:06:36.49ID:FIYCVjDt windows7でchainer試そうとすると
pycudaでなんか不具合出る
pycudaでなんか不具合出る
164デフォルトの名無しさん
2015/06/29(月) 08:13:35.83ID:FIYCVjDt165デフォルトの名無しさん
2015/06/29(月) 09:25:13.60ID:uPSGGZxo 並列計算でGTX780Ti使ってるんだけどGTX980Tiにしたら倍精度の計算って遅くなる?
166デフォルトの名無しさん
2015/06/30(火) 16:00:18.94ID:vWTsPJO/ cudaってMFCのcppから呼べますか?
サンプルで.cuから.cppを呼んでるのは見つけたんですが。
サンプルで.cuから.cppを呼んでるのは見つけたんですが。
167デフォルトの名無しさん
2015/06/30(火) 17:26:54.94ID:vWTsPJO/ あーexternで呼べました
168デフォルトの名無しさん
2015/07/02(木) 01:47:05.99ID:cql5ELb9 >>165
単精度演算性能 コア数×クロック数×2
倍精度演算性能 単精度演算性能/24(Kepler), 単精度演算性能/32(Maxwell)
として計算すると、
780Tiが2880×875×2/24=205GFLOPS
980Tiが2816×1000×2/32=172GLOPS
だから、遅くなるんじゃね?
単精度演算性能 コア数×クロック数×2
倍精度演算性能 単精度演算性能/24(Kepler), 単精度演算性能/32(Maxwell)
として計算すると、
780Tiが2880×875×2/24=205GFLOPS
980Tiが2816×1000×2/32=172GLOPS
だから、遅くなるんじゃね?
169デフォルトの名無しさん
2015/07/02(木) 15:34:36.77ID:bfg1NSwR CUDAって仕様上できないこともコンパイルとおるのか〜
170デフォルトの名無しさん
2015/07/02(木) 23:26:03.68ID:Pfy0Io9G Nvはゲームにゲーム用VGAには倍精度演算イラネから省くって流れだから
ゲーム用VGAで倍精度演算性能ほしいならRadeにしたほうがいいよな
ゲーム用VGAで倍精度演算性能ほしいならRadeにしたほうがいいよな
171デフォルトの名無しさん
2015/07/03(金) 14:37:16.26ID:WUZUNux9172デフォルトの名無しさん
2015/07/03(金) 23:30:48.50ID:dkeXuonA TITANヤフオクで探すのはどうでしょ
173デフォルトの名無しさん
2015/07/05(日) 22:31:36.27ID:tW1t1zZP 全く値段見ないでカンで言うけど
中古の無印TITANならウンコに混じったコーン位の値段で売ってんじゃないの?
中古の無印TITANならウンコに混じったコーン位の値段で売ってんじゃないの?
174デフォルトの名無しさん
2015/07/07(火) 16:43:12.64ID:y9jINuhY CULAのエラーでpos 1022ってなんですか?
LAPACKドキュメントを見よとか書いてありますが、見当たりません
LAPACKドキュメントを見よとか書いてありますが、見当たりません
175デフォルトの名無しさん
2015/07/08(水) 10:49:51.33ID:UJb9gmN3 CUDA7.5 RC
176デフォルトの名無しさん
2015/07/08(水) 20:10:01.47ID:h2HOA+i0 最近始めたんだけどversionって無理して最新にする必要無いのかな
7入れるのに結構苦労したんであんまり変えたくない
みなさんはガンガン上げてく感じですか?
7入れるのに結構苦労したんであんまり変えたくない
みなさんはガンガン上げてく感じですか?
177デフォルトの名無しさん
2015/07/08(水) 20:20:41.59ID:QsV0kvB4 共存できるやん
178デフォルトの名無しさん
2015/07/11(土) 13:57:32.12ID:QRzfcgY3 困らなければ基本的に更新とかはしないと思うけど…
179デフォルトの名無しさん
2015/07/13(月) 01:32:34.78ID:BK2wG7MT でも最新のほうが速くなったりするかもしれないし
180デフォルトの名無しさん
2015/07/27(月) 20:50:16.33ID:0YcBUgDv 分割コンパイルができないんだけど、どうしたらいいんだろ?
ビルドどころか1ファイルのコンパイルもエラーになる
vs2013ce, cuda7.0, fermi, debug,x64
D:\cuda_test\cuda_test>
"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\bin\nvcc.exe"
-gencode=arch=compute_20,code=\"sm_20,compute_20\" --use-local-env --cl-version 2013
-ccbin "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin\x86_amd64" -rdc=true
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\lib\x64"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-G --keep-dir x64\Debug -maxrregcount=0 --machine 64
--compile -cudart static -g -DWIN32 -DWIN64 -D_DEBUG -D_CONSOLE -D_UNICODE -DUNICODE
-Xcompiler "/EHsc /W3 /nologo /Od /Zi /RTC1 /MDd "/wd 4819""
-o x64\Debug\cuda_body.cu.obj "D:\cuda_test\cuda_test\cuda_body.cu"
1> nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
ビルドどころか1ファイルのコンパイルもエラーになる
vs2013ce, cuda7.0, fermi, debug,x64
D:\cuda_test\cuda_test>
"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\bin\nvcc.exe"
-gencode=arch=compute_20,code=\"sm_20,compute_20\" --use-local-env --cl-version 2013
-ccbin "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin\x86_amd64" -rdc=true
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\lib\x64"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-G --keep-dir x64\Debug -maxrregcount=0 --machine 64
--compile -cudart static -g -DWIN32 -DWIN64 -D_DEBUG -D_CONSOLE -D_UNICODE -DUNICODE
-Xcompiler "/EHsc /W3 /nologo /Od /Zi /RTC1 /MDd "/wd 4819""
-o x64\Debug\cuda_body.cu.obj "D:\cuda_test\cuda_test\cuda_body.cu"
1> nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
181デフォルトの名無しさん
2015/07/27(月) 20:55:02.52ID:0YcBUgDv nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
コンパイルフェーズで出力ファイル指定するときは1ファイルでやれっていうけど、出力ファイル指定しないと何にも出力されないし、
cuda5.0以降は分割コンパイルは対応してるよね? rdcもdlinkも指定してるし何がいけないんだ
コンパイルフェーズで出力ファイル指定するときは1ファイルでやれっていうけど、出力ファイル指定しないと何にも出力されないし、
cuda5.0以降は分割コンパイルは対応してるよね? rdcもdlinkも指定してるし何がいけないんだ
182デフォルトの名無しさん
2015/08/02(日) 15:01:41.54ID:LFE7g0os 別にCUDAじゃなくても良いんですが、
GPUで直接JPEGを、DirectXのテクスチャに展開して、そのまま表示したいです。
そういったライブラリって無いですか?
かなり需要がありそうなんですが
GPUで直接JPEGを、DirectXのテクスチャに展開して、そのまま表示したいです。
そういったライブラリって無いですか?
かなり需要がありそうなんですが
183デフォルトの名無しさん
2015/09/07(月) 00:27:30.12ID:nK71AIt7 ヘッダファイルで定義した定数は__device__内では使えないのでしょうか?
184183
2015/09/08(火) 02:08:23.68ID:V+WRCKAL 少し分かったことがありました
グローバルで
const int i = 1;
const double d = 1;
と定義すると
__device__内でiは使えてdは使えませんでした
error: identifier "d" is undefined in device code
とエラーが出てしまいます
どうしてdouble型だとエラーになるのでしょうか?
グローバルで
const int i = 1;
const double d = 1;
と定義すると
__device__内でiは使えてdは使えませんでした
error: identifier "d" is undefined in device code
とエラーが出てしまいます
どうしてdouble型だとエラーになるのでしょうか?
185デフォルトの名無しさん
2015/09/11(金) 23:39:48.38ID:myHMFCwl floatやlongは?
186デフォルトの名無しさん
2015/09/14(月) 22:17:35.79ID:2IqUP8/H floatはダメでlong intはOK
だめならだめで引数とすれば良いんですけどね
整数だけというのはcudaの仕様ですかね?
だめならだめで引数とすれば良いんですけどね
整数だけというのはcudaの仕様ですかね?
187デフォルトの名無しさん
2015/09/15(火) 09:01:24.15ID:10B5WSYL なんでだろうな。全く調べていないので100%想像だけど、
GPU上にstatic変数が確保されているとは思えないから、
(無いとは言い切れないが)
コンパイル時に定数展開しているんだろうな。
C++の言語仕様としてconst intは定数展開していいし、
(厳密な言い方だと間違いかもしれん)
クラスのstaticメンバにしても宣言のみで定義が不要ってのがあるから、
それに則った処理なんじゃなかろうか。
GPU上にstatic変数が確保されているとは思えないから、
(無いとは言い切れないが)
コンパイル時に定数展開しているんだろうな。
C++の言語仕様としてconst intは定数展開していいし、
(厳密な言い方だと間違いかもしれん)
クラスのstaticメンバにしても宣言のみで定義が不要ってのがあるから、
それに則った処理なんじゃなかろうか。
188デフォルトの名無しさん
2015/09/15(火) 14:26:04.38ID:8ArN6+Sd Visual Studioでエラーでた
似たような状況の人いたら教えてほしいです
環境
CPU core i5 4570
GPU GTX 980
Visual Studio 2010 Ultimate
CUDA v7.0
NSIGHT v5.0
使用言語はC
エラーが起こる状況↓
__device__ function1(){
int array1[ 1000 ];
function2( array1 );
}
__device__ function2( int *array1 ){
int array2[ 1000 ];
for( int k = 0 ; k < 1000 ; k++ ){
array1[ k ] = rand(); // rand()は何らかの乱数を返す関数
array2[ k ] = rand();
}
}
function1を呼び出したとき,時折だがarray1の値がarray2の値と同じになってしまう
エラーが起きた状況で以下のことは確認済み
・array1,2ともにグローバルメモリに確保されている
・array1とarray2のポインタは異なっている
・rand()が異なる値を返している
また,array2の宣言をfunction1で行い,function2にarray2のポインタを返すことで回避ができる
似たような状況の人いたら教えてほしいです
環境
CPU core i5 4570
GPU GTX 980
Visual Studio 2010 Ultimate
CUDA v7.0
NSIGHT v5.0
使用言語はC
エラーが起こる状況↓
__device__ function1(){
int array1[ 1000 ];
function2( array1 );
}
__device__ function2( int *array1 ){
int array2[ 1000 ];
for( int k = 0 ; k < 1000 ; k++ ){
array1[ k ] = rand(); // rand()は何らかの乱数を返す関数
array2[ k ] = rand();
}
}
function1を呼び出したとき,時折だがarray1の値がarray2の値と同じになってしまう
エラーが起きた状況で以下のことは確認済み
・array1,2ともにグローバルメモリに確保されている
・array1とarray2のポインタは異なっている
・rand()が異なる値を返している
また,array2の宣言をfunction1で行い,function2にarray2のポインタを返すことで回避ができる
189デフォルトの名無しさん
2015/09/15(火) 14:29:46.25ID:JgRUCOJR 全然知らんけど、スタックオーバーフローじゃね?
static int array2[1000];にすれば解決
static int array2[1000];にすれば解決
190デフォルトの名無しさん
2015/09/17(木) 00:01:30.77ID:6wQsOGVx >>184
device修飾してないだけとか馬鹿なおちはないよな?
device修飾してないだけとか馬鹿なおちはないよな?
191デフォルトの名無しさん
2015/09/27(日) 11:58:09.30ID:X6SDQWu/ VS2013 cuda7.0で
intelisenseがcudaの関数やthreadIdxなんかに赤線つけるんだけど
intelisenseを無効化させる方法ではなく、対応させられない?
intelisenseがcudaの関数やthreadIdxなんかに赤線つけるんだけど
intelisenseを無効化させる方法ではなく、対応させられない?
192デフォルトの名無しさん
2015/09/29(火) 16:27:34.89ID:++1fLQj6 CUDAって余計な決まり事が多くてGLSLよりわかりにくくなってると思うんだけど
193デフォルトの名無しさん
2015/09/30(水) 06:44:35.73ID:OmftLuOo194デフォルトの名無しさん
2015/10/01(木) 00:53:18.68ID:44xt2+tf cuda_header.hに以下をまとめて、これを.cuでインクルードしてるんだけど、インテリセンスがエラーとして表示したままなんだ。
また従来のcutil系の代わりのhelper関数のヘッダが開けないともなぜか出る。(プロジェクトの追加のインクルードDirには指定してあるんだが・・)
でもコンパイルはされるんだよ・・・。インテリセンスのキャッシュクリアしようと考えたんだが2013のメニューにはないみたいだし・・。
#include <cuda.h>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>
#include <device_functions.h>
#include <math_constants.h>
#include <helper_cuda.h>
#include <helper_math.h>
また従来のcutil系の代わりのhelper関数のヘッダが開けないともなぜか出る。(プロジェクトの追加のインクルードDirには指定してあるんだが・・)
でもコンパイルはされるんだよ・・・。インテリセンスのキャッシュクリアしようと考えたんだが2013のメニューにはないみたいだし・・。
#include <cuda.h>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>
#include <device_functions.h>
#include <math_constants.h>
#include <helper_cuda.h>
#include <helper_math.h>
195デフォルトの名無しさん
2015/11/11(水) 20:55:36.03ID:FAkUvGGr 超初歩的な質問ですがよろしければお願いします
環境 windows7 64bit Visual Studio 2013 community CUDA7.5
CUDAインストール時にはVS2013をインストール済みと判定するものの
コマンドプロンプトからnvccでサンプルを実行させると
nvcc fatal : nvcc cannot find a supported version of microsoft visual studio
とエラーが発生します
パスなどの設定の問題なのでしょうか?
環境 windows7 64bit Visual Studio 2013 community CUDA7.5
CUDAインストール時にはVS2013をインストール済みと判定するものの
コマンドプロンプトからnvccでサンプルを実行させると
nvcc fatal : nvcc cannot find a supported version of microsoft visual studio
とエラーが発生します
パスなどの設定の問題なのでしょうか?
196デフォルトの名無しさん
2015/11/11(水) 22:32:08.88ID:kzShUi9X コマンドプロンプトからcl.exe叩くのと同じだろう。
VSの開発者コマンドプロンプトからやってみれば?
VSの開発者コマンドプロンプトからやってみれば?
197デフォルトの名無しさん
2015/11/12(木) 06:18:25.24ID:oFlt1n6m Communityでもいけるんだ?
少し前に断念してProにした記憶がある
少し前に断念してProにした記憶がある
198デフォルトの名無しさん
2015/11/16(月) 00:30:41.16ID:wFEoXPFZ 質問です
OpenGLとCUDAを使って流体のシミュレーションをしようと考えています
OpenGLの描画とCUDAの計算を別スレッドで行ってCUDAの計算の完了を待たずに描画をしようとするとプログラムが落ちてしまいます
そもそもこういう使い方は間違いですか?
GPUを二つ使わないと不可能なのでしょうか?
OpenGLとCUDAを使って流体のシミュレーションをしようと考えています
OpenGLの描画とCUDAの計算を別スレッドで行ってCUDAの計算の完了を待たずに描画をしようとするとプログラムが落ちてしまいます
そもそもこういう使い方は間違いですか?
GPUを二つ使わないと不可能なのでしょうか?
199デフォルトの名無しさん
2015/11/16(月) 04:31:20.12ID:yRzaBdvH CUDAを待たずにどういったデータで描画してるの?
200デフォルトの名無しさん
2015/11/16(月) 11:12:07.65ID:wFEoXPFZ 正確には
CUDAで計算
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算 ←ここを並列化したい
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算
↓
といった処理の流れです
描画と計算の処理の合計が少しでも速くなれば最終的には速くなる見込みなんですが、描画とCUDAは同時にはできないのでしょうか?
CUDAで計算
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算 ←ここを並列化したい
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算
↓
といった処理の流れです
描画と計算の処理の合計が少しでも速くなれば最終的には速くなる見込みなんですが、描画とCUDAは同時にはできないのでしょうか?
201デフォルトの名無しさん
2015/11/16(月) 13:12:47.35ID:tPyDrti9202デフォルトの名無しさん
2015/11/16(月) 18:15:47.96ID:wFEoXPFZ すいません何故か解決しました
OpenGLによる描画をサブスレッドにしていたところメインスレッドにしたら問題なく実行できるようになりました
OpenGLによる描画をサブスレッドにしていたところメインスレッドにしたら問題なく実行できるようになりました
203デフォルトの名無しさん
2015/11/19(木) 10:22:54.59ID:78JlLUmP AMD、GPGPUの向けの取り組み「ボルツマンイニシアチブ」を発表。CUDAとの互換性も提供 | スラド
http://srad.jp/story/15/11/18/0657225/
http://srad.jp/story/15/11/18/0657225/
204デフォルトの名無しさん
2015/11/19(木) 18:31:49.90ID:xKyOvSDo >>203
いまや一般向けプログラムですらGPUを使うことが普通になったから、
これがC++コンパイラーのデファクトになるだろうな。
DX12,VulkanでGPUするならAMDって流れにまってしまったからな
いまや一般向けプログラムですらGPUを使うことが普通になったから、
これがC++コンパイラーのデファクトになるだろうな。
DX12,VulkanでGPUするならAMDって流れにまってしまったからな
205デフォルトの名無しさん
2015/11/19(木) 20:24:21.71ID:FjjW9TL1 え?
GPGPUの世界は圧倒的にNVIDIAなんだけど?
GPGPUの世界は圧倒的にNVIDIAなんだけど?
206デフォルトの名無しさん
2015/11/19(木) 20:26:18.29ID:Zq45eYUV PC用GPUでもAMDはシェア2割切ってるでしょ
207デフォルトの名無しさん
2015/11/19(木) 21:33:26.48ID:ngiRjlY7 産業向けのガチのやつならNvidiaでくだ
カジュアルな一般向けならIntelをOpenCLでってとこかな
カジュアルな一般向けならIntelをOpenCLでってとこかな
208デフォルトの名無しさん
2015/11/19(木) 22:05:05.00ID:btQoS/xZ 開発の手間で言えばCUDAが一番楽。NV限定にできるなら趣味でやるにしてもそれが一番手軽。
OpenCLならせめてAMD。IntelはOpenCLの経験を積んだ苦労と向け。
OpenCLならせめてAMD。IntelはOpenCLの経験を積んだ苦労と向け。
209デフォルトの名無しさん
2015/11/19(木) 22:09:50.57ID:ngiRjlY7 個人向けやオフィスPCでグラボ別にあるのって少数だから仕方ない。
数を優先するならむしろNvidia切ってIntelのみ対応という手もありうる。
数を優先するならむしろNvidia切ってIntelのみ対応という手もありうる。
210デフォルトの名無しさん
2015/11/19(木) 22:10:45.45ID:ngiRjlY7 慣れてるし開発ツール揃ってるからNが一番楽なんだけど。
211デフォルトの名無しさん
2015/11/19(木) 22:48:28.04ID:btQoS/xZ HD GraphicsでOpenCLやってもCPUと大して性能変わらんぞ?
それに、オンボードグラフィックスのPC自体は多いだろうが、OpenCL1.0しか動かんとか
そもそもOpenCLが使えないのも少なくない。間口でいうならSSEでもやるほうがまし。
そうでなければAMDでOpenCL開発してNVとIntelで動作確認ってところだな。
それに、オンボードグラフィックスのPC自体は多いだろうが、OpenCL1.0しか動かんとか
そもそもOpenCLが使えないのも少なくない。間口でいうならSSEでもやるほうがまし。
そうでなければAMDでOpenCL開発してNVとIntelで動作確認ってところだな。
212デフォルトの名無しさん
2015/11/19(木) 23:05:53.48ID:ngiRjlY7 >>211
CPUの代わりというよりは少しでも計算パワーがほしい場合もあってさ。
GPU使ってる間CPU使えるなら2倍になるじゃん?
あるいはBGでうごかしてフロントでは通常のアプリ使えるじゃない?
絶対的なパワーというよりはそういう所に使いでを見出してる。
確かにOpenCLはHWアーキ変更激しいし世代でがらりと変えてくるからやりにくそうなんだけど。
CPUの代わりというよりは少しでも計算パワーがほしい場合もあってさ。
GPU使ってる間CPU使えるなら2倍になるじゃん?
あるいはBGでうごかしてフロントでは通常のアプリ使えるじゃない?
絶対的なパワーというよりはそういう所に使いでを見出してる。
確かにOpenCLはHWアーキ変更激しいし世代でがらりと変えてくるからやりにくそうなんだけど。
213デフォルトの名無しさん
2015/11/19(木) 23:06:47.02ID:ngiRjlY7 間違い。OpenCLではなくてIntelのGPUね
214デフォルトの名無しさん
2015/11/19(木) 23:36:03.63ID:u4ZVkU4H AMD関連使って良かったと思った印象が一度も無いから使いたくねえな
215デフォルトの名無しさん
2015/11/19(木) 23:54:31.95ID:btQoS/xZ >>212
つまり、少しでもパフォーマンスは欲しいけどdGPUほどの性能は必要なくて、
数を優先するけどオンボードグラフィックスでOpenCLが動く環境に限定していいと。
最初の「カジュアル」からは想像つかないピンポイントな要件だなw
つまり、少しでもパフォーマンスは欲しいけどdGPUほどの性能は必要なくて、
数を優先するけどオンボードグラフィックスでOpenCLが動く環境に限定していいと。
最初の「カジュアル」からは想像つかないピンポイントな要件だなw
216デフォルトの名無しさん
2015/11/20(金) 00:37:51.03ID:XYOZ5eLO カジュアルGPGPUなら内蔵GPUでOpenCL2確定
一方、外GPUを使う高性能GPGPUものは昔はNvidiaが圧倒していたけど、いまはAMDが圧倒しているんだろ?
一方、外GPUを使う高性能GPGPUものは昔はNvidiaが圧倒していたけど、いまはAMDが圧倒しているんだろ?
217デフォルトの名無しさん
2015/11/20(金) 00:49:06.07ID:H4wqwi3u >>215
そうなのかなあ?自分の文章の書き方が良くないのかもしれないが
ほとんどは内蔵GPUしか期待できないから、
その範囲で少しでも計算パワー稼ごうと思ったらそれしかないように思うのだけど
dGPUほどの性能はいらないわけじゃなくて、ほとんど期待できないからしかたなくという感じ。
そうなのかなあ?自分の文章の書き方が良くないのかもしれないが
ほとんどは内蔵GPUしか期待できないから、
その範囲で少しでも計算パワー稼ごうと思ったらそれしかないように思うのだけど
dGPUほどの性能はいらないわけじゃなくて、ほとんど期待できないからしかたなくという感じ。
218デフォルトの名無しさん
2015/11/20(金) 01:19:10.06ID:mr/p17yR 組み込みは知らないけど汎用PCでAMDが圧倒した話なんて聞いたことない
219デフォルトの名無しさん
2015/11/20(金) 05:55:05.61ID:M/+Jbdu5 bitcoin マイニングでは AMD 一択だったようだが
220デフォルトの名無しさん
2015/11/20(金) 07:13:28.40ID:08M9JHWM deep learningではNVIDIA圧勝だろ?
221デフォルトの名無しさん
2015/11/20(金) 07:48:52.29ID:kIzUFPbb bitcoinは専用ASICが開発されてとっくにそっちが主流になりました
GPGPUでやったところで、最早電気代のもとを取ることすらできない
GPGPUが最適といわれるのはASIC以前にFPGA化して売り出すほどの人気もない
マイナー暗号通貨くらいでそんなニーズが世界的な需要をけん引することなんて
ありうるわけがないのだ(需要が少ないからこそGPGPUでやってるわけだし)
GPGPUでやったところで、最早電気代のもとを取ることすらできない
GPGPUが最適といわれるのはASIC以前にFPGA化して売り出すほどの人気もない
マイナー暗号通貨くらいでそんなニーズが世界的な需要をけん引することなんて
ありうるわけがないのだ(需要が少ないからこそGPGPUでやってるわけだし)
222デフォルトの名無しさん
2015/11/20(金) 07:54:46.98ID:h5Le2W6O >>217
一般に配布するアプリでなるべく多くの環境で動かしたいというならOpenCLで、
内蔵GPUしかない人は動けば御の字、もっと速く動かしたければちゃんとしたGPU
買ってね、でいいと思うが。
社内ツールとかで外付けがほとんど期待できないのなら、たいして速くならない
割りに動かないリスクばかり大きいんで素直にCPUのがマシ。
一般に配布するアプリでなるべく多くの環境で動かしたいというならOpenCLで、
内蔵GPUしかない人は動けば御の字、もっと速く動かしたければちゃんとしたGPU
買ってね、でいいと思うが。
社内ツールとかで外付けがほとんど期待できないのなら、たいして速くならない
割りに動かないリスクばかり大きいんで素直にCPUのがマシ。
223デフォルトの名無しさん
2015/11/20(金) 08:15:06.13ID:lXZVvFkG GPUばりばり使ってますってアピールしているプログラムで、avxもsseも使えないようなプログラミングしている例も多いからなぁ。
224デフォルトの名無しさん
2015/11/20(金) 08:21:26.00ID:kIzUFPbb 内蔵GPUはどのみちメインメモリの帯域で頭打ちになるのでたいていの問題では
AVX使ったほうが速いんだよね
どっかのA社のはCPUコア側のメモリ帯域にリミッタがかかってて内蔵GPU側も使わないと
フルに帯域を使えないうえCPU側のAVX性能が残念だから
そもそもそれ専用にプログラム書くほどの市場がない
CUDAは一握りでもちゃんと労力に見合った金を払ってくれる法人ユーザーが一定数いるから
ビジネスとして成立するんだよ。その点法人皆無で貧乏人しかいないA社ユーザーじゃ無理
AVX使ったほうが速いんだよね
どっかのA社のはCPUコア側のメモリ帯域にリミッタがかかってて内蔵GPU側も使わないと
フルに帯域を使えないうえCPU側のAVX性能が残念だから
そもそもそれ専用にプログラム書くほどの市場がない
CUDAは一握りでもちゃんと労力に見合った金を払ってくれる法人ユーザーが一定数いるから
ビジネスとして成立するんだよ。その点法人皆無で貧乏人しかいないA社ユーザーじゃ無理
225デフォルトの名無しさん
2015/11/20(金) 11:47:48.38ID:mr/p17yR ビットコインマイニングとか普通じゃない使い方で普及してるかどうかはどうでもよくないか
226デフォルトの名無しさん
2015/11/27(金) 23:57:44.09ID:tzomtYgx 内臓GPUにこだわるのはそもそもGPUに興味もない人が増えていて
そんな人までプログラム、GPGPUに参加したり利用する可能性が高いからなんだよな
GPU自体ニッチ向けの商売になりつつあるし
そんな人までプログラム、GPGPUに参加したり利用する可能性が高いからなんだよな
GPU自体ニッチ向けの商売になりつつあるし
227デフォルトの名無しさん
2015/11/28(土) 00:01:22.67ID:KoXr/JyJ >>200
DX12でGeForce全般がAsync、非同期処理が苦手といった話があったけどそれとは関係ないよね?
自己解決ってことはやっぱ非同期で処理してたのが原因かもしれないけど
(サブで描画するのは普通にお行儀が悪いけど)
DX12でGeForce全般がAsync、非同期処理が苦手といった話があったけどそれとは関係ないよね?
自己解決ってことはやっぱ非同期で処理してたのが原因かもしれないけど
(サブで描画するのは普通にお行儀が悪いけど)
228デフォルトの名無しさん
2015/11/28(土) 00:33:01.21ID:CG0HQ1xP 単にOpenGLの使い方の問題だろ。context作ったスレッドと別のスレッドからアクセスしようとした。
229デフォルトの名無しさん
2015/11/29(日) 06:40:00.31ID:Ciaig/FJ Win7PCに搭載されたQuadro4000とVC2012のC++AMPでfloatの計算をさせると「グラフィックスが応答しないのでリセットしました」とかメッセージをだしてプログラムが異常終了してしまう。
計算量はCPUを使った場合に8スレッド+AVX2で30分くらい。一枚のグラボで画面表示とGPGPU計算の両立は無理? CUDAを使えば可能なのだろうか?
計算量はCPUを使った場合に8スレッド+AVX2で30分くらい。一枚のグラボで画面表示とGPGPU計算の両立は無理? CUDAを使えば可能なのだろうか?
230デフォルトの名無しさん
2015/11/29(日) 06:56:59.57ID:PzHZjgEI 少し前のレス見てごらん
231デフォルトの名無しさん
2015/11/29(日) 19:54:46.97ID:jxlspYCF >>229
GPGPUではよくあること
そんなことがよくあるから一般PCでGPGPUが激活用されない
一般PCではGPGPUよりOSによる画面表示の方が大事だから、画面表示を激妨げるのものは殺す
GPGPUを必死したいならGPGPU用VGAと画面表示用VGAを搭載する
画面表示を激妨害しないようなゆとりGPGPUプログラムにする
GPGPUではよくあること
そんなことがよくあるから一般PCでGPGPUが激活用されない
一般PCではGPGPUよりOSによる画面表示の方が大事だから、画面表示を激妨げるのものは殺す
GPGPUを必死したいならGPGPU用VGAと画面表示用VGAを搭載する
画面表示を激妨害しないようなゆとりGPGPUプログラムにする
232デフォルトの名無しさん
2015/11/29(日) 22:14:39.86ID:Ciaig/FJ >>231
レスありがとう。
やっぱ、無理なんだ。
動くのは、サンプルだけか。
レスありがとう。
やっぱ、無理なんだ。
動くのは、サンプルだけか。
233デフォルトの名無しさん
2015/11/29(日) 22:41:35.63ID:eJ1soHzz234デフォルトの名無しさん
2015/11/29(日) 23:16:26.96ID:vsLNXKl8 QuadroってTCCモードにできなかったっけか?
235デフォルトの名無しさん
2015/12/02(水) 07:09:10.66ID:REHK1l6p Quadro自体結構前の世代のグラボじゃないっけ・・・
236デフォルトの名無しさん
2015/12/09(水) 05:38:34.32ID:0m997ITy 2秒たったらハードウエア割り込みをかけて一瞬だけ画面表示させて、TDRが問題にならないように制御できないのかな?
237デフォルトの名無しさん
2015/12/09(水) 16:39:41.14ID:OazooE89 あんたエンジニアに向いてないなw
238デフォルトの名無しさん
2015/12/09(水) 19:33:54.62ID:wnEGaksG いや、むしろ向いてるかも
デスマーチを突破するにはそれぐらいのやっつけ仕事が出来なきゃねw
デスマーチを突破するにはそれぐらいのやっつけ仕事が出来なきゃねw
239デフォルトの名無しさん
2015/12/10(木) 02:04:50.93ID:0cE1JGhL 勢いでwindows10にしてからcudaが一切認識しなくなった・・・
version7.5、ドライバ最新版入れてGPU-ZでCUDAにチェック入っているのに初期化で失敗する。
付随してwaifu2x-caffeとかも動かなくなってるしもしかしてまだwin10には対応してなかったのか。
version7.5、ドライバ最新版入れてGPU-ZでCUDAにチェック入っているのに初期化で失敗する。
付随してwaifu2x-caffeとかも動かなくなってるしもしかしてまだwin10には対応してなかったのか。
240デフォルトの名無しさん
2015/12/10(木) 02:30:34.40ID:DGBX2/sF241デフォルトの名無しさん
2015/12/10(木) 22:46:54.47ID:0cE1JGhL >>240
だよね・・・
最新ドライバや少し古いバージョンを入れてみるとGPU-Zでチェックに入ってるんだが
cudaを使うソフトがことごとく検出できませんでしたと出てサンプルプロジェクトも強制終了する。
NVEncのためにCUDAが使えなくなったとかいう記事見たけど、まさかこれが理由ってわけではないよね
だよね・・・
最新ドライバや少し古いバージョンを入れてみるとGPU-Zでチェックに入ってるんだが
cudaを使うソフトがことごとく検出できませんでしたと出てサンプルプロジェクトも強制終了する。
NVEncのためにCUDAが使えなくなったとかいう記事見たけど、まさかこれが理由ってわけではないよね
242デフォルトの名無しさん
2015/12/10(木) 23:22:08.77ID:9vd2ccw+ >>241
win10のvs2013で7.5問題なく使えてる。ついてくるサンプル、ビルド・実行ともに。
win10のvs2013で7.5問題なく使えてる。ついてくるサンプル、ビルド・実行ともに。
243デフォルトの名無しさん
2015/12/10(木) 23:59:35.52ID:Qmth+aWu 今のNvidiaはAMDに比べてかなり安定度低いからな
244デフォルトの名無しさん
2015/12/11(金) 02:14:41.31ID:f48gwmmB >>241
GPU-ZでCUDAが見えるのにアプリケーションが動かないってのはRuntime DLLが
見つからないんじゃないのか?
どっちにしても、CUDAのどの関数を呼んだときに落ちるのか、あるいはそもそも
最初から起動できないのか、どこで落ちているかくらい調べることはできるだろ。
GPU-ZでCUDAが見えるのにアプリケーションが動かないってのはRuntime DLLが
見つからないんじゃないのか?
どっちにしても、CUDAのどの関数を呼んだときに落ちるのか、あるいはそもそも
最初から起動できないのか、どこで落ちているかくらい調べることはできるだろ。
245デフォルトの名無しさん
2015/12/26(土) 22:42:40.07ID:Xbomr4ek246デフォルトの名無しさん
2016/01/10(日) 19:11:06.55ID:EetmQxdp おかげさまでCUDAでchainer使えるようになりました。
爆速で進捗状況見てるだけで嬉しいです。
本当にありがとうございました。
爆速で進捗状況見てるだけで嬉しいです。
本当にありがとうございました。
247デフォルトの名無しさん
2016/01/13(水) 07:52:00.07ID:6qdfgrgw 使えなかった理由は何だったのかと
248デフォルトの名無しさん
2016/01/17(日) 03:23:46.57ID:lMNqpq/q 教えていただきたいことがあります。
ubuntu14で、chainer1.5.1のmnistをGPUで計算できるか試行錯誤中です。
python train_mnist.py --gpu 0 #エラー
sudo python train_mnist.py --gpu 0 #エラー
python train_mnist.py --gpu 0 #うまく動いた
と、sudoをつけて外しただけで、うまく動いた理由を知りたいのです。自分の操作が正しいのか間違ってるのかよくわからなくなってきました…
ログのリンクも添付しています。2つは同じファイルです(dotupはアップローダーの都合上zip圧縮しています)
事前の処理として、vgaのドライバ、cudaとcudnnを入れてパスを通しています。
またchainerのmnistも、cpuの処理ならエラーは出ずに動いていました。
操作は
python train_mnist.pyを実行してcrl+cで止めた。
python train_mnist.py --gpu 0を実行してエラーになった(30-38行目と同じエラー)。
その後、再起動
1行目:VGAの番号を取得した(GTX750tiのIDが0)
28行目:enter押しただけ
29行目:python train_mnist.py --gpu 1 なんとなくid1で動かしてみた。エラー
39行目:id2で動かしてみた。内蔵gpuを使うかも?と思ったがエラー
49行目:id0で試すもエラー
59行目:sudoつけてみてエラー。パスを引き継いでないからnvccがない(=CUDAが見つからない)、cudnnが無いというエラーが出ているのだと思います。
91行目:sudo外したら普通に動いた
http://www.dotup.org/uploda/www.dotup.org702271.zip.html
http://www1.axfc.net/uploader/so/3602353
ubuntu14で、chainer1.5.1のmnistをGPUで計算できるか試行錯誤中です。
python train_mnist.py --gpu 0 #エラー
sudo python train_mnist.py --gpu 0 #エラー
python train_mnist.py --gpu 0 #うまく動いた
と、sudoをつけて外しただけで、うまく動いた理由を知りたいのです。自分の操作が正しいのか間違ってるのかよくわからなくなってきました…
ログのリンクも添付しています。2つは同じファイルです(dotupはアップローダーの都合上zip圧縮しています)
事前の処理として、vgaのドライバ、cudaとcudnnを入れてパスを通しています。
またchainerのmnistも、cpuの処理ならエラーは出ずに動いていました。
操作は
python train_mnist.pyを実行してcrl+cで止めた。
python train_mnist.py --gpu 0を実行してエラーになった(30-38行目と同じエラー)。
その後、再起動
1行目:VGAの番号を取得した(GTX750tiのIDが0)
28行目:enter押しただけ
29行目:python train_mnist.py --gpu 1 なんとなくid1で動かしてみた。エラー
39行目:id2で動かしてみた。内蔵gpuを使うかも?と思ったがエラー
49行目:id0で試すもエラー
59行目:sudoつけてみてエラー。パスを引き継いでないからnvccがない(=CUDAが見つからない)、cudnnが無いというエラーが出ているのだと思います。
91行目:sudo外したら普通に動いた
http://www.dotup.org/uploda/www.dotup.org702271.zip.html
http://www1.axfc.net/uploader/so/3602353
249デフォルトの名無しさん
2016/01/17(日) 04:58:38.94ID:rTwmHzKS 普通にsudoユーザー環境でcudaにパスが通ってないだけ
パスの通し方がわからなかったらこのスレじゃなくてLinuxの初心者スレで
パスの通し方がわからなかったらこのスレじゃなくてLinuxの初心者スレで
250デフォルトの名無しさん
2016/01/17(日) 14:25:56.74ID:lMNqpq/q >>249
ありがとうございました。
ありがとうございました。
251デフォルトの名無しさん
2016/01/21(木) 02:42:05.52ID:ZU2ddnih 素人な質問なんですがコア数×10スレッド立てたときとコア数と同じスレッド数で10ループした場合とでは前者の方が1.5倍くらい早かったんですけど何故でしょうか
物理的に真に並列で動作するのはコア数と同じスレッド数ではないのですか
最適なスレッド数が分からなくて困ってます
物理的に真に並列で動作するのはコア数と同じスレッド数ではないのですか
最適なスレッド数が分からなくて困ってます
2016/01/21(木) 03:02:10.96ID:tV143knu
Core数ではなくWarp数に合わせるべし
Maxwellの場合はコア数とWarp数は一致してるけどね
コア数の倍以上のスレッド数を立ち上げるメリットは、ロード・ストアを含む命令間の
レイテンシが隠蔽されるのでパイプラインの充填率が上げやすくなる。
半面、1スレッドあたりで使えるレジスタ本数が少なくなるので
ロード・ストアを頻発するほどのレジスタ不足になるのは本末転倒なので
並列化は程々に。
これに特に明確な基準はない。最適なスレッド数はトライ&エラーで決める。
慣れてくるとPTXとかCUBINを逆アセンブルして決める場合もある
(昔、理研で重力を自在に操る高貴なる男性研究者がメールで教えてくれた方法)
Maxwellの場合はコア数とWarp数は一致してるけどね
コア数の倍以上のスレッド数を立ち上げるメリットは、ロード・ストアを含む命令間の
レイテンシが隠蔽されるのでパイプラインの充填率が上げやすくなる。
半面、1スレッドあたりで使えるレジスタ本数が少なくなるので
ロード・ストアを頻発するほどのレジスタ不足になるのは本末転倒なので
並列化は程々に。
これに特に明確な基準はない。最適なスレッド数はトライ&エラーで決める。
慣れてくるとPTXとかCUBINを逆アセンブルして決める場合もある
(昔、理研で重力を自在に操る高貴なる男性研究者がメールで教えてくれた方法)
253デフォルトの名無しさん
2016/01/21(木) 03:04:52.51ID:l5HMGS+b >>251
仮想コア等の技術などで、本来あるコア数以上の並列処理をするのが最新のcpuやGPU、そしてライブラリ
そのへんはあまり考えずにリファレンス通りに投げてしまう方がいいと思う。
ライブラリによっても日々変わるので、最適なスレッド数というのはわからない
仮想コア等の技術などで、本来あるコア数以上の並列処理をするのが最新のcpuやGPU、そしてライブラリ
そのへんはあまり考えずにリファレンス通りに投げてしまう方がいいと思う。
ライブラリによっても日々変わるので、最適なスレッド数というのはわからない
254デフォルトの名無しさん
2016/01/21(木) 03:07:26.03ID:UGOk39Ww 並列化のアレコレの時に気をつけるのは基本的にはオーバーヘッドやで
スレッド増やしたことで減るオーバーヘッドを考えてみなされ
スレッド増やしたことで減るオーバーヘッドを考えてみなされ
255デフォルトの名無しさん
2016/01/21(木) 03:12:33.48ID:RQbtFNgK そんなもん処理にもよるわ
メモリアクセスがネックになることが多いから
物理的に真に並列で動作するなんてことの方がまれ
メモリアクセスがネックになることが多いから
物理的に真に並列で動作するなんてことの方がまれ
256デフォルトの名無しさん
2016/01/21(木) 03:52:40.75ID:ZU2ddnih >>252
時間のかかる処理を行っている間に別のワープへ命令を発行しているということなんですかね
時間のかかる処理を行っている間に別のワープへ命令を発行しているということなんですかね
257デフォルトの名無しさん
2016/01/22(金) 08:29:36.48ID:3nKRZUCp ECCにはこだわっても
マザーの品質にこだわらないならいいのではw
マザーの品質にこだわらないならいいのではw
258デフォルトの名無しさん
2016/01/22(金) 17:13:45.63ID:xiqoLqZ5 正直本格的な並列処理は非同期処理対応したGPUを待った方がよさそうなんだけどな
259デフォルトの名無しさん
2016/01/22(金) 18:34:49.79ID:EJ7vldBc 別に待つ必要なくね?
乗り換えれば済むし
乗り換えれば済むし
260デフォルトの名無しさん
2016/01/22(金) 19:37:25.23ID:xiqoLqZ5 RadeonはCUDA対応してないじゃん
nvidia製の非同期処理に対応したCPUは実質的にはまだ出てない
nvidia製の非同期処理に対応したCPUは実質的にはまだ出てない
261デフォルトの名無しさん
2016/01/22(金) 22:55:19.34ID:XypiUmy6262デフォルトの名無しさん
2016/01/22(金) 23:25:50.64ID:t81Zesj8 落ち着けよ
263デフォルトの名無しさん
2016/01/22(金) 23:38:58.19ID:/Be9v1kC 1.メモリ読みにいく
2.大きな遅延が発生するからレジスタ待避
3.別なスレッド立ち上げる
を繰り返し
レジスタがどんどん減っていく
2.大きな遅延が発生するからレジスタ待避
3.別なスレッド立ち上げる
を繰り返し
レジスタがどんどん減っていく
264デフォルトの名無しさん
2016/01/22(金) 23:48:18.02ID:xiqoLqZ5265デフォルトの名無しさん
2016/01/23(土) 00:13:36.37ID:TXnGkntP いや非同期かんけぇねぇし
266デフォルトの名無しさん
2016/01/23(土) 00:24:57.37ID:NV47HivO >>264
お前さっきからなに訳のわからない事言ってんだよ
お前さっきからなに訳のわからない事言ってんだよ
267デフォルトの名無しさん
2016/01/23(土) 02:41:31.78ID:qmdjqcBj 今あるもの使うしかないのに何が言いたいのかわからんぞ
268デフォルトの名無しさん
2016/01/28(木) 12:46:52.07ID:6a4EL6WE 非同期処理はゲームで使うもの
GPGPUには関係ないよ
GPGPUには関係ないよ
269デフォルトの名無しさん
2016/01/28(木) 12:56:49.21ID:6a4EL6WE むしろNVにとっての痛手は倍精度のGPUを作っちゃうと「ゲーム用」が完全にAMD天下になっちゃう事
その最大の理由が、SCEに吹っかけすぎて、NV切りを起こされた事
GCN世代GPUがゲーム機を総獲りし、ローレベルAPIで組まれるAAAタイトルが全てGCNに最適化
これを奇貨としたAMDがDirectX12を提唱→DirectX史上初めての互換切り→AMDデファクトスタンダードの流れ
そのために科学技術演算と言う市場を捨てないといけなくなった
VulkanもDX12に倣って完全にAMDに合わせてるからな
だからディープディープ連呼するんだよ
半精度でディープが出来るからな
その最大の理由が、SCEに吹っかけすぎて、NV切りを起こされた事
GCN世代GPUがゲーム機を総獲りし、ローレベルAPIで組まれるAAAタイトルが全てGCNに最適化
これを奇貨としたAMDがDirectX12を提唱→DirectX史上初めての互換切り→AMDデファクトスタンダードの流れ
そのために科学技術演算と言う市場を捨てないといけなくなった
VulkanもDX12に倣って完全にAMDに合わせてるからな
だからディープディープ連呼するんだよ
半精度でディープが出来るからな
270デフォルトの名無しさん
2016/01/28(木) 15:37:41.52ID:GWvEyNte カメラと連携してリアルタイムで判断をこなしながらってのは非同期処理無しでも大丈夫なのか?
271デフォルトの名無しさん
2016/01/28(木) 17:48:40.92ID:nzOvC+QF ばかがいる
272デフォルトの名無しさん
2016/01/28(木) 20:21:46.33ID:EEHWgu+r ああ、いつもの非同期君だよ
ほっとけ
ほっとけ
273デフォルトの名無しさん
2016/01/29(金) 01:29:29.84ID:q0fsZtFa 非同期はゲーム用って何度言えば
274デフォルトの名無しさん
2016/01/29(金) 02:29:28.87ID:QU8XaCF4 非同期って何だよ
275デフォルトの名無しさん
2016/01/29(金) 07:41:28.07ID:HGJh8rQ+ hyper-q
276デフォルトの名無しさん
2016/01/29(金) 12:43:58.50ID:q0fsZtFa 多分非同期君はNV信者だと思う
そうでなければこんなところのこんなスレで五月蝿く連呼するか?
問題はなぜそうするのか、だ
俺なりに出した答えは、Pascal開発が暗礁に乗り上げてる所為だと思う
未だにモックしか出してないからな、Pascal
そうでなければこんなところのこんなスレで五月蝿く連呼するか?
問題はなぜそうするのか、だ
俺なりに出した答えは、Pascal開発が暗礁に乗り上げてる所為だと思う
未だにモックしか出してないからな、Pascal
277デフォルトの名無しさん
2016/01/29(金) 15:12:50.38ID:HGJh8rQ+ ばかがいる
278デフォルトの名無しさん
2016/01/29(金) 17:56:14.69ID:q0fsZtFa hyper-阿q HG
279デフォルトの名無しさん
2016/01/30(土) 11:53:30.18ID:8faHSQBO VulkanとDirectX12は殆どAMDのためにあるようなものだからな
ゲーム機を支配したAMDはローレベルAPIを支配し、ゲームコードは全てAMD基準になった
これはNVにとっては痛恨
倍精度GPUなんか出す余裕はないだろう
ゲーム機を支配したAMDはローレベルAPIを支配し、ゲームコードは全てAMD基準になった
これはNVにとっては痛恨
倍精度GPUなんか出す余裕はないだろう
280デフォルトの名無しさん
2016/01/30(土) 12:24:57.23ID:o5vi6iJ9 GPUのグローバルメモリのバンド幅計算で質問があります。
バンド幅(GB/s) = メモリのデータレート(MHz) * bit幅(bits) / 8(byte) / 1000
メモリのデータレート GDDR5の場合 clock * 4
DDR3の場合 clock * 2
上記のようになると思うのですが、
DDR3は立ち上がり立ち下がりで情報を伝達するのでクロックの2倍になるのはわかったのですが
GDDR5がDDR3に比べなぜ2倍になるのでしょうか?
バンド幅(GB/s) = メモリのデータレート(MHz) * bit幅(bits) / 8(byte) / 1000
メモリのデータレート GDDR5の場合 clock * 4
DDR3の場合 clock * 2
上記のようになると思うのですが、
DDR3は立ち上がり立ち下がりで情報を伝達するのでクロックの2倍になるのはわかったのですが
GDDR5がDDR3に比べなぜ2倍になるのでしょうか?
281デフォルトの名無しさん
2016/01/30(土) 14:18:14.00ID:PJcKfdaW クロック信号1周期に4回データ転送してるから4倍
282デフォルトの名無しさん
2016/01/30(土) 16:35:02.53ID:o5vi6iJ9 >>281
回答ありがとうございます。
NVIDIAのスペックを見ていたのですが仕様値と計算があわず、わからなくなってしまいました。
http://www.nvidia.co.jp/object/product_tesla_C2050_C2070_jp.html
これによると、C2050は384bit, 1500MHz, で144GB/sとあるのですが、計算してみると
384 * 1500 * 4 / 8 / 1000 = 288GB/s
になってしまうのです。仮に1500MHzがデータレートと仮定すると
384 * 1500 / 8 / 1000 = 72GB/s
どちらも仕様値と違ってしまいます。もしかしてバンド幅はメモリのリードとライト
合わせての値なのでしょうか?
回答ありがとうございます。
NVIDIAのスペックを見ていたのですが仕様値と計算があわず、わからなくなってしまいました。
http://www.nvidia.co.jp/object/product_tesla_C2050_C2070_jp.html
これによると、C2050は384bit, 1500MHz, で144GB/sとあるのですが、計算してみると
384 * 1500 * 4 / 8 / 1000 = 288GB/s
になってしまうのです。仮に1500MHzがデータレートと仮定すると
384 * 1500 / 8 / 1000 = 72GB/s
どちらも仕様値と違ってしまいます。もしかしてバンド幅はメモリのリードとライト
合わせての値なのでしょうか?
283デフォルトの名無しさん
2016/01/30(土) 16:36:27.36ID:o5vi6iJ9 つまり上り72GB/s、下り72GB/sの合わせて144GB/sなのでしょうか?
284デフォルトの名無しさん
2016/01/30(土) 16:59:32.46ID:8faHSQBO NVはもう倍精度のGPUは造らないよ
ローレベルAPIをAMDに奪われた現在、半精度GPUで描画特化をせざるを得ない
ローレベルAPIをAMDに奪われた現在、半精度GPUで描画特化をせざるを得ない
285デフォルトの名無しさん
2016/01/30(土) 18:25:46.28ID:ypcCS+Q8 CUDAスレで何言ってるんだかこのアホは
286デフォルトの名無しさん
2016/01/31(日) 00:13:30.67ID:v07wXVxF 描画とかもうどうでも良い
時代はGPGPU
時代はGPGPU
287デフォルトの名無しさん
2016/01/31(日) 00:57:29.07ID:cNgLqKMa GPGPUでは倍精度がものを言うが、NVはもう倍精度に手を出せないということ
288デフォルトの名無しさん
2016/01/31(日) 01:06:55.62ID:V+Yf7lZI 単精度でも十分みたいな話じゃなかったの?
それでディープ・ラーニングを推し進めていると思ったんだけど
それでディープ・ラーニングを推し進めていると思ったんだけど
289デフォルトの名無しさん
2016/01/31(日) 01:23:20.65ID:cNgLqKMa 深層学習とビッグデータは半精度(でも可)
しかしこのスレの関心はあくまでも倍精度、出来るならば倍々精度だろ?
しかしこの倍精度は、CS機の競争環境でオマケがつくか削られるか都合で決まる
そう言うわけでVoltaはアメリカ政府との契約違反に問われないように出荷するだろうけど、
これはカスタム
AMDにCS機が獲られた現在、NVのGPUは描画/ワットパフォーマンス特化路線に軸足を置いた
DirectX11まではハイレベルAPIだったから倍精度GPUを出す余地があり、同時に科学技術演算市場を狙う二兎を追う路線を
追求できた
しかしDirectX12は完全にAMDのGCN世代GPUのハード直叩き規格だから普通に戦ったらfps/解像度共に負けてしまう
だからこそ半精度に活路を求めている
しかしこのスレの関心はあくまでも倍精度、出来るならば倍々精度だろ?
しかしこの倍精度は、CS機の競争環境でオマケがつくか削られるか都合で決まる
そう言うわけでVoltaはアメリカ政府との契約違反に問われないように出荷するだろうけど、
これはカスタム
AMDにCS機が獲られた現在、NVのGPUは描画/ワットパフォーマンス特化路線に軸足を置いた
DirectX11まではハイレベルAPIだったから倍精度GPUを出す余地があり、同時に科学技術演算市場を狙う二兎を追う路線を
追求できた
しかしDirectX12は完全にAMDのGCN世代GPUのハード直叩き規格だから普通に戦ったらfps/解像度共に負けてしまう
だからこそ半精度に活路を求めている
290デフォルトの名無しさん
2016/01/31(日) 01:27:41.36ID:v07wXVxF DirectX12とかどうでもよろしい
ここはCUDAのスレ
AMDな方はOpenCL()のスレにお帰り下さい
ここはCUDAのスレ
AMDな方はOpenCL()のスレにお帰り下さい
291デフォルトの名無しさん
2016/01/31(日) 02:27:05.81ID:tWmMlKqo GeforceはいいからTeslaがんばれ
292デフォルトの名無しさん
2016/01/31(日) 08:33:54.41ID:v07wXVxF TeslaよりTitanの方が良いよ
293デフォルトの名無しさん
2016/01/31(日) 11:45:10.40ID:k6wK0w/E ばかが常駐するようになったな
294デフォルトの名無しさん
2016/02/01(月) 01:21:54.44ID:27TlSaYk 倍精度倍精度って、使い道も無いくせに
滑稽だな
戦闘力みたいなイメージか
滑稽だな
戦闘力みたいなイメージか
295デフォルトの名無しさん
2016/02/01(月) 02:50:26.19ID:9fNLotPU 科学計算でも計算量が多くてそこまで精度が必要なものってどれだけあるんだ
296デフォルトの名無しさん
2016/02/01(月) 07:15:29.10ID:BOcjqYcH 科学技術計算では単精度や半精度で行う方がよっぽど珍しいと思うが
297デフォルトの名無しさん
2016/02/01(月) 09:11:27.82ID:fnCrDph6 物理系じゃ大きい数+極小の数なんて普通にあるからな
倍精度でも足りなくて四倍精度必要になったりすることもざら
倍精度でも足りなくて四倍精度必要になったりすることもざら
298デフォルトの名無しさん
2016/02/01(月) 09:26:01.45ID:2VMpgIMC Kerasってdeep learningフレームワークはbackend.pyてファイルを追加するだけでopenclでも動くようになってるよ。誰かbackendを書かないか?
299デフォルトの名無しさん
2016/02/01(月) 12:33:46.47ID:Ucvj9UOE こうなったらこのスレの住人が声を上げて、PEZYに倍々精度のMPUを造ってもらおうよ
もうNVは金輪際倍精度に手を出さないよ
もうNVは金輪際倍精度に手を出さないよ
300デフォルトの名無しさん
2016/02/01(月) 14:17:42.51ID:fSUYSvsK 倍精度が必要な要件って
例えば何があるんだ?
2.0e+38を超えるスケールで
2.0e-38以下の誤差を必要とするプロジェクト?
そんなのあんの?
そりゃー誤差が小さくなれば
破綻する可能性は減るけどさ
おたくらが求めてるのってそれだけじゃねえの?
例えば何があるんだ?
2.0e+38を超えるスケールで
2.0e-38以下の誤差を必要とするプロジェクト?
そんなのあんの?
そりゃー誤差が小さくなれば
破綻する可能性は減るけどさ
おたくらが求めてるのってそれだけじゃねえの?
301デフォルトの名無しさん
2016/02/01(月) 14:48:07.70ID:iOXOBOCM いらん
DNNではな
DNNではな
302デフォルトの名無しさん
2016/02/01(月) 14:59:29.79ID:9fNLotPU303デフォルトの名無しさん
2016/02/01(月) 15:05:12.00ID:CUSF99yG304デフォルトの名無しさん
2016/02/01(月) 15:07:09.85ID:CUSF99yG 増分解法では致命的になる場合あり。
305デフォルトの名無しさん
2016/02/01(月) 15:07:56.23ID:SiSRa9Ib 装置もんで数万枚/日のリアルタイム画像処理に使ってるけど、普通にdoubleが使えると楽なんだけどな。
速度も考慮すると大きい数と小さい数の計算前、画像処理の前後でdouble、float変換してるからCPU圧迫してくる。
でも、シンプルで意図した通りに動くからCUDAは組みやすい。
んー、この辺がジレンマだな。
速度も考慮すると大きい数と小さい数の計算前、画像処理の前後でdouble、float変換してるからCPU圧迫してくる。
でも、シンプルで意図した通りに動くからCUDAは組みやすい。
んー、この辺がジレンマだな。
306デフォルトの名無しさん
2016/02/01(月) 15:44:31.42ID:fSUYSvsK それは倍精度が必要な理由になってないような
やっぱ盲信が多そうだな
やっぱ盲信が多そうだな
307デフォルトの名無しさん
2016/02/01(月) 16:07:14.05ID:oiE/5K5n >>299
そこの製品一般人で買えるルートあんのかよ
そこの製品一般人で買えるルートあんのかよ
308デフォルトの名無しさん
2016/02/01(月) 18:24:22.88ID:BOcjqYcH 大きな行列の計算、FFT、急峻なカーブの音声フィルター、レイトレーシング、物理シミュレーション、空間認識、...
倍精度以上の精度が必要な用途はいろいろとある
単精度のハードで倍精度相当の演算をすると、十数倍の時間がかかる
倍精度のハードで4倍精度相当の演算も同様に十数倍
多倍長演算も倍精度や4倍精度ハードがあれば、単精度よりもずっと速く計算が可能
倍精度以上の精度が必要な用途はいろいろとある
単精度のハードで倍精度相当の演算をすると、十数倍の時間がかかる
倍精度のハードで4倍精度相当の演算も同様に十数倍
多倍長演算も倍精度や4倍精度ハードがあれば、単精度よりもずっと速く計算が可能
309デフォルトの名無しさん
2016/02/01(月) 18:32:19.85ID:BOcjqYcH 簡単な画像フィルターや音声フィルターなら単精度でいいし、ディープラーニングなら半精度でも良かったりする
半精度〜4倍精度までのハードがあるのが一番なんだけど
倍精度演算ハードがあれば単精度も同じ速度で計算が可能だが、単精度のハードで倍精度相当の演算をするには十数倍の時間がかかる
ゲーム用途など、単精度を使うことがはっきりしてる時じゃなければ倍精度を積んでおくのが無難
4倍精度はさすがにGPUに積むのは規模が大きくなりすぎるが、CPUには積んで欲しい
半精度は、単精度との変換だけでとりあえずは良い
半精度〜4倍精度までのハードがあるのが一番なんだけど
倍精度演算ハードがあれば単精度も同じ速度で計算が可能だが、単精度のハードで倍精度相当の演算をするには十数倍の時間がかかる
ゲーム用途など、単精度を使うことがはっきりしてる時じゃなければ倍精度を積んでおくのが無難
4倍精度はさすがにGPUに積むのは規模が大きくなりすぎるが、CPUには積んで欲しい
半精度は、単精度との変換だけでとりあえずは良い
310デフォルトの名無しさん
2016/02/01(月) 20:19:15.33ID:Ucvj9UOE http://www.4gamer.net/games/251/G025177/20160105002/
http://www.4gamer.net/games/251/G025177/20160105002/
>また,Huang氏が示したスライドで,第2世代Maxwellアーキテクチャベースの「GeForce GTX TITAN X」とDrive PX 2を比較すると,
>単精度浮動小数点演算性能は前者が7TFLOPSなのに対して後者は8TFLOPSと,
>劇的には高速化していない点も気になった。
↓その一方で…
>ちなみにHuang氏は,Drive PX 2の性能指標として,ディープラーニング処理の演算性能を示す
>「DL TOPS」を示しているが,これだとデュアルPascalはGeForce GTX TITAN Xの3倍以上というスコアになっている。
これ、完全にゲーム特化とビッグデータ特化GPUじゃん、Pascalwwwwww
俺の言ったとおりもう科学技術GPGPUはオワコンなんだよ
完全に半精度依存、完全にワットパフォーマンス/描画特化GPU路線だはwwwwww 👀
Rock54: Caution(BBR-MD5:0be15ced7fbdb9fdb4d0ce1929c1b82f)
http://www.4gamer.net/games/251/G025177/20160105002/
>また,Huang氏が示したスライドで,第2世代Maxwellアーキテクチャベースの「GeForce GTX TITAN X」とDrive PX 2を比較すると,
>単精度浮動小数点演算性能は前者が7TFLOPSなのに対して後者は8TFLOPSと,
>劇的には高速化していない点も気になった。
↓その一方で…
>ちなみにHuang氏は,Drive PX 2の性能指標として,ディープラーニング処理の演算性能を示す
>「DL TOPS」を示しているが,これだとデュアルPascalはGeForce GTX TITAN Xの3倍以上というスコアになっている。
これ、完全にゲーム特化とビッグデータ特化GPUじゃん、Pascalwwwwww
俺の言ったとおりもう科学技術GPGPUはオワコンなんだよ
完全に半精度依存、完全にワットパフォーマンス/描画特化GPU路線だはwwwwww 👀
Rock54: Caution(BBR-MD5:0be15ced7fbdb9fdb4d0ce1929c1b82f)
311デフォルトの名無しさん
2016/02/01(月) 21:46:57.46ID:vs1yi7F6 >>309
倍精度乗算器の回路コストは単精度の約4倍
倍精度乗算器の回路コストは単精度の約4倍
312デフォルトの名無しさん
2016/02/01(月) 22:30:54.71ID:MibI1Q78 バカが住み着いてる
313デフォルトの名無しさん
2016/02/01(月) 22:58:36.28ID:9fNLotPU 実際に業務で使ってる人は倍精度で運用してるのか?
314デフォルトの名無しさん
2016/02/01(月) 23:10:33.37ID:BOcjqYcH315デフォルトの名無しさん
2016/02/01(月) 23:17:23.47ID:BOcjqYcH >>313
業務っていろいろあるが
おれの範疇は単精度、倍精度、疑似4倍精度、多倍長といろいろ
多倍長も、筆算レベルからカラツバ、DFTレベルとさまざま
もちろん普通のレジスタサイズの整数演算も
特殊なジャンルであることは否定しない
業務っていろいろあるが
おれの範疇は単精度、倍精度、疑似4倍精度、多倍長といろいろ
多倍長も、筆算レベルからカラツバ、DFTレベルとさまざま
もちろん普通のレジスタサイズの整数演算も
特殊なジャンルであることは否定しない
316デフォルトの名無しさん
2016/02/01(月) 23:19:49.62ID:BOcjqYcH 半精度もIEEE754じゃない独自フォーマットなら使った事はあるが、使った事があるって程度
317デフォルトの名無しさん
2016/02/01(月) 23:27:26.75ID:dRJvSEmL >>314
>半精度はさすがにゲームでも足りない
そんなこと分かるかよ
HDRで16bit浮動小数点フォーマットとか普通に使うだろ
メモリ帯域が半分で済むんだぞ
ゲームなんか正確さより速さ優先だから、色を表現するのに16bitで十分な場合がほとんどだろ
>半精度はさすがにゲームでも足りない
そんなこと分かるかよ
HDRで16bit浮動小数点フォーマットとか普通に使うだろ
メモリ帯域が半分で済むんだぞ
ゲームなんか正確さより速さ優先だから、色を表現するのに16bitで十分な場合がほとんどだろ
318デフォルトの名無しさん
2016/02/02(火) 01:51:42.07ID:LP8V/wwM だから違うよ
使ったことがあるかじゃねーよ
何でその精度が必要なのかってところよ
4倍精度とか軽々しく言うが
このスケールが本当にわかってるのか
疑わしいぜ
使ったことがあるかじゃねーよ
何でその精度が必要なのかってところよ
4倍精度とか軽々しく言うが
このスケールが本当にわかってるのか
疑わしいぜ
319デフォルトの名無しさん
2016/02/02(火) 03:08:21.02ID:xiUt8T5M 4倍精度とか専用ハード作れとしか言いようがない
汎用品に求めるものじゃない
汎用品に求めるものじゃない
320デフォルトの名無しさん
2016/02/02(火) 12:53:46.97ID:ULLNmZyK321デフォルトの名無しさん
2016/02/02(火) 13:17:56.85ID:sWHooGm6 混合精度って単精度と半精度が両方載ってるって事だよな
仮に1個の演算器の回路規模が1:3として、演算器の回路比率を1:1にし、単精度は半精度の演算も出来るとすると、すべて単精度にした場合に比べて演算器の数は単精度が半分で単精度が2倍か
単精度2倍のインパクトよりも単精度半分のインパクトの方が大きい気がする
仮に1個の演算器の回路規模が1:3として、演算器の回路比率を1:1にし、単精度は半精度の演算も出来るとすると、すべて単精度にした場合に比べて演算器の数は単精度が半分で単精度が2倍か
単精度2倍のインパクトよりも単精度半分のインパクトの方が大きい気がする
322デフォルトの名無しさん
2016/02/02(火) 14:24:13.48ID:ULLNmZyK 完全にグラフィックス描画効率/深層学習向けの構成だね
データ地獄になるから広帯域メモリも必要になるがHBM規格はAMDが握っているために、(HBM2の)開発が遅れた
GDDR5+を急遽導入する事になったのはそのため
このスレだとDX12とかVulkanとか一言口にするだけで「スレチガイだ馬鹿!」と怒鳴る奴がいるが、
これは全てが絡み合っている
DX12とVulkanという二つのローレベルAPIがAMD中心による策定である以上、これらのローレベルAPIへの依存を避ける
ワットパフォーマンスGPUに経営路線の舵を切るの必然
データ地獄になるから広帯域メモリも必要になるがHBM規格はAMDが握っているために、(HBM2の)開発が遅れた
GDDR5+を急遽導入する事になったのはそのため
このスレだとDX12とかVulkanとか一言口にするだけで「スレチガイだ馬鹿!」と怒鳴る奴がいるが、
これは全てが絡み合っている
DX12とVulkanという二つのローレベルAPIがAMD中心による策定である以上、これらのローレベルAPIへの依存を避ける
ワットパフォーマンスGPUに経営路線の舵を切るの必然
323デフォルトの名無しさん
2016/02/02(火) 15:52:24.40ID:MS6gBcZU >>322
スレチガイだ馬鹿!
スレチガイだ馬鹿!
324デフォルトの名無しさん
2016/02/02(火) 20:33:43.42ID:ubpTh4Nt >>322
そのすごいAMDでお前はどんなGPGPUソフト/プログラム作っていいるんだ?
そのすごいAMDでお前はどんなGPGPUソフト/プログラム作っていいるんだ?
325デフォルトの名無しさん
2016/02/02(火) 21:22:14.45ID:xseyqTiA cudaだっつうに
hsaスレでやってろ
馬鹿
hsaスレでやってろ
馬鹿
326デフォルトの名無しさん
2016/02/02(火) 22:08:37.37ID:+ZIKPYce 雑談は楽しいけど、ここCUDAスレやで
amdの話をするなってことじゃなく、スレチ話をいつまですんねんってこと
amdの話をするなってことじゃなく、スレチ話をいつまですんねんってこと
327デフォルトの名無しさん
2016/02/02(火) 22:41:10.14ID:NB4DG1EG Visual Studio 2015対応になるのはいつですかねぇ
328デフォルトの名無しさん
2016/02/03(水) 12:08:39.46ID:15l+1fC7329デフォルトの名無しさん
2016/02/03(水) 12:56:39.94ID:d3Nc4Jqw バカな上の病気なんだな
330デフォルトの名無しさん
2016/02/03(水) 14:19:34.04ID:15l+1fC7 Pasacalこけそうで危機感いっぱいだは
331デフォルトの名無しさん
2016/02/03(水) 22:25:31.36ID:hEPpn7Fg だはw
2016/02/03(水) 22:25:59.26ID:gpz71jEo
TeslaでもXeon Phiでもなく一般ピープル向けGPUに倍精度性能が必要だって言ってるのは
ろくに科研費申請が通らない貧乏研究室くらいでしょ
ろくに科研費申請が通らない貧乏研究室くらいでしょ
333デフォルトの名無しさん
2016/02/04(木) 13:10:48.29ID:lq8BoEbf >>332
お前が使い方を知らないだけ
お前が使い方を知らないだけ
334デフォルトの名無しさん
2016/02/04(木) 13:11:30.26ID:lq8BoEbf >>332
お前は半精度だけで十分
お前は半精度だけで十分
335デフォルトの名無しさん
2016/02/04(木) 18:29:53.21ID:TT5D/Cpx Maxwellは擬似的な倍精度も出来ないんだよ
それくらいしっておこうな
それくらいしっておこうな
336デフォルトの名無しさん
2016/02/04(木) 20:00:25.29ID:o+ucOEnp 単精度と比べると凄い遅いだけで
倍精度演算自体はハードで実装している。
物凄い遅いといっても1/32で1/16のradeon furyと比べると半分だから大差ないと言えば無い。
倍精度演算自体はハードで実装している。
物凄い遅いといっても1/32で1/16のradeon furyと比べると半分だから大差ないと言えば無い。
337デフォルトの名無しさん
2016/02/04(木) 20:13:21.23ID:d8M6zG1u Maxwellは倍精度の演算器が排除されただけで疑似倍精度は実装されている
そもそもソフトレベルでも実装できることだし
そもそもソフトレベルでも実装できることだし
338デフォルトの名無しさん
2016/02/04(木) 20:15:36.92ID:TT5D/Cpx FURYはMaxwellを参考にしてるからな
HBMの容量の少なさが祟って何じゃこりゃ状態だったけど、Polarisは一層Maxwell類似のワッパ路線がとられる
これでNVはもう倍精度を完全に捨てにかかる
HBMの容量の少なさが祟って何じゃこりゃ状態だったけど、Polarisは一層Maxwell類似のワッパ路線がとられる
これでNVはもう倍精度を完全に捨てにかかる
2016/02/04(木) 23:21:52.01ID:zdF89aL0
いや実際半精度が4倍速いほうが使いどころあると思うよ
ゲームで倍精度なんて使わないじゃん
ゲームで倍精度なんて使わないじゃん
340デフォルトの名無しさん
2016/02/04(木) 23:28:29.99ID:3r7tJtQx 深層学習がはやったらGPGPUももっと市民権を得るかな?
341デフォルトの名無しさん
2016/02/05(金) 00:42:53.10ID:TcXSJNY1 半精度を4倍速くしたら半精度専用になるな
そんなもの売れないぞ
そんなもの売れないぞ
342デフォルトの名無しさん
2016/02/05(金) 01:21:13.26ID:p946S2WD343デフォルトの名無しさん
2016/02/05(金) 04:09:45.89ID:iPwofUfz 倍精度を高速化したらどれだけ売り上げが見込めるのかをnvに分かるように説明したら。
>>341
頂点シェーダは単精度が必要でも、実行時間のかなりがフラグメントシェーダなんだから、別に半精度専用になって売れないとはならないだろう。
住みわけがある訳だろ。で、倍精度頑張ったのは期待の売り上げが出なかったわけだろ多分。
願望を語るスレであるより、アリモノでなんとかするスレであった方が建設的だと思うがね。
>>341
頂点シェーダは単精度が必要でも、実行時間のかなりがフラグメントシェーダなんだから、別に半精度専用になって売れないとはならないだろう。
住みわけがある訳だろ。で、倍精度頑張ったのは期待の売り上げが出なかったわけだろ多分。
願望を語るスレであるより、アリモノでなんとかするスレであった方が建設的だと思うがね。
344デフォルトの名無しさん
2016/02/05(金) 07:52:28.94ID:X6eE9Wue すまんがゲーマーは帰ってくれないか?
345デフォルトの名無しさん
2016/02/05(金) 08:26:49.67ID:23YXKvG1 なぜ団子がここにいる?
まあ、CUDAもかなり広く使われてくるようになったから、
数値演算の枠組みだけじゃなくなってきているのはわかるが。
まあ、CUDAもかなり広く使われてくるようになったから、
数値演算の枠組みだけじゃなくなってきているのはわかるが。
346デフォルトの名無しさん
2016/02/05(金) 08:45:35.15ID:bTIbnCX4 いやこのひとはかなり初期からCUDAつかってるの
それこそnvにgeforceくれてやるからCUDA使ってちょって
誘われるような時代から
それこそnvにgeforceくれてやるからCUDA使ってちょって
誘われるような時代から
347デフォルトの名無しさん
2016/02/05(金) 08:50:46.42ID:KXdvQQGq 1スレ目に三色団子おるな
348デフォルトの名無しさん
2016/02/05(金) 12:16:48.26ID:bTIbnCX4 http://techon.nikkeibp.co.jp/atcl/event/15/020100028/020400019/?bpnet&d=1454641873634
CNN専用チップ、NVIDIAなどがGPUの改良で開発
http://techon.nikkeibp.co.jp/atcl/event/15/020100028/020400019/160204NVIDIAp0.jpg
Eyerissは、グラフィックス処理プロセッサー(GPU)と同様、SIMD(single instruction multiple data)などから成る
プロセッサー・エレメント(PE)を多数集積したICである。
ただし、GPUとはデータの移動を最小限に抑えた設計にした点が異なる。
具体的には、EyerissはSRAMから成るオンチップメモリー108Kバイトを備えており、
CNNの各層の演算結果をオンチップメモリーにバッファリングさせることで、
チップ外の主記憶に書き戻す頻度を大きく減らした。
また、PEに入力するデータ列に共通部分がある場合は、その共通部分を保持して差分だけを入力する。
さらに、複数のPEに同じデータを入力する場合は、各PEにそれぞれ送るのではなく、
途中まで1つのデータとして送り、そこからPEの個数分データをコピーして入力する。いわゆるマルチキャストである。
これらによって、データ処理時のデータの移動を最小限に抑え、消費電力を大幅に低減した。
加えて、データを主記憶に書き戻す時は圧縮し、読み出す時に伸長する。
CNNの畳み込み演算後のデータはフィルターを通すことで圧縮しやすい形になっていて、メモリー帯域の節約効果が高いという。
作製したEyerissの動作をNVIDIA社のGPU「TK1」と比較すると、
EyerissはデータのスループットこそTK1の約1/2だったが、消費電力はTK1の最小約1/37と大幅に低い。
主記憶に出し入れしたデータの帯域も、TK1の1120Mバイト/秒に対し、Eyerissは127Mバイト/秒だったとする。
CNN専用チップ、NVIDIAなどがGPUの改良で開発
http://techon.nikkeibp.co.jp/atcl/event/15/020100028/020400019/160204NVIDIAp0.jpg
Eyerissは、グラフィックス処理プロセッサー(GPU)と同様、SIMD(single instruction multiple data)などから成る
プロセッサー・エレメント(PE)を多数集積したICである。
ただし、GPUとはデータの移動を最小限に抑えた設計にした点が異なる。
具体的には、EyerissはSRAMから成るオンチップメモリー108Kバイトを備えており、
CNNの各層の演算結果をオンチップメモリーにバッファリングさせることで、
チップ外の主記憶に書き戻す頻度を大きく減らした。
また、PEに入力するデータ列に共通部分がある場合は、その共通部分を保持して差分だけを入力する。
さらに、複数のPEに同じデータを入力する場合は、各PEにそれぞれ送るのではなく、
途中まで1つのデータとして送り、そこからPEの個数分データをコピーして入力する。いわゆるマルチキャストである。
これらによって、データ処理時のデータの移動を最小限に抑え、消費電力を大幅に低減した。
加えて、データを主記憶に書き戻す時は圧縮し、読み出す時に伸長する。
CNNの畳み込み演算後のデータはフィルターを通すことで圧縮しやすい形になっていて、メモリー帯域の節約効果が高いという。
作製したEyerissの動作をNVIDIA社のGPU「TK1」と比較すると、
EyerissはデータのスループットこそTK1の約1/2だったが、消費電力はTK1の最小約1/37と大幅に低い。
主記憶に出し入れしたデータの帯域も、TK1の1120Mバイト/秒に対し、Eyerissは127Mバイト/秒だったとする。
349デフォルトの名無しさん
2016/02/05(金) 12:55:11.71ID:p946S2WD >>346
だからお前はインテルスレに帰れっつってんだろ団子!
だからお前はインテルスレに帰れっつってんだろ団子!
350デフォルトの名無しさん
2016/02/05(金) 13:02:33.01ID:bTIbnCX4 また病気か
351デフォルトの名無しさん
2016/02/05(金) 13:44:39.13ID:p946S2WD >>350
倍精度イラネ、ここは管スレだぞ!と言ってたのはお前だったのか、団子!
倍精度イラネ、ここは管スレだぞ!と言ってたのはお前だったのか、団子!
352デフォルトの名無しさん
2016/02/05(金) 14:31:20.41ID:3SvgNTFs 団子ってなに?
353デフォルトの名無しさん
2016/02/05(金) 14:36:57.91ID:3a93fntK どうもこのスレには
CUDAをマシに使っている奴は
いないようにみえるな
ひたすらベンチマークしかやってない感じね
CUDAをマシに使っている奴は
いないようにみえるな
ひたすらベンチマークしかやってない感じね
354デフォルトの名無しさん
2016/02/05(金) 16:33:49.39ID:3vmCyKKd 倍精度よりコンテキスト処理の自由化をだな
Oculasからも苦言言われてるのに
Oculasからも苦言言われてるのに
355デフォルトの名無しさん
2016/02/05(金) 16:34:59.76ID:3vmCyKKd バックグラウンド処理が作りにくいからこそ、Asyncやプログラマブルコンテキストは次のGPUでは絶対に搭載してほしい
356デフォルトの名無しさん
2016/02/05(金) 16:48:34.33ID:bTIbnCX4357デフォルトの名無しさん
2016/02/05(金) 23:50:50.50ID:TcXSJNY1 はやく4倍精度のせろ!
358デフォルトの名無しさん
2016/02/06(土) 12:36:05.76ID:pRi/vsC+ それをPEZYに言ってくれ
359デフォルトの名無しさん
2016/02/06(土) 18:18:06.14ID:xHoLN9eE お前その会社好きだな
一般向けに売ってもいないのに
一般向けに売ってもいないのに
360デフォルトの名無しさん
2016/02/06(土) 20:15:07.20ID:pRi/vsC+ PEZY以外に応じてくれないぞ
361デフォルトの名無しさん
2016/02/06(土) 20:47:57.74ID:xHoLN9eE それでそこの製品は使ってるのか?
362デフォルトの名無しさん
2016/02/08(月) 05:05:55.45ID:z0FWqNRt いい加減にないものねだりはやめろ。
2016/02/08(月) 22:05:16.73ID:ZbGdhM32
「Teslaを一桁安値で買わせろ」みたいなのは論外だろ
ゲーマーと倍精度が欲しい人は市場が全くかみ合わない
そんなのもう結論出てるだろ
ゲーマーと倍精度が欲しい人は市場が全くかみ合わない
そんなのもう結論出てるだろ
2016/02/08(月) 22:24:56.08ID:lyi6FC/t
もともとTeslaとQuadro/GeForceはECCの有無で差別化してたが
世界最大級のGPGPUスパコンがNonECCで使ってるので
全く差別化になってない
だから倍精度演算器を物理的に廃することでの差別化を行った
それだけ。
Tesla買えばいいだけだろ?
どうせ予算通らないから買えないだけだろ
ろくな論文も出せない底辺大学の研究室あたりがいいご身分だな
世界最大級のGPGPUスパコンがNonECCで使ってるので
全く差別化になってない
だから倍精度演算器を物理的に廃することでの差別化を行った
それだけ。
Tesla買えばいいだけだろ?
どうせ予算通らないから買えないだけだろ
ろくな論文も出せない底辺大学の研究室あたりがいいご身分だな
365デフォルトの名無しさん
2016/02/09(火) 00:34:13.76ID:LI1PJjMq >世界最大級のGPGPUスパコンがNonECCで使ってる
これについて詳しく。
これについて詳しく。
366デフォルトの名無しさん
2016/02/09(火) 13:10:44.06ID:i8FfOnoz >>364
あなたはどこの大学ですか?
あなたはどこの大学ですか?
367デフォルトの名無しさん
2016/02/09(火) 14:10:52.05ID:rPxo0Z4x 最初は影でこそこそディープディープ言ってて倍精度いらない、管スレでゲームコンソールを巡る政治的な思惑が
NVの倍精度切りに繋がった事実もスレチガイだ馬鹿野郎!って煽ってたのにな
流れが悪くなったのでコテの正体を出したんだろう
多分Async煽りも正体はこいつだ
ここのスレで倍精度がどうなるかは大学企業にとっても死活問題なのに
本当に陰険だね、団子は
NVの倍精度切りに繋がった事実もスレチガイだ馬鹿野郎!って煽ってたのにな
流れが悪くなったのでコテの正体を出したんだろう
多分Async煽りも正体はこいつだ
ここのスレで倍精度がどうなるかは大学企業にとっても死活問題なのに
本当に陰険だね、団子は
368デフォルトの名無しさん
2016/02/09(火) 17:12:26.87ID:CgzlKX4i そこそこの分解能ならTeslaやTitanで十分だろ
369デフォルトの名無しさん
2016/02/09(火) 17:14:02.43ID:uHp67F+7 べつにphiでも使えばいいだけだが
teslaとphiの混合機も普通にあるし
とりあえずamdという選択肢は皆無
teslaとphiの混合機も普通にあるし
とりあえずamdという選択肢は皆無
370デフォルトの名無しさん
2016/02/09(火) 17:32:39.26ID:i8FfOnoz 登場かな
371デフォルトの名無しさん
2016/02/09(火) 18:40:55.41ID:OHQNRB+7 nvは高校生や高専向けのセミナーもやってるし
ことしのgtcもセッション数は500超える
やってきたことの重みが違いすぎる
ことしのgtcもセッション数は500超える
やってきたことの重みが違いすぎる
372デフォルトの名無しさん
2016/02/09(火) 19:05:34.27ID:Z0SOCsIU でも他GPUでは使えないんでしょ?ってのが重すぎる
GPGPUはnvidiaの私物ではない
GPGPUはnvidiaの私物ではない
373デフォルトの名無しさん
2016/02/09(火) 19:07:27.62ID:dBPqK+gq まともな研究機関ならTeslaは学割使えるんだが…
GeForceで倍精度が必要な理由なんてほんと世間知らずの戯言だな
GeForceで倍精度が必要な理由なんてほんと世間知らずの戯言だな
374デフォルトの名無しさん
2016/02/09(火) 19:15:52.47ID:CgzlKX4i >>372
黎明期はデファクトスタンダードの取り合いだから当然の流れ
黎明期はデファクトスタンダードの取り合いだから当然の流れ
375デフォルトの名無しさん
2016/02/09(火) 19:20:58.08ID:OHQNRB+7 >>372
よそが勝手に投げ出しただけじゃん
よそが勝手に投げ出しただけじゃん
376デフォルトの名無しさん
2016/02/09(火) 19:27:05.49ID:C4h+tGmi377デフォルトの名無しさん
2016/02/09(火) 19:32:42.77ID:OHQNRB+7 dlといえばmitとnvが共同開発したeyerissはflotじゃなくfixedだったな
データ移動を極力控えた構造でcnnの場合データの再利用性が高いので
peからpeへの受け渡しが有効なのだとか
それでもエネルギーコストは
aluからレジスタファイルへの場合を1とすると
peへは3
内部のバッファーへは10
外部dramへは500のエネルギーコストがかかるんだそうな
データ移動を極力控えた構造でcnnの場合データの再利用性が高いので
peからpeへの受け渡しが有効なのだとか
それでもエネルギーコストは
aluからレジスタファイルへの場合を1とすると
peへは3
内部のバッファーへは10
外部dramへは500のエネルギーコストがかかるんだそうな
378デフォルトの名無しさん
2016/02/09(火) 20:43:41.18ID:YFSBhYG5 >ここのスレで倍精度がどうなるかは大学企業にとっても死活問題なのに
言うことがバカすぎて吹いた
まともな法人はこのスレに社運なんてかけませんから
Tesla相当の性能をGeForceにも実装しろという
悪質クレーマーを客だと思わない権利は
NVIDIAにもあるだろjk
言うことがバカすぎて吹いた
まともな法人はこのスレに社運なんてかけませんから
Tesla相当の性能をGeForceにも実装しろという
悪質クレーマーを客だと思わない権利は
NVIDIAにもあるだろjk
379デフォルトの名無しさん
2016/02/09(火) 21:14:42.66ID:q4H41fNH 米エネルギー省の評価ソフトがほとんど単精度で
倍精度使うのがlinpackしかいという
倍精度使うのがlinpackしかいという
380デフォルトの名無しさん
2016/02/09(火) 21:20:54.23ID:IR1D3KHq 単精度じゃ足りないけど倍精度なら十分って領域は実は少ない。
単精度用演算器に少量の精度を追加して倍精度を1/4の速度でやるのが一番利に叶っている。
まあこれすら普及帯ではけちられて1/16になるのが倍精度の立ち位置
倍精度用の演算器積むくらいだったら単精度の演算器で可能なbit数で複数組み合わせると簡単に多倍長精度演算を実現できるような命令を用意してくれた方がよっぽどありがたい。
単精度用演算器に少量の精度を追加して倍精度を1/4の速度でやるのが一番利に叶っている。
まあこれすら普及帯ではけちられて1/16になるのが倍精度の立ち位置
倍精度用の演算器積むくらいだったら単精度の演算器で可能なbit数で複数組み合わせると簡単に多倍長精度演算を実現できるような命令を用意してくれた方がよっぽどありがたい。
381デフォルトの名無しさん
2016/02/09(火) 21:34:25.12ID:DH+vdKhf >ここのスレで倍精度がどうなるかは大学企業にとっても死活問題なのに
糞ワロタwww
このスレすごいんだな
糞ワロタwww
このスレすごいんだな
2016/02/09(火) 21:47:11.85ID:SI3uOwiZ
どっかのバKaveriは512SPで倍精度50GFLOPS未満
CPU1コアより遅いんだが
CPU1コアより遅いんだが
383デフォルトの名無しさん
2016/02/09(火) 22:14:14.05ID:5ErhaZ8p 今日は団子がいっぱいいるなあ
384デフォルトの名無しさん
2016/02/10(水) 00:25:10.96ID:u83LBvNZ 倍精度が高ければ許される
倍精度が低ければ、メモリが多くてもメモリ幅が多くても消費電力が低くても許されない
倍精度が低ければ、メモリが多くてもメモリ幅が多くても消費電力が低くても許されない
385デフォルトの名無しさん
2016/02/10(水) 00:37:19.11ID:ZwcaN/9X 団子分身の術か
もうここもワッチョイの時期かね?
もうここもワッチョイの時期かね?
386デフォルトの名無しさん
2016/02/10(水) 00:56:31.15ID:pL5WuRkY だから団子ってなんだよ?
387デフォルトの名無しさん
2016/02/10(水) 01:41:12.63ID:JsTfqJoq 団子は団子。
388デフォルトの名無しさん
2016/02/10(水) 02:29:40.13ID:FSPq21yA amd信者っていう精神病患ってるよな
2016/02/10(水) 08:25:30.16ID:gHO8h5ZQ
倍精度ハードフル実装マンセー
↓
トランジスタが増える
↓
ウエハ1枚あたりのチップ採れる数が減る(&歩止まり率も減る)
↓
製造コスト上がる
↓
(,,・´∀`・,,)
↓
トランジスタが増える
↓
ウエハ1枚あたりのチップ採れる数が減る(&歩止まり率も減る)
↓
製造コスト上がる
↓
(,,・´∀`・,,)
390デフォルトの名無しさん
2016/02/10(水) 08:35:12.26ID:IPR+3W8l 倍精度の話しないと死んじゃう人は点呼取ってくれる?
「倍精度でCUDA」スレと、「実在のGPUでCUDA」スレに分けた方がいいよね、多分。
「倍精度でCUDA」スレと、「実在のGPUでCUDA」スレに分けた方がいいよね、多分。
391デフォルトの名無しさん
2016/02/10(水) 08:39:26.22ID:5rSlusQ0 バカはhello worldから始めなさい
2016/02/10(水) 08:48:59.74ID:gHO8h5ZQ
件の赤い会社が帳簿の赤も解消しないのは、市場価格に対して製造原価が高すぎるからだよ
会社を潰れかけの状態にしてまで実装コストの高い倍精度ハードを実装するのは模範的な企業とは思えんがねえ
QuadroとTeslaのブランドが分かれてないようなもんだ
会社を潰れかけの状態にしてまで実装コストの高い倍精度ハードを実装するのは模範的な企業とは思えんがねえ
QuadroとTeslaのブランドが分かれてないようなもんだ
393デフォルトの名無しさん
2016/02/10(水) 08:57:23.58ID:5rSlusQ0 まぁDLのおかげでteslaでも倍精度無しのものもあるけどね
ただ今後、DLはEyerissの方向で行きそうなんで
完全にDLは別ラインの製品でいくのか
GPU自体がEyerissの発展形になるか
GPUのデータ移動減らすとかレジスタファイルの階層化って研究はしてるようだけど
ただ今後、DLはEyerissの方向で行きそうなんで
完全にDLは別ラインの製品でいくのか
GPU自体がEyerissの発展形になるか
GPUのデータ移動減らすとかレジスタファイルの階層化って研究はしてるようだけど
394デフォルトの名無しさん
2016/02/10(水) 12:31:36.49ID:zvpoME6O 何とか倍精度不要論に持っていこうと必死な団子でした
2016/02/10(水) 12:36:21.64ID:qcpMLBSZ
アホがいるね
特定のアプリケーションに特化して結果的に倍精度性能落とした製品は、その目的の用途から外れなきゃ何の問題もねーじゃん
ディープラーニングにもゲームにも倍精度の性能は必要ないから
倍精度が必要な用途にはK80やその後継あるいはPhiを買えばいい
科学技術演算用に設計されてないGPUに倍精度が必要だとかいうのはただのデムパ
特定のアプリケーションに特化して結果的に倍精度性能落とした製品は、その目的の用途から外れなきゃ何の問題もねーじゃん
ディープラーニングにもゲームにも倍精度の性能は必要ないから
倍精度が必要な用途にはK80やその後継あるいはPhiを買えばいい
科学技術演算用に設計されてないGPUに倍精度が必要だとかいうのはただのデムパ
396デフォルトの名無しさん
2016/02/10(水) 13:03:35.72ID:VS1+7AWR >>390
団子だけ隔離出来れば良い
団子だけ隔離出来れば良い
2016/02/10(水) 23:12:49.82ID:7x9wHVqL
>>393
Teslaの単精度特化版は1スロット版のK8ならそうだけどK10なら発表は2012年で
ディープラーニング言い出す前の話
ダイ本体はGTX600番台そのものだからそれ専用に設計されてるわけではないしね
EyerissがよくわらんのだけどROPやテクスチャユニットも削ってるわけ?
Teslaの単精度特化版は1スロット版のK8ならそうだけどK10なら発表は2012年で
ディープラーニング言い出す前の話
ダイ本体はGTX600番台そのものだからそれ専用に設計されてるわけではないしね
EyerissがよくわらんのだけどROPやテクスチャユニットも削ってるわけ?
398デフォルトの名無しさん
2016/02/10(水) 23:48:08.15ID:pL5WuRkY ここだけの話
K10はシェールガス探査特化モデルだよ
K10はシェールガス探査特化モデルだよ
2016/02/10(水) 23:52:02.41ID:7x9wHVqL
倍精度推しの池沼君がどんな世の中の役に立つソフト作ってて
LINPACKベンチ以外なんの実務に役立ってるのかは興味あるね
LINPACKベンチ以外なんの実務に役立ってるのかは興味あるね
400デフォルトの名無しさん
2016/02/11(木) 03:51:57.10ID:Q8jkKaXt eyerissはgpuじゃなくdl専用
401デフォルトの名無しさん
2016/02/11(木) 09:23:41.72ID:pqlF/R5A 団子は倍精度に親でも殺されたか?
402デフォルトの名無しさん
2016/02/11(木) 09:24:20.60ID:pqlF/R5A 豚に真珠
団子に倍精度
団子に倍精度
2016/02/11(木) 09:27:55.02ID:qHP8+I1C
>>399に答えてね
2016/02/11(木) 09:37:09.50ID:qHP8+I1C
俺は必要だっていう人の言い分は理解してるし
それに合わせたチップを選べばいいと思うのだけどね
倍精度ハードウェアがTeslaはともかく一般消費者向けのGeForceに
載らないといけない理由はない
一般消費者が倍精度のスループットを見てGPUを選ぶトレンドを作りたいなら
まずてめえが倍精度載せる価値のあるソフト作って示せばいい
それに合わせたチップを選べばいいと思うのだけどね
倍精度ハードウェアがTeslaはともかく一般消費者向けのGeForceに
載らないといけない理由はない
一般消費者が倍精度のスループットを見てGPUを選ぶトレンドを作りたいなら
まずてめえが倍精度載せる価値のあるソフト作って示せばいい
405デフォルトの名無しさん
2016/02/11(木) 13:14:12.26ID:Dgt4YBtM 科学技術演算に倍精度は必要不可欠
はい論破完了
簡単だったね
はい論破完了
簡単だったね
406デフォルトの名無しさん
2016/02/11(木) 13:23:19.60ID:U2ZcAFvs へー
それって
一般消費者向けの
GeForceに?
それって
一般消費者向けの
GeForceに?
2016/02/11(木) 13:27:04.20ID:yn/CS7EG
一般消費者が科学技術計算する必要あることがまったく示せていない
408デフォルトの名無しさん
2016/02/11(木) 13:28:21.16ID:pqlF/R5A 豚に真珠
団子に倍精度
団子に倍精度
409デフォルトの名無しさん
2016/02/11(木) 13:35:33.57ID:U2ZcAFvs あたまわるそう
410デフォルトの名無しさん
2016/02/11(木) 13:37:15.86ID:Dgt4YBtM ここは何スレだったっけ?
単発団子よ
単発団子よ
411デフォルトの名無しさん
2016/02/11(木) 13:39:04.93ID:U2ZcAFvs また病気か?
2016/02/11(木) 13:42:27.10ID:yn/CS7EG
TSMCのウェハ価格体系的に用途別に倍精度が削れる用途向けには削ったほうが
コストダウンになるからそうするでしょうよ
Maxwell世代のTeslaがないのは大型スパコン案件もないからっての大きいと思う
コストダウンになるからそうするでしょうよ
Maxwell世代のTeslaがないのは大型スパコン案件もないからっての大きいと思う
2016/02/11(木) 13:45:25.92ID:yn/CS7EG
>>410
お前理解してないから出てけよ
お前理解してないから出てけよ
414デフォルトの名無しさん
2016/02/11(木) 13:47:41.45ID:U2ZcAFvs Tesla M40「・・・」
Teala M4 「・・・」
Teala M4 「・・・」
2016/02/11(木) 13:56:21.86ID:yn/CS7EG
すまん、倍精度版ね
416デフォルトの名無しさん
2016/02/11(木) 15:18:50.25ID:FNR4nKd2 今年の流行語大賞は売精奴
417デフォルトの名無しさん
2016/02/11(木) 17:25:56.22ID:R5nKPKgb 普通に考えて一般向けGPUに倍精度はいらないよな
32bitと16bit浮動小数点しか使わねーよ
それでも贅沢なぐらい
32bitと16bit浮動小数点しか使わねーよ
それでも贅沢なぐらい
418デフォルトの名無しさん
2016/02/11(木) 18:10:05.08ID:0bpwaMQp ほんとそれ
一般向けとしてはオーバースペックなくらい
一般向けとしてはオーバースペックなくらい
419デフォルトの名無しさん
2016/02/11(木) 18:51:28.54ID:pqlF/R5A 団子がいっぱい
420デフォルトの名無しさん
2016/02/11(木) 20:13:55.90ID:Dgt4YBtM 駄目だ、団子の性でここも腐ってきた
2016/02/11(木) 21:01:08.64ID:yn/CS7EG
だからお前の発言のどこが論破なんだよ
論理破綻の略か?
論理破綻の略か?
422デフォルトの名無しさん
2016/02/12(金) 02:22:44.00ID:m8Kq2x0U シールズ脳
423デフォルトの名無しさん
2016/02/12(金) 13:14:15.71ID:10CGBYPs ここがCUDAスレだと何度言えば分かるんだ!団子
科学技術演算も出来ないGPUじゃ話にならんわ
科学技術演算も出来ないGPUじゃ話にならんわ
424デフォルトの名無しさん
2016/02/12(金) 17:49:19.72ID:igghQz0I まあ、倍精度じゃないと、イタレーティブソルバーは収束しないわな。4倍精度ぐらいあれは、CG法で反復回数が極端に減るかもね。
425デフォルトの名無しさん
2016/02/12(金) 20:54:47.44ID:okDGKGY+ 売性奴
426デフォルトの名無しさん
2016/02/12(金) 21:37:49.48ID:ws+NUeAo 風俗業みたいな書き方だな
427デフォルトの名無しさん
2016/02/12(金) 22:41:27.77ID:10CGBYPs 今日の重力波観測にしたってあれは、理論屋が出したシミュレーションに従ってそれと同じデータを観測したわけだろ
そういうのが単精度/半精度で出せるわけねーだろ
そういうのが単精度/半精度で出せるわけねーだろ
428デフォルトの名無しさん
2016/02/12(金) 22:42:28.23ID:okDGKGY+ じゃあ倍精度使ってんの?
429デフォルトの名無しさん
2016/02/12(金) 22:42:32.12ID:7+E8+eHE 100倍精度くらいいるな
430デフォルトの名無しさん
2016/02/12(金) 22:43:21.37ID:7+E8+eHE 倍精度なんて普通に使う
水や空気のように
水や空気のように
431デフォルトの名無しさん
2016/02/13(土) 00:10:37.29ID:KZpZDJLQ ただし、グラフィックスには要らない
432デフォルトの名無しさん
2016/02/13(土) 00:16:44.75ID:X+VeUhDc @No double precision, no life.
ADouble precision make me happy.
ADouble precision make me happy.
433デフォルトの名無しさん
2016/02/13(土) 00:47:18.16ID:vQuqpgIG ここではMaxwellやPascalはおよびじゃない
434デフォルトの名無しさん
2016/02/13(土) 00:48:53.57ID:dx+PFg0T CUDAをなんのために使うかだよなあ。
グラフィックスだけならOPENGLだけでええんのとちゃうか?
グラフィックスだけならOPENGLだけでええんのとちゃうか?
435デフォルトの名無しさん
2016/02/13(土) 00:54:32.58ID:LMFsV4x8436デフォルトの名無しさん
2016/02/13(土) 01:59:47.65ID:KZpZDJLQ GPUはグラフィックスを扱うのが本分なので
一般向けGPUは倍精度無しでも文句は言えない
一般向けGPUは倍精度無しでも文句は言えない
437デフォルトの名無しさん
2016/02/13(土) 05:22:35.21ID:zAv3sSPP BSD! BSD! BSD!
438デフォルトの名無しさん
2016/02/13(土) 11:28:45.10ID:EDACvSC3 >>436
お前の文句なんかどうでもいい
GPGPUってのはこういうことのために使うんだぜ!?団子
-----------------------------------------------------------------------
645 : 名無しのひみつ@転載は禁止2016/02/12(金) 22:56:12.20 ID:oUDSwd87
>>626
別に2ちゃんだから適当に幾らでも変なことでも聞いていいんじゃね?
人間の頭で考えないと絶対にダメな部分が最も大きい
相対論も標準理論も量子力学も計算機だけでは絶対無理
計算機が答を出すというより、計算機は望遠鏡とか温度計のような「測定器の一種」という感覚が近いと思う
GPGPUは使いまくってるはずだけど、半ば問題に特化して設計するスパコンもあり
スパコンに関してはそれ自体がすごいというより、スパコン目当てに優秀な人が集まる効果のほうが大事という気がする、2020年のオリンピックみたいにスパコンという祭りに人が集まるから、良い方にも悪い方にも転ぶだろう
646 : 名無しのひみつ@転載は禁止2016/02/12(金) 22:57:56.72 ID:eXgf7vm3
お前の文句なんかどうでもいい
GPGPUってのはこういうことのために使うんだぜ!?団子
-----------------------------------------------------------------------
645 : 名無しのひみつ@転載は禁止2016/02/12(金) 22:56:12.20 ID:oUDSwd87
>>626
別に2ちゃんだから適当に幾らでも変なことでも聞いていいんじゃね?
人間の頭で考えないと絶対にダメな部分が最も大きい
相対論も標準理論も量子力学も計算機だけでは絶対無理
計算機が答を出すというより、計算機は望遠鏡とか温度計のような「測定器の一種」という感覚が近いと思う
GPGPUは使いまくってるはずだけど、半ば問題に特化して設計するスパコンもあり
スパコンに関してはそれ自体がすごいというより、スパコン目当てに優秀な人が集まる効果のほうが大事という気がする、2020年のオリンピックみたいにスパコンという祭りに人が集まるから、良い方にも悪い方にも転ぶだろう
646 : 名無しのひみつ@転載は禁止2016/02/12(金) 22:57:56.72 ID:eXgf7vm3
439デフォルトの名無しさん
2016/02/13(土) 12:08:27.34ID:c+BFT1nX いろいろ探して結局コピペ
440デフォルトの名無しさん
2016/02/13(土) 13:38:06.14ID:LMFsV4x8 結局何が言いたいの?
理想のものが欲しければ自分が計算機設計の専門家になればいいじゃん
手遅れかもしれないけど
理想のものが欲しければ自分が計算機設計の専門家になればいいじゃん
手遅れかもしれないけど
2016/02/13(土) 14:55:58.29ID:dwcfM3wy
自然言語処理や画像認識、いま産学連携で資金集まってるのはこういう分野
データサイエンス分野は文系の学者さんも研究に参画してるし応用範囲広いんだよね
何の金にもならない倍精度行列積で1位じゃないとダメなんですか?とかホントどうでもいい話
データサイエンス分野は文系の学者さんも研究に参画してるし応用範囲広いんだよね
何の金にもならない倍精度行列積で1位じゃないとダメなんですか?とかホントどうでもいい話
2016/02/13(土) 15:03:24.00ID:dwcfM3wy
スパコンに倍精度演算性能が必要なのは誰も否定してないじゃん
個人のゲームやお絵かき用のパソコンにそれが必要かという話であって。
コピペで代弁してもらったつもりになってるのかもしれないけど
実質的に何の主張にもなってないわけよ
個人のゲームやお絵かき用のパソコンにそれが必要かという話であって。
コピペで代弁してもらったつもりになってるのかもしれないけど
実質的に何の主張にもなってないわけよ
443デフォルトの名無しさん
2016/02/13(土) 17:16:53.26ID:EDACvSC3444デフォルトの名無しさん
2016/02/13(土) 17:49:57.42ID:pMfjul4g GPUとGPGPUの区別もつかないのか?
2016/02/13(土) 18:00:36.66ID:dwcfM3wy
> Async煽りをしてた団子が攻守入れ替わるとこれだからな
それこそお前の妄想じゃん
RadeonのGPGPUプログラミングの話をしたいなら超過疎のHSAスレへ
それこそお前の妄想じゃん
RadeonのGPGPUプログラミングの話をしたいなら超過疎のHSAスレへ
2016/02/13(土) 18:03:11.84ID:dwcfM3wy
> GPGPUは使いまくってるはずだけど、半ば問題に特化して設計するスパコンもあり
って引用しつつ、倍精度性能が不要な用途に特化する意義は認めないんだね
って引用しつつ、倍精度性能が不要な用途に特化する意義は認めないんだね
2016/02/13(土) 18:11:06.88ID:dwcfM3wy
ついでに攻められてるのがどっちなのかすら理解してない
448デフォルトの名無しさん
2016/02/13(土) 18:14:06.59ID:vpwmEJlM 団子消えろ邪魔
449デフォルトの名無しさん
2016/02/13(土) 18:17:25.51ID:vpwmEJlM GPの意味わかるか?
2016/02/13(土) 18:25:02.18ID:dwcfM3wy
>>427の言ってるLIGOのリサーチに協力したのはうんこFireProではなくXeon Phiなんだよね
http://www.hpcwire.com/off-the-wire/taccs-stampede-supercomputer-assists-ligo-research/
重力演算は1格子点あたり小数点以下3桁程度の精度があれば十分といわれる分野
Stampedeに載ってるKNCは除算ユニットは遅く逆数・逆数平方根命令の
有効桁は14ビットだ。
まあこんだけあればニュートン法すら要らないわけよ。
倍精度で分解能を上げて遅い倍精度に単精度(実効精度14ビット)で格子点を
大量に捌くほうがより正しいシミュレーションができる。
ニュートン法不要ってのはニタドリ=サンの受け売りだが
http://www.hpcwire.com/off-the-wire/taccs-stampede-supercomputer-assists-ligo-research/
重力演算は1格子点あたり小数点以下3桁程度の精度があれば十分といわれる分野
Stampedeに載ってるKNCは除算ユニットは遅く逆数・逆数平方根命令の
有効桁は14ビットだ。
まあこんだけあればニュートン法すら要らないわけよ。
倍精度で分解能を上げて遅い倍精度に単精度(実効精度14ビット)で格子点を
大量に捌くほうがより正しいシミュレーションができる。
ニュートン法不要ってのはニタドリ=サンの受け売りだが
2016/02/13(土) 18:42:17.05ID:dwcfM3wy
14ビットは間違い。SkylakeXeonで使えるAVX-512Fのほうだね。
KNCのrcp23ps/rsqrt23psのスループットは23ビット。
つまり単精度の除算は乗算1回との合計2ステップで割り切りなしの十分な精度が得られる
KNCのrcp23ps/rsqrt23psのスループットは23ビット。
つまり単精度の除算は乗算1回との合計2ステップで割り切りなしの十分な精度が得られる
452デフォルトの名無しさん
2016/02/13(土) 18:45:56.87ID:vpwmEJlM スレ違い
2016/02/13(土) 18:48:25.54ID:dwcfM3wy
倍精度必要論が否定されるから都合が悪いだけだろう?
重力演算のために長崎大がGeForce買いあさって作った激安スパコンだって
単精度特化仕様だったよ?
これもニタドリ=サンが協力している。古事記にも書いてある。
重力演算のために長崎大がGeForce買いあさって作った激安スパコンだって
単精度特化仕様だったよ?
これもニタドリ=サンが協力している。古事記にも書いてある。
2016/02/13(土) 19:06:49.99ID:dwcfM3wy
ゴードンベル賞で2度の受賞を経験したニタドリ=サンをして
天文学分野のシミュレーションは半精度程度の分解能があれば十分だって言ってるんだよ
天文学分野のシミュレーションは半精度程度の分解能があれば十分だって言ってるんだよ
455デフォルトの名無しさん
2016/02/13(土) 19:49:28.20ID:LMFsV4x8 でもGRAPEは6倍精度実装してるじゃん
天文学と一纏めにしてるけど連星とかブラックホールが近接するような場合は高い精度が要求されるよね
逆に宇宙の大規模構造とかだと桁増やすより分解能上げた方が精度上がるのかもしれないけど
天文学と一纏めにしてるけど連星とかブラックホールが近接するような場合は高い精度が要求されるよね
逆に宇宙の大規模構造とかだと桁増やすより分解能上げた方が精度上がるのかもしれないけど
2016/02/13(土) 19:57:12.93ID:dwcfM3wy
否定しない。
いずれにしてもどれも個人のパソコンに必要な要件ではない。
個人のパソコンのパーツを組み合わせて大規模演算ができるのはコストメリット的に重要だけど
個人のパソコンに倍精度が必要な理由の説明としては本末転倒です
いずれにしてもどれも個人のパソコンに必要な要件ではない。
個人のパソコンのパーツを組み合わせて大規模演算ができるのはコストメリット的に重要だけど
個人のパソコンに倍精度が必要な理由の説明としては本末転倒です
457デフォルトの名無しさん
2016/02/13(土) 21:14:52.93ID:EE+8Wdg+ 結局自分じゃ使えもしないのに
倍精度倍精度連呼してるのが滑稽だってこった
倍精度倍精度連呼してるのが滑稽だってこった
458デフォルトの名無しさん
2016/02/14(日) 00:27:03.46ID:cgGYXXdh スレタイも読めないアホ
2016/02/14(日) 00:51:54.56ID:QIqkGWdy
スレタイに即した話題振ってくれよ
460デフォルトの名無しさん
2016/02/14(日) 00:57:10.67ID:cgGYXXdh お前が消えたらな
2016/02/14(日) 00:57:39.60ID:QIqkGWdy
お前が行くべきスレ(HSAスレ)に行けば平和になるよ
462デフォルトの名無しさん
2016/02/14(日) 01:39:56.33ID:lXFnYTTq AMDな人が来てCUDAの話無・CUDA使っていない奴の雑談スレになったな
AMDのGPGPUスレ過疎すぎでこっちにきたんだろうが
AMDのGPGPUスレ過疎すぎでこっちにきたんだろうが
2016/02/14(日) 02:02:42.36ID:vcWFNaoW
そもそも初代CUDAの時期に倍精度なんてサポートされてなかったし
メインストリームのGeForceが倍精度強かった時代なんて一度もないのに
いつから馬鹿の一つ覚えの倍精度連呼が始まったやら
メインストリームのGeForceが倍精度強かった時代なんて一度もないのに
いつから馬鹿の一つ覚えの倍精度連呼が始まったやら
464デフォルトの名無しさん
2016/02/14(日) 07:18:27.73ID:feLPD2f/ 豚に真珠
団子に倍精度
団子に倍精度
2016/02/14(日) 09:14:03.10ID:vcWFNaoW
>>464の名前は団子っていうそうです
466デフォルトの名無しさん
2016/02/14(日) 09:20:16.22ID:SumOf5e2 団子がいっぱい
467デフォルトの名無しさん
2016/02/14(日) 15:01:21.31ID:LdUYpatK そもそもCUDAは科学技術演算を必要とする人のスレなのにな
いつの間にか糞団子はゲームに必要かどうかに論点をすり替え
いつの間にか糞団子はゲームに必要かどうかに論点をすり替え
2016/02/14(日) 16:23:41.37ID:vcWFNaoW
> そもそもCUDAは科学技術演算を必要とする人のスレなのにな
意味が分からない
意味が分からない
2016/02/14(日) 16:26:10.17ID:vcWFNaoW
CUDAでハローワールドも書けないレベルのnoobが気取ってみても
頭の悪さは隠せないよ
頭の悪さは隠せないよ
470デフォルトの名無しさん
2016/02/14(日) 16:42:03.99ID:k6vnuBvm cudaで今nvidia的にイチオシの用途がdlで、half性能が効いてくるという奴じゃないの?
471デフォルトの名無しさん
2016/02/14(日) 16:58:17.35ID:MYivShEO と言うよりGPGPU自体がDLバブルに乗っかってるからな
ボリュームゾーンに合わせた製品仕様になるのは当然の流れ
ボリュームゾーンに合わせた製品仕様になるのは当然の流れ
2016/02/14(日) 17:32:35.33ID:vcWFNaoW
バイセイドマンセー「俺がボリュームゾーンだ!俺のためのGPUを作れ!」
2016/02/14(日) 17:54:26.87ID:vcWFNaoW
DOE案件みたいな大口需要があるときだけ倍精度特化版作って
それ以外は民間需要重視でいくってのは間違いじゃないと思うよ
次のDOE案件はVoltaだ
逆に言うとそれまでは倍精度特化版は出ないということだな
それ以外は民間需要重視でいくってのは間違いじゃないと思うよ
次のDOE案件はVoltaだ
逆に言うとそれまでは倍精度特化版は出ないということだな
474デフォルトの名無しさん
2016/02/14(日) 20:43:02.26ID:feLPD2f/ 団子うざい
475デフォルトの名無しさん
2016/02/14(日) 20:43:29.15ID:feLPD2f/ スレちがい
きえろ
きえろ
2016/02/14(日) 20:45:40.73ID:vcWFNaoW
認めろよ負け犬
お前らの需要は民間需要とみなされてないんだよ
お前らの需要は民間需要とみなされてないんだよ
2016/02/14(日) 21:07:00.02ID:vcWFNaoW
残念だけどGeForceに倍精度が必要な理由を説くには
ゲームなどの目的で使って一般ユーザーが必要であることは絶対必要な条件だ
まさかそんな単純な理屈もわからないのか?
だからお前は俺ごときに言い負かされてるんだよ
ゲームなどの目的で使って一般ユーザーが必要であることは絶対必要な条件だ
まさかそんな単純な理屈もわからないのか?
だからお前は俺ごときに言い負かされてるんだよ
478デフォルトの名無しさん
2016/02/14(日) 21:17:16.56ID:3MzGEHLi でもdoeの評価アプリはほとんどが単精度なのだ
479デフォルトの名無しさん
2016/02/14(日) 21:20:27.80ID:q4Y9hkYF やっぱり次のスパコンはGPU入れてくるのかな。
CPUだけで今の100倍は難しいよね?
CPUだけで今の100倍は難しいよね?
2016/02/14(日) 21:20:35.19ID:vcWFNaoW
Top500ランキングに使うLINPACKベンチは倍精度だからそれのためだけに必要なんだよ
ちなみにHPCGだと倍精度ユニットいくらあってももてあそぶから倍精度厨には逆風だね
ちなみにHPCGだと倍精度ユニットいくらあってももてあそぶから倍精度厨には逆風だね
481デフォルトの名無しさん
2016/02/14(日) 21:29:25.60ID:q4Y9hkYF maxwellが発売されて2年たつが、pascalはいつごろ発売になるのだろうか。
482デフォルトの名無しさん
2016/02/14(日) 21:30:32.20ID:feLPD2f/ 豚に真珠
団子に倍精度
団子に倍精度
483デフォルトの名無しさん
2016/02/14(日) 21:34:09.88ID:3MzGEHLi pascalは今年
voltaは来年
pascalは大きな変更になり
voltaは小改良
voltaは来年
pascalは大きな変更になり
voltaは小改良
484デフォルトの名無しさん
2016/02/14(日) 21:39:33.62ID:LdUYpatK 倍精度の必要性すら認めない奴がどうしてこのスレにいる?
485デフォルトの名無しさん
2016/02/14(日) 21:46:01.01ID:3MzGEHLi dlはもうeyerissの系統でいくんだろうな
機会学習はもう大きな需要が在るのわかってるから
専用設計のチップでも儲かるのが見えてる
gpuはある種汎用的なHPC向けになるんだろうな
pascalで階層型のスケジューラやレジスタファイルが実装されてると
そのコントローラー(こんぱいら)ようにcpuが搭載され
レンダリングはタイルになりそうだけど
機会学習はもう大きな需要が在るのわかってるから
専用設計のチップでも儲かるのが見えてる
gpuはある種汎用的なHPC向けになるんだろうな
pascalで階層型のスケジューラやレジスタファイルが実装されてると
そのコントローラー(こんぱいら)ようにcpuが搭載され
レンダリングはタイルになりそうだけど
2016/02/14(日) 21:47:24.48ID:vcWFNaoW
そんな人は一人もいませんよ?
消費者向けGPUに倍精度が必要みたいなアホなこと言う負け犬君を馬鹿にしてるだけですよ
消費者向けGPUに倍精度が必要みたいなアホなこと言う負け犬君を馬鹿にしてるだけですよ
487デフォルトの名無しさん
2016/02/14(日) 21:47:51.57ID:VLtYVTYt Geforceで科学技術計算なんてことあるの?
2秒間の壁や1週間も100%負荷で連続使用したら過熱して壊れそう。
2秒間の壁や1週間も100%負荷で連続使用したら過熱して壊れそう。
488デフォルトの名無しさん
2016/02/14(日) 21:51:42.44ID:k6vnuBvm 必要性もなにも倍精度演算自体は可能だろ。積和で単精度の1/32くらいの速度だけど。
それで不満な人間がCUDAにこだわる意味がわからん。
そもそもCUDA対応ハードで倍精度強かったのってfermiとkeplerの時期だけで、しかもコンシューマ向けで開放されたのもその極一部じゃない。
それで不満な人間がCUDAにこだわる意味がわからん。
そもそもCUDA対応ハードで倍精度強かったのってfermiとkeplerの時期だけで、しかもコンシューマ向けで開放されたのもその極一部じゃない。
489デフォルトの名無しさん
2016/02/14(日) 21:52:57.52ID:3MzGEHLi それはfuryでもおなじだけどな
2016/02/14(日) 21:53:10.10ID:vcWFNaoW
倍精度が必要な人は必要らしくマイノリティ税を払って4桁ドルのTeslaを使えばよろしい
2016/02/14(日) 22:08:24.09ID:vcWFNaoW
防衛上の理由として
北朝鮮や中共がGeForceを買いあさって弾道計算に使われたら困るから
消費者向けGPUは倍精度を削るのは当然でしょう
北朝鮮や中共がGeForceを買いあさって弾道計算に使われたら困るから
消費者向けGPUは倍精度を削るのは当然でしょう
492デフォルトの名無しさん
2016/02/14(日) 22:18:41.75ID:k6vnuBvm 倍精度演算を単精度の1/4より速く実行するのは基本的に無駄なはずなんだよね。
keplerは別回路で使わなければ完全に無駄だったし、fermiの1/2にもからくりがあって、整数演算器の方に少し回路を付け足せば単精度性能を倍にできるのを抑えた感じ。
納入先との契約で倍精度性能は単精度の1/2にすることみたいな縛りでもあったのかね。
1/4にしないでもっとけちれば次は1/16になるのが自然
なのにmaxwellは1/32
keplerは別回路で使わなければ完全に無駄だったし、fermiの1/2にもからくりがあって、整数演算器の方に少し回路を付け足せば単精度性能を倍にできるのを抑えた感じ。
納入先との契約で倍精度性能は単精度の1/2にすることみたいな縛りでもあったのかね。
1/4にしないでもっとけちれば次は1/16になるのが自然
なのにmaxwellは1/32
493デフォルトの名無しさん
2016/02/14(日) 22:57:17.12ID:MYivShEO >>491
>防衛上の理由として
>
>北朝鮮や中共がGeForceを買いあさって弾道計算に使われたら困るから
>消費者向けGPUは倍精度を削るのは当然でしょう
中共とかなに時代錯誤なこと言ってんだよ
Nvidiaはファブレスで製造はTSMCだぞ
そもそも弾道計算にGPU要らんし
>防衛上の理由として
>
>北朝鮮や中共がGeForceを買いあさって弾道計算に使われたら困るから
>消費者向けGPUは倍精度を削るのは当然でしょう
中共とかなに時代錯誤なこと言ってんだよ
Nvidiaはファブレスで製造はTSMCだぞ
そもそも弾道計算にGPU要らんし
2016/02/14(日) 23:02:24.40ID:vcWFNaoW
今存在している政権を時代錯誤と言ってみたり台湾と中国の区別がつかなかったり
いろいろ論外すぎる
いろいろ論外すぎる
495デフォルトの名無しさん
2016/02/14(日) 23:28:08.25ID:MYivShEO496デフォルトの名無しさん
2016/02/14(日) 23:32:03.43ID:MYivShEO2016/02/14(日) 23:34:42.85ID:vcWFNaoW
その寝言で米国政府が天河1号Aおよび2号のパーツ供給打ち切る命令を下してりゃ世話無いわ
498デフォルトの名無しさん
2016/02/15(月) 00:10:01.72ID:tk+f5azn つーか今さらだよなぁ。
既に世界一のスパコン輸出した後で規制するとか、アメリカはアホなのか。
既に世界一のスパコン輸出した後で規制するとか、アメリカはアホなのか。
499デフォルトの名無しさん
2016/02/15(月) 00:38:07.27ID:vFZf1/EN >>497
お前それ反論になって無いぞ
もしかしてGeForceに倍精度のせないのはマジで米政府が関与してるとか思ってるわけ?
お前正気か?
もう少しまともな奴だと思ってたが買い被り過ぎだったようだな
お前それ反論になって無いぞ
もしかしてGeForceに倍精度のせないのはマジで米政府が関与してるとか思ってるわけ?
お前正気か?
もう少しまともな奴だと思ってたが買い被り過ぎだったようだな
500デフォルトの名無しさん
2016/02/15(月) 01:27:27.22ID:WsLHcQ2x 弾道計算wwww
不安定なGPUなんか使うわけがないwwww
そんなものは化石CPUで十分
不安定なGPUなんか使うわけがないwwww
そんなものは化石CPUで十分
501デフォルトの名無しさん
2016/02/15(月) 06:50:35.29ID:iMQPxQqI 2018年にかけて米国でknlとpascal,voltaでスパコンが更新されていくからな
天河はもう過去のものになる
日本はもう一番目指してないし
天河はもう過去のものになる
日本はもう一番目指してないし
502デフォルトの名無しさん
2016/02/15(月) 12:37:26.72ID:WsLHcQ2x 計算機なんて数増やせば良いだけだから単体性能よりコスパで1位を目指すべきだと思うんだが
503デフォルトの名無しさん
2016/02/15(月) 13:15:29.44ID:GXDoYvGw そんなん日本じゃ無理じゃん
504デフォルトの名無しさん
2016/02/15(月) 18:36:52.42ID:jliXXPJr2016/02/15(月) 19:35:35.81ID:ZpISfAaX
>>501
そーは言ってもあの国はコンシューマ向けGPUかき集めてでもスパコン作るから
現に初代天河1号でそれやったし
中国のPCゲーム市場は拡大しててGPUメーカーにとってもおいしい市場だ
軍事転用の懸念から輸出規制かけられたらNVIDIAだって大損なわけよ
だから最初から倍精度ハードは載せない
その理屈は最低限理解してほしいのだけど・・・
そーは言ってもあの国はコンシューマ向けGPUかき集めてでもスパコン作るから
現に初代天河1号でそれやったし
中国のPCゲーム市場は拡大しててGPUメーカーにとってもおいしい市場だ
軍事転用の懸念から輸出規制かけられたらNVIDIAだって大損なわけよ
だから最初から倍精度ハードは載せない
その理屈は最低限理解してほしいのだけど・・・
506デフォルトの名無しさん
2016/02/15(月) 20:03:17.93ID:dHmco+xc そもそも倍精度はいらないって持論言ってなかった?
それなら軍事用途でも倍精度なしでいいってことだよね?
そうすると、中国はいくらでもGeForceを軍事転用して作れるんじゃない?
倍精度載せないのが軍事転用を防ぐためってのは無理がないか?
それなら軍事用途でも倍精度なしでいいってことだよね?
そうすると、中国はいくらでもGeForceを軍事転用して作れるんじゃない?
倍精度載せないのが軍事転用を防ぐためってのは無理がないか?
2016/02/15(月) 20:06:18.36ID:ZpISfAaX
もちろんそれが一番の理由だなんて言う理由はない
どうせ倍精度なんて使えてもそれこそ豚に真珠を与えるがごとき日曜プログラマの道楽のために
NVIDIAは会社を傾ける気はないのは確かだろう
どうせ倍精度なんて使えてもそれこそ豚に真珠を与えるがごとき日曜プログラマの道楽のために
NVIDIAは会社を傾ける気はないのは確かだろう
508デフォルトの名無しさん
2016/02/15(月) 20:37:26.50ID:dHmco+xc ハイエンド以外はそうでしょうね。
でもハイエンドはTeslaとマスクを別にするほどメリットはないでしょう。
だからTeslaに搭載されている以上、ハイエンドにもつくだろうね。
ドライバや回路切断で無効化措置がとられるかもしれないけど。
でもハイエンドはTeslaとマスクを別にするほどメリットはないでしょう。
だからTeslaに搭載されている以上、ハイエンドにもつくだろうね。
ドライバや回路切断で無効化措置がとられるかもしれないけど。
509デフォルトの名無しさん
2016/02/15(月) 20:41:01.96ID:dHmco+xc GeForceに倍精度を載せないのはビジネス面からの理由で、
Teslaに倍精度が必要かどうかとはまた違う議論だよね
それからKeplar世代Teslaも最初1/12くらいだったのが1/3にまで上げられたのは
必要な人がいたからじゃないのかな。
4倍精度以上のライブラリがあることからも精度が必要な人はいると思うよ。
単品の精度はfloatでいいけど、累積誤差のせいで途中段階ではより高精度が必要という局面は多いんじゃないだろうか。
倍精度完全ゼロにしたらTeslaはこけると思う。
Teslaに倍精度が必要かどうかとはまた違う議論だよね
それからKeplar世代Teslaも最初1/12くらいだったのが1/3にまで上げられたのは
必要な人がいたからじゃないのかな。
4倍精度以上のライブラリがあることからも精度が必要な人はいると思うよ。
単品の精度はfloatでいいけど、累積誤差のせいで途中段階ではより高精度が必要という局面は多いんじゃないだろうか。
倍精度完全ゼロにしたらTeslaはこけると思う。
510デフォルトの名無しさん
2016/02/15(月) 21:09:32.48ID:3Z78wnsj Nvidiaが倍精度どころか単精度ですら要らないんじゃね?路線になった理由は明快
(AMDの)MantleがDirectX12とVulkanの取り込まれたから
ゲーム機は完全にAMD一色になったから、もはやゲームはAMD中心に動いている
全てのAAAゲームはCS機のローレベルAPIで組まれ、その成果をPCに持っていく形が定着した
従ってPCゲームは今までのように互換性や異種GPU間の翻訳を行うのをやめた
DirectX12はそこの所が根本的に違う
しかし団子はそこの理解がないから最初っから倍精度不要論をぶっていればまだかわいげがあったが、
ゲームに倍精度は不要だ!と言い出したのは、Pascalの仕様が明らかになってからw
それまでの団子は、NVはPascalに倍精度路線を復活させる!(キリッ
の一点張りだった
(AMDの)MantleがDirectX12とVulkanの取り込まれたから
ゲーム機は完全にAMD一色になったから、もはやゲームはAMD中心に動いている
全てのAAAゲームはCS機のローレベルAPIで組まれ、その成果をPCに持っていく形が定着した
従ってPCゲームは今までのように互換性や異種GPU間の翻訳を行うのをやめた
DirectX12はそこの所が根本的に違う
しかし団子はそこの理解がないから最初っから倍精度不要論をぶっていればまだかわいげがあったが、
ゲームに倍精度は不要だ!と言い出したのは、Pascalの仕様が明らかになってからw
それまでの団子は、NVはPascalに倍精度路線を復活させる!(キリッ
の一点張りだった
2016/02/15(月) 21:12:20.04ID:ZpISfAaX
> GeForceに倍精度を載せないのはビジネス面からの理由で、
> Teslaに倍精度が必要かどうかとはまた違う議論だよね
それは誰も否定してる人はいない
> それからKeplar世代Teslaも最初1/12くらいだったのが1/3にまで上げられたのは
> 必要な人がいたからじゃないのかな。
大型スパコン案件があったから。
Maxwell世代にはなくて、民間需要を探したら結局単精度しか需要が無かった
> Teslaに倍精度が必要かどうかとはまた違う議論だよね
それは誰も否定してる人はいない
> それからKeplar世代Teslaも最初1/12くらいだったのが1/3にまで上げられたのは
> 必要な人がいたからじゃないのかな。
大型スパコン案件があったから。
Maxwell世代にはなくて、民間需要を探したら結局単精度しか需要が無かった
512デフォルトの名無しさん
2016/02/15(月) 21:22:31.09ID:jCwjLRdK 団子>弾道計算には倍精度が必要!(キリッ
↑
マジでアホ
↑
マジでアホ
2016/02/15(月) 21:23:17.67ID:ZpISfAaX
必要だけど?
2016/02/15(月) 21:24:28.08ID:ZpISfAaX
惑星探査機なんか発射時刻1秒のずれすら許されないレベル
515デフォルトの名無しさん
2016/02/15(月) 21:33:03.42ID:PRVxDG3b 弾道計算といったら大砲の弾やせいぜい弾道ミサイルといったイメージ
人工衛星は軌道計算というのが一般的だろう
人工衛星は軌道計算というのが一般的だろう
516デフォルトの名無しさん
2016/02/15(月) 21:34:44.35ID:WsLHcQ2x GPUはいらないけどな
517デフォルトの名無しさん
2016/02/15(月) 21:39:07.56ID:iMQPxQqI で
このhello worldも書けない倍精度バカは何が言いたいんだ
このhello worldも書けない倍精度バカは何が言いたいんだ
2016/02/15(月) 21:45:08.13ID:ZpISfAaX
スパコンは数増やせばいいとか言っちゃうレベルの超絶バカには理解できんだろう
2016/02/15(月) 21:50:22.85ID:ZpISfAaX
呼ばれてもいないAMDファンボーイが勝手にわめいてるだけでしょ
Async Shader(笑)なんてスパコンでは全く需要がないんですよ。
繰り返すけど、需要がないんですよ。
何千並列のGPUが動く環境ではそもそも同じGPUで複数スレッドを
動かす必要性そのものが疑問だし本当に別々のスレッドを多並列で動かしたい用途には
60コア240スレッドのXeon Phi向けの問題だったりする。帯短襷長。
Async Shader(笑)なんてスパコンでは全く需要がないんですよ。
繰り返すけど、需要がないんですよ。
何千並列のGPUが動く環境ではそもそも同じGPUで複数スレッドを
動かす必要性そのものが疑問だし本当に別々のスレッドを多並列で動かしたい用途には
60コア240スレッドのXeon Phi向けの問題だったりする。帯短襷長。
520デフォルトの名無しさん
2016/02/15(月) 21:54:15.47ID:dHmco+xc >>511
>大型スパコン案件があったから。
Titanとかだよね。ということはやっぱりむこうの研究者もより精度がほしいってことなんだな。
>Maxwell世代にはなくて、民間需要を探したら結局単精度しか需要が無かった
そもそも民間にGPGPUの需要があるのかも疑問だな。
大学以外でほとんど導入してる事例を見聞きしたことがない。
F1や飛行機の気流計算とかには大規模サーバに積んでシミュレーションしたりしてるのかな?
あとは建築における風の影響とかさ。
普通は世代ごとにプログラミングとテストし直す手間考えるとCPU増設するよって考えに至りそう。
>大型スパコン案件があったから。
Titanとかだよね。ということはやっぱりむこうの研究者もより精度がほしいってことなんだな。
>Maxwell世代にはなくて、民間需要を探したら結局単精度しか需要が無かった
そもそも民間にGPGPUの需要があるのかも疑問だな。
大学以外でほとんど導入してる事例を見聞きしたことがない。
F1や飛行機の気流計算とかには大規模サーバに積んでシミュレーションしたりしてるのかな?
あとは建築における風の影響とかさ。
普通は世代ごとにプログラミングとテストし直す手間考えるとCPU増設するよって考えに至りそう。
521デフォルトの名無しさん
2016/02/15(月) 22:24:29.68ID:iMQPxQqI >>510
pascalの仕様がいつ明らかになったんだ?
pascalの仕様がいつ明らかになったんだ?
522デフォルトの名無しさん
2016/02/15(月) 22:34:24.26ID:jCwjLRdK2016/02/15(月) 22:38:59.79ID:ZpISfAaX
月がいつ惑星になったんだ
的が大きすぎてスイングバイのタイミング計算も必要ないぞ
的が大きすぎてスイングバイのタイミング計算も必要ないぞ
524デフォルトの名無しさん
2016/02/15(月) 22:44:09.45ID:iMQPxQqI 月には本当に行ったのかね
よく帰ってこれたな
てかランディングよくできたな
よく月から離れられたな
よく帰ってこれたな
てかランディングよくできたな
よく月から離れられたな
525デフォルトの名無しさん
2016/02/15(月) 22:48:44.77ID:iMQPxQqI 核開発はおいそれと実験できないので
シミュレーション主体だろうけど
シミュレーション主体だろうけど
526デフォルトの名無しさん
2016/02/15(月) 23:23:28.51ID:jCwjLRdK527デフォルトの名無しさん
2016/02/15(月) 23:27:02.18ID:iMQPxQqI それは使用者がどの程度の精度を求めるかってだけじゃね
キロか
メートルか
センチか
ミリか
マイクロか
ナノか
キロか
メートルか
センチか
ミリか
マイクロか
ナノか
528デフォルトの名無しさん
2016/02/15(月) 23:33:23.73ID:iMQPxQqI ipadのdawソフトだって64bit floatで合成できるし
サンプリンレートだって96khzがつかえる
で、聞いて違いがわかるのかって話だわ
さすがに32khz(昔のrolandのdtm音源とかね)と44.1khzはわかるけど
サンプリンレートだって96khzがつかえる
で、聞いて違いがわかるのかって話だわ
さすがに32khz(昔のrolandのdtm音源とかね)と44.1khzはわかるけど
2016/02/15(月) 23:42:05.72ID:ZpISfAaX
倍精度くんはDLで使われてる半精度の用途すら理解できてないと思うよ
530デフォルトの名無しさん
2016/02/15(月) 23:54:48.03ID:6lA61DJG 科学技術計算で半精度が使えるのなんて、DLぐらいじゃねーの?
線形方程式を扱う問題は倍精度がないと使いもんになんないよ。
単精度で行けるのは、流体解析とかかな。
線形方程式を扱う問題は倍精度がないと使いもんになんないよ。
単精度で行けるのは、流体解析とかかな。
531デフォルトの名無しさん
2016/02/15(月) 23:58:33.47ID:iMQPxQqI 必要な部分だけ倍精度で
後は単精度って言う混合精度が普通ですけどね
後は単精度って言う混合精度が普通ですけどね
532デフォルトの名無しさん
2016/02/16(火) 00:11:11.75ID:Rkm/CQ332016/02/16(火) 00:16:10.17ID:hr2Cmr1D
そこいちいち突っ込むなよ
↓この池沼レスに突っ込んだやつ何人いるよ
427 :デフォルトの名無しさん [↓] :2016/02/12(金) 22:41:27.77 ID:10CGBYPs (2/2)
今日の重力波観測にしたってあれは、理論屋が出したシミュレーションに従ってそれと同じデータを観測したわけだろ
そういうのが単精度/半精度で出せるわけねーだろ
↓この池沼レスに突っ込んだやつ何人いるよ
427 :デフォルトの名無しさん [↓] :2016/02/12(金) 22:41:27.77 ID:10CGBYPs (2/2)
今日の重力波観測にしたってあれは、理論屋が出したシミュレーションに従ってそれと同じデータを観測したわけだろ
そういうのが単精度/半精度で出せるわけねーだろ
534デフォルトの名無しさん
2016/02/16(火) 01:05:12.74ID:zrbNTBh/ くだらないすれになってきたな。
CUDAだけに。
CUDAだけに。
535デフォルトの名無しさん
2016/02/16(火) 01:07:09.51ID:uizCIs9N 惑星探査機の打ち上げ時に1秒のズレが許されないのは、もし1秒のズレが
起こるとロケット側の打ち上げシーケンスはリアルタイムに変更出来ない以上、
生じたズレを探査機側でカバーする必要があり燃料を大量に消費するから
ロケット発射時の1秒分に相当するズレが軌道計算時の演算精度によって
生じると示されない限りは今回の話の流れで例として出す意味は無い
起こるとロケット側の打ち上げシーケンスはリアルタイムに変更出来ない以上、
生じたズレを探査機側でカバーする必要があり燃料を大量に消費するから
ロケット発射時の1秒分に相当するズレが軌道計算時の演算精度によって
生じると示されない限りは今回の話の流れで例として出す意味は無い
536デフォルトの名無しさん
2016/02/16(火) 01:22:51.47ID:Rkm/CQ33 >>533
話を逸らすな糞団子
GPUに倍精度が載らない理由としてお前が妄想で持ち上げた米政府陰謀論はどう始末すんだよ
いつの間にか惑星探査の話に誤魔化そうとしてドツボに嵌ってるし
どうやらお前には虚言癖があるようだな
それ精神疾患の初期症状だぞ
話を逸らすな糞団子
GPUに倍精度が載らない理由としてお前が妄想で持ち上げた米政府陰謀論はどう始末すんだよ
いつの間にか惑星探査の話に誤魔化そうとしてドツボに嵌ってるし
どうやらお前には虚言癖があるようだな
それ精神疾患の初期症状だぞ
537デフォルトの名無しさん
2016/02/16(火) 05:14:07.98ID:JyLDDdd2 こいついいかげんあたまわりーな
geforceにいらねぇってだけで
どこでgpuにいらねぇってかいてんだ
トットトキエロ無関係なamd信者
geforceにいらねぇってだけで
どこでgpuにいらねぇってかいてんだ
トットトキエロ無関係なamd信者
538デフォルトの名無しさん
2016/02/16(火) 08:27:02.86ID:TSHTNtoJ 491 名前:,,・´∀`・,,)っ-○○○ [sage] :2016/02/14(日) 22:08:24.09 ID:vcWFNaoW
防衛上の理由として
北朝鮮や中共がGeForceを買いあさって弾道計算に使われたら困るから
消費者向けGPUは倍精度を削るのは当然でしょう
防衛上の理由として
北朝鮮や中共がGeForceを買いあさって弾道計算に使われたら困るから
消費者向けGPUは倍精度を削るのは当然でしょう
539デフォルトの名無しさん
2016/02/16(火) 08:39:42.99ID:O+KKJC7C missile guidance
コピペしてあげる
http://www.rugged.com/sites/default/files/High%20Perfomance%20GPGPU%20for%20Embedded%20Systems.pdf
http://www.nrl.navy.mil/itd/imda/sites/www.nrl.navy.mil.itd.imda/files/pdfs/HiFiRealtimeASCMModelingGPU.pdf
Accelerating Binary Genetic Algorithm Driven Missile Design Optimization
Routine with a CUDA Coded Six Degrees-Of-Freedom Simulator
https://etd.auburn.edu/bitstream/handle/10415/4900/BentonDaniel_Thesis_Fall2015.pdf
コピペしてあげる
http://www.rugged.com/sites/default/files/High%20Perfomance%20GPGPU%20for%20Embedded%20Systems.pdf
http://www.nrl.navy.mil/itd/imda/sites/www.nrl.navy.mil.itd.imda/files/pdfs/HiFiRealtimeASCMModelingGPU.pdf
Accelerating Binary Genetic Algorithm Driven Missile Design Optimization
Routine with a CUDA Coded Six Degrees-Of-Freedom Simulator
https://etd.auburn.edu/bitstream/handle/10415/4900/BentonDaniel_Thesis_Fall2015.pdf
540デフォルトの名無しさん
2016/02/16(火) 08:44:44.70ID:5qdf7tTQ あたまわりーなっていう書き込みがあたまわるそうw
541デフォルトの名無しさん
2016/02/16(火) 12:24:44.18ID:r3FuaOqG >>537
てめえのケツは文体から丸見えなんだよ、糞団子!
てめえのケツは文体から丸見えなんだよ、糞団子!
542デフォルトの名無しさん
2016/02/16(火) 13:13:36.31ID:Rkm/CQ33543デフォルトの名無しさん
2016/02/16(火) 17:01:16.79ID:O+KKJC7C missile guidanceって書いてんですけど
本当にアホなんだ
本当にアホなんだ
544デフォルトの名無しさん
2016/02/16(火) 19:19:35.76ID:Rkm/CQ33 >>543
ミサイル誘導と弾道計算()をゴッチャにして無いか?
ミサイル誘導と弾道計算()をゴッチャにして無いか?
545デフォルトの名無しさん
2016/02/16(火) 19:31:16.10ID:ehtVDEti お前らってCUDAスレでミサイルの話したいの?
うざいよ
うざいよ
546デフォルトの名無しさん
2016/02/16(火) 19:32:32.16ID:Got2320i 団子が消えれば平和になる
547デフォルトの名無しさん
2016/02/16(火) 19:37:49.67ID:vQzfh9to そもそも米国初のスパコンは300flopsで
弾道計算目的で作られたわけですけどね
弾道計算目的で作られたわけですけどね
548デフォルトの名無しさん
2016/02/16(火) 19:46:46.20ID:Got2320i 団子うざい
549デフォルトの名無しさん
2016/02/16(火) 19:52:40.02ID:JyLDDdd2 倍精度バカが消えればいいだけ
550デフォルトの名無しさん
2016/02/16(火) 19:52:56.44ID:Rkm/CQ33551デフォルトの名無しさん
2016/02/16(火) 19:53:37.32ID:JyLDDdd2 相変わらず
病気ですかw
病気ですかw
552デフォルトの名無しさん
2016/02/16(火) 19:55:56.44ID:Rkm/CQ332016/02/16(火) 21:31:21.33ID:n4dpDB+H
ID:Rkm/CQ33
ひまだねこいつ
Teslaなんて買えるご身分じゃないことはわかったよ
ひまだねこいつ
Teslaなんて買えるご身分じゃないことはわかったよ
554デフォルトの名無しさん
2016/02/16(火) 21:46:16.04ID:JyLDDdd2 c++ampの死亡がよほど悔しかったと見える
555デフォルトの名無しさん
2016/02/16(火) 21:52:57.09ID:Rkm/CQ33 >>553
お前さぁ何で個人ユース前提で話進めてんの?貧乏F蘭学生か?
悪いけどプライベートでゴリゴリコード書かんから家ではオンボードチップのみだよ
んなこといいから早く弾道計算()のソース探して来いや
お前さぁ何で個人ユース前提で話進めてんの?貧乏F蘭学生か?
悪いけどプライベートでゴリゴリコード書かんから家ではオンボードチップのみだよ
んなこといいから早く弾道計算()のソース探して来いや
2016/02/16(火) 21:54:13.47ID:n4dpDB+H
AMDの株価がまたダダ下がりしてるよ
年内に潰れるんじゃないの?(煽
年内に潰れるんじゃないの?(煽
557デフォルトの名無しさん
2016/02/16(火) 22:55:41.72ID:Rkm/CQ33 >>556
お前、俺がAMD信者だと思いたいわけ?
残念だが単なるツールに思い入れは無い
そもそもプライベートではインテルHDだしな
ぶっちゃけ、AMDでもNVでも倍精度でも単精度でもどうでもよろしい
糞団子がおかしな事言ってるから突っ込んでるんだよ
さぁ話を逸らさず、早く弾道計算のソース探して来いやwww
お前、俺がAMD信者だと思いたいわけ?
残念だが単なるツールに思い入れは無い
そもそもプライベートではインテルHDだしな
ぶっちゃけ、AMDでもNVでも倍精度でも単精度でもどうでもよろしい
糞団子がおかしな事言ってるから突っ込んでるんだよ
さぁ話を逸らさず、早く弾道計算のソース探して来いやwww
558デフォルトの名無しさん
2016/02/16(火) 22:59:58.46ID:r3FuaOqG 結局Asyncとか煽ってたのは団子だよ
そして株価ガーとまたぞろ論破された悔しさから関係ないバカッターぶり
そして株価ガーとまたぞろ論破された悔しさから関係ないバカッターぶり
559デフォルトの名無しさん
2016/02/16(火) 23:03:30.71ID:JyLDDdd2 おまえだろw
560デフォルトの名無しさん
2016/02/16(火) 23:04:56.35ID:r3FuaOqG 糞団子は及びじゃねーんだよ
倍精度が嫌なら自作板帰れや
倍精度が嫌なら自作板帰れや
2016/02/16(火) 23:19:32.08ID:n4dpDB+H
Async(笑)はお呼びじゃねーから
2016/02/16(火) 23:22:10.95ID:n4dpDB+H
倍精度CUDAでAMDの倒産時期のシミュレーションをしようず
563デフォルトの名無しさん
2016/02/16(火) 23:55:31.06ID:TSHTNtoJ この糞団子って奴はNV信者なのか?
かなりキショいな
かなりキショいな
564デフォルトの名無しさん
2016/02/16(火) 23:58:08.83ID:Rkm/CQ33565デフォルトの名無しさん
2016/02/17(水) 03:31:12.34ID:0fWAF1mS amd信者はスレのレベルを下げるの上手だよな
どこでも
どこでも
566デフォルトの名無しさん
2016/02/17(水) 07:30:57.92ID:rf0k3qKD 団子うざい消えろ
567デフォルトの名無しさん
2016/02/17(水) 07:57:37.34ID:VmCK2l0E お前何なの?
団子団子団子って
この固ハン好きなの?
団子団子団子って
この固ハン好きなの?
568デフォルトの名無しさん
2016/02/17(水) 09:30:58.37ID:rYEbraru 団子を知らんなんてもぐりだな。
569デフォルトの名無しさん
2016/02/17(水) 12:25:17.76ID:OFL0xTOo
2016/02/17(水) 21:53:22.36ID:vQUlaZXp
だんごさんはアイドルだからな
571デフォルトの名無しさん
2016/02/17(水) 22:38:37.14ID:ftw2nvyT お、おう
572デフォルトの名無しさん
2016/02/18(木) 00:59:56.44ID:yA7sr9oe 507 :,,・´∀`・,,)っ-○○○:2016/02/15(月) 20:06:18.36 ID:ZpISfAaX
もちろんそれが一番の理由だなんて言う理由はない
どうせ倍精度なんて使えてもそれこそ豚に真珠を与えるがごとき日曜プログラマの道楽のために
NVIDIAは会社を傾ける気はないのは確かだろう
団子いいこと言うな、その通りだよ
お前ごときが倍精度の存在意義なんかわかりゃしないんだから
そのままここから消えろ
もちろんそれが一番の理由だなんて言う理由はない
どうせ倍精度なんて使えてもそれこそ豚に真珠を与えるがごとき日曜プログラマの道楽のために
NVIDIAは会社を傾ける気はないのは確かだろう
団子いいこと言うな、その通りだよ
お前ごときが倍精度の存在意義なんかわかりゃしないんだから
そのままここから消えろ
573デフォルトの名無しさん
2016/02/18(木) 01:34:33.83ID:BdjwVjbv 人間の脳細胞も半精度
574デフォルトの名無しさん
2016/02/18(木) 15:31:31.41ID:k3R63z0a アンチの方が邪魔で迷惑というのは、嫌儲や嫌韓と変わらんな。
575デフォルトの名無しさん
2016/02/18(木) 20:51:58.59ID:8FWPXGjX >>574
団子ははっきり言ってやらんと分からんアスペだから
団子ははっきり言ってやらんと分からんアスペだから
576デフォルトの名無しさん
2016/02/18(木) 22:55:07.89ID:yHWNW4Hi 確実に言えることは
こいつはCUDAより団子のほうが
興味があるようだってこと
CUDAスレなのにな
迷惑だから他でやって欲しい
こいつはCUDAより団子のほうが
興味があるようだってこと
CUDAスレなのにな
迷惑だから他でやって欲しい
577デフォルトの名無しさん
2016/02/18(木) 23:48:14.62ID:dPaFikXI578デフォルトの名無しさん
2016/02/19(金) 12:26:53.00ID:3s8ITFfM 団子はインテルNVマンセー馬鹿に過ぎない
Fermiの時代は倍精度の必要性を謳ってたのまた団子
現在倍精度不要論をぶってるのはこいつが工作員である証拠
くだスレにはまったく不要
Fermiの時代は倍精度の必要性を謳ってたのまた団子
現在倍精度不要論をぶってるのはこいつが工作員である証拠
くだスレにはまったく不要
579デフォルトの名無しさん
2016/02/19(金) 18:46:26.08ID:ktnruegg580デフォルトの名無しさん
2016/02/19(金) 19:43:08.21ID:3s8ITFfM581デフォルトの名無しさん
2016/02/20(土) 01:44:55.38ID:C1beyHUM 病人乙
2016/02/20(土) 02:13:53.70ID:yfJQw59R
俺がこのスレで名無しになったことなんて1度たりともない
2016/02/20(土) 02:18:16.51ID:yfJQw59R
一般消費者向けのGPUで倍精度の性能は必要ないとしか言ってないんだけどな俺は
なぜなら、一般消費者の用途で倍精度の性能が必要でないからだ
トートロジーを並べてるだけだけどこれは普遍の真理。
倍精度特化のTeslaが使いたい人は使えばいい
だからこそなおさらGeForceが倍精度に特化しなければいけない理由はない
いつ倍精度そのものを否定したんだ?
なぜなら、一般消費者の用途で倍精度の性能が必要でないからだ
トートロジーを並べてるだけだけどこれは普遍の真理。
倍精度特化のTeslaが使いたい人は使えばいい
だからこそなおさらGeForceが倍精度に特化しなければいけない理由はない
いつ倍精度そのものを否定したんだ?
2016/02/20(土) 02:22:37.26ID:yfJQw59R
ドァンゴが、午前2:22くらいをお知らせします
585デフォルトの名無しさん
2016/02/20(土) 06:16:50.67ID:2KEvBzOT Teslaがいつ倍精度に特化したって?
586デフォルトの名無しさん
2016/02/20(土) 08:36:03.80ID:deWWtRHc587デフォルトの名無しさん
2016/02/20(土) 08:42:57.95ID:wJmoGGP6 お前のGPGPUプロジェクトが
どのように許容誤差見積を出して
倍精度を必要とそっちを語った方が
反論になるだろう
出せ
どのように許容誤差見積を出して
倍精度を必要とそっちを語った方が
反論になるだろう
出せ
2016/02/20(土) 09:07:06.30ID:mQDXSMnA
>>585
Teslaにも倍精度に特化してないモデルもある
倍精度が強いのはあくまで「スパコン用のTesla」だ
それの流用版のGeForceやQuadroも副次的に倍精度が強かったこともあったが
GeForceに倍精度の需要があったからではない
GeForceで倍精度が速くないと困るとか言ってる手合いはろくに研究予算もつかない
ゴミ研究者かなんかだと思ってるが
(そんなものに拘ってるからろくな論文が書けないんだろ)
Teslaにも倍精度に特化してないモデルもある
倍精度が強いのはあくまで「スパコン用のTesla」だ
それの流用版のGeForceやQuadroも副次的に倍精度が強かったこともあったが
GeForceに倍精度の需要があったからではない
GeForceで倍精度が速くないと困るとか言ってる手合いはろくに研究予算もつかない
ゴミ研究者かなんかだと思ってるが
(そんなものに拘ってるからろくな論文が書けないんだろ)
589デフォルトの名無しさん
2016/02/20(土) 09:53:53.93ID:gxBCXYT2 >>588
>GeForceで倍精度が速くないと困るとか言ってる手合いはろくに研究予算もつかない
>ゴミ研究者かなんかだと思ってるが
おいおい、GeForceは一般消費者向けが前提じゃなかったのか?
糞団子は論点ズレまくりでまともに議論が噛み合ってない
>GeForceで倍精度が速くないと困るとか言ってる手合いはろくに研究予算もつかない
>ゴミ研究者かなんかだと思ってるが
おいおい、GeForceは一般消費者向けが前提じゃなかったのか?
糞団子は論点ズレまくりでまともに議論が噛み合ってない
2016/02/20(土) 10:17:55.46ID:mQDXSMnA
だから学校から支給される予算じゃTeslaが買えないからGeForce使うしかないんでしょ
2016/02/20(土) 10:18:51.16ID:mQDXSMnA
あるいは赤ポスにつけなかったおちこぼれか
いずれにしても「一般」消費者でありはしない
いずれにしても「一般」消費者でありはしない
2016/02/20(土) 11:09:20.85ID:mQDXSMnA
所詮は自分が欲しいかどうかだけが基準点でもっと大きな市場のニーズを
理解できないアフォでしょう
大学院重点化の弊害ですね
就活失敗したようなレベルのゴミを研究室に引きこもらせたら
ますます世間知らずをこじらせるのも道理
理解できないアフォでしょう
大学院重点化の弊害ですね
就活失敗したようなレベルのゴミを研究室に引きこもらせたら
ますます世間知らずをこじらせるのも道理
2016/02/20(土) 11:18:36.93ID:mQDXSMnA
論文博士という日本独自の制度もたいがいだがな
3年間も通って単位取得だけしかできず学校を放逐されたゴミにも
なまじ希望を与えるからタチが悪いというか
3年間も通って単位取得だけしかできず学校を放逐されたゴミにも
なまじ希望を与えるからタチが悪いというか
594デフォルトの名無しさん
2016/02/20(土) 12:50:45.19ID:kmGvjPZb ,,・´∀`・,,)っ-○○○NGですっきり
595デフォルトの名無しさん
2016/02/20(土) 13:08:52.37ID:kmGvjPZb >>589
糞団子は論点をずらすと言うより、負け犬になるといつも違う話をする&名無しでスレ汚しだから
NGだけでは駄目なんだよ
本当はDX12でNVがハブられた事実を認めたくないために架空のでっち上げ話をしてる
その証拠にMaxwell世代以前のNVはニタドリサン(笑い)の話をだして市販のNVGPUが大学研究機関
に納入された事を自慢してたからな
こいつは単なるアンチAMDのステマ部隊
454 :,,・´∀`・,,)っ-○○○:2016/02/13(土) 19:06:49.99 ID:dwcfM3wy
ゴードンベル賞で2度の受賞を経験したニタドリ=サンをして
天文学分野のシミュレーションは半精度程度の分解能があれば十分だって言ってるんだよ
453 :,,・´∀`・,,)っ-○○○:2016/02/13(土) 18:48:25.54 ID:dwcfM3wy
倍精度必要論が否定されるから都合が悪いだけだろう?
重力演算のために長崎大がGeForce買いあさって作った激安スパコンだって
単精度特化仕様だったよ?
これもニタドリ=サンが協力している。古事記にも書いてある。
糞団子は論点をずらすと言うより、負け犬になるといつも違う話をする&名無しでスレ汚しだから
NGだけでは駄目なんだよ
本当はDX12でNVがハブられた事実を認めたくないために架空のでっち上げ話をしてる
その証拠にMaxwell世代以前のNVはニタドリサン(笑い)の話をだして市販のNVGPUが大学研究機関
に納入された事を自慢してたからな
こいつは単なるアンチAMDのステマ部隊
454 :,,・´∀`・,,)っ-○○○:2016/02/13(土) 19:06:49.99 ID:dwcfM3wy
ゴードンベル賞で2度の受賞を経験したニタドリ=サンをして
天文学分野のシミュレーションは半精度程度の分解能があれば十分だって言ってるんだよ
453 :,,・´∀`・,,)っ-○○○:2016/02/13(土) 18:48:25.54 ID:dwcfM3wy
倍精度必要論が否定されるから都合が悪いだけだろう?
重力演算のために長崎大がGeForce買いあさって作った激安スパコンだって
単精度特化仕様だったよ?
これもニタドリ=サンが協力している。古事記にも書いてある。
596デフォルトの名無しさん
2016/02/20(土) 13:46:11.25ID:AOSmisIg597デフォルトの名無しさん
2016/02/20(土) 13:53:58.49ID:T6EctyCF 特化じゃね。
1/4がイーブン
1/4がイーブン
598デフォルトの名無しさん
2016/02/20(土) 15:21:16.14ID:XuC13l9f 団子さんにコンプレックス持ってる病人がいるなw
2016/02/20(土) 15:32:40.26ID:mQDXSMnA
ただのAMDファンボーイだから
そもそもAMDはCUDAが使えないしCPUもAVXが半速のゴミしか出せないので
科学技術方面では全く役に立ちませんよ
そもそもAMDはCUDAが使えないしCPUもAVXが半速のゴミしか出せないので
科学技術方面では全く役に立ちませんよ
2016/02/20(土) 15:35:44.85ID:mQDXSMnA
価格の安いコモディティ製品本来の用途外に流用するのがGPGPUの始まり
用途外を前提に設計しろなんてのは片腹痛い話ですよ
用途外を前提に設計しろなんてのは片腹痛い話ですよ
2016/02/20(土) 15:50:28.63ID:mQDXSMnA
ちなみに仮数の単精度は24ビット、倍精度は53ビット
積和ユニットのの複雑度は仮数のビット数の二乗にほぼ比例するので
実際には倍精度積和ユニットの実装コストは単精度の5倍よりも多い
積和ユニットのの複雑度は仮数のビット数の二乗にほぼ比例するので
実際には倍精度積和ユニットの実装コストは単精度の5倍よりも多い
602デフォルトの名無しさん
2016/02/20(土) 15:52:58.65ID:AOSmisIg2016/02/20(土) 16:03:04.79ID:mQDXSMnA
先に否定してるのにアホか
604デフォルトの名無しさん
2016/02/20(土) 16:14:51.99ID:T6EctyCF >>602
要は技術を知らないバカが無謀な要求をしていると自白しているわけだな。
そもそもCPUは倍精度特化で、単精度は搭載している回路の半分だけ利用しておまけでつけているくらいの勢い。
正確には倍精度以上から降りてきたという方が正しいような気もするが。
要は技術を知らないバカが無謀な要求をしていると自白しているわけだな。
そもそもCPUは倍精度特化で、単精度は搭載している回路の半分だけ利用しておまけでつけているくらいの勢い。
正確には倍精度以上から降りてきたという方が正しいような気もするが。
605デフォルトの名無しさん
2016/02/20(土) 16:19:59.15ID:XuC13l9f うん、じゃCPU使ってなよ病気の人
CUDA関係ないからもう来ないでね
CUDA関係ないからもう来ないでね
2016/02/20(土) 16:47:44.25ID:mQDXSMnA
逆に言うと倍精度をサポートしなければ同じトランジスタの実装コストで
5倍以上の単精度ユニットを実装できるということ
それがCPUとは別方向で進化してきたGPUの速さの根源
それを否定するのはGPUを否定するようなもの
5倍以上の単精度ユニットを実装できるということ
それがCPUとは別方向で進化してきたGPUの速さの根源
それを否定するのはGPUを否定するようなもの
607デフォルトの名無しさん
2016/02/20(土) 16:51:35.52ID:T6EctyCF >>606
んな事はねぇよ。
回路を流用すれば1/4や1/16での
倍精度演算は殆ど追加コスト無く出来る。それを削ったからといって増やせる単精度性能は20%も無い。
まあ、これが大きいから1/4でなく1/16を選択するのが通常なのだけど。
んな事はねぇよ。
回路を流用すれば1/4や1/16での
倍精度演算は殆ど追加コスト無く出来る。それを削ったからといって増やせる単精度性能は20%も無い。
まあ、これが大きいから1/4でなく1/16を選択するのが通常なのだけど。
608デフォルトの名無しさん
2016/02/20(土) 16:53:25.90ID:XuC13l9f もうくんなつったろ
病人
病人
2016/02/20(土) 16:59:15.42ID:mQDXSMnA
610デフォルトの名無しさん
2016/02/20(土) 17:45:22.65ID:deWWtRHc うわさではsmxに1個だけdpがあるとかないとか
2016/02/20(土) 17:59:22.63ID:mQDXSMnA
あったとしてもどういう役回りかわからんでしょ
ぶっちゃけると単精度で分割処理するとはいっても実際には
倍精度フォーマットをデノーマライズして複数の単精度データに変換するハードウェアと
演算結果を組み立てて倍精度フォーマットに書き戻すハードウェアも必要だからね
そのビットフィールドの変換をソフトで処理したら1/16すら出ない
ぶっちゃけると単精度で分割処理するとはいっても実際には
倍精度フォーマットをデノーマライズして複数の単精度データに変換するハードウェアと
演算結果を組み立てて倍精度フォーマットに書き戻すハードウェアも必要だからね
そのビットフィールドの変換をソフトで処理したら1/16すら出ない
612デフォルトの名無しさん
2016/02/20(土) 18:20:08.42ID:T6EctyCF 本来遅いハードでもdpどころか64bit整数の乗算も1/9で済むはずなのにそこはサボって24bit乗算器を16bitとしてしか利用していないんだよな。
613デフォルトの名無しさん
2016/02/20(土) 19:23:23.87ID:C1beyHUM 挙動の違いがあるとまずいから
同じユニット使ってるとか言う
同じユニット使ってるとか言う
614デフォルトの名無しさん
2016/02/20(土) 20:26:03.16ID:kmGvjPZb >>607
AMDのGCNアーキテクチャーのGPUは複数のコアを使うと倍精度の演算が出来るように設計してある
それがPS4/XBOに搭載されたものだから、ゲームは非常にGPGPUに強いんだよな
DX12とVulkanはGCNで最大性能を発揮できるように設計されたローレベルAPI
これが怖いからMaxwellは半精度FP16GPUになった
描画に特化してGPGPUが弱い
AMDのGCNアーキテクチャーのGPUは複数のコアを使うと倍精度の演算が出来るように設計してある
それがPS4/XBOに搭載されたものだから、ゲームは非常にGPGPUに強いんだよな
DX12とVulkanはGCNで最大性能を発揮できるように設計されたローレベルAPI
これが怖いからMaxwellは半精度FP16GPUになった
描画に特化してGPGPUが弱い
2016/02/20(土) 20:39:18.95ID:mQDXSMnA
誰も使わないゴミの話に興味ないよ
616デフォルトの名無しさん
2016/02/21(日) 00:09:39.56ID:Qg7TSliE >>614
ここはCUDA(言語)スレでGPGPUスレではない
AMDのGCNの宣伝したいなら、いまAMDはCUDAもある程度サポートしているらしいから、
AMDでCUDAしたときのベンチぐらい載せて宣伝してくれないか?
GPGPUのすばらしいぞ宣伝ならここでなくGPGPUスレでやれ
ここはCUDA(言語)スレでGPGPUスレではない
AMDのGCNの宣伝したいなら、いまAMDはCUDAもある程度サポートしているらしいから、
AMDでCUDAしたときのベンチぐらい載せて宣伝してくれないか?
GPGPUのすばらしいぞ宣伝ならここでなくGPGPUスレでやれ
2016/02/21(日) 00:46:36.86ID:qKVvfwew
HSA総合スレを盛り上げてやれよ
プログラムのプの字も書けないゴミには無理か?
プログラムのプの字も書けないゴミには無理か?
618デフォルトの名無しさん
2016/02/21(日) 01:26:54.56ID:fTBqyn4A >>617
ここはディープラーニングスレじゃねーぞ糞団子
ここはディープラーニングスレじゃねーぞ糞団子
619デフォルトの名無しさん
2016/02/21(日) 01:51:21.48ID:uPvCsAh0 AMDは早くCUDAに対応しろ。
620デフォルトの名無しさん
2016/02/21(日) 02:47:38.75ID:0MRjXIaU >>601
乗算の回路規模なんてぜんぜん大したこと無いって言ってなかった?
乗算の回路規模なんてぜんぜん大したこと無いって言ってなかった?
2016/02/21(日) 02:54:22.04ID:gnD1Eicx
>>620
俺は言った覚えはないがな
俺は言った覚えはないがな
2016/02/21(日) 02:55:38.55ID:gnD1Eicx
2016/02/21(日) 02:57:56.81ID:gnD1Eicx
そもそもAMDのあれはCUDAを実行できるという理解は正しくない
CUDAのCソースをOpenCLに変換するトランスレータを作りましたという話で
PTXを実行できる環境を作るという話ではない
CUDAのCソースをOpenCLに変換するトランスレータを作りましたという話で
PTXを実行できる環境を作るという話ではない
624デフォルトの名無しさん
2016/02/21(日) 11:51:35.77ID:YDVcjdw/2016/02/21(日) 11:57:22.58ID:gnD1Eicx
倍精度連呼君は倍精度を使って何をやるのかすら提示してないよね
2016/02/21(日) 11:58:40.76ID:gnD1Eicx
627デフォルトの名無しさん
2016/02/21(日) 12:15:14.37ID:MzI2quQP628デフォルトの名無しさん
2016/02/21(日) 12:19:33.63ID:MzI2quQP >>625
いろいろと書かれてるのに、すべてお前が一般人は使わないと決めつけてスルーしてるだけ
プログラム板のCUDAスレッドなんだから一般人とは母集団が違うのは当たり前なんだが
お前が不要で、一般人の9割が不要でもこのスレ的には関係ない
いろいろと書かれてるのに、すべてお前が一般人は使わないと決めつけてスルーしてるだけ
プログラム板のCUDAスレッドなんだから一般人とは母集団が違うのは当たり前なんだが
お前が不要で、一般人の9割が不要でもこのスレ的には関係ない
629デフォルトの名無しさん
2016/02/21(日) 12:21:46.08ID:hql2OPnW >>625
レイトレなんかどうだい?
レイトレなんかどうだい?
2016/02/21(日) 12:33:02.90ID:gnD1Eicx
AMDのGPUは母集団そのものに入ってない
その点は理解してくれ
その点は理解してくれ
2016/02/21(日) 12:37:43.18ID:gnD1Eicx
632デフォルトの名無しさん
2016/02/21(日) 12:47:19.67ID:bDXYj0yt だれも倍精度不要なんて書いてないのにな。
倍精度特化がコンシューマ向けには必要無いと言うだけで。
倍精度特化がコンシューマ向けには必要無いと言うだけで。
2016/02/21(日) 12:56:20.84ID:gnD1Eicx
倍精度は必要な人は必要だけどAMDがこのスレに不要
634デフォルトの名無しさん
2016/02/21(日) 12:58:04.21ID:YDVcjdw/ >>632
てめえはすぐに論破されると単発で煽りやがる
こういう奴だからこそこっちは不必要にNGだけでなく相手をしないといけないんだよ馬鹿野郎!
コテならコテだけで通せ!糞団子!
それから、NVがこれからGPGPUを捨てる根拠となるソースだ
実際にここで科学技術演算をされてらっしゃる皆さんもご覧になった方がいい↓
http://camera-pc.com/?p=578
結局これもCS機をAMDが独占したためなんだよな
てめえはすぐに論破されると単発で煽りやがる
こういう奴だからこそこっちは不必要にNGだけでなく相手をしないといけないんだよ馬鹿野郎!
コテならコテだけで通せ!糞団子!
それから、NVがこれからGPGPUを捨てる根拠となるソースだ
実際にここで科学技術演算をされてらっしゃる皆さんもご覧になった方がいい↓
http://camera-pc.com/?p=578
結局これもCS機をAMDが独占したためなんだよな
2016/02/21(日) 13:15:26.28ID:gnD1Eicx
ばか?
2016/02/21(日) 13:28:33.48ID:gnD1Eicx
科学技術計算でAMDのGPUが上げた実績なんてないし
NVIDIAがHPCを重視する姿勢にも変わりはない
そもそもMaxwell世代に大型のスパコン案件が無かったから倍精度特化版を作ってないだけで
NVIDIAがHPCを重視する姿勢にも変わりはない
そもそもMaxwell世代に大型のスパコン案件が無かったから倍精度特化版を作ってないだけで
2016/02/21(日) 14:11:49.09ID:gnD1Eicx
ちなみにその個人ブログの主は科学技術計算に対してあまりに無知でお話にならない
ただカタログスペックのFLOPS数値を上げてヨシとするものではないのだわ
大規模システムはノード間のデータ転送帯域がものすごい重要で
NVLinkもその一環
AMDはカタログスペックありきで中身が無いし
実際2017〜18年の米国大型スパコン案件を何一つとして獲得できてない
ただカタログスペックのFLOPS数値を上げてヨシとするものではないのだわ
大規模システムはノード間のデータ転送帯域がものすごい重要で
NVLinkもその一環
AMDはカタログスペックありきで中身が無いし
実際2017〜18年の米国大型スパコン案件を何一つとして獲得できてない
638デフォルトの名無しさん
2016/02/21(日) 14:17:28.22ID:YDVcjdw/ http://ascii.jp/elem/000/001/046/1046956/index-3.html
>Keplerの世代では倍精度浮動小数点のサポートの有無がこれにあたったが、
>Pascalはこの点ではMaxwellを継承しており、
>倍精度浮動小数点の性能は非常に低いと思われるので、ここでの差別化は難しい。
Pascalはここのスレ住人にとっては大変残念な事になるだろうな
その理由は先述したとおり、AMD準拠のDirectX12が策定された事でゲーム用GPUでNVは必死になって
電力効率の優位で喰らいつこうとしているためで描画特化でDX12世代に必須になるGPGPUを弱体化させた
トレードオフがある
倍精度とNVの関係は残念ながら離婚前の別居状態のようなさめた状態
>Keplerの世代では倍精度浮動小数点のサポートの有無がこれにあたったが、
>Pascalはこの点ではMaxwellを継承しており、
>倍精度浮動小数点の性能は非常に低いと思われるので、ここでの差別化は難しい。
Pascalはここのスレ住人にとっては大変残念な事になるだろうな
その理由は先述したとおり、AMD準拠のDirectX12が策定された事でゲーム用GPUでNVは必死になって
電力効率の優位で喰らいつこうとしているためで描画特化でDX12世代に必須になるGPGPUを弱体化させた
トレードオフがある
倍精度とNVの関係は残念ながら離婚前の別居状態のようなさめた状態
2016/02/21(日) 14:23:54.76ID:gnD1Eicx
相変わらず知恵おくれだねえ
その記事を読んでもPascalの倍精度特化版が存在しないということは読み取れないがね
大型案件がつけばMaxwellの倍精度特化版も出す用意はあったくらいだし
少なくともPascalには客がついている
その記事を読んでもPascalの倍精度特化版が存在しないということは読み取れないがね
大型案件がつけばMaxwellの倍精度特化版も出す用意はあったくらいだし
少なくともPascalには客がついている
2016/02/21(日) 14:35:55.03ID:gnD1Eicx
倍精度の性能はスパコンでは今後も重要だけど
足回りの性能に見合わないほどのカタログスペックが必要かと問われれば
「必要ない」のが現実なわけで。
足回りの強化もなしにただ倍精度ユニットだけ並べておけばFLOPS数が稼げる
LINPACKベンチの実用性に疑問符が付くご時世ですからね
http://news.mynavi.jp/articles/2014/12/25/nvidia_coral/
足回りの性能に見合わないほどのカタログスペックが必要かと問われれば
「必要ない」のが現実なわけで。
足回りの強化もなしにただ倍精度ユニットだけ並べておけばFLOPS数が稼げる
LINPACKベンチの実用性に疑問符が付くご時世ですからね
http://news.mynavi.jp/articles/2014/12/25/nvidia_coral/
2016/02/21(日) 14:50:22.35ID:gnD1Eicx
AMDが無様な全敗を喫した2017-18年の案件はDOEではPre-Exa世代という位置づけで
Exaにむけたスケーラビリティのための足回りの
IntelのOmni-Pathしかり、選定されたメーカーの製品には選定されるだけの裏付けがある
AMDにはインターコネクトに対して2018年にただちに用意できる対案が何もない。
そのスパコンの選考がとっくに終わってからこれから倍精度強化だとか
何も理解してないというか既に周回遅れ。
Exaにむけたスケーラビリティのための足回りの
IntelのOmni-Pathしかり、選定されたメーカーの製品には選定されるだけの裏付けがある
AMDにはインターコネクトに対して2018年にただちに用意できる対案が何もない。
そのスパコンの選考がとっくに終わってからこれから倍精度強化だとか
何も理解してないというか既に周回遅れ。
642デフォルトの名無しさん
2016/02/21(日) 15:18:31.73ID:igZD1LUA 病気の人は倍精度特化のcpu使うって宣言してんだから
関係のないcudaスレにあらしにくんなよ
関係のないcudaスレにあらしにくんなよ
2016/02/21(日) 15:30:43.09ID:gnD1Eicx
Polarisは結局スパコンのデザインウィンを未だ1件たりとも取れてないんだよな
全てが無駄だったね
全てが無駄だったね
644デフォルトの名無しさん
2016/02/21(日) 15:31:01.75ID:VEySITtF 野球ファンがどっちの贔屓チームの方が凄いか喧嘩してるようなアホらしさw
2016/02/21(日) 15:40:19.39ID:gnD1Eicx
たとえるなら阪神ファンがオフシーズンに東京ドームに居座って六甲颪を大合唱するレベルの
あつかましさ
あつかましさ
646デフォルトの名無しさん
2016/02/21(日) 15:59:16.02ID:ksxAl9BA647デフォルトの名無しさん
2016/02/21(日) 19:49:31.23ID:YDVcjdw/ >>646
お前も糞の自覚はあるんだな、糞団子
お前も糞の自覚はあるんだな、糞団子
2016/02/21(日) 20:00:48.09ID:gnD1Eicx
うんこくってる時にカレーの話はやめてください
649デフォルトの名無しさん
2016/02/21(日) 20:37:09.44ID:zsQMik7a 小学生かよ…
650デフォルトの名無しさん
2016/02/21(日) 21:06:17.70ID:igZD1LUA 米国のエクサスケールではcuda使わないんだけどね
651デフォルトの名無しさん
2016/02/21(日) 22:12:15.14ID:gJEqj33V http://www.livevolume.com/?page_id=14&lang=en
このソフト動かしたいんだけど、nvidiaのカードが必要なんですか?
すいません、プログラムのプの字も知らない初心者です
pentium N3700でGPUがintel graphicなんですけど
やっぱりこの環境で動かすことはできないのでしょうか…
現状では「GLSL compile error」と出て描画ができません
もしスレ違いな質問だったら本当にごめんなさい
このソフト動かしたいんだけど、nvidiaのカードが必要なんですか?
すいません、プログラムのプの字も知らない初心者です
pentium N3700でGPUがintel graphicなんですけど
やっぱりこの環境で動かすことはできないのでしょうか…
現状では「GLSL compile error」と出て描画ができません
もしスレ違いな質問だったら本当にごめんなさい
652デフォルトの名無しさん
2016/02/21(日) 23:09:10.02ID:Qg7TSliE2016/02/22(月) 02:03:02.55ID:XUbrDPNF
果たしてそのマシンにGPUなんてつけられるだろうか?
ノートならG-Tuneあたりのゲーミングノート買うのが一番手ごろじゃなかろうか
(メーカー製ノートでもGeForce搭載機はあんまり見かけない)
ノートならG-Tuneあたりのゲーミングノート買うのが一番手ごろじゃなかろうか
(メーカー製ノートでもGeForce搭載機はあんまり見かけない)
2016/02/23(火) 17:44:18.03ID:U0HFk1NZ
スパコン案件の有無が倍精度版の有無を決めるというのは間違いないようで
NVIDIA Pascal based GP100 GPU to boast of 12TFLOPS SP & 4 TFLOPS DP performance
http://vr-zone.com/articles/nvidia-pascal-based-gp100-gpu-boast-12tflops-sp-4-tflops-dp-performance/106203.html
とりあえずTesla購入予定の方は何も心配いらないということです
悔しがるのはTeslaが買えない貧乏研究者とAMD厨だけでいいですよ
NVIDIA Pascal based GP100 GPU to boast of 12TFLOPS SP & 4 TFLOPS DP performance
http://vr-zone.com/articles/nvidia-pascal-based-gp100-gpu-boast-12tflops-sp-4-tflops-dp-performance/106203.html
とりあえずTesla購入予定の方は何も心配いらないということです
悔しがるのはTeslaが買えない貧乏研究者とAMD厨だけでいいですよ
655デフォルトの名無しさん
2016/02/23(火) 18:53:40.49ID:NTXFP2zz 研究者しか倍精度を使わないと思ってるところが団子クオリティー
2016/02/23(火) 19:57:44.93ID:U0HFk1NZ
↑ね、 この負け犬クオリティ
2016/02/23(火) 19:59:57.59ID:U0HFk1NZ
GeForceは個人用のGPUであって倍精度で科学技術演算のためのものじゃないんですよ
倍精度の性能に正規の対価を払おうとしない悪質ユーザーの梯子を外されたからって
何が問題なんですかねえ
倍精度の性能に正規の対価を払おうとしない悪質ユーザーの梯子を外されたからって
何が問題なんですかねえ
2016/02/23(火) 20:14:34.27ID:U0HFk1NZ
倍精度ユニットの実装コストはロハではないので
メインで使う単精度の演算性能向上や電力効率の改善に振ったほうが
大多数のユーザーのためなんですよ
実質TeslaをGeForceの価格で売れと言ってるような倍精度乞食の言葉に
耳を傾ける必要はないのデス
メインで使う単精度の演算性能向上や電力効率の改善に振ったほうが
大多数のユーザーのためなんですよ
実質TeslaをGeForceの価格で売れと言ってるような倍精度乞食の言葉に
耳を傾ける必要はないのデス
659デフォルトの名無しさん
2016/02/23(火) 21:11:07.44ID:NTXFP2zz 単精度布教はいいからCUDAについて書けよ
660デフォルトの名無しさん
2016/02/23(火) 22:13:43.75ID:/ZAu7LIh NGにしてるから何かいてあるか知らないけど、どうせ相手にする価値がないことは>>659
から読み取れるw
このスレは研究者もヲチしてるだろうから言っておくけど、もうNVは倍精度は捨てるね
Felmi時代とは大違い
DirectX12(ウィンドウズ10)になるとAMDだけがローレベルAPIの恩恵に与れることを知ってるから、
Maxwell世代で素早くGPGPU切りの変わり身を演じた
今後は半精度と単精度の混合GPUばかりでCUDAはどんどん腐ってくるw
から読み取れるw
このスレは研究者もヲチしてるだろうから言っておくけど、もうNVは倍精度は捨てるね
Felmi時代とは大違い
DirectX12(ウィンドウズ10)になるとAMDだけがローレベルAPIの恩恵に与れることを知ってるから、
Maxwell世代で素早くGPGPU切りの変わり身を演じた
今後は半精度と単精度の混合GPUばかりでCUDAはどんどん腐ってくるw
661デフォルトの名無しさん
2016/02/23(火) 22:47:19.86ID:oMRN0TkA 恥ずかしいやつだなこいつ
662デフォルトの名無しさん
2016/02/23(火) 23:01:37.48ID:/ZAu7LIh663デフォルトの名無しさん
2016/02/23(火) 23:20:55.12ID:zq7ECeNv >>660
なんかAMDが勝ち組でNVが負け組の様に書いてあるけど、実際は真逆だよ
AMDはゲーム機でなんとか持ちこたえてる状況で、NVはDL特需で歴史的な好況
GPGPUはCUDAがデファクトになりつつあるからAMDはほぼ詰んでる
まぁ、先の事は判らないけどね。
なんかAMDが勝ち組でNVが負け組の様に書いてあるけど、実際は真逆だよ
AMDはゲーム機でなんとか持ちこたえてる状況で、NVはDL特需で歴史的な好況
GPGPUはCUDAがデファクトになりつつあるからAMDはほぼ詰んでる
まぁ、先の事は判らないけどね。
664デフォルトの名無しさん
2016/02/23(火) 23:23:55.28ID:oMRN0TkA >>662
お前みたいな負け犬アム厨が自作PC板から出てこなきゃ平和なんだけど
お前みたいな負け犬アム厨が自作PC板から出てこなきゃ平和なんだけど
665デフォルトの名無しさん
2016/02/24(水) 12:20:01.56ID:Ad4bERAY666デフォルトの名無しさん
2016/02/24(水) 12:31:29.64ID:dk01eTkb 倍精度の行方なら団子がソース付きで書いたけどね
結局NVIDIAがHPCから撤退なんてのは出鱈目な言いがかりと
結局NVIDIAがHPCから撤退なんてのは出鱈目な言いがかりと
667デフォルトの名無しさん
2016/02/24(水) 12:47:40.23ID:dk01eTkb ほれ
NVIDIA Pascal based GP100 GPU to boast of 12TFLOPS SP & 4 TFLOPS DP performance
http://vr-zone.com/articles/nvidia-pascal-based-gp100-gpu-boast-12tflops-sp-4-tflops-dp-performance/106203.html
そらあんだけのシェアとエンプラ向けの大躍進あればコンシューマ向けとHPC向けで
それぞれに合わせた演算ユニット構成のカスタマイズ費用くらい捻出できるだろう
そしてここはAMDについて語るスレでもNVIDIAをネガキャンするスレでもない
誰が場所をわきまえていないのか自覚したら?
NVIDIA Pascal based GP100 GPU to boast of 12TFLOPS SP & 4 TFLOPS DP performance
http://vr-zone.com/articles/nvidia-pascal-based-gp100-gpu-boast-12tflops-sp-4-tflops-dp-performance/106203.html
そらあんだけのシェアとエンプラ向けの大躍進あればコンシューマ向けとHPC向けで
それぞれに合わせた演算ユニット構成のカスタマイズ費用くらい捻出できるだろう
そしてここはAMDについて語るスレでもNVIDIAをネガキャンするスレでもない
誰が場所をわきまえていないのか自覚したら?
668デフォルトの名無しさん
2016/02/24(水) 12:47:59.45ID:jB1Q2gHg669デフォルトの名無しさん
2016/02/24(水) 12:58:31.02ID:jXa1RnbL 浮動小数点数の精度なんて
コード組む側からすればどれも一緒だよ
倍精度だと収束するが
単精度だと発散するとか
それ単にコードの質が悪いだけだしね
何がそんなに気になるのかわからん
コード組む側からすればどれも一緒だよ
倍精度だと収束するが
単精度だと発散するとか
それ単にコードの質が悪いだけだしね
何がそんなに気になるのかわからん
670デフォルトの名無しさん
2016/02/24(水) 13:10:46.14ID:kxdU4ZHF >>669
えっ???
えっ???
671デフォルトの名無しさん
2016/02/24(水) 13:17:56.21ID:dk01eTkb FireProがHPC向けでまったといっていいほど使われないのは
分岐粒度が荒過ぎて実効でスペックの半分も出ないとか
特定用途向けの商用ライブラリが用意されてないのか
それ以前の問題としてランタイムが頻繁にクラッシュするとか
結局のところトータルの問題なんだよね
単精度特化の一般のGPUで多倍精度使う場合は遅い倍精度を使うより
単精度DFTのほうがはるかに速い
分岐粒度が荒過ぎて実効でスペックの半分も出ないとか
特定用途向けの商用ライブラリが用意されてないのか
それ以前の問題としてランタイムが頻繁にクラッシュするとか
結局のところトータルの問題なんだよね
単精度特化の一般のGPUで多倍精度使う場合は遅い倍精度を使うより
単精度DFTのほうがはるかに速い
672デフォルトの名無しさん
2016/02/24(水) 14:12:53.97ID:s8sb75Sy 中小企業や個人開発のプログラムにもCUDA開発の無償支援してくれる
そういう実績があるからCUDAが鉄板になってるわけで
そういうことをやったためしもなければ大赤字でやれる予算も割けないAMDに
期待できることは何一つとしてない、これが現実
うちの商品はほぼ整数しか使わないだから倍精度実数が速いかどうかなんて
微塵も関係ない
そういう実績があるからCUDAが鉄板になってるわけで
そういうことをやったためしもなければ大赤字でやれる予算も割けないAMDに
期待できることは何一つとしてない、これが現実
うちの商品はほぼ整数しか使わないだから倍精度実数が速いかどうかなんて
微塵も関係ない
673デフォルトの名無しさん
2016/02/24(水) 14:34:29.38ID:Ad4bERAY 糞団子はコテ使ってると相手してくれないから寂しくて単発コテはずし作戦に出たのか?
NVはどう考えても半精度中心のグラフィックス/深層学習中心に経営資源をシフトしてるんだがw
http://ascii.jp/elem/000/001/046/1046956/index-3.html
>Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので
>Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので
↑
大事な事だから二度言うぞ
>つまりPK100は半精度浮動小数点をサポートするが、PK104はこれをサポートしない(あるいは回路を持たない)可能性がある。
↑
プロセスルール次第だが半精度に重心を置いていることは明白だな
NVはどう考えても半精度中心のグラフィックス/深層学習中心に経営資源をシフトしてるんだがw
http://ascii.jp/elem/000/001/046/1046956/index-3.html
>Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので
>Pascalはこの点ではMaxwellを継承しており、倍精度浮動小数点の性能は非常に低いと思われるので
↑
大事な事だから二度言うぞ
>つまりPK100は半精度浮動小数点をサポートするが、PK104はこれをサポートしない(あるいは回路を持たない)可能性がある。
↑
プロセスルール次第だが半精度に重心を置いていることは明白だな
674デフォルトの名無しさん
2016/02/24(水) 14:41:47.70ID:Ad4bERAY half2floatをPascalでは強化していくから、結局AMD対NVの戦いは「half2float」の描画特化対
「Async」の戦いになっていくんだろうね
「Async」の戦いになっていくんだろうね
675デフォルトの名無しさん
2016/02/24(水) 14:51:49.40ID:NAMaIKUn 今後この馬鹿に一切かまうな
かまうから喜んで荒らし続ける
かまうから喜んで荒らし続ける
676デフォルトの名無しさん
2016/02/24(水) 15:33:36.04ID:jXa1RnbL どっかのニュースのコピペばかりで
うんざりするよ
自分の引き出しは空だと言っているようなものだ
うんざりするよ
自分の引き出しは空だと言っているようなものだ
677デフォルトの名無しさん
2016/02/24(水) 17:46:05.30ID:l0DrHc2T678デフォルトの名無しさん
2016/02/24(水) 17:50:58.28ID:jXa1RnbL 一般利用でCUDAが何に使えるのか
ネタ出せよ
ゲームで使えんの?
ネタ出せよ
ゲームで使えんの?
679デフォルトの名無しさん
2016/02/24(水) 17:55:56.67ID:Ad4bERAY >>677
お前はAMDに一番興味あるだろうが糞団子!
お前が去ればこのスレは一気にクリーンになるんだよボケ
お前が一番危機感抱いてるのは倍精度をなくす方向のNVに対して非難が集中する事だけだ
だからこそお前が一番イラネーんだよ屑
お前はAMDに一番興味あるだろうが糞団子!
お前が去ればこのスレは一気にクリーンになるんだよボケ
お前が一番危機感抱いてるのは倍精度をなくす方向のNVに対して非難が集中する事だけだ
だからこそお前が一番イラネーんだよ屑
680デフォルトの名無しさん
2016/02/24(水) 18:44:53.08ID:l0DrHc2T >>679
お前病院行けよw
お前病院行けよw
681デフォルトの名無しさん
2016/02/24(水) 18:55:34.70ID:Ad4bERAY >>680
糞団子よヒヨッたなw
糞団子よヒヨッたなw
682デフォルトの名無しさん
2016/02/24(水) 21:04:29.34ID:Nmttufaz683デフォルトの名無しさん
2016/02/24(水) 22:15:50.14ID:teBWCRhn 団子よりヤバイ真性のキチガイが団子以外も団子に見えているらしい。
684デフォルトの名無しさん
2016/02/24(水) 22:27:56.59ID:zahm20jW 団子消えろ
685デフォルトの名無しさん
2016/02/24(水) 22:37:00.33ID:l5BeTFuC686デフォルトの名無しさん
2016/02/24(水) 22:56:49.71ID:teBWCRhn >>671
分岐粒度が荒すぎってCPUとの比較なら未だしも、NVIDIAとの比較だったら普通そんなに差は出ないぞ。
差が出るのは64のうち前半もしくは後半の32がほぼ埋まっているのに、反対の32が完全に空みたいな状況が頻発する場合だけ。
まあCUDAからのベタ移植ならあり得ないこともないのだろうが。
分岐粒度が荒すぎってCPUとの比較なら未だしも、NVIDIAとの比較だったら普通そんなに差は出ないぞ。
差が出るのは64のうち前半もしくは後半の32がほぼ埋まっているのに、反対の32が完全に空みたいな状況が頻発する場合だけ。
まあCUDAからのベタ移植ならあり得ないこともないのだろうが。
687デフォルトの名無しさん
2016/02/25(木) 08:17:21.70ID:qdgy2oNb プログラムの話しようぜ
そうすれば団子その他プログラム書けない人が消えるだろうから
そうすれば団子その他プログラム書けない人が消えるだろうから
688デフォルトの名無しさん
2016/02/25(木) 08:22:03.55ID:qdgy2oNb689デフォルトの名無しさん
2016/02/25(木) 08:23:54.24ID:YDhqTq2/ 将来的に4にするっていこうだが
実行レベルでは
warpは32のままだろうけど
実行レベルでは
warpは32のままだろうけど
690デフォルトの名無しさん
2016/02/25(木) 13:05:41.93ID:FCdE8jm8691デフォルトの名無しさん
2016/02/25(木) 14:04:40.68ID:Sn2492Ux >>690
まずお前がコテつけてくれ
まずお前がコテつけてくれ
692デフォルトの名無しさん
2016/02/25(木) 14:47:28.30ID:Ey2CZbRS 不用意に3dfxとか使うと歳がばれるぞ
693デフォルトの名無しさん
2016/02/25(木) 17:48:12.65ID:8lu6Pire694デフォルトの名無しさん
2016/02/25(木) 18:22:40.32ID:Ey2CZbRS 好きなんだろ
恋だよ恋
恋だよ恋
695デフォルトの名無しさん
2016/02/25(木) 19:23:25.50ID:JdxelD2D 糞団子もイカスミも同レベル
696デフォルトの名無しさん
2016/02/25(木) 19:39:25.49ID:tc7lGvfi 団子が消えれば平和になる
697デフォルトの名無しさん
2016/02/25(木) 19:52:29.05ID:JdxelD2D 団子既に消えてるじゃん?
イカスミが煽るから戻って来るんだよ
イカスミが煽るから戻って来るんだよ
698デフォルトの名無しさん
2016/02/25(木) 20:58:58.26ID:qdgy2oNb 誰だよイカスミって
699デフォルトの名無しさん
2016/02/25(木) 23:01:45.88ID:OUVaT1r5 nvidia ってC++AMPって力いれてるの?
CUDAが主力なのはわかるんだが。
OpenMPのようにC++AMPがいいところまでいってからtoolkitにマージするつもりなのか
それともC++AMPが自然消滅するのを待っているのかわからん。
CUDAが主力なのはわかるんだが。
OpenMPのようにC++AMPがいいところまでいってからtoolkitにマージするつもりなのか
それともC++AMPが自然消滅するのを待っているのかわからん。
700デフォルトの名無しさん
2016/02/25(木) 23:56:26.32ID:y8R9vLq22016/02/25(木) 23:58:06.25ID:VFYZCeUD
C++ AMPは事実上終了したよ
MSはいまNVIDIA ThrustをベースにしたParrarel STLに注力中
MSはいまNVIDIA ThrustをベースにしたParrarel STLに注力中
2016/02/26(金) 00:00:42.44ID:au4AtN7W
Pallarel STLね
703デフォルトの名無しさん
2016/02/26(金) 00:04:42.12ID:sfGjrhZB >>693
NVはC++AMPとか言うより倍精度をボリュームゾーンから外しにかかってるな
Pascalには全く期待できんよ
IBMの場合は大口契約だから安く調達するだろうけど、それだけ
いずれGPGPU用(テスラ)は値段を上げざるを得ないだろうなあ
NVはC++AMPとか言うより倍精度をボリュームゾーンから外しにかかってるな
Pascalには全く期待できんよ
IBMの場合は大口契約だから安く調達するだろうけど、それだけ
いずれGPGPU用(テスラ)は値段を上げざるを得ないだろうなあ
704デフォルトの名無しさん
2016/02/26(金) 00:18:06.49ID:XrDeqd+8 それなら死んでないでしょう。
スラストがCUDA用のライブラリと同様に
C++AMPで使うためのものだろうから。
スラストがCUDA用のライブラリと同様に
C++AMPで使うためのものだろうから。
2016/02/26(金) 00:46:50.10ID:au4AtN7W
Pallarel STLのバックエンドはC++AMPに限らずOpenACCやOpenMP(4.0), TBBでもいい
NVIDIAが推してるのはOpenACC, IntelはOpenMP
NVIDIAが推してるのはOpenACC, IntelはOpenMP
706デフォルトの名無しさん
2016/02/26(金) 00:49:09.70ID:jDU7chRF707デフォルトの名無しさん
2016/02/26(金) 01:09:31.01ID:puLBdTvq >>702
ミス指摘してさらにひどくミスすんなって
ミス指摘してさらにひどくミスすんなって
2016/02/26(金) 01:13:08.03ID:au4AtN7W
parallelサーセンwwwww
709デフォルトの名無しさん
2016/02/26(金) 01:36:18.43ID:1N9hBdg9 >>703
最初の頃のテスラは円高もあり、20万位だったが、いまじゃ80万くらいになってもうた。まあA30とかは120万くらいしたんだけど。
最初の頃のテスラは円高もあり、20万位だったが、いまじゃ80万くらいになってもうた。まあA30とかは120万くらいしたんだけど。
710デフォルトの名無しさん
2016/02/26(金) 01:38:37.56ID:XrDeqd+8711デフォルトの名無しさん
2016/02/26(金) 01:42:47.55ID:XrDeqd+8712デフォルトの名無しさん
2016/02/26(金) 03:40:06.50ID:VdCPJ0Vc713デフォルトの名無しさん
2016/02/26(金) 05:22:49.16ID:YzxqLjh+ nvはpgi買収してopenaccのコンパイラも力入れてるよ
doeのエクサスケールで使うのもcudaじゃなくてopenaccだし
doeのエクサスケールで使うのもcudaじゃなくてopenaccだし
714デフォルトの名無しさん
2016/02/26(金) 05:38:13.56ID:mUz9Cfpw 「,,・´∀`・,,)っ-○○○」って鳥屋氏でしょ。
悪いけどここに同じレベルの人はいないんじゃない。
悪いけどここに同じレベルの人はいないんじゃない。
715デフォルトの名無しさん
2016/02/26(金) 07:10:07.81ID:VdCPJ0Vc 何のレベル?
716デフォルトの名無しさん
2016/02/26(金) 08:03:13.43ID:lqbLzerX イカスミが同レベル
どっちも要らない
どっちも要らない
717デフォルトの名無しさん
2016/02/26(金) 08:04:45.81ID:VdCPJ0Vc 鳥屋氏ってだ〜れ?
718デフォルトの名無しさん
2016/02/26(金) 11:35:24.33ID:J+QrFB1k NVの工作員
GPGPUはVLIW時代のATIGPUを持ち出してネガキャン
GPGPUはVLIW時代のATIGPUを持ち出してネガキャン
719デフォルトの名無しさん
2016/02/27(土) 13:53:00.79ID:VbYYT6/A 鳥屋でググるとこれが出てきた
http://potato.2ch.net/test/read.cgi/software/1205766220/
http://potato.2ch.net/test/read.cgi/software/1205766220/
2016/02/27(土) 19:58:40.83ID:WSIY1iVq
俺がいてもいなくてもCUDAプログラミングの話ができない無能集団のスレ
721デフォルトの名無しさん
2016/02/27(土) 20:22:31.94ID:VXpwyn8O 囲碁ソフトにディープラーニングが使われ始めてるんだが、
CUDA対応ソフトもそろそろ来るかもしれん。
一般人にも身近な技術になるかもね。
CUDA対応ソフトもそろそろ来るかもしれん。
一般人にも身近な技術になるかもね。
2016/02/27(土) 20:27:20.16ID:WSIY1iVq
そのうち教えられたことだけしかコーディングできないクソPGもAIにとって代わられるんだろうな
723デフォルトの名無しさん
2016/02/27(土) 22:07:54.84ID:unQVppL1 なるほど糞団子が嫌われるわけだ
724デフォルトの名無しさん
2016/02/27(土) 22:34:12.86ID:VbYYT6/A 鳥屋ってただのサンデープログラマーだからな
知ったか決めてりゃ嫌われる
知ったか決めてりゃ嫌われる
725デフォルトの名無しさん
2016/02/27(土) 23:58:13.35ID:Fq+Tn6zB726デフォルトの名無しさん
2016/02/28(日) 00:21:01.28ID:4gv2LXai2016/02/28(日) 00:32:14.81ID:5Pz55yFT
君はその名前欄に●入れてそのまま表示されるか試したことがあるかい?
2016/02/28(日) 00:34:20.80ID:lm9zk8qN
テスト
729デフォルトの名無しさん
2016/02/28(日) 00:34:46.41ID:lm9zk8qN むう、表示されんのう
730デフォルトの名無しさん
2016/02/28(日) 00:53:04.73ID:4gv2LXai 別人なのか?
,,・´∀`・,,)っ-○◎●
が持っているのは焼き鳥
で
,,・´∀`・,,)っ-○○○
が持っているのは団子
ということか
,,・´∀`・,,)っ-○◎●
が持っているのは焼き鳥
で
,,・´∀`・,,)っ-○○○
が持っているのは団子
ということか
731デフォルトの名無しさん
2016/02/28(日) 00:58:05.10ID:9kjNwUs3 鳥屋氏が両方つかってるの見たことあるから本人なんじゃない?
732デフォルトの名無しさん
2016/02/28(日) 01:03:49.87ID:4gv2LXai なら、次は,,・´∀`・,,)っ-○◎● で書き込んでくれるな
733デフォルトの名無しさん
2016/02/28(日) 01:06:06.88ID:9kjNwUs3 っていうか●が名前欄に使えなくなった経緯も知らないんじゃ、鳥屋氏のことを知らなくても無理は無いね。
734デフォルトの名無しさん
2016/02/28(日) 01:17:52.65ID:4gv2LXai735デフォルトの名無しさん
2016/02/28(日) 01:18:45.52ID:TGNAvpkz 糞団子がどんなコード書くか知らんけど、弾道計算の件でシドロモドロになった事実は消えんぞ
所詮その程度の知的レベル
所詮その程度の知的レベル
736デフォルトの名無しさん
2016/02/28(日) 01:43:25.37ID:9IJglbed >>713
速度自体は生でcudaやったほうが速いらしいから
これは開発効率を優先してPGIなのかね?
あるいは現時点ではいまいちでも今後の成長を鑑みてとかさ
さすがにdod,doeでも世代ごとのコード書き換えは負担なんだろうか
速度自体は生でcudaやったほうが速いらしいから
これは開発効率を優先してPGIなのかね?
あるいは現時点ではいまいちでも今後の成長を鑑みてとかさ
さすがにdod,doeでも世代ごとのコード書き換えは負担なんだろうか
737デフォルトの名無しさん
2016/02/28(日) 01:50:50.47ID:9IJglbed キャッシュの増量やシャッフルIA、HyperQ,DP等を全部こみこみで考えると
1コアあたりの実効性能(flaot)はfermi, keplar, maxwellと上がってると考えていいのかね?
flops/core/clockではなくてflops/coreという意味で、かつ理論値での比較ではなくていかに実測値がでるかという意味で。
1コアあたりの実効性能(flaot)はfermi, keplar, maxwellと上がってると考えていいのかね?
flops/core/clockではなくてflops/coreという意味で、かつ理論値での比較ではなくていかに実測値がでるかという意味で。
2016/02/28(日) 02:02:26.76ID:5Pz55yFT
俺は中村氏じゃねーから
2016/02/28(日) 02:05:54.35ID:5Pz55yFT
2009年当時なら団子はやっぱり団子だったぜ?
http://www.openwall.com/john/doc/CREDITS.shtml
当時書いてたのも別に変態的でもない普通のCコードですけどね
http://download.openwall.net/pub/projects/john/contrib/bitslice-des/dango.chu.jp/
http://www.openwall.com/john/doc/CREDITS.shtml
当時書いてたのも別に変態的でもない普通のCコードですけどね
http://download.openwall.net/pub/projects/john/contrib/bitslice-des/dango.chu.jp/
740デフォルトの名無しさん
2016/02/28(日) 03:07:32.07ID:9kjNwUs3741デフォルトの名無しさん
2016/02/28(日) 09:32:39.66ID:kqHim0z9 やっぱり団子って複数人いるよね?
すごく詳しい話をするとおもったら、なんか急に低レベルだったり、
てにをはが変わったりする。
すごく詳しい話をするとおもったら、なんか急に低レベルだったり、
てにをはが変わったりする。
742デフォルトの名無しさん
2016/02/28(日) 09:40:16.99ID:uncqUlBQ たまに二人の団子が会話することもあるぞ
2016/02/28(日) 11:21:05.00ID:5Pz55yFT
> あれ、中村氏もそのAAつかってなかったっけ?
なにそれ見たことない
なにそれ見たことない
744デフォルトの名無しさん
2016/02/28(日) 11:43:53.32ID:F3rkrfCl 結局鳥屋が馬鹿団子の振りしてるだけかもだが、詐欺の天才は結局馬鹿より有害
NVのやる事は何でもマンセーではスレ汚しとしか言いようがない
CS機をAMDが独占したからNVは倍精度に手を出せなくなった、と言うといつも発狂
これでは冷静な議論が出来ない
NVのやる事は何でもマンセーではスレ汚しとしか言いようがない
CS機をAMDが独占したからNVは倍精度に手を出せなくなった、と言うといつも発狂
これでは冷静な議論が出来ない
745デフォルトの名無しさん
2016/02/28(日) 11:46:36.13ID:1t5d585j おまえはcuda関係ないんだからくるなよ
かまってちゃん
かまってちゃん
2016/02/28(日) 11:51:31.77ID:5Pz55yFT
そっち界隈しばらくチェックしてなかったけど海外のハカー面白いことやってるね。
ちょうどCUDAに特化した話題だ。
MaxwellのLOP3.LUT命令を使ったビット演算の高速化テクニックについて興味ある人は
一度この講演ビデオ観ておくといいと思う。
http://www.irongeek.com/i.php?page=videos/passwordscon2014/bitslice-des-with-lop3lut-steve-thomas
実際問題AVX-512のvpternlogもLOP3.LUTと引数互換なんだわ
ぶっちゃけソース置換するだけで移植可能
ちょうどCUDAに特化した話題だ。
MaxwellのLOP3.LUT命令を使ったビット演算の高速化テクニックについて興味ある人は
一度この講演ビデオ観ておくといいと思う。
http://www.irongeek.com/i.php?page=videos/passwordscon2014/bitslice-des-with-lop3lut-steve-thomas
実際問題AVX-512のvpternlogもLOP3.LUTと引数互換なんだわ
ぶっちゃけソース置換するだけで移植可能
747デフォルトの名無しさん
2016/02/28(日) 12:03:43.36ID:F3rkrfCl >>745
鳥屋=糞団子!テメエこそCUDAの何が分かるんだボケ!
鳥屋=糞団子!テメエこそCUDAの何が分かるんだボケ!
748デフォルトの名無しさん
2016/02/28(日) 12:06:45.18ID:1t5d585j ハイハイお薬の時間でちゅよ
749デフォルトの名無しさん
2016/02/28(日) 12:18:13.04ID:F3rkrfCl 単発のお時間がきまちゅたね〜
鳥屋=糞団子が自作板からこっちのスレの巡回時間が来たみたいw
本当に鳥屋が使える天才なら2ちゃん談義なんかしねえな
10年前ならゲーム業界か、少し前なら京に関わるか
或いはアメリカでイラン向けバックドアを仕掛けるお仕事か…
どっちにしろヒマを持て余すようではお里は知れてる
鳥屋=糞団子が自作板からこっちのスレの巡回時間が来たみたいw
本当に鳥屋が使える天才なら2ちゃん談義なんかしねえな
10年前ならゲーム業界か、少し前なら京に関わるか
或いはアメリカでイラン向けバックドアを仕掛けるお仕事か…
どっちにしろヒマを持て余すようではお里は知れてる
750デフォルトの名無しさん
2016/02/28(日) 12:24:17.80ID:1t5d585j ハイハイお部屋に戻りましょうねぇ
2016/02/28(日) 12:37:00.70ID:5Pz55yFT
https://community.amd.com/thread/197348
AMDのGPUにはLOP3.LUT相当の命令がないことにユーザーからも不満が噴出しているようです
AMDのGPUにはLOP3.LUT相当の命令がないことにユーザーからも不満が噴出しているようです
752デフォルトの名無しさん
2016/02/28(日) 12:44:20.68ID:F3rkrfCl 単発でも見事につられまちゅね〜wwwww
団子=鳥屋ちゃんピンチでちゅね〜wwwwww
団子=鳥屋ちゃんピンチでちゅね〜wwwwww
753デフォルトの名無しさん
2016/02/28(日) 12:51:25.16ID:1t5d585j ハイハイご飯時間ですよおじぃちゃん
754デフォルトの名無しさん
2016/02/29(月) 16:54:00.73ID:XMRi5hV6 なんだかすごく質問しにくい流れなんですがいいですか?
バイトニックソートのプログラムを作ってみまして、
要素数512を境にGPUの方が速くなったのは良かったんですが、
要素数8192くらいからGPUの時間増加の傾きがCPUより悪化してしまって、
1048576ともなるとほとんど大差ないくらいになってしまいました。
これが普通なのか、おかしいのか、
おかしいなら原因として何がありそうか教えてほしいです。
一応可能なところはshared memory使ってますが、要素数256以降は
比較の組がとびとびになるはずなのでglobal memoryを直接読んでます。
以下、ソートを10000回繰り返した際の1回あたりの所要時間です。
要素数 CPU[s] GPU[s] CPU/GPU
2 0.00000 0.00004 0.004
4 0.00000 0.00005 0.008
8 0.00000 0.00005 0.011
16 0.00000 0.00006 0.020
32 0.00000 0.00007 0.036
64 0.00001 0.00008 0.099
128 0.00002 0.00009 0.229
256 0.00005 0.00010 0.522
512 0.00013 0.00013 1.027
1024 0.00031 0.00016 1.909
2048 0.00076 0.00025 2.975
4096 0.00179 0.00036 4.919
8192 0.00423 0.00068 6.248
16384 0.00933 0.00202 4.627
32768 0.02142 0.00637 3.363
65536 0.04903 0.01776 2.761
131072 0.10829 0.05003 2.165
262144 0.24928 0.13078 1.906
524288 0.54765 0.32437 1.688
1048576 1.22586 0.77101 1.590
バイトニックソートのプログラムを作ってみまして、
要素数512を境にGPUの方が速くなったのは良かったんですが、
要素数8192くらいからGPUの時間増加の傾きがCPUより悪化してしまって、
1048576ともなるとほとんど大差ないくらいになってしまいました。
これが普通なのか、おかしいのか、
おかしいなら原因として何がありそうか教えてほしいです。
一応可能なところはshared memory使ってますが、要素数256以降は
比較の組がとびとびになるはずなのでglobal memoryを直接読んでます。
以下、ソートを10000回繰り返した際の1回あたりの所要時間です。
要素数 CPU[s] GPU[s] CPU/GPU
2 0.00000 0.00004 0.004
4 0.00000 0.00005 0.008
8 0.00000 0.00005 0.011
16 0.00000 0.00006 0.020
32 0.00000 0.00007 0.036
64 0.00001 0.00008 0.099
128 0.00002 0.00009 0.229
256 0.00005 0.00010 0.522
512 0.00013 0.00013 1.027
1024 0.00031 0.00016 1.909
2048 0.00076 0.00025 2.975
4096 0.00179 0.00036 4.919
8192 0.00423 0.00068 6.248
16384 0.00933 0.00202 4.627
32768 0.02142 0.00637 3.363
65536 0.04903 0.01776 2.761
131072 0.10829 0.05003 2.165
262144 0.24928 0.13078 1.906
524288 0.54765 0.32437 1.688
1048576 1.22586 0.77101 1.590
755デフォルトの名無しさん
2016/02/29(月) 17:56:37.64ID:+ARXUC0S 鳥屋、答えてやれよ
2016/02/29(月) 23:54:40.69ID:72g2TQWh
>>755
バードショップ氏と話しがしたいなら @chapuni に凸ってきたら?
バードショップ氏と話しがしたいなら @chapuni に凸ってきたら?
2016/03/01(火) 00:01:36.14ID:9XwMWslZ
バイトニックソートはキャッシュメモリで収まる範囲内の小さなデータ集合に対して有効
サイズが大きくなるとGPUのローカルメモリから外れて大幅にパフォーマンスが落ちる
CPUのほうが低レイテンシ・大容量のキャッシュ積んでる分だけ有利になるわけだ
CPUのキャッシュに収まらない量になれば再びGPUのほうが上回るはずだ
まあそのレベルに達する段階でO(n log n)のソートの検討の余地があるが
サイズが大きくなるとGPUのローカルメモリから外れて大幅にパフォーマンスが落ちる
CPUのほうが低レイテンシ・大容量のキャッシュ積んでる分だけ有利になるわけだ
CPUのキャッシュに収まらない量になれば再びGPUのほうが上回るはずだ
まあそのレベルに達する段階でO(n log n)のソートの検討の余地があるが
758デフォルトの名無しさん
2016/03/01(火) 00:02:13.26ID:epSXE3Ge759デフォルトの名無しさん
2016/03/01(火) 00:33:31.30ID:k65RqU8V 質問者がシェアードメモリって言ってるのにキャッシュとかいい加減なこと言ってる
シェアードメモリに言及しないなんてあり得ない
そもそもCUDA使ったことないんだろうな
やっぱ糞団子は低レベルだな
シェアードメモリに言及しないなんてあり得ない
そもそもCUDA使ったことないんだろうな
やっぱ糞団子は低レベルだな
2016/03/01(火) 00:41:11.27ID:9XwMWslZ
2016/03/01(火) 00:46:09.76ID:9XwMWslZ
GPUについてはどっちにも解せる「ローカルメモリ」と言い換えてる
ちゃんと読めない子は呼吸を止めて1秒あなた新鮮だけど煮魚
ちゃんと読めない子は呼吸を止めて1秒あなた新鮮だけど煮魚
762デフォルトの名無しさん
2016/03/01(火) 12:21:21.56ID:/z3eDKB8763デフォルトの名無しさん
2016/03/01(火) 12:24:00.41ID:CYOvNsDD ケンタッキーフライドチキンがどうしたって
2016/03/01(火) 12:31:48.31ID:iam2QPf0
GMにマッピングされたメモリは一定の局所性があればキャッシュにマッピングされる
常識が通じないバカが勝手に自爆してるな
常識が通じないバカが勝手に自爆してるな
765754
2016/03/01(火) 15:10:24.97ID:oQoWs5hY >>757
キャッシュメモリ……
すいません、当方キャッシュについては不勉強でして、よくわかってません。
多分L1とかL2とか書いてあるやつだと思うのですが、手元の参考書が古い(6年前)もので……。
DeviceQueryだとL2 Cache Size: 524288 bytes って出るのでこれでしょうか。
Total amount of shared memory per block: 49152 bytes とか
Total number of registers available per block: 65536 とかもあります。
英語版Wikiの平均計算時間O(log(n)^2)parallel timeもよくわかってなかったりします。
log(n^2)なのか(log n)^2なのかよくわからんとです。
>>758
倍精度だと性能がうんたらとややこしかったので、単精度整数のソートなんです。
正確には同サイズの単精度整数配列2つを作り、
片方を基準にソートして、もう片方を一緒に並び替えてます。
構造体にしてもいいんですが、一緒に並び替えたほうだけが後々必要なデータでして。
最終的にはソートした結果を使って色々処理するためのプログラムなんですが、
現状だとこのソートで全体の8割くらい時間食っちゃってるんですよね。
ソートしなかったらもっと遅い(というかO(n^2)になる)ので無意味ってわけでもないんですが。
忘れてましたがGeForce GTX 760を使ってます。
以前機会があったので、別のGPU(GTX570だった気がする)でほぼ同じ計算させてみたこともあるんですが、
そっちだともっとマシでした。CPUより確実に速い、と胸を張って言えるくらい。
スペックの違いを加味しても、うちのGPUだけ下手したらCPUより遅いってのも変だなあ、と。
キャッシュメモリ……
すいません、当方キャッシュについては不勉強でして、よくわかってません。
多分L1とかL2とか書いてあるやつだと思うのですが、手元の参考書が古い(6年前)もので……。
DeviceQueryだとL2 Cache Size: 524288 bytes って出るのでこれでしょうか。
Total amount of shared memory per block: 49152 bytes とか
Total number of registers available per block: 65536 とかもあります。
英語版Wikiの平均計算時間O(log(n)^2)parallel timeもよくわかってなかったりします。
log(n^2)なのか(log n)^2なのかよくわからんとです。
>>758
倍精度だと性能がうんたらとややこしかったので、単精度整数のソートなんです。
正確には同サイズの単精度整数配列2つを作り、
片方を基準にソートして、もう片方を一緒に並び替えてます。
構造体にしてもいいんですが、一緒に並び替えたほうだけが後々必要なデータでして。
最終的にはソートした結果を使って色々処理するためのプログラムなんですが、
現状だとこのソートで全体の8割くらい時間食っちゃってるんですよね。
ソートしなかったらもっと遅い(というかO(n^2)になる)ので無意味ってわけでもないんですが。
忘れてましたがGeForce GTX 760を使ってます。
以前機会があったので、別のGPU(GTX570だった気がする)でほぼ同じ計算させてみたこともあるんですが、
そっちだともっとマシでした。CPUより確実に速い、と胸を張って言えるくらい。
スペックの違いを加味しても、うちのGPUだけ下手したらCPUより遅いってのも変だなあ、と。
766デフォルトの名無しさん
2016/03/01(火) 15:16:26.28ID:oDNKlTv2767デフォルトの名無しさん
2016/03/01(火) 20:11:04.94ID:/z3eDKB8 要約すると団子の答えは答えになってない
768754
2016/03/01(火) 21:01:21.25ID:oQoWs5hY >>766
参照先読みました。キャッシュの話だったので自信はありませんが、
Fermi(GX570)世代のキャッシュは容量超えると(多分)通信の速いL1D等に退避されてたけど、
Kepler(GTX760)世代だと通信の遅いglobalに退避されるようになった、ってことですか?
さすがにアーキテクチャの仕様だと自分のスキルじゃ対応できません……。
>>767
答えになってないというか、私の知らない範囲の回答だったんでよくわからなかった感じです。
言ってることは766さんの参照先と多分同じなんだと思います。自信はありませんけど。
で、みなさん改善する方法はないでしょうか……。
大規模計算にウンタラ使うとカンタラがヤバいから避ける、みたいなことありませんか?
オプションにホニャララって追加すれば設定が変わる、とか(実はオプションもよくわかってない)。
大規模の時、キャッシュ代わりにあえてsharedを定義しても意味ないのかな…普通はないよな…
参照先読みました。キャッシュの話だったので自信はありませんが、
Fermi(GX570)世代のキャッシュは容量超えると(多分)通信の速いL1D等に退避されてたけど、
Kepler(GTX760)世代だと通信の遅いglobalに退避されるようになった、ってことですか?
さすがにアーキテクチャの仕様だと自分のスキルじゃ対応できません……。
>>767
答えになってないというか、私の知らない範囲の回答だったんでよくわからなかった感じです。
言ってることは766さんの参照先と多分同じなんだと思います。自信はありませんけど。
で、みなさん改善する方法はないでしょうか……。
大規模計算にウンタラ使うとカンタラがヤバいから避ける、みたいなことありませんか?
オプションにホニャララって追加すれば設定が変わる、とか(実はオプションもよくわかってない)。
大規模の時、キャッシュ代わりにあえてsharedを定義しても意味ないのかな…普通はないよな…
769デフォルトの名無しさん
2016/03/01(火) 22:50:15.99ID:1eMSB1ZO また団子が知ったかぶりをかましたのか!(呆れ)
2016/03/01(火) 22:57:33.44ID:xcdR7XnG
そもそもキャッシュはシェアードメモリの退避先ではなくグローバルメモリの一部の読み書きを高速化するためのもの
シェアードメモリに収まらないデータのソートで遅くなる問題なのでシェアードメモリは全く関係ない
アホが自爆すんなよ
シェアードメモリに収まらないデータのソートで遅くなる問題なのでシェアードメモリは全く関係ない
アホが自爆すんなよ
2016/03/01(火) 23:00:19.76ID:xcdR7XnG
データ全体がキャッシュに収まらない場合はキャッシュローカリティを意識した演算順序の最適化をする
これはCPUでもGPUでも理屈は変わらない
これはCPUでもGPUでも理屈は変わらない
2016/03/02(水) 00:01:12.12ID:Lh/popYV
自分の答えを示さず謂れのないイチャモン付けに必死になる奴ほど
スレにとって邪魔な存在はないね
スレにとって邪魔な存在はないね
773デフォルトの名無しさん
2016/03/02(水) 01:05:18.36ID:WNl5zi/w 団子はレスをまとめることを覚えて
774754
2016/03/02(水) 01:23:35.90ID:n1GLxV/f >>770-771
キャッシュローカリティって何さ…となったので、Google先生に勧められた
wikiの『参照の局所性』を読んで、ちょっとわかった気がします。
自分が作ったバイトニックソートは大規模データの場合、
各threadがほとんど毎回前回と異なる&近傍でもないメモリ参照することになるので
時間的にも空間的にも最適化ができてないみたいです。
ない知恵絞ってif文減らして実質1つにした結果がこれだよ!
あ、いや、thread単位はそうでも、warpとかblock単位で見れば近傍データなのか…?これはバンクの話か…?
実装のややこしさを飲み込めばシェアソートの方が参照の局所性は大きくしやすいのかな…?
まだよくわかってないことが1つありまして、
プログラム上では何万何十万の計算を並列に扱ったとしても、
物理的にはハード側の制限があるわけじゃないですか。
GTX760ならCUDAコア1152基なわけで、一万を並列化しても
実際には同時じゃなくて9回くらいに分けて順に処理する、みたいな。
となると、その9回で各CUDAコアは別のメモリを参照するわけなんですが、
この時前回のキャッシュって残るんでしょうか? 残らない…ですよね?
それともカーネルとしての処理が終わるまでは残るんでしょうか?
はたまたプログラムが終わるまでは念のため残しておく、とか?
キャッシュの利用自体が悪いんじゃなくて、
キャッシュにも収まらないデータ量がよくないってのはわかってるんですが、
なんかこのあたりの理解がまだ曖昧なんです。
キャッシュローカリティって何さ…となったので、Google先生に勧められた
wikiの『参照の局所性』を読んで、ちょっとわかった気がします。
自分が作ったバイトニックソートは大規模データの場合、
各threadがほとんど毎回前回と異なる&近傍でもないメモリ参照することになるので
時間的にも空間的にも最適化ができてないみたいです。
ない知恵絞ってif文減らして実質1つにした結果がこれだよ!
あ、いや、thread単位はそうでも、warpとかblock単位で見れば近傍データなのか…?これはバンクの話か…?
実装のややこしさを飲み込めばシェアソートの方が参照の局所性は大きくしやすいのかな…?
まだよくわかってないことが1つありまして、
プログラム上では何万何十万の計算を並列に扱ったとしても、
物理的にはハード側の制限があるわけじゃないですか。
GTX760ならCUDAコア1152基なわけで、一万を並列化しても
実際には同時じゃなくて9回くらいに分けて順に処理する、みたいな。
となると、その9回で各CUDAコアは別のメモリを参照するわけなんですが、
この時前回のキャッシュって残るんでしょうか? 残らない…ですよね?
それともカーネルとしての処理が終わるまでは残るんでしょうか?
はたまたプログラムが終わるまでは念のため残しておく、とか?
キャッシュの利用自体が悪いんじゃなくて、
キャッシュにも収まらないデータ量がよくないってのはわかってるんですが、
なんかこのあたりの理解がまだ曖昧なんです。
775754
2016/03/02(水) 01:46:45.38ID:n1GLxV/f だらだら長文書いたわりに今自分の気になることからは逆に離れた気がする。
手っ取り早く要約すると、CPU↔メモリ(キャッシュ)の速度は
CUDAコア↔各種メモリの速度のどの当たりに相当するのか、でしょうか?
GPU内ならレジスタ>shared(キャッシュ)>globalの順で速いとかは聞きますけど、
もう一歩踏み込んで『この不等号の列に割り込ませるなら』CPUの速度はこのあたり、という指標が見つからないんですよね。
もちろん機種によって千差万別だとは思いますが、
傾向としてはこのくらいかなあ、みたいな話でもいいので教えていただけたら幸いです。
あ、もちろん>>774の質問も答えていただけると助かります。
キャッシュがよくわかってないのも確かなので。
手っ取り早く要約すると、CPU↔メモリ(キャッシュ)の速度は
CUDAコア↔各種メモリの速度のどの当たりに相当するのか、でしょうか?
GPU内ならレジスタ>shared(キャッシュ)>globalの順で速いとかは聞きますけど、
もう一歩踏み込んで『この不等号の列に割り込ませるなら』CPUの速度はこのあたり、という指標が見つからないんですよね。
もちろん機種によって千差万別だとは思いますが、
傾向としてはこのくらいかなあ、みたいな話でもいいので教えていただけたら幸いです。
あ、もちろん>>774の質問も答えていただけると助かります。
キャッシュがよくわかってないのも確かなので。
2016/03/02(水) 01:48:15.90ID:Lh/popYV
後続の処理が走ってもデータが保持されるかどうか?
これについては実装依存としかいいようがない
なにせGPUはCPUと比べてもキャッシュの容量は小さいので
いつまでも今処理してないデータを保持し続ける理由も乏しい。
処理順序の並べ替えが可能なら、データアクセスの局所性に合わせて並べ替えることをお勧めする。
これについては実装依存としかいいようがない
なにせGPUはCPUと比べてもキャッシュの容量は小さいので
いつまでも今処理してないデータを保持し続ける理由も乏しい。
処理順序の並べ替えが可能なら、データアクセスの局所性に合わせて並べ替えることをお勧めする。
777デフォルトの名無しさん
2016/03/02(水) 15:13:17.26ID:XnY+JUNw この会話を分かりやすく噛み砕くとこういう感じか
754
GPUの並列化の最適化を教えてください
団子
シェアードメモリーガー
754
あの…ですからデータの並列化を…
団子
データアクセスの局所性ガー
754
・・・・(その並び替えが分からないんだけどなー)・・・・まあいいです
754
GPUの並列化の最適化を教えてください
団子
シェアードメモリーガー
754
あの…ですからデータの並列化を…
団子
データアクセスの局所性ガー
754
・・・・(その並び替えが分からないんだけどなー)・・・・まあいいです
778デフォルトの名無しさん
2016/03/02(水) 16:29:21.57ID:epqhA4MI おきゅんぱしー
779754
2016/03/02(水) 17:56:48.93ID:n1GLxV/f あっ
780デフォルトの名無しさん
2016/03/02(水) 18:46:16.76ID:nVGVVFPp781デフォルトの名無しさん
2016/03/02(水) 19:06:15.16ID:2uJZVygs782デフォルトの名無しさん
2016/03/02(水) 20:08:27.14ID:n1GLxV/f >>776
なるほど。基本的に残ってないと考えた方がよさそうですね。
バイトニックソートは綺麗に並列化できちゃうので、並び替えは無理っぽいです。
>>778
Occupancy確認しました。ビンゴでした。4%とかなにそれクソ使えてない。
というか、よくよく確認したらsharedもまだまだ余裕があったので、
要素数256でsharedの利用を切り替えていたのを2048まで拡張しました。
8192越えたあたりで悪化し始める、という性質こそ変わりませんでしたが
sharedの恩恵を受けられる範囲が増えたおかげか悪化しつつも
約100万要素でもCPUより7倍強速くすることができました。これでOccupancyは50%。
100%にするにはsharedのサイズの設定を変えなきゃならないけどやり方わかんない…。
しかし、こんなアホみたいな理由で遅くなっていたなんて。
みなさまにはご迷惑おかけしました……。
>>780
やっぱりCPUですか。GPUの性能をフルに発揮させるには
それなりに大きい規模を並列化して誤魔化さないといけないわけですね。
なるほど。基本的に残ってないと考えた方がよさそうですね。
バイトニックソートは綺麗に並列化できちゃうので、並び替えは無理っぽいです。
>>778
Occupancy確認しました。ビンゴでした。4%とかなにそれクソ使えてない。
というか、よくよく確認したらsharedもまだまだ余裕があったので、
要素数256でsharedの利用を切り替えていたのを2048まで拡張しました。
8192越えたあたりで悪化し始める、という性質こそ変わりませんでしたが
sharedの恩恵を受けられる範囲が増えたおかげか悪化しつつも
約100万要素でもCPUより7倍強速くすることができました。これでOccupancyは50%。
100%にするにはsharedのサイズの設定を変えなきゃならないけどやり方わかんない…。
しかし、こんなアホみたいな理由で遅くなっていたなんて。
みなさまにはご迷惑おかけしました……。
>>780
やっぱりCPUですか。GPUの性能をフルに発揮させるには
それなりに大きい規模を並列化して誤魔化さないといけないわけですね。
784デフォルトの名無しさん
2016/03/02(水) 20:36:32.21ID:XnY+JUNw 迷アドヴァイスを見るに見兼ねたスレ住民のおかげで助かりましたとさめでたしめでたし
785デフォルトの名無しさん
2016/03/02(水) 21:24:19.27ID:ewxUegIs786デフォルトの名無しさん
2016/03/02(水) 21:47:03.61ID:mhOGU3Or っていうかgpgpuでソートが
そもそも間違ってるよなあ
そもそも間違ってるよなあ
2016/03/02(水) 23:53:33.06ID:Vx/0gvlz
てかFermi以降のSMはキャッシュを構成するSRAMの一部を
GMとは独立した空間のスクラッチパッドメモリとして割り当ててるだけなんだけどね
SMXが実質的なコアとみなすならシェアードメモリって別にシェアードでもなんでもないぞ
GMとは独立した空間のスクラッチパッドメモリとして割り当ててるだけなんだけどね
SMXが実質的なコアとみなすならシェアードメモリって別にシェアードでもなんでもないぞ
788デフォルトの名無しさん
2016/03/03(木) 00:02:42.09ID:L7+NtMAj ますます支離滅裂だな
シェアードメモリがシェアードじゃないとかCUDAの概念を全否定する発言じゃねぇか
つまりお前はCUDAの事なんか全く判ってない
ここはCUDAのスレだぞ
そろそろ出て行けや糞団子
シェアードメモリがシェアードじゃないとかCUDAの概念を全否定する発言じゃねぇか
つまりお前はCUDAの事なんか全く判ってない
ここはCUDAのスレだぞ
そろそろ出て行けや糞団子
2016/03/03(木) 00:24:01.33ID:HcahvuJO
まったく技術論になってないぞ
NVIDIAの用語がインチキ用語なのは今に始まったことじゃない
AMDのBulldozerのコア詐称以前からのコア数水増しやってるのがNVIDIA
命令ストリームレベルで見ればSMXが本来のコアで
CUDA Coreと呼んでるものはSIMDユニットの1エレメントにすぎない
NVIDIAの用語がインチキ用語なのは今に始まったことじゃない
AMDのBulldozerのコア詐称以前からのコア数水増しやってるのがNVIDIA
命令ストリームレベルで見ればSMXが本来のコアで
CUDA Coreと呼んでるものはSIMDユニットの1エレメントにすぎない
790デフォルトの名無しさん
2016/03/03(木) 00:48:19.47ID:OHZiW0+6 確かにCUDAというかNVIDIAの定義しているシェアードメモリは一般的なシェアードメモリとは違うね。どちらかというとローカルメモリといった方が正しいかもしれん。
2016/03/03(木) 01:01:39.27ID:HcahvuJO
同じコアだからこそメモリを介さずレジスタ上でシフト・シャッフルができる(Kepler以降)
CUDAのSIMTとは単純に32要素1024ビットのSIMDを32スレッドと読み替えてるだけ
この点はG8x世代から変わらないね
CUDAのSIMTとは単純に32要素1024ビットのSIMDを32スレッドと読み替えてるだけ
この点はG8x世代から変わらないね
792デフォルトの名無しさん
2016/03/03(木) 01:48:33.97ID:TCZfqrpq 自演会話すれば糞団子が味噌団子に変化するじゃないぞ?団子さんよお
2016/03/03(木) 07:58:21.23ID:HcahvuJO
自演認定しても頭がよくなりませんよ、他所者君
CUDAをちゃんと勉強してる人にはみんな知ってる事実だ
CUDAをちゃんと勉強してる人にはみんな知ってる事実だ
794デフォルトの名無しさん
2016/03/03(木) 08:43:19.76ID:dzwxxNC2 また夜中の自演が始まったか
バレてないと思うところが糞団子だね
何度も言うがここはCUDAのスレ
僕の考えたシェアードメモリ論ならチラシの裏に書いとけ
バレてないと思うところが糞団子だね
何度も言うがここはCUDAのスレ
僕の考えたシェアードメモリ論ならチラシの裏に書いとけ
795デフォルトの名無しさん
2016/03/03(木) 09:02:21.96ID:HqLf1iVZ CUDAでいうシェアードメモリはCPUでいう一次キャッシュだし、CELLで言うところのLSだから、SMメモリとかコアメモリとかにしておけばよかったのにね。
CUDAの黎明期はGPUをスパコンって呼ぶ戦略があったから、1スレッドを一コアに見立て、共有メモリだと言っていたのかもしれないね。
CUDAの黎明期はGPUをスパコンって呼ぶ戦略があったから、1スレッドを一コアに見立て、共有メモリだと言っていたのかもしれないね。
796デフォルトの名無しさん
2016/03/03(木) 09:17:45.89ID:dzwxxNC2797デフォルトの名無しさん
2016/03/03(木) 12:05:39.08ID:DYrHTZ2H2016/03/03(木) 12:34:58.87ID:Z97pa2Hq
ソフトレベルって言ってもなぁ
.cuやPTXのレベルならそうだろうがcubinレベルでみて言ってるんじゃないんだろ?
実際Sharedなんて言ってもSMX(実質上のコア)の中でしか参照できないんじゃ名前に偽りありとしか
SPMDをオレオレ用語で置き換えた概念で説明すればSharedなんだろうが物理的にはCellのSPUのLSと同じトポロジにすぎん
.cuやPTXのレベルならそうだろうがcubinレベルでみて言ってるんじゃないんだろ?
実際Sharedなんて言ってもSMX(実質上のコア)の中でしか参照できないんじゃ名前に偽りありとしか
SPMDをオレオレ用語で置き換えた概念で説明すればSharedなんだろうが物理的にはCellのSPUのLSと同じトポロジにすぎん
799デフォルトの名無しさん
2016/03/03(木) 14:52:54.35ID:Qh2UpiXS 逆に複数のsmx間で共有されてたら
くそ遅いだろう
ローカルだから他のsmx気にしなくていいわけで
くそ遅いだろう
ローカルだから他のsmx気にしなくていいわけで
800デフォルトの名無しさん
2016/03/03(木) 14:54:11.01ID:DdRI0anx801754
2016/03/03(木) 14:57:08.65ID:FhaRPDaV >>796
CUDA_Occupancy_Calculator.xlsで確認してたんですが、
CC3.0だと48kb/16kbと16kb/48kbの他に32kb/32kbがあるっぽくて、
32kbなら100%になる、みたいな謎結果が出てたんです。
で、うちの古い参考書にはその設定のやり方が載ってなかったんです。
だけどそのあと.xlsファイルを開き直したらなぜが100%になってました。
なんでやねん。
CUDA_Occupancy_Calculator.xlsで確認してたんですが、
CC3.0だと48kb/16kbと16kb/48kbの他に32kb/32kbがあるっぽくて、
32kbなら100%になる、みたいな謎結果が出てたんです。
で、うちの古い参考書にはその設定のやり方が載ってなかったんです。
だけどそのあと.xlsファイルを開き直したらなぜが100%になってました。
なんでやねん。
2016/03/03(木) 15:08:31.08ID:IfmnFgwQ
803デフォルトの名無しさん
2016/03/03(木) 17:12:24.19ID:fEIbv9/m また低脳の団子が自演かよ!?
いい加減にして欲しい
コイツがいるとスレが腐るんだけど(怒)
いい加減にして欲しい
コイツがいるとスレが腐るんだけど(怒)
804デフォルトの名無しさん
2016/03/03(木) 19:52:45.84ID:dqlRC1xd806デフォルトの名無しさん
2016/03/03(木) 20:19:52.39ID:4mtdR8td 団子ちゃんは詳しいと思う。
807デフォルトの名無しさん
2016/03/03(木) 20:29:28.69ID:n6tvCzB6 文句言うだけの奴より団子のほうがこのスレの役に立っている。
808デフォルトの名無しさん
2016/03/03(木) 21:01:42.18ID:KusOhd2G 【親米涙目】 ★ ロシアがアメリカを一発KO ★ 【反中逃亡】
宇宙人側からの申し入れは、とにかく核の利用と戦争をやめなさい、もう一つは宇宙人の存在を公表しなさい。
つけ足したのが、60年の猶予を与えましよう、2014年には発表しなければならなかったんですね、宇宙人の存在を。
ロシアという大国の首相がね、あれは冗談だよでは済まないですね、しかも2回も言ってるんだからね。
https://www.youtube.com/watch?v=FIRXKetUkq8
【親米屈辱】 ★ 宇宙人いない派のおバカさん残念www ★ 【反中赤面】
NASAは、UFOに対して長年取ってきた態度のために、無用な組織とされることを恐れています。
マイトレーヤが公に現れるにつれて、UFOが姿を表すでしょう。
世界平和の脅威は、イスラエル、イラン、アメリカです。イスラエルの役割は跪いて、パレスチナに許しを請うことです。
アメリカによる他国の虐待に反対の声を上げなければなりません。
彼らは今世紀(21世紀)をこの帝国が出来上がるアメリカの世紀と呼ぶ。しかし、そうはならないだろう。
彼らが世界中に‘民主的’制度を確立したいという衝動をコントロールするのは、マイトレーヤの任務である。
Q 経済崩壊が2015年から、テレパシー世界演説が2017年の初めなら、2016年に大戦でしょうか。A 大戦は起こりません。
【親米命乞い】 ★ マイトレーヤのテレパシーによる世界演説は英国BBCが放送 ★ 【反中土下座】
https://www.youtube.com/watch?v=6cOvo6n7NOk
マイトレーヤが世界に向かって話をする準備は良好に進行している。
25分か35分くらいかもしれませんが、歴史上で初めて、世界的規模のテレパシーによる接触が起こるのです。
テレビ中継はこの出来事のために存在するのであり、この時、初めてご自身の本当の身分を明らかにされます。
宇宙人側からの申し入れは、とにかく核の利用と戦争をやめなさい、もう一つは宇宙人の存在を公表しなさい。
つけ足したのが、60年の猶予を与えましよう、2014年には発表しなければならなかったんですね、宇宙人の存在を。
ロシアという大国の首相がね、あれは冗談だよでは済まないですね、しかも2回も言ってるんだからね。
https://www.youtube.com/watch?v=FIRXKetUkq8
【親米屈辱】 ★ 宇宙人いない派のおバカさん残念www ★ 【反中赤面】
NASAは、UFOに対して長年取ってきた態度のために、無用な組織とされることを恐れています。
マイトレーヤが公に現れるにつれて、UFOが姿を表すでしょう。
世界平和の脅威は、イスラエル、イラン、アメリカです。イスラエルの役割は跪いて、パレスチナに許しを請うことです。
アメリカによる他国の虐待に反対の声を上げなければなりません。
彼らは今世紀(21世紀)をこの帝国が出来上がるアメリカの世紀と呼ぶ。しかし、そうはならないだろう。
彼らが世界中に‘民主的’制度を確立したいという衝動をコントロールするのは、マイトレーヤの任務である。
Q 経済崩壊が2015年から、テレパシー世界演説が2017年の初めなら、2016年に大戦でしょうか。A 大戦は起こりません。
【親米命乞い】 ★ マイトレーヤのテレパシーによる世界演説は英国BBCが放送 ★ 【反中土下座】
https://www.youtube.com/watch?v=6cOvo6n7NOk
マイトレーヤが世界に向かって話をする準備は良好に進行している。
25分か35分くらいかもしれませんが、歴史上で初めて、世界的規模のテレパシーによる接触が起こるのです。
テレビ中継はこの出来事のために存在するのであり、この時、初めてご自身の本当の身分を明らかにされます。
809デフォルトの名無しさん
2016/03/03(木) 21:02:13.41ID:L7+NtMAj はい、単発来ましたw
糞団子のどこが有益なんだ?
シェアードメモリの割り当て変更にも答えられずに、ローカルメモリとか嘘の情報垂れ流してる奴だぞ?
まともなCUDAユーザーならローカルメモリとシェアードメモリが別物なんて事は常識以前の問題だ
糞団子の自論なんか誰も聞きたくない
嫌われ者の糞団子は去れ!
糞団子のどこが有益なんだ?
シェアードメモリの割り当て変更にも答えられずに、ローカルメモリとか嘘の情報垂れ流してる奴だぞ?
まともなCUDAユーザーならローカルメモリとシェアードメモリが別物なんて事は常識以前の問題だ
糞団子の自論なんか誰も聞きたくない
嫌われ者の糞団子は去れ!
2016/03/03(木) 22:03:27.41ID:vD1NzbLA
他人のレスで我が物顔してるだけじゃん
無益な厨房だな
無益な厨房だな
2016/03/03(木) 22:12:39.51ID:vD1NzbLA
つーか自称シェアードメモリが実質的なLocalStorageでしかないことは知っておかないとハマる事例もあるんだけどね
SIMTはAVXユニットを8コア、Xeon Phiの1コアを16コアって読み替えるトンデモ抽象化
SIMTはAVXユニットを8コア、Xeon Phiの1コアを16コアって読み替えるトンデモ抽象化
812デフォルトの名無しさん
2016/03/03(木) 22:33:11.46ID:a8cmYHdA 自演するな!糞団子
2016/03/03(木) 22:34:50.71ID:vD1NzbLA
別に何も間違ったことは書いてないんだが理解できないバカがいる
814デフォルトの名無しさん
2016/03/03(木) 22:51:35.86ID:L7+NtMAj シェアードメモリをローカルメモリとか言う嘘を垂れ流してる事はスルーなんだな
簡単な初期化関数すらアドバイス出来ない低レベル糞団子
ちなみにシェアードメモリは自称でもなんでもなく公式な名称だ
気に入らないなら自分で会社起こして俺の考えた最強のGPUでも作ればいいさ
まぁ、お前のレベルじゃディスクリートすら無理な事は明らかだがな
早く去れよ糞団子
簡単な初期化関数すらアドバイス出来ない低レベル糞団子
ちなみにシェアードメモリは自称でもなんでもなく公式な名称だ
気に入らないなら自分で会社起こして俺の考えた最強のGPUでも作ればいいさ
まぁ、お前のレベルじゃディスクリートすら無理な事は明らかだがな
早く去れよ糞団子
815デフォルトの名無しさん
2016/03/03(木) 22:52:03.02ID:tH72Ij/h さっき、Anacondaの最新バージョンである2.5.0(64-bit python3.5.1)を入れたの
だけど、それにコマンドプロンプトがデフォルトで入っていないので、pip installが
出来なくて困っています。ipythonやインタラクティヴシェルは入っています。
前のAnacondaのバージョン(python2.7で使っている)であれば、ipythonや
対話シェルからq()やquit()で、普通に、コマンドプロンプトに戻れて、そこから
pip installなどが出来たのになぜなのでしょうか。
普段使っているコマンドプロンプトはpython2.7用になっているので、そこから
python3.5.1用のpip installも出来ません。コマンドプロンプトをpythonのヴァージョン
ごとに切り替えることができるのかもしれないけど、その方法も分かりません。
どなたか、知っている人がいたら教えて下さい。
よろしくお願いします。m(__)m
だけど、それにコマンドプロンプトがデフォルトで入っていないので、pip installが
出来なくて困っています。ipythonやインタラクティヴシェルは入っています。
前のAnacondaのバージョン(python2.7で使っている)であれば、ipythonや
対話シェルからq()やquit()で、普通に、コマンドプロンプトに戻れて、そこから
pip installなどが出来たのになぜなのでしょうか。
普段使っているコマンドプロンプトはpython2.7用になっているので、そこから
python3.5.1用のpip installも出来ません。コマンドプロンプトをpythonのヴァージョン
ごとに切り替えることができるのかもしれないけど、その方法も分かりません。
どなたか、知っている人がいたら教えて下さい。
よろしくお願いします。m(__)m
816デフォルトの名無しさん
2016/03/03(木) 23:25:12.80ID:L7+NtMAj >>815
恐ろしくスレ違いなんだけど
python2系と3系を共存させるならパスを適切に設定しないとダメだよ
詳しくはググってくれ
取り敢えずコマンドプロンプトでpyって打ってからpipしてみたら?
恐ろしくスレ違いなんだけど
python2系と3系を共存させるならパスを適切に設定しないとダメだよ
詳しくはググってくれ
取り敢えずコマンドプロンプトでpyって打ってからpipしてみたら?
817デフォルトの名無しさん
2016/03/03(木) 23:27:56.45ID:Qh2UpiXS >>809
どう違うの?
どう違うの?
818デフォルトの名無しさん
2016/03/03(木) 23:45:09.31ID:L7+NtMAj819デフォルトの名無しさん
2016/03/04(金) 00:05:36.72ID:oWoP2ITQ ha?
820デフォルトの名無しさん
2016/03/04(金) 00:13:03.67ID:HJiU7/Cc821デフォルトの名無しさん
2016/03/04(金) 00:16:41.20ID:oWoP2ITQ nv用語だとローカルにないものが
ローカルメモリなんだなこりゃややこしい
ローカルメモリなんだなこりゃややこしい
822デフォルトの名無しさん
2016/03/04(金) 00:25:56.51ID:HJiU7/Cc 今更の問題だけど、pythonはやはり、2系と3系の互換・移植性が
悪いのが問題かな。今日買った、
基礎 Python (IMPRESS KISO SERIES) 単行本(ソフトカバー) – 2016/3/4
大津 真 (著)
ttp://www.amazon.co.jp/%E5%9F%BA%E7%A4%8E-Python-%E5%A4%A7%E6%B4%A5-%E7%9C%9F/dp/484438015X
が、3系で、ちょっと変わった雰囲気のコードの使い方があったので、面白いの
だけど、2系と併用だと>>815みたいになって、pip installも出来ないし、
ipythonでしか、3系が使えないのが困りもの。2系で使える3系のものも
あるけれど…。
2系を全部消せば3系を使えるのは分かっているのだけど、2系の方が
出来ることがまだまだ多い感じがするからね。まだ2系が多数派でしょ。
あ、仮想環境ヴァージョンを切り替えてやればいいのかな。
悪いのが問題かな。今日買った、
基礎 Python (IMPRESS KISO SERIES) 単行本(ソフトカバー) – 2016/3/4
大津 真 (著)
ttp://www.amazon.co.jp/%E5%9F%BA%E7%A4%8E-Python-%E5%A4%A7%E6%B4%A5-%E7%9C%9F/dp/484438015X
が、3系で、ちょっと変わった雰囲気のコードの使い方があったので、面白いの
だけど、2系と併用だと>>815みたいになって、pip installも出来ないし、
ipythonでしか、3系が使えないのが困りもの。2系で使える3系のものも
あるけれど…。
2系を全部消せば3系を使えるのは分かっているのだけど、2系の方が
出来ることがまだまだ多い感じがするからね。まだ2系が多数派でしょ。
あ、仮想環境ヴァージョンを切り替えてやればいいのかな。
823デフォルトの名無しさん
2016/03/04(金) 00:38:24.47ID:HJiU7/Cc あ、pythonのクダスレだと、勘違いしてました。
失礼いたしました。
失礼いたしました。
824デフォルトの名無しさん
2016/03/04(金) 00:40:30.37ID:UJ4KYtRn2016/03/04(金) 01:07:12.95ID:qzn/KKB0
ウソ扱いしてるお前が自覚のないウソつきなんだけど
2016/03/04(金) 01:15:03.88ID:qzn/KKB0
827デフォルトの名無しさん
2016/03/04(金) 02:24:38.67ID:pNMSyXd+ 自覚のない荒らし
それが団子の糞風味クオリティ
それが団子の糞風味クオリティ
828デフォルトの名無しさん
2016/03/04(金) 07:49:00.48ID:o39fhgVG829デフォルトの名無しさん
2016/03/04(金) 07:50:34.02ID:o39fhgVG830デフォルトの名無しさん
2016/03/04(金) 08:15:25.08ID:uG62vIs+ 匿名で俺って言い張られてもw
831デフォルトの名無しさん
2016/03/04(金) 09:40:06.12ID:sQ9JXJsj >>830
流れが読めないなら黙ってればいいのに
流れが読めないなら黙ってればいいのに
832デフォルトの名無しさん
2016/03/04(金) 09:48:28.02ID:/J2AWB0A Talk me.
833デフォルトの名無しさん
2016/03/04(金) 10:12:42.01ID:uG62vIs+ オレオレ、俺だよ俺
俺だよ
かまってよ
ってかw
俺だよ
かまってよ
ってかw
834デフォルトの名無しさん
2016/03/04(金) 11:01:16.11ID:z53XqiUN お前つまんねぇよ
835デフォルトの名無しさん
2016/03/04(金) 11:46:47.03ID:pNMSyXd+ 団子ちゃん悔しいだろホントはおともだちをつくってワイワイ話したいんだろ?
じゃあ自作板帰ろうな
じゃあ自作板帰ろうな
836デフォルトの名無しさん
2016/03/04(金) 12:02:03.20ID:uG62vIs+ オレオレ主張したいんならコテハンつけろよ
837デフォルトの名無しさん
2016/03/04(金) 15:46:55.78ID:XhYLrWiK 俺だよ
838デフォルトの名無しさん
2016/03/04(金) 19:33:33.59ID:o39fhgVG 答えに窮すると何故か匿名になる
安定の自演糞団子
安定の自演糞団子
839デフォルトの名無しさん
2016/03/04(金) 19:39:28.79ID:dJLsGuAT 自分がやってるからって
他人もそうだと思うなよ
病気の人
他人もそうだと思うなよ
病気の人
840デフォルトの名無しさん
2016/03/04(金) 21:27:27.28ID:nvZ+jZcm まだやってんのかよっw。
シェアードメモリはローカルメモリだよwww。
シェアードメモリはローカルメモリだよwww。
2016/03/04(金) 21:40:33.21ID:qzn/KKB0
方言のない一般名称でいうと「スクラッチパッドメモリ」か
842デフォルトの名無しさん
2016/03/04(金) 21:49:33.06ID:pNMSyXd+ ぼろ出してもコテでい続けるのは正直苦痛だろ?
な、団子
な、団子
843デフォルトの名無しさん
2016/03/04(金) 22:01:24.79ID:WoARA1cN2016/03/04(金) 23:13:53.73ID:qzn/KKB0
名無しばっかりだと不安で団子認定に必死な病気の癖に
845デフォルトの名無しさん
2016/03/05(土) 04:38:45.77ID:GYxVvQjW いい加減通常時に戻ってください
正直どっちもどっちなんだよね
どっちも邪魔
正直どっちもどっちなんだよね
どっちも邪魔
846デフォルトの名無しさん
2016/03/05(土) 07:19:08.49ID:dgmAi0Ww マジで糞団子は去ってくれ
嫌われてるの自覚しろ
嫌われてるの自覚しろ
847デフォルトの名無しさん
2016/03/05(土) 07:44:33.94ID:I9HpfPeT コテの人はいい加減ブログでもなんでも始めたらいいよ
荒らし行為だよ
コテ煽る人もやめてよ
荒らし行為だよ
コテ煽る人もやめてよ
848デフォルトの名無しさん
2016/03/05(土) 09:30:50.56ID:pYtkFW+i 団子さん
お願いです。
あなたが来てからこのスレは機能しなくなりました。
ここは数少ないCUDAの情報交換の場です。
もう、ここに来ないで下さい。
お願いです。
あなたが来てからこのスレは機能しなくなりました。
ここは数少ないCUDAの情報交換の場です。
もう、ここに来ないで下さい。
849デフォルトの名無しさん
2016/03/05(土) 09:48:51.08ID:7wCpFrY5 実際の荒しは倍精度、精神病の人ですけどね
850デフォルトの名無しさん
2016/03/05(土) 10:46:20.52ID:we9m+Baq こいつ一人が団子団子連呼してて
すげー気持ちわりーよ
すげー気持ちわりーよ
851デフォルトの名無しさん
2016/03/05(土) 10:51:01.60ID:7wCpFrY5 好きなんだろ
付き合っちゃいなよ
付き合っちゃいなよ
852デフォルトの名無しさん
2016/03/05(土) 11:18:09.46ID:nqZZ4Fac 最近は傷心の団子をおもちゃにするうんこごっこが流行ってるのか?
853デフォルトの名無しさん
2016/03/05(土) 11:20:03.53ID:7wCpFrY5 いいえ
精神病の人をどうバカにするかが流行ってます
精神病の人をどうバカにするかが流行ってます
854デフォルトの名無しさん
2016/03/05(土) 14:14:59.66ID:oAjMaO0h つーかまともな話しようとすると団子認定されるのは書き込む気を無くさせるためなのだろうか。
技術的な話をすると内容がどうでも団子にされるから、そういう話が理解できないのと、ある意味団子崇拝が酷いのだろうな。
技術的な話をすると内容がどうでも団子にされるから、そういう話が理解できないのと、ある意味団子崇拝が酷いのだろうな。
855デフォルトの名無しさん
2016/03/05(土) 15:25:30.62ID:PxQJKL1y856デフォルトの名無しさん
2016/03/05(土) 16:26:59.56ID:nqZZ4Fac あんまり団子をおもちゃにするなって
ウンコの匂いが充満するじゃないかw
ウンコの匂いが充満するじゃないかw
857デフォルトの名無しさん
2016/03/05(土) 16:43:06.41ID:hF4tqJh9 こんにちは。
CUDA では、__device__ 修飾された関数は、GPU内部から呼び出せますが、
再帰コールが出来ないのはなぜですか?
以下はできますよね?
__device__ int aaa(int x) {
return x * 2;
}
__device__ int bbb(int y) {
return aaa(y) + 3;
}
では、以下は駄目ですか?
__device__ int kaijou(int y) {
if ( y == 1 ) {
return y;
}
else {
return y * kaijou(y-1);
}
}
CUDA では、__device__ 修飾された関数は、GPU内部から呼び出せますが、
再帰コールが出来ないのはなぜですか?
以下はできますよね?
__device__ int aaa(int x) {
return x * 2;
}
__device__ int bbb(int y) {
return aaa(y) + 3;
}
では、以下は駄目ですか?
__device__ int kaijou(int y) {
if ( y == 1 ) {
return y;
}
else {
return y * kaijou(y-1);
}
}
858デフォルトの名無しさん
2016/03/05(土) 17:05:18.01ID:nqZZ4Fac 団子は答えなくて結構
859デフォルトの名無しさん
2016/03/05(土) 17:17:05.46ID:oAjMaO0h ハード的に絶対できないと言うことも無いのだろうが、スタックどれだけ使うか計算できないってのが大きいんじゃね。
860デフォルトの名無しさん
2016/03/05(土) 19:01:23.69ID:wCUhFShW 最適化の邪魔になるから最初から再帰はやめてねーんってことかな。
861デフォルトの名無しさん
2016/03/05(土) 20:36:21.36ID:pXJbdtfw2016/03/05(土) 21:10:49.87ID:18qofrJ5
>>861
俺ならその無駄レス書いてる暇で書けるぞ>>858は無能だから理解できないだけで
>>859
CUDAの自称コアが要素毎プレディケートつきのSIMDユニットを
マルチコアって言い張ってるだけから本物の独立したコアでないから
で終わりなんだけどね。
命令ポインタは「自称コア」ごとに独立してないんだ
「分岐」も本物の分岐ではなく、if-else節を全部一列のコードに展開してプレディケート
しているだけ。プレディケートビットの全要素が0あるいは1になって初めて関数を
飛び越えることができる。
SIMDの要素(自称)ごとに命令ポインタと関数コールスタックを管理できて別々の
命令ステートを独立して持てるならそれは既にSIMDじゃない
俺ならその無駄レス書いてる暇で書けるぞ>>858は無能だから理解できないだけで
>>859
CUDAの自称コアが要素毎プレディケートつきのSIMDユニットを
マルチコアって言い張ってるだけから本物の独立したコアでないから
で終わりなんだけどね。
命令ポインタは「自称コア」ごとに独立してないんだ
「分岐」も本物の分岐ではなく、if-else節を全部一列のコードに展開してプレディケート
しているだけ。プレディケートビットの全要素が0あるいは1になって初めて関数を
飛び越えることができる。
SIMDの要素(自称)ごとに命令ポインタと関数コールスタックを管理できて別々の
命令ステートを独立して持てるならそれは既にSIMDじゃない
2016/03/05(土) 21:25:15.51ID:18qofrJ5
ベクトルを隠蔽しない、1ワープを1つのスレッドとして処理できるプログラミングモデルが
提供されるなら再帰は理屈上可能
それはCPUのSIMDの在り方と同じってことだけど
提供されるなら再帰は理屈上可能
それはCPUのSIMDの在り方と同じってことだけど
864デフォルトの名無しさん
2016/03/05(土) 21:53:08.36ID:LlD1+gMh 独立したコアという前提だから、コア毎のレジスタで表現できる範囲の処理しか出来ないって事だと思ってたけど違うのか。
865デフォルトの名無しさん
2016/03/05(土) 22:00:09.02ID:oAjMaO0h 基本はSIMDプロセッサでの本当の分岐だよ。
簡単な処理ならpredicate実行で済ますけどこれはモダンなプロセッサではSIMT、SIMD、に限らず一般的な手法
状態保存のメモリを最小化するためにdivergent pathを深さ優先でスキャンしていくから、どこかのdivergent pathで無限ループになるとwarp内の別threadには何時までたっても制御が帰ってこないけどね。
簡単な処理ならpredicate実行で済ますけどこれはモダンなプロセッサではSIMT、SIMD、に限らず一般的な手法
状態保存のメモリを最小化するためにdivergent pathを深さ優先でスキャンしていくから、どこかのdivergent pathで無限ループになるとwarp内の別threadには何時までたっても制御が帰ってこないけどね。
2016/03/05(土) 22:00:10.11ID:18qofrJ5
再帰だけならCell SPUすら出来てるからね
命令ポインタの制約のある偽りのコアであること以上の理由はないでしょう
末尾再帰をループに展開するオプションすら用意してないのは処理系の実装の手抜きだろうと思うけど
命令ポインタの制約のある偽りのコアであること以上の理由はないでしょう
末尾再帰をループに展開するオプションすら用意してないのは処理系の実装の手抜きだろうと思うけど
867デフォルトの名無しさん
2016/03/05(土) 22:04:28.99ID:0d+Ags99 可能な限り手を抜くのがハードにとってのGPGPUという物かも
2016/03/05(土) 22:12:52.44ID:18qofrJ5
実害は具体的にはバックトラッキング型の探索アルゴリズムが使えない
(実装方法に制限がある)とかかな
(実装方法に制限がある)とかかな
869デフォルトの名無しさん
2016/03/05(土) 22:24:17.32ID:oAjMaO0h cudaは性能出すために最適化しだすと、結局SIMD構造を意識して記述することになる。
で結局、SIMTでプログラミングするメリットを感じなくなる。
scatter,gatherも便利なのだけど、それしかないから、性能出すためにアラインメント気にしながら連続アドレスにアクセスするように記述していると、普通のSIMDのようにアドレス1つ計算すればすむのに無駄だなぁと。
で、複数のアドレスを受け取ったハードウェアが同じキャッシュラインに乗っていることを検出してメモリアクセス回数を最小化するとか、バカじゃねと。
まあGCNはそこら辺の無駄に対応していて美しいのだが、いかんせんソフトやサポート体制がクソ過ぎて。
で結局、SIMTでプログラミングするメリットを感じなくなる。
scatter,gatherも便利なのだけど、それしかないから、性能出すためにアラインメント気にしながら連続アドレスにアクセスするように記述していると、普通のSIMDのようにアドレス1つ計算すればすむのに無駄だなぁと。
で、複数のアドレスを受け取ったハードウェアが同じキャッシュラインに乗っていることを検出してメモリアクセス回数を最小化するとか、バカじゃねと。
まあGCNはそこら辺の無駄に対応していて美しいのだが、いかんせんソフトやサポート体制がクソ過ぎて。
870デフォルトの名無しさん
2016/03/05(土) 23:05:45.56ID:wCUhFShW >>865
>状態保存のメモリを最小化するためにdivergent pathを深さ優先でスキャンしていく
横からですが参考になります。
再帰がまずいっていうより結果として条件分岐をたくさん通るのがまずいって感じですかね。
>状態保存のメモリを最小化するためにdivergent pathを深さ優先でスキャンしていく
横からですが参考になります。
再帰がまずいっていうより結果として条件分岐をたくさん通るのがまずいって感じですかね。
871デフォルトの名無しさん
2016/03/06(日) 08:40:29.75ID:e28R5O2W 最近は、5,000円くらいの低価格GPUでも、Keplerコアを使っていて、
Fermiコアの上位互換だから、再帰コールも出来るのですか?
でも、関数のローカル変数は、C/C++と全く同じで、スレッド独立だが、
関数引数だけは、スレッド共通だと聞きましたが、これだと再帰コール
できなさそうですが。
Fermiコアの上位互換だから、再帰コールも出来るのですか?
でも、関数のローカル変数は、C/C++と全く同じで、スレッド独立だが、
関数引数だけは、スレッド共通だと聞きましたが、これだと再帰コール
できなさそうですが。
872デフォルトの名無しさん
2016/03/06(日) 11:18:07.40ID:5MH1CF8G あーあまた糞団子が答えちゃった
このスレの事情を知らん奴が見ると余計に迷うぞ
このスレの事情を知らん奴が見ると余計に迷うぞ
2016/03/06(日) 11:35:37.89ID:ejwavTIm
答えられないクズは存在する価値ないでしょ
とっとと失せろよゴミ
とっとと失せろよゴミ
2016/03/06(日) 11:48:38.53ID:ejwavTIm
つーか俺も含めてまだ正解出してないんだけどな
んで正解はこれ、Kepler以降なら再帰に【一応は】対応
http://developer.download.nvidia.com/assets/cuda/files/CUDADownloads/TechBrief_Dynamic_Parallelism_in_CUDA.pdf
誰かツッコミ入れると思ったけど期待外れだったなあ
まあ、俺の説明も何も間違ってないのだけど
(>>862も「出来ない」という説明をしてるのではなく制約を説明しているだけ)
んで正解はこれ、Kepler以降なら再帰に【一応は】対応
http://developer.download.nvidia.com/assets/cuda/files/CUDADownloads/TechBrief_Dynamic_Parallelism_in_CUDA.pdf
誰かツッコミ入れると思ったけど期待外れだったなあ
まあ、俺の説明も何も間違ってないのだけど
(>>862も「出来ない」という説明をしてるのではなく制約を説明しているだけ)
875デフォルトの名無しさん
2016/03/06(日) 13:04:30.88ID:ZW4nksfm 確かにこの団子は鳥屋氏じゃないな。
鳥屋氏はこういう物言いはしない。
鳥屋氏はこういう物言いはしない。
2016/03/06(日) 13:12:58.97ID:ejwavTIm
お前は、中村ちゃぷにちゃんが中身の団子が存在すると思ってるんだ
そこから既に間違ってるよ
そこから既に間違ってるよ
2016/03/06(日) 13:18:27.49ID:ejwavTIm
ドァンゴが、13:18くらいを、お伝えします
2016/03/06(日) 13:20:55.68ID:ejwavTIm
ちゃぷにさんはだんごやさんを嫌ってるはずなので彼がその顔文字を使う理由はないんだよ
自分でNGキーワードに入れてる宣言してたし
自分でNGキーワードに入れてる宣言してたし
2016/03/06(日) 13:22:13.40ID:ejwavTIm
更に言うと彼は精神が壊れて自作PC板で機械翻訳コピペを貼るだけの人に成り下がってしまった
880デフォルトの名無しさん
2016/03/06(日) 13:49:39.00ID:5MH1CF8G 団子=鳥屋でも別にいいじゃねーか
糞撒き散らすだけならどっちもNGだ
糞撒き散らすだけならどっちもNGだ
2016/03/06(日) 13:52:02.23ID:ejwavTIm
中村ちゃぷに君と一緒にしないでくれる?
882デフォルトの名無しさん
2016/03/06(日) 14:37:46.02ID:ZW4nksfm >>879
鳥屋氏に何かあったの? そっちが気になる。
鳥屋氏に何かあったの? そっちが気になる。
2016/03/06(日) 14:39:09.93ID:ejwavTIm
>>882
だから本人に直接聞いて来いよTwitterアカウントあるだろ
だから本人に直接聞いて来いよTwitterアカウントあるだろ
884デフォルトの名無しさん
2016/03/06(日) 14:42:36.51ID:ZW4nksfm 別に本人と直接連絡とれるけどなんか聞きにくいじゃん。
おしえてよ。
おしえてよ。
2016/03/06(日) 14:43:25.75ID:ejwavTIm
俺なら聞けるのか?w
デタラメ言っちゃうけど?
デタラメ言っちゃうけど?
886デフォルトの名無しさん
2016/03/06(日) 14:47:00.65ID:ZW4nksfm 本人に根掘り葉掘り聞くよりいいよ。
2016/03/06(日) 14:48:10.37ID:ejwavTIm
ちなみに彼は10年以上前から初心者の質問板で「メンヘル屋」と呼ばれてたぞ
888デフォルトの名無しさん
2016/03/06(日) 23:01:58.93ID:YHBwXFpN 日曜日の真昼間に2ch張り付きかよ
さすが糞団子だな
さすが糞団子だな
889デフォルトの名無しさん
2016/03/07(月) 07:46:57.77ID:7lblB3Ic 平日の日中ならいいのかw
890デフォルトの名無しさん
2016/03/07(月) 12:32:22.52ID:+p3ICmyk 頼むからNGの外に出てくるな>>889=糞団子
891デフォルトの名無しさん
2016/03/07(月) 17:04:45.58ID:GuUCesj8 マジで氏ねよ!ここ糞団子!!
お前のせいでスレがめちゃくちゃ!
お前のせいでスレがめちゃくちゃ!
892デフォルトの名無しさん
2016/03/07(月) 19:13:33.67ID:IaXW9rhX >>889
なんでそう思ったの?
なんでそう思ったの?
893デフォルトの名無しさん
2016/03/07(月) 21:28:52.80ID:Xyilrqi/ 病気の人が召還してる
894デフォルトの名無しさん
2016/03/08(火) 00:17:54.26ID:zUXR2K3c 糞団子は>>888が効いてる様だなw
2016/03/08(火) 01:03:04.66ID:4ClxYf7a
普通ジャン
896デフォルトの名無しさん
2016/03/08(火) 06:06:38.08ID:sCq0/cKi 家でpcにかじり付いてる人なんだろ
病気の人は
病気の人は
897デフォルトの名無しさん
2016/03/08(火) 07:07:19.82ID:zUXR2K3c 日曜日に一日中2chが普通なんだ
さすが糞団子
さすが糞団子
898デフォルトの名無しさん
2016/03/08(火) 22:50:34.72ID:f+sFTvrc 2chやっているおっさんなら起きてから寝るまで2chが普通だろ
いまはスマホで仕事サボって2chしているおっさんが多いからな
いまはスマホで仕事サボって2chしているおっさんが多いからな
899デフォルトの名無しさん
2016/03/08(火) 22:59:24.25ID:8p7AV+as >>898
今やちょっとゆる会社だと、トイレが満室になって10分待ちだからな。
今やちょっとゆる会社だと、トイレが満室になって10分待ちだからな。
900デフォルトの名無しさん
2016/03/08(火) 23:40:27.24ID:SNBHGm11 そんなにトイレが好きならドアを接着剤で止めてやろうかと思った
901デフォルトの名無しさん
2016/03/09(水) 00:03:43.04ID:QI7bsFp8 平日仕事サボって2chなら、まぁわからなくも無い
理解できないのは日曜日の朝から晩まで2ch張り付きの糞団子
理解できないのは日曜日の朝から晩まで2ch張り付きの糞団子
2016/03/09(水) 00:29:18.66ID:EC2EcKU9
スマホゲーの体力ゲージ消化してるだけじゃね?
2chなんてとっくにブーム終わってるだろ
2chなんてとっくにブーム終わってるだろ
903デフォルトの名無しさん
2016/03/09(水) 12:01:37.54ID:Bn2mru1A904デフォルトの名無しさん
2016/03/09(水) 17:46:55.52ID:+SKBM1r7 へえ、お前、寂しがり屋なんだな
905デフォルトの名無しさん
2016/03/09(水) 19:21:18.15ID:QI7bsFp8 糞団子が急に大人しくなって笑える
かなり効いた様だなw
かなり効いた様だなw
906デフォルトの名無しさん
2016/03/09(水) 19:28:24.12ID:n0++16X2 かまってちゃん
乙
乙
907デフォルトの名無しさん
2016/03/09(水) 21:45:15.09ID:Bn2mru1A コテ団子をNGにして華麗にスルーしないとね
名無しで煽る時は怒るんじゃなくてファブリーズでも置いておきましょう
名無しで煽る時は怒るんじゃなくてファブリーズでも置いておきましょう
908デフォルトの名無しさん
2016/03/09(水) 22:07:10.45ID:F7KphU9Z そんなにかまってほしいのか
909デフォルトの名無しさん
2016/03/09(水) 22:13:39.55ID:QI7bsFp8 それはお前だろ
さっきからチョロチョロウザい
さっきからチョロチョロウザい
910デフォルトの名無しさん
2016/03/09(水) 22:45:09.81ID:F7KphU9Z おまえがそれを言うのか
911デフォルトの名無しさん
2016/03/10(木) 00:12:27.45ID:lJwnXkdm なんだ
やっぱり、かまってちゃんか?
やっぱり、かまってちゃんか?
912デフォルトの名無しさん
2016/03/10(木) 05:26:45.85ID:ElNFIbXj っ鏡
913デフォルトの名無しさん
2016/03/10(木) 20:04:24.43ID:lJwnXkdm いや、朝の5時から鏡出されても…
914デフォルトの名無しさん
2016/03/10(木) 22:07:55.24ID:Kwch6Nj+ ここはプ板のかまってちゃんが集うところです
Nvidiaユーザーってへんなやつ多いよね。どう?
Nvidiaユーザーってへんなやつ多いよね。どう?
2016/03/10(木) 23:24:17.96ID:36+0Q/RN
ミラーマン!
植草教授!
植草教授!
916デフォルトの名無しさん
2016/03/11(金) 00:12:19.52ID:0VtVfbcA はい
かまってちゃんの変な奴来ました
かまってちゃんの変な奴来ました
917デフォルトの名無しさん
2016/03/12(土) 13:14:03.96ID:7MrNfl0C 誰も居ない?
918デフォルトの名無しさん
2016/03/14(月) 00:27:24.09ID:tMjTpPPM 糞団子が荒らして過疎ったな
ホントろくでもねぇ奴だったな
ホントろくでもねぇ奴だったな
919デフォルトの名無しさん
2016/03/15(火) 19:07:06.06ID:NepgFCLn では素人が質問してもいいですか
オプションのCUDA RuntimeをStatic CUDA runtime library (-cudart static)にしているのにもかかわらずcudart32_75.dllが生成されるんですけど不要ですよね?
消しても動くのでいらなさそうではあるんですけど一応残してます
オプションのCUDA RuntimeをStatic CUDA runtime library (-cudart static)にしているのにもかかわらずcudart32_75.dllが生成されるんですけど不要ですよね?
消しても動くのでいらなさそうではあるんですけど一応残してます
920デフォルトの名無しさん
2016/04/06(水) 05:42:39.04ID:b0ehB924921デフォルトの名無しさん
2016/04/08(金) 23:49:33.98ID:Oe8UeTI2 >>862
この辺りからの流れはとても勉強になる
この辺りからの流れはとても勉強になる
922デフォルトの名無しさん
2016/04/13(水) 00:20:39.50ID:vTxSOF48 >>918
CUDAを使ったことがない連中がたくさん来場してたからな
CUDAは映像・画像処理の一般プログラムではなく専門性が非常に高い分野(機械学習や車の自動運転とか)で使うって感じに
なってきたからな。
CUDAを使ったことがない連中がたくさん来場してたからな
CUDAは映像・画像処理の一般プログラムではなく専門性が非常に高い分野(機械学習や車の自動運転とか)で使うって感じに
なってきたからな。
2016/04/13(水) 00:37:51.36ID:uE1XEE4+
レジスタファイルがダイ全体で14Mもあるとかホント化け物ですね
アクセスレイテンシはでかそう
アクセスレイテンシはでかそう
924デフォルトの名無しさん
2016/04/13(水) 18:30:01.95ID:P1TlabSM 言っているそばからw
925デフォルトの名無しさん
2016/04/18(月) 20:53:52.86ID:npM92plo 以前エクサスケールへむけての改良点てやってたけど
warpサイズが4になったりレジスタファイルの階層化とか
やってるのかな
warpサイズが4になったりレジスタファイルの階層化とか
やってるのかな
926デフォルトの名無しさん
2016/04/29(金) 07:41:21.25ID:H9O34uIX >>922
機械学習はマルチGPU
機械学習はマルチGPU
927デフォルトの名無しさん
2016/04/29(金) 19:49:33.11ID:F6Ql+W8p Pascalは忘れられてるけど、倍精度も強化されてるんだよね
単精度を徹底的に削った思い切った方針には目を見張った
単精度を徹底的に削った思い切った方針には目を見張った
2016/04/29(金) 21:17:01.56ID:RuK53SvA
大型スパコン案件に特化して設計したものをGPUに流用してるだけで
それが全部だと言い張られても困りますが
それが全部だと言い張られても困りますが
929デフォルトの名無しさん
2016/04/29(金) 22:49:34.54ID:wZxrhoKH なんでおまえが困るんだよw
930デフォルトの名無しさん
2016/04/30(土) 00:41:27.46ID:oV2mml7H GPGPUは深層学習のブレークで今後一気に需要が高まる?
931デフォルトの名無しさん
2016/04/30(土) 11:52:36.46ID:xhIIf3AZ 高まるだろうね
倍精度と半精度がちょうどいい具合
そうやってGPGPU市場を頑張ってもらって12.1の妨害行為は止めて欲しいわ
倍精度と半精度がちょうどいい具合
そうやってGPGPU市場を頑張ってもらって12.1の妨害行為は止めて欲しいわ
932デフォルトの名無しさん
2016/04/30(土) 22:20:59.01ID:4IpkHcLg その需要の大半はnVIDIAが発表したEyerissみたいな専用チップに喰われるのでは
2016/04/30(土) 22:33:42.88ID:wNNJHcCv
あれはCNNに特化したものでGPUほどのプログラマビリティはない
ディープラーニングって一言で言っても1個のASICで賄えるほど狭い分野じゃない
ディープラーニングって一言で言っても1個のASICで賄えるほど狭い分野じゃない
934デフォルトの名無しさん
2016/04/30(土) 22:45:19.47ID:tL+Fobdg CNNに特化て具体的には行列演算てこと?
2016/04/30(土) 23:20:42.71ID:wNNJHcCv
疎行列に特化したマトリクス演算回路とそれなりの帯域のリングバスネットワークが主な構成要素
って覚えておけば大体間違いない
実はGPUの特性と正反対(GPUは密行列なら得意)
って覚えておけば大体間違いない
実はGPUの特性と正反対(GPUは密行列なら得意)
936デフォルトの名無しさん
2016/04/30(土) 23:25:48.76ID:WnEgJTfp fermi世代ってdouble⇒floatで倍速なはずだよね?
ちっとも速くならないんだが。
ちっとも速くならないんだが。
937デフォルトの名無しさん
2016/05/01(日) 05:03:39.83ID:IAB0IXGv 大分前だけど構造体でデータを渡すとdouble扱いになったことはある
原因は不明
原因は不明
938デフォルトの名無しさん
2016/05/01(日) 10:04:45.15ID:c2Ftkl1w >>937
thx。
調べてみた感じだと、倍精度が無いカードで暗黙のdouble→floatキャストがあったり、
floatへの数値代入で接尾語Fを付けないとdoubleにキャストされたりもあるっぽいね。
fermiでarch=compute_20,sm_20指定してるから基本的には宣言通りだと思ったのだが、実際どうなってるのか・・。
全部floatに置き換えてもわずかしかスピードアップしないのは、バイトコピー分が浮いてるだけな気がする。
thx。
調べてみた感じだと、倍精度が無いカードで暗黙のdouble→floatキャストがあったり、
floatへの数値代入で接尾語Fを付けないとdoubleにキャストされたりもあるっぽいね。
fermiでarch=compute_20,sm_20指定してるから基本的には宣言通りだと思ったのだが、実際どうなってるのか・・。
全部floatに置き換えてもわずかしかスピードアップしないのは、バイトコピー分が浮いてるだけな気がする。
939デフォルトの名無しさん
2016/05/01(日) 10:24:43.67ID:tKi6j9CT 匿名通信(Tor、i2p等)ができるファイル共有ソフトBitComet(ビットコメット)みたいな、
BitTorrentがオープンソースで開発されています
言語は何でも大丈夫だそうなので、P2P書きたい!って人居ませんか?
Covenantの作者(Lyrise)がそういう人と話したいそうなので、よろしければツイートお願いします
https://twitter.com/Lyrise_al
ちなみにオイラはCovenantの完成が待ち遠しいプログラミングできないアスペルガーw
The Covenant Project
概要
Covenantは、純粋P2Pのファイル共有ソフトです
目的
インターネットにおける権力による抑圧を排除することが最終的な目標です。 そのためにCovenantでは、中央に依存しない、高効率で検索能力の高いファイル共有の機能をユーザーに提供します
特徴
Covenant = Bittorrent + Abstract Network + DHT + (Search = WoT + PoW)
接続は抽象化されているので、I2P, Tor, TCP, Proxy, その他を利用可能です
DHTにはKademlia + コネクションプールを使用します
UPnPによってポートを解放することができますが、Port0でも利用可能です(接続数は少なくなります)
検索リクエスト、アップロード、ダウンロードなどのすべての通信はDHT的に分散され、特定のサーバーに依存しません
h
BitTorrentがオープンソースで開発されています
言語は何でも大丈夫だそうなので、P2P書きたい!って人居ませんか?
Covenantの作者(Lyrise)がそういう人と話したいそうなので、よろしければツイートお願いします
https://twitter.com/Lyrise_al
ちなみにオイラはCovenantの完成が待ち遠しいプログラミングできないアスペルガーw
The Covenant Project
概要
Covenantは、純粋P2Pのファイル共有ソフトです
目的
インターネットにおける権力による抑圧を排除することが最終的な目標です。 そのためにCovenantでは、中央に依存しない、高効率で検索能力の高いファイル共有の機能をユーザーに提供します
特徴
Covenant = Bittorrent + Abstract Network + DHT + (Search = WoT + PoW)
接続は抽象化されているので、I2P, Tor, TCP, Proxy, その他を利用可能です
DHTにはKademlia + コネクションプールを使用します
UPnPによってポートを解放することができますが、Port0でも利用可能です(接続数は少なくなります)
検索リクエスト、アップロード、ダウンロードなどのすべての通信はDHT的に分散され、特定のサーバーに依存しません
h
940デフォルトの名無しさん
2016/05/01(日) 11:36:33.54ID:4G1NPxxh eyerissは大量のデーターが複数のフィルター処理されるのに向いてる
941デフォルトの名無しさん
2016/05/09(月) 19:46:40.50ID:ZKk/r1uF 質問があります
環境はwindows 10 | arch linux, cuda 7.5, gcc | visual c++ 2013です
#include <stdio.h>
__global__ void a(char *A){
}
int main(){
a<<1, 1>>(); // (1)
}
(1)で「expression must have integral or enum type」とエラーが出て困っているのですが
ホストコンパイラを呼び出す際に何か間違えているのでしょうか
コンパイルに使用したコマンドは
windows
nvcc -ccbin "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin" -c -DWIN32 -D_CONSOLE -D_MBCS -Xcompiler /EHsc,/W3,/nologo,/Wp64,/O2,/Zi,/MT test.cu
linux
(失念したが大体同じ)
です
環境はwindows 10 | arch linux, cuda 7.5, gcc | visual c++ 2013です
#include <stdio.h>
__global__ void a(char *A){
}
int main(){
a<<1, 1>>(); // (1)
}
(1)で「expression must have integral or enum type」とエラーが出て困っているのですが
ホストコンパイラを呼び出す際に何か間違えているのでしょうか
コンパイルに使用したコマンドは
windows
nvcc -ccbin "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin" -c -DWIN32 -D_CONSOLE -D_MBCS -Xcompiler /EHsc,/W3,/nologo,/Wp64,/O2,/Zi,/MT test.cu
linux
(失念したが大体同じ)
です
942デフォルトの名無しさん
2016/05/09(月) 23:47:16.41ID:+C4ZnXlR943デフォルトの名無しさん
2016/05/09(月) 23:54:10.06ID:ZKk/r1uF ああ、3重括弧でしたか
間抜けなミスで騒いでしまって申し訳ないです
ありがとうございます
間抜けなミスで騒いでしまって申し訳ないです
ありがとうございます
944デフォルトの名無しさん
2016/05/20(金) 21:20:51.03ID:OCEBmLiZ グーグルがTensolFlow用のTPUとかいうの作ってたらしいがどうなの?
945sage
2016/05/23(月) 17:33:55.45ID:w8cwn6FF CUDA fortranで一つの配列に対して2GB以上のメモリを
アロケートすることが出来ず、
PGIのサイト見たら「2GBの壁」とかって説明されているのですが、
これってどうにか克服出来ないですかね?
アロケートすることが出来ず、
PGIのサイト見たら「2GBの壁」とかって説明されているのですが、
これってどうにか克服出来ないですかね?
946デフォルトの名無しさん
2016/05/23(月) 18:16:51.67ID:rInNNyjw >>945
何gbくらい必要なの?
何gbくらい必要なの?
947デフォルトの名無しさん
2016/05/23(月) 18:47:01.54ID:hrdyo10f >>945
fortranなんか使っているからだよ。
fortranなんか使っているからだよ。
948デフォルトの名無しさん
2016/05/23(月) 19:56:12.00ID:Y87SDCLt 32ビットの壁ってこと?
949デフォルトの名無しさん
2016/05/23(月) 22:17:34.30ID:COcpIksW CU_LIMIT_MALLOC_HEAP_SIZE か cudaLimitMallocHeapSize を拡げりゃいいんじゃないかな。
950デフォルトの名無しさん
2016/06/01(水) 19:25:08.39ID:XXwwXNx4 ttps://developer.nvidia.com/cudnn
>Supported on Windows, Linux and MacOS systems with Pascal, Kepler, Maxwell, Tegra K1 or Tegra X1 GPUs.
のTegra K1の文字を見て、サポート復活を喜んでいたのですが、
Tegra K1は32bitでして、
必要なCUDA7.5は64bit必須
もしかして、cuDNNとCUDAは無関係で独立して使えたりしますか?
>Supported on Windows, Linux and MacOS systems with Pascal, Kepler, Maxwell, Tegra K1 or Tegra X1 GPUs.
のTegra K1の文字を見て、サポート復活を喜んでいたのですが、
Tegra K1は32bitでして、
必要なCUDA7.5は64bit必須
もしかして、cuDNNとCUDAは無関係で独立して使えたりしますか?
951デフォルトの名無しさん
2016/06/03(金) 02:14:25.16ID:qw00fiPh CUDA APIで1番始めに呼んだAPIは時間がかかるとのことですが、
時間計測に影響が出ないように事前にどんな関数を呼んでますか?
慣習だったり、よく使われる関数があれば教えてください。
時間計測に影響が出ないように事前にどんな関数を呼んでますか?
慣習だったり、よく使われる関数があれば教えてください。
952デフォルトの名無しさん
2016/06/04(土) 23:09:31.90ID:EzTgQ+dX 工学じゃなくて物理系でもcuda覚える価値ってある?
953デフォルトの名無しさん
2016/06/04(土) 23:54:08.10ID:64JgiXiE 安く実験したいなら
N体や粒子法なんかは普通のCPUじゃたいしたことはできない
N体や粒子法なんかは普通のCPUじゃたいしたことはできない
954デフォルトの名無しさん
2016/06/05(日) 01:52:52.19ID:2/2r2xD9 むしろ、科学計算したい人のための技術だと思う
955デフォルトの名無しさん
2016/06/12(日) 02:11:09.53ID:F98p4y3q 他人にも聞こえんの?
956デフォルトの名無しさん
2016/06/12(日) 12:50:48.33ID:4gtPrZLr この部分がエラー吐くんだが
cuda7.5
struct cuComplex {
float r;
float i;
cuComplex( float a, float b ) : r(a), i(b) {}
__device__ float magnitude2( void ) {
return r * r + i * i;
}
__device__ cuComplex operator*(const cuComplex& a) {
return cuComplex(r*a.r - i*a.i, i*a.r + r*a.i);
}
__device__ cuComplex operator+(const cuComplex& a) {
return cuComplex(r+a.r, i+a.i);
}
};
cuda7.5
struct cuComplex {
float r;
float i;
cuComplex( float a, float b ) : r(a), i(b) {}
__device__ float magnitude2( void ) {
return r * r + i * i;
}
__device__ cuComplex operator*(const cuComplex& a) {
return cuComplex(r*a.r - i*a.i, i*a.r + r*a.i);
}
__device__ cuComplex operator+(const cuComplex& a) {
return cuComplex(r+a.r, i+a.i);
}
};
957デフォルトの名無しさん
2016/06/12(日) 13:24:56.47ID:MCoM6cvm CUDA by EXAMPLEのサンプル?
<cuComplex.h>の定義とぶつかってるんじゃね?
<cuComplex.h>の定義とぶつかってるんじゃね?
958デフォルトの名無しさん
2016/06/12(日) 13:39:51.78ID:4gtPrZLr >>957
そうそう
エラーはこんな感じ
Documents/Visual Studio 2013/Projects/template/cuda_by_example/chapter04/julia_gpu.cu(43): error
: calling a __host__ function("cu_Complex::cu_Complex") from a __device__ function("julia") is not allowed
そうそう
エラーはこんな感じ
Documents/Visual Studio 2013/Projects/template/cuda_by_example/chapter04/julia_gpu.cu(43): error
: calling a __host__ function("cu_Complex::cu_Complex") from a __device__ function("julia") is not allowed
959デフォルトの名無しさん
2016/06/12(日) 13:50:41.56ID:MCoM6cvm 試してないけど、コンストラクタに__device__付けてないのが悪いと言っているような。
960デフォルトの名無しさん
2016/06/12(日) 14:09:28.62ID:4gtPrZLr961デフォルトの名無しさん
2016/06/15(水) 14:42:46.55ID:d2Xou3GL 【GPGPU】くだすれCUDAスレ part8【NVIDIA】
http://echo.2ch.net/test/read.cgi/tech/1416492886/
http://echo.2ch.net/test/read.cgi/tech/1416492886/
962デフォルトの名無しさん
2016/06/15(水) 14:44:14.63ID:d2Xou3GL963デフォルトの名無しさん
2016/06/16(木) 14:11:42.71ID:hLUHI1zp 615 :名前は開発中のものです。:02/06/10 21:48 ID:???
>将来的にはスカートの頂点を触ってヒラヒラさせたりしたいので、どうせシステムメモリーに
ボーンでやる気なのか?つらそー。
616 :◆CKmHzWpc:02/06/11 03:48 ID:zXaLQtp.
みなさんありがとうございます
1.モデルを分割するのが嫌→頂点シェーダ−を使うorシステムメモリに置いてソフトでやる
2.モデルを分割してもいい→ハードのジオメトリブレンドを使ってやる・・
というのが考えられる・・・んですよね
色々組み合わせを試して、高速なのを選びたいと思います
>>615
これは、スカートの頂点をCPUで直接操作しようと思っています
ボーンでやらずに、簡単なクロスシュミレーションのような事を目指しています
どうせモデルの一部をシステムメモリに置くなら、もう全部システムメモリにし
てもいいか、と思ったのです
>将来的にはスカートの頂点を触ってヒラヒラさせたりしたいので、どうせシステムメモリーに
ボーンでやる気なのか?つらそー。
616 :◆CKmHzWpc:02/06/11 03:48 ID:zXaLQtp.
みなさんありがとうございます
1.モデルを分割するのが嫌→頂点シェーダ−を使うorシステムメモリに置いてソフトでやる
2.モデルを分割してもいい→ハードのジオメトリブレンドを使ってやる・・
というのが考えられる・・・んですよね
色々組み合わせを試して、高速なのを選びたいと思います
>>615
これは、スカートの頂点をCPUで直接操作しようと思っています
ボーンでやらずに、簡単なクロスシュミレーションのような事を目指しています
どうせモデルの一部をシステムメモリに置くなら、もう全部システムメモリにし
てもいいか、と思ったのです
964デフォルトの名無しさん
2016/07/20(水) 14:03:52.95ID:S0wpPWZM tess
965デフォルトの名無しさん
2016/09/02(金) 13:17:38.94ID:W3BuWeJb erlangならね
966デフォルトの名無しさん
2016/09/06(火) 19:38:14.96ID:MfZbc6Jb まだ埋まってなかった
967デフォルトの名無しさん
2016/10/03(月) 10:11:13.82ID:1bWakqV9 pascal titan xでcudaを動かしている人に質問ですが高負荷時にクロックダウンは起きませんか
968デフォルトの名無しさん
2017/02/11(土) 05:41:42.45ID:GCRxMqXs 埋め
969デフォルトの名無しさん
2017/03/01(水) 20:35:36.75ID:G4g91z/5 は最多か
970デフォルトの名無しさん
2017/03/03(金) 13:35:21.41ID:nBceVUOh サクラ
971デフォルトの名無しさん
2017/03/03(金) 14:59:54.92ID:GURukhR9 浜田
972デフォルトの名無しさん
2017/03/06(月) 16:46:29.52ID:7tw9lmnR かいな
973デフォルトの名無しさん
2017/05/07(日) 11:40:19.10ID:ehHyxLGM a.exe: a.cu
nvcc -Xcompiler "/wd 4819" a.cu -o a.exe
ウインドーズでメイクファイルで上みたいにやってクダーCコンパイラーでコンパイルしたんですけど
コマンドラインにちゃんと
nvcc -Xcompiler "/wd 4819" a.cu -o a.exe
と表示されたあと
wd
4819
c1xx: fatal error C1083: ソース ファイルを開けません。'略':No such file or directory
a.cu
c1xx: fatal error C1083: ソース ファイルを開けません。'4819':No such file or directory
と出ます。たぶん"に囲まれた中の/がメタ文字じゃないのになぜか消されているとおもうんですけど
なぜエラーになるのか教えてください。
/を//あるいは-に置き換えたらちゃんとコンパイルできました
よろしくお願いします。
" /wd 4819"と"と/の間にスペースを入れても出来ました。
nvcc -Xcompiler "/wd 4819" a.cu -o a.exe
ウインドーズでメイクファイルで上みたいにやってクダーCコンパイラーでコンパイルしたんですけど
コマンドラインにちゃんと
nvcc -Xcompiler "/wd 4819" a.cu -o a.exe
と表示されたあと
wd
4819
c1xx: fatal error C1083: ソース ファイルを開けません。'略':No such file or directory
a.cu
c1xx: fatal error C1083: ソース ファイルを開けません。'4819':No such file or directory
と出ます。たぶん"に囲まれた中の/がメタ文字じゃないのになぜか消されているとおもうんですけど
なぜエラーになるのか教えてください。
/を//あるいは-に置き換えたらちゃんとコンパイルできました
よろしくお願いします。
" /wd 4819"と"と/の間にスペースを入れても出来ました。
974デフォルトの名無しさん
2017/05/07(日) 11:42:54.14ID:ehHyxLGM >>973
は新スレに移行しました
は新スレに移行しました
975デフォルトの名無しさん
2017/10/21(土) 21:44:51.57ID:ch8ppFz8 975
976デフォルトの名無しさん
2017/10/21(土) 21:45:16.89ID:ch8ppFz8 976
977デフォルトの名無しさん
2017/10/21(土) 21:45:35.47ID:ch8ppFz8 977
978デフォルトの名無しさん
2017/10/21(土) 21:46:09.62ID:ch8ppFz8 978
979デフォルトの名無しさん
2017/10/21(土) 21:46:43.41ID:ch8ppFz8 979
980デフォルトの名無しさん
2017/10/21(土) 21:47:04.64ID:ch8ppFz8 980
981デフォルトの名無しさん
2017/10/21(土) 21:47:23.30ID:ch8ppFz8 981
982デフォルトの名無しさん
2017/10/21(土) 21:47:46.15ID:ch8ppFz8 982
983デフォルトの名無しさん
2017/10/21(土) 21:48:12.14ID:ch8ppFz8 983
984デフォルトの名無しさん
2017/10/21(土) 21:48:31.31ID:ch8ppFz8 984
985デフォルトの名無しさん
2017/10/21(土) 21:48:48.87ID:ch8ppFz8 985
986デフォルトの名無しさん
2017/10/21(土) 21:49:04.73ID:ch8ppFz8 986
987デフォルトの名無しさん
2017/10/21(土) 21:49:28.95ID:ch8ppFz8 987
988デフォルトの名無しさん
2017/10/21(土) 21:49:46.87ID:ch8ppFz8 988
989デフォルトの名無しさん
2017/10/21(土) 21:50:13.50ID:ch8ppFz8 989
990デフォルトの名無しさん
2017/10/21(土) 21:51:07.97ID:ch8ppFz8 990
991デフォルトの名無しさん
2017/10/21(土) 21:51:27.98ID:ch8ppFz8 991
992デフォルトの名無しさん
2017/10/21(土) 21:51:48.54ID:ch8ppFz8 992
993デフォルトの名無しさん
2017/10/21(土) 21:52:08.22ID:ch8ppFz8 993
994デフォルトの名無しさん
2017/10/21(土) 21:52:26.37ID:ch8ppFz8 994
995デフォルトの名無しさん
2017/10/21(土) 21:52:42.66ID:ch8ppFz8 995
996デフォルトの名無しさん
2017/10/21(土) 21:53:11.93ID:ch8ppFz8 996
997デフォルトの名無しさん
2017/10/21(土) 21:53:27.63ID:ch8ppFz8 997
998デフォルトの名無しさん
2017/10/21(土) 21:53:44.96ID:ch8ppFz8 998
999デフォルトの名無しさん
2017/10/21(土) 21:54:02.51ID:ch8ppFz8 999
1000デフォルトの名無しさん
2017/10/21(土) 21:54:28.40ID:ch8ppFz8 1000
10011001
Over 1000Thread このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 1065日 22時間 39分 42秒
新しいスレッドを立ててください。
life time: 1065日 22時間 39分 42秒
10021002
Over 1000Thread 5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
レス数が1000を超えています。これ以上書き込みはできません。
ニュース
- ミス・ユニバース フィンランド代表の「つり目」写真が波紋… 本人釈明も批判やまず 協会謝罪「徹底的に検証」へ [冬月記者★]
- 自民・麻生太郎副総裁 石破政権の1年は「どよーん」 高市政権発足で「何となく明るくなった」「世の中のことが決まり動いている」★2 [Hitzeschleier★]
- 【おこめ券】鈴木憲和農相 小泉前農相の備蓄米放出を“反省”「備蓄の円滑な運営を図ってまいります」 [Hitzeschleier★]
- 1人3千円の食品高騰対策、何に使える? あいまいなまま衆院通過 [蚤の市★]
- ゆたぼん 二重手術を報告「めちゃくちゃ気に入っています」 [muffin★]
- 【山形】クマ駆除で誤射した猟友会隊員に町が1663万円請求へ...弾当たり男性大けが2023年 小国町 [nita★]
- 中国人、ガチ超正論。「日本人がアイヌに対してやったことを『問題ない』とするなら、中国が日本人に同じことをしても文句ないだろう?」 [314039747]
- 【悲報】新米、全く売れなくて倉庫が満杯になってしまうwwwwwwwwwwwwwwwwwwww [802034645]
- 木曜日のんなっしょい❗(・o・🍬)仕放題スレ🏡
- 【悲報】日本共産党、ツイッター速報にブチギレ法的措置WWWWWWWWWWWWWWWWWWWWWWWWWWWW [935793931]
- おはようございます [577451214]
- 官僚「台湾有事についての質問か、『政府として逐一答えない』と…(カタカタカタ)」高市「私1人で答弁できるわよ!」 [972432215]
