このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
探検
【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2014/11/20(木) 23:14:46.66ID:jr3oZn27
198デフォルトの名無しさん
2015/11/16(月) 00:30:41.16ID:wFEoXPFZ 質問です
OpenGLとCUDAを使って流体のシミュレーションをしようと考えています
OpenGLの描画とCUDAの計算を別スレッドで行ってCUDAの計算の完了を待たずに描画をしようとするとプログラムが落ちてしまいます
そもそもこういう使い方は間違いですか?
GPUを二つ使わないと不可能なのでしょうか?
OpenGLとCUDAを使って流体のシミュレーションをしようと考えています
OpenGLの描画とCUDAの計算を別スレッドで行ってCUDAの計算の完了を待たずに描画をしようとするとプログラムが落ちてしまいます
そもそもこういう使い方は間違いですか?
GPUを二つ使わないと不可能なのでしょうか?
199デフォルトの名無しさん
2015/11/16(月) 04:31:20.12ID:yRzaBdvH CUDAを待たずにどういったデータで描画してるの?
200デフォルトの名無しさん
2015/11/16(月) 11:12:07.65ID:wFEoXPFZ 正確には
CUDAで計算
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算 ←ここを並列化したい
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算
↓
といった処理の流れです
描画と計算の処理の合計が少しでも速くなれば最終的には速くなる見込みなんですが、描画とCUDAは同時にはできないのでしょうか?
CUDAで計算
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算 ←ここを並列化したい
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算
↓
といった処理の流れです
描画と計算の処理の合計が少しでも速くなれば最終的には速くなる見込みなんですが、描画とCUDAは同時にはできないのでしょうか?
201デフォルトの名無しさん
2015/11/16(月) 13:12:47.35ID:tPyDrti9202デフォルトの名無しさん
2015/11/16(月) 18:15:47.96ID:wFEoXPFZ すいません何故か解決しました
OpenGLによる描画をサブスレッドにしていたところメインスレッドにしたら問題なく実行できるようになりました
OpenGLによる描画をサブスレッドにしていたところメインスレッドにしたら問題なく実行できるようになりました
203デフォルトの名無しさん
2015/11/19(木) 10:22:54.59ID:78JlLUmP AMD、GPGPUの向けの取り組み「ボルツマンイニシアチブ」を発表。CUDAとの互換性も提供 | スラド
http://srad.jp/story/15/11/18/0657225/
http://srad.jp/story/15/11/18/0657225/
204デフォルトの名無しさん
2015/11/19(木) 18:31:49.90ID:xKyOvSDo >>203
いまや一般向けプログラムですらGPUを使うことが普通になったから、
これがC++コンパイラーのデファクトになるだろうな。
DX12,VulkanでGPUするならAMDって流れにまってしまったからな
いまや一般向けプログラムですらGPUを使うことが普通になったから、
これがC++コンパイラーのデファクトになるだろうな。
DX12,VulkanでGPUするならAMDって流れにまってしまったからな
205デフォルトの名無しさん
2015/11/19(木) 20:24:21.71ID:FjjW9TL1 え?
GPGPUの世界は圧倒的にNVIDIAなんだけど?
GPGPUの世界は圧倒的にNVIDIAなんだけど?
206デフォルトの名無しさん
2015/11/19(木) 20:26:18.29ID:Zq45eYUV PC用GPUでもAMDはシェア2割切ってるでしょ
207デフォルトの名無しさん
2015/11/19(木) 21:33:26.48ID:ngiRjlY7 産業向けのガチのやつならNvidiaでくだ
カジュアルな一般向けならIntelをOpenCLでってとこかな
カジュアルな一般向けならIntelをOpenCLでってとこかな
208デフォルトの名無しさん
2015/11/19(木) 22:05:05.00ID:btQoS/xZ 開発の手間で言えばCUDAが一番楽。NV限定にできるなら趣味でやるにしてもそれが一番手軽。
OpenCLならせめてAMD。IntelはOpenCLの経験を積んだ苦労と向け。
OpenCLならせめてAMD。IntelはOpenCLの経験を積んだ苦労と向け。
209デフォルトの名無しさん
2015/11/19(木) 22:09:50.57ID:ngiRjlY7 個人向けやオフィスPCでグラボ別にあるのって少数だから仕方ない。
数を優先するならむしろNvidia切ってIntelのみ対応という手もありうる。
数を優先するならむしろNvidia切ってIntelのみ対応という手もありうる。
210デフォルトの名無しさん
2015/11/19(木) 22:10:45.45ID:ngiRjlY7 慣れてるし開発ツール揃ってるからNが一番楽なんだけど。
211デフォルトの名無しさん
2015/11/19(木) 22:48:28.04ID:btQoS/xZ HD GraphicsでOpenCLやってもCPUと大して性能変わらんぞ?
それに、オンボードグラフィックスのPC自体は多いだろうが、OpenCL1.0しか動かんとか
そもそもOpenCLが使えないのも少なくない。間口でいうならSSEでもやるほうがまし。
そうでなければAMDでOpenCL開発してNVとIntelで動作確認ってところだな。
それに、オンボードグラフィックスのPC自体は多いだろうが、OpenCL1.0しか動かんとか
そもそもOpenCLが使えないのも少なくない。間口でいうならSSEでもやるほうがまし。
そうでなければAMDでOpenCL開発してNVとIntelで動作確認ってところだな。
212デフォルトの名無しさん
2015/11/19(木) 23:05:53.48ID:ngiRjlY7 >>211
CPUの代わりというよりは少しでも計算パワーがほしい場合もあってさ。
GPU使ってる間CPU使えるなら2倍になるじゃん?
あるいはBGでうごかしてフロントでは通常のアプリ使えるじゃない?
絶対的なパワーというよりはそういう所に使いでを見出してる。
確かにOpenCLはHWアーキ変更激しいし世代でがらりと変えてくるからやりにくそうなんだけど。
CPUの代わりというよりは少しでも計算パワーがほしい場合もあってさ。
GPU使ってる間CPU使えるなら2倍になるじゃん?
あるいはBGでうごかしてフロントでは通常のアプリ使えるじゃない?
絶対的なパワーというよりはそういう所に使いでを見出してる。
確かにOpenCLはHWアーキ変更激しいし世代でがらりと変えてくるからやりにくそうなんだけど。
213デフォルトの名無しさん
2015/11/19(木) 23:06:47.02ID:ngiRjlY7 間違い。OpenCLではなくてIntelのGPUね
214デフォルトの名無しさん
2015/11/19(木) 23:36:03.63ID:u4ZVkU4H AMD関連使って良かったと思った印象が一度も無いから使いたくねえな
215デフォルトの名無しさん
2015/11/19(木) 23:54:31.95ID:btQoS/xZ >>212
つまり、少しでもパフォーマンスは欲しいけどdGPUほどの性能は必要なくて、
数を優先するけどオンボードグラフィックスでOpenCLが動く環境に限定していいと。
最初の「カジュアル」からは想像つかないピンポイントな要件だなw
つまり、少しでもパフォーマンスは欲しいけどdGPUほどの性能は必要なくて、
数を優先するけどオンボードグラフィックスでOpenCLが動く環境に限定していいと。
最初の「カジュアル」からは想像つかないピンポイントな要件だなw
216デフォルトの名無しさん
2015/11/20(金) 00:37:51.03ID:XYOZ5eLO カジュアルGPGPUなら内蔵GPUでOpenCL2確定
一方、外GPUを使う高性能GPGPUものは昔はNvidiaが圧倒していたけど、いまはAMDが圧倒しているんだろ?
一方、外GPUを使う高性能GPGPUものは昔はNvidiaが圧倒していたけど、いまはAMDが圧倒しているんだろ?
217デフォルトの名無しさん
2015/11/20(金) 00:49:06.07ID:H4wqwi3u >>215
そうなのかなあ?自分の文章の書き方が良くないのかもしれないが
ほとんどは内蔵GPUしか期待できないから、
その範囲で少しでも計算パワー稼ごうと思ったらそれしかないように思うのだけど
dGPUほどの性能はいらないわけじゃなくて、ほとんど期待できないからしかたなくという感じ。
そうなのかなあ?自分の文章の書き方が良くないのかもしれないが
ほとんどは内蔵GPUしか期待できないから、
その範囲で少しでも計算パワー稼ごうと思ったらそれしかないように思うのだけど
dGPUほどの性能はいらないわけじゃなくて、ほとんど期待できないからしかたなくという感じ。
218デフォルトの名無しさん
2015/11/20(金) 01:19:10.06ID:mr/p17yR 組み込みは知らないけど汎用PCでAMDが圧倒した話なんて聞いたことない
219デフォルトの名無しさん
2015/11/20(金) 05:55:05.61ID:M/+Jbdu5 bitcoin マイニングでは AMD 一択だったようだが
220デフォルトの名無しさん
2015/11/20(金) 07:13:28.40ID:08M9JHWM deep learningではNVIDIA圧勝だろ?
221デフォルトの名無しさん
2015/11/20(金) 07:48:52.29ID:kIzUFPbb bitcoinは専用ASICが開発されてとっくにそっちが主流になりました
GPGPUでやったところで、最早電気代のもとを取ることすらできない
GPGPUが最適といわれるのはASIC以前にFPGA化して売り出すほどの人気もない
マイナー暗号通貨くらいでそんなニーズが世界的な需要をけん引することなんて
ありうるわけがないのだ(需要が少ないからこそGPGPUでやってるわけだし)
GPGPUでやったところで、最早電気代のもとを取ることすらできない
GPGPUが最適といわれるのはASIC以前にFPGA化して売り出すほどの人気もない
マイナー暗号通貨くらいでそんなニーズが世界的な需要をけん引することなんて
ありうるわけがないのだ(需要が少ないからこそGPGPUでやってるわけだし)
222デフォルトの名無しさん
2015/11/20(金) 07:54:46.98ID:h5Le2W6O >>217
一般に配布するアプリでなるべく多くの環境で動かしたいというならOpenCLで、
内蔵GPUしかない人は動けば御の字、もっと速く動かしたければちゃんとしたGPU
買ってね、でいいと思うが。
社内ツールとかで外付けがほとんど期待できないのなら、たいして速くならない
割りに動かないリスクばかり大きいんで素直にCPUのがマシ。
一般に配布するアプリでなるべく多くの環境で動かしたいというならOpenCLで、
内蔵GPUしかない人は動けば御の字、もっと速く動かしたければちゃんとしたGPU
買ってね、でいいと思うが。
社内ツールとかで外付けがほとんど期待できないのなら、たいして速くならない
割りに動かないリスクばかり大きいんで素直にCPUのがマシ。
223デフォルトの名無しさん
2015/11/20(金) 08:15:06.13ID:lXZVvFkG GPUばりばり使ってますってアピールしているプログラムで、avxもsseも使えないようなプログラミングしている例も多いからなぁ。
224デフォルトの名無しさん
2015/11/20(金) 08:21:26.00ID:kIzUFPbb 内蔵GPUはどのみちメインメモリの帯域で頭打ちになるのでたいていの問題では
AVX使ったほうが速いんだよね
どっかのA社のはCPUコア側のメモリ帯域にリミッタがかかってて内蔵GPU側も使わないと
フルに帯域を使えないうえCPU側のAVX性能が残念だから
そもそもそれ専用にプログラム書くほどの市場がない
CUDAは一握りでもちゃんと労力に見合った金を払ってくれる法人ユーザーが一定数いるから
ビジネスとして成立するんだよ。その点法人皆無で貧乏人しかいないA社ユーザーじゃ無理
AVX使ったほうが速いんだよね
どっかのA社のはCPUコア側のメモリ帯域にリミッタがかかってて内蔵GPU側も使わないと
フルに帯域を使えないうえCPU側のAVX性能が残念だから
そもそもそれ専用にプログラム書くほどの市場がない
CUDAは一握りでもちゃんと労力に見合った金を払ってくれる法人ユーザーが一定数いるから
ビジネスとして成立するんだよ。その点法人皆無で貧乏人しかいないA社ユーザーじゃ無理
225デフォルトの名無しさん
2015/11/20(金) 11:47:48.38ID:mr/p17yR ビットコインマイニングとか普通じゃない使い方で普及してるかどうかはどうでもよくないか
226デフォルトの名無しさん
2015/11/27(金) 23:57:44.09ID:tzomtYgx 内臓GPUにこだわるのはそもそもGPUに興味もない人が増えていて
そんな人までプログラム、GPGPUに参加したり利用する可能性が高いからなんだよな
GPU自体ニッチ向けの商売になりつつあるし
そんな人までプログラム、GPGPUに参加したり利用する可能性が高いからなんだよな
GPU自体ニッチ向けの商売になりつつあるし
227デフォルトの名無しさん
2015/11/28(土) 00:01:22.67ID:KoXr/JyJ >>200
DX12でGeForce全般がAsync、非同期処理が苦手といった話があったけどそれとは関係ないよね?
自己解決ってことはやっぱ非同期で処理してたのが原因かもしれないけど
(サブで描画するのは普通にお行儀が悪いけど)
DX12でGeForce全般がAsync、非同期処理が苦手といった話があったけどそれとは関係ないよね?
自己解決ってことはやっぱ非同期で処理してたのが原因かもしれないけど
(サブで描画するのは普通にお行儀が悪いけど)
228デフォルトの名無しさん
2015/11/28(土) 00:33:01.21ID:CG0HQ1xP 単にOpenGLの使い方の問題だろ。context作ったスレッドと別のスレッドからアクセスしようとした。
229デフォルトの名無しさん
2015/11/29(日) 06:40:00.31ID:Ciaig/FJ Win7PCに搭載されたQuadro4000とVC2012のC++AMPでfloatの計算をさせると「グラフィックスが応答しないのでリセットしました」とかメッセージをだしてプログラムが異常終了してしまう。
計算量はCPUを使った場合に8スレッド+AVX2で30分くらい。一枚のグラボで画面表示とGPGPU計算の両立は無理? CUDAを使えば可能なのだろうか?
計算量はCPUを使った場合に8スレッド+AVX2で30分くらい。一枚のグラボで画面表示とGPGPU計算の両立は無理? CUDAを使えば可能なのだろうか?
230デフォルトの名無しさん
2015/11/29(日) 06:56:59.57ID:PzHZjgEI 少し前のレス見てごらん
231デフォルトの名無しさん
2015/11/29(日) 19:54:46.97ID:jxlspYCF >>229
GPGPUではよくあること
そんなことがよくあるから一般PCでGPGPUが激活用されない
一般PCではGPGPUよりOSによる画面表示の方が大事だから、画面表示を激妨げるのものは殺す
GPGPUを必死したいならGPGPU用VGAと画面表示用VGAを搭載する
画面表示を激妨害しないようなゆとりGPGPUプログラムにする
GPGPUではよくあること
そんなことがよくあるから一般PCでGPGPUが激活用されない
一般PCではGPGPUよりOSによる画面表示の方が大事だから、画面表示を激妨げるのものは殺す
GPGPUを必死したいならGPGPU用VGAと画面表示用VGAを搭載する
画面表示を激妨害しないようなゆとりGPGPUプログラムにする
232デフォルトの名無しさん
2015/11/29(日) 22:14:39.86ID:Ciaig/FJ >>231
レスありがとう。
やっぱ、無理なんだ。
動くのは、サンプルだけか。
レスありがとう。
やっぱ、無理なんだ。
動くのは、サンプルだけか。
233デフォルトの名無しさん
2015/11/29(日) 22:41:35.63ID:eJ1soHzz234デフォルトの名無しさん
2015/11/29(日) 23:16:26.96ID:vsLNXKl8 QuadroってTCCモードにできなかったっけか?
235デフォルトの名無しさん
2015/12/02(水) 07:09:10.66ID:REHK1l6p Quadro自体結構前の世代のグラボじゃないっけ・・・
236デフォルトの名無しさん
2015/12/09(水) 05:38:34.32ID:0m997ITy 2秒たったらハードウエア割り込みをかけて一瞬だけ画面表示させて、TDRが問題にならないように制御できないのかな?
237デフォルトの名無しさん
2015/12/09(水) 16:39:41.14ID:OazooE89 あんたエンジニアに向いてないなw
238デフォルトの名無しさん
2015/12/09(水) 19:33:54.62ID:wnEGaksG いや、むしろ向いてるかも
デスマーチを突破するにはそれぐらいのやっつけ仕事が出来なきゃねw
デスマーチを突破するにはそれぐらいのやっつけ仕事が出来なきゃねw
239デフォルトの名無しさん
2015/12/10(木) 02:04:50.93ID:0cE1JGhL 勢いでwindows10にしてからcudaが一切認識しなくなった・・・
version7.5、ドライバ最新版入れてGPU-ZでCUDAにチェック入っているのに初期化で失敗する。
付随してwaifu2x-caffeとかも動かなくなってるしもしかしてまだwin10には対応してなかったのか。
version7.5、ドライバ最新版入れてGPU-ZでCUDAにチェック入っているのに初期化で失敗する。
付随してwaifu2x-caffeとかも動かなくなってるしもしかしてまだwin10には対応してなかったのか。
240デフォルトの名無しさん
2015/12/10(木) 02:30:34.40ID:DGBX2/sF241デフォルトの名無しさん
2015/12/10(木) 22:46:54.47ID:0cE1JGhL >>240
だよね・・・
最新ドライバや少し古いバージョンを入れてみるとGPU-Zでチェックに入ってるんだが
cudaを使うソフトがことごとく検出できませんでしたと出てサンプルプロジェクトも強制終了する。
NVEncのためにCUDAが使えなくなったとかいう記事見たけど、まさかこれが理由ってわけではないよね
だよね・・・
最新ドライバや少し古いバージョンを入れてみるとGPU-Zでチェックに入ってるんだが
cudaを使うソフトがことごとく検出できませんでしたと出てサンプルプロジェクトも強制終了する。
NVEncのためにCUDAが使えなくなったとかいう記事見たけど、まさかこれが理由ってわけではないよね
242デフォルトの名無しさん
2015/12/10(木) 23:22:08.77ID:9vd2ccw+ >>241
win10のvs2013で7.5問題なく使えてる。ついてくるサンプル、ビルド・実行ともに。
win10のvs2013で7.5問題なく使えてる。ついてくるサンプル、ビルド・実行ともに。
243デフォルトの名無しさん
2015/12/10(木) 23:59:35.52ID:Qmth+aWu 今のNvidiaはAMDに比べてかなり安定度低いからな
244デフォルトの名無しさん
2015/12/11(金) 02:14:41.31ID:f48gwmmB >>241
GPU-ZでCUDAが見えるのにアプリケーションが動かないってのはRuntime DLLが
見つからないんじゃないのか?
どっちにしても、CUDAのどの関数を呼んだときに落ちるのか、あるいはそもそも
最初から起動できないのか、どこで落ちているかくらい調べることはできるだろ。
GPU-ZでCUDAが見えるのにアプリケーションが動かないってのはRuntime DLLが
見つからないんじゃないのか?
どっちにしても、CUDAのどの関数を呼んだときに落ちるのか、あるいはそもそも
最初から起動できないのか、どこで落ちているかくらい調べることはできるだろ。
245デフォルトの名無しさん
2015/12/26(土) 22:42:40.07ID:Xbomr4ek246デフォルトの名無しさん
2016/01/10(日) 19:11:06.55ID:EetmQxdp おかげさまでCUDAでchainer使えるようになりました。
爆速で進捗状況見てるだけで嬉しいです。
本当にありがとうございました。
爆速で進捗状況見てるだけで嬉しいです。
本当にありがとうございました。
247デフォルトの名無しさん
2016/01/13(水) 07:52:00.07ID:6qdfgrgw 使えなかった理由は何だったのかと
248デフォルトの名無しさん
2016/01/17(日) 03:23:46.57ID:lMNqpq/q 教えていただきたいことがあります。
ubuntu14で、chainer1.5.1のmnistをGPUで計算できるか試行錯誤中です。
python train_mnist.py --gpu 0 #エラー
sudo python train_mnist.py --gpu 0 #エラー
python train_mnist.py --gpu 0 #うまく動いた
と、sudoをつけて外しただけで、うまく動いた理由を知りたいのです。自分の操作が正しいのか間違ってるのかよくわからなくなってきました…
ログのリンクも添付しています。2つは同じファイルです(dotupはアップローダーの都合上zip圧縮しています)
事前の処理として、vgaのドライバ、cudaとcudnnを入れてパスを通しています。
またchainerのmnistも、cpuの処理ならエラーは出ずに動いていました。
操作は
python train_mnist.pyを実行してcrl+cで止めた。
python train_mnist.py --gpu 0を実行してエラーになった(30-38行目と同じエラー)。
その後、再起動
1行目:VGAの番号を取得した(GTX750tiのIDが0)
28行目:enter押しただけ
29行目:python train_mnist.py --gpu 1 なんとなくid1で動かしてみた。エラー
39行目:id2で動かしてみた。内蔵gpuを使うかも?と思ったがエラー
49行目:id0で試すもエラー
59行目:sudoつけてみてエラー。パスを引き継いでないからnvccがない(=CUDAが見つからない)、cudnnが無いというエラーが出ているのだと思います。
91行目:sudo外したら普通に動いた
http://www.dotup.org/uploda/www.dotup.org702271.zip.html
http://www1.axfc.net/uploader/so/3602353
ubuntu14で、chainer1.5.1のmnistをGPUで計算できるか試行錯誤中です。
python train_mnist.py --gpu 0 #エラー
sudo python train_mnist.py --gpu 0 #エラー
python train_mnist.py --gpu 0 #うまく動いた
と、sudoをつけて外しただけで、うまく動いた理由を知りたいのです。自分の操作が正しいのか間違ってるのかよくわからなくなってきました…
ログのリンクも添付しています。2つは同じファイルです(dotupはアップローダーの都合上zip圧縮しています)
事前の処理として、vgaのドライバ、cudaとcudnnを入れてパスを通しています。
またchainerのmnistも、cpuの処理ならエラーは出ずに動いていました。
操作は
python train_mnist.pyを実行してcrl+cで止めた。
python train_mnist.py --gpu 0を実行してエラーになった(30-38行目と同じエラー)。
その後、再起動
1行目:VGAの番号を取得した(GTX750tiのIDが0)
28行目:enter押しただけ
29行目:python train_mnist.py --gpu 1 なんとなくid1で動かしてみた。エラー
39行目:id2で動かしてみた。内蔵gpuを使うかも?と思ったがエラー
49行目:id0で試すもエラー
59行目:sudoつけてみてエラー。パスを引き継いでないからnvccがない(=CUDAが見つからない)、cudnnが無いというエラーが出ているのだと思います。
91行目:sudo外したら普通に動いた
http://www.dotup.org/uploda/www.dotup.org702271.zip.html
http://www1.axfc.net/uploader/so/3602353
249デフォルトの名無しさん
2016/01/17(日) 04:58:38.94ID:rTwmHzKS 普通にsudoユーザー環境でcudaにパスが通ってないだけ
パスの通し方がわからなかったらこのスレじゃなくてLinuxの初心者スレで
パスの通し方がわからなかったらこのスレじゃなくてLinuxの初心者スレで
250デフォルトの名無しさん
2016/01/17(日) 14:25:56.74ID:lMNqpq/q >>249
ありがとうございました。
ありがとうございました。
251デフォルトの名無しさん
2016/01/21(木) 02:42:05.52ID:ZU2ddnih 素人な質問なんですがコア数×10スレッド立てたときとコア数と同じスレッド数で10ループした場合とでは前者の方が1.5倍くらい早かったんですけど何故でしょうか
物理的に真に並列で動作するのはコア数と同じスレッド数ではないのですか
最適なスレッド数が分からなくて困ってます
物理的に真に並列で動作するのはコア数と同じスレッド数ではないのですか
最適なスレッド数が分からなくて困ってます
2016/01/21(木) 03:02:10.96ID:tV143knu
Core数ではなくWarp数に合わせるべし
Maxwellの場合はコア数とWarp数は一致してるけどね
コア数の倍以上のスレッド数を立ち上げるメリットは、ロード・ストアを含む命令間の
レイテンシが隠蔽されるのでパイプラインの充填率が上げやすくなる。
半面、1スレッドあたりで使えるレジスタ本数が少なくなるので
ロード・ストアを頻発するほどのレジスタ不足になるのは本末転倒なので
並列化は程々に。
これに特に明確な基準はない。最適なスレッド数はトライ&エラーで決める。
慣れてくるとPTXとかCUBINを逆アセンブルして決める場合もある
(昔、理研で重力を自在に操る高貴なる男性研究者がメールで教えてくれた方法)
Maxwellの場合はコア数とWarp数は一致してるけどね
コア数の倍以上のスレッド数を立ち上げるメリットは、ロード・ストアを含む命令間の
レイテンシが隠蔽されるのでパイプラインの充填率が上げやすくなる。
半面、1スレッドあたりで使えるレジスタ本数が少なくなるので
ロード・ストアを頻発するほどのレジスタ不足になるのは本末転倒なので
並列化は程々に。
これに特に明確な基準はない。最適なスレッド数はトライ&エラーで決める。
慣れてくるとPTXとかCUBINを逆アセンブルして決める場合もある
(昔、理研で重力を自在に操る高貴なる男性研究者がメールで教えてくれた方法)
253デフォルトの名無しさん
2016/01/21(木) 03:04:52.51ID:l5HMGS+b >>251
仮想コア等の技術などで、本来あるコア数以上の並列処理をするのが最新のcpuやGPU、そしてライブラリ
そのへんはあまり考えずにリファレンス通りに投げてしまう方がいいと思う。
ライブラリによっても日々変わるので、最適なスレッド数というのはわからない
仮想コア等の技術などで、本来あるコア数以上の並列処理をするのが最新のcpuやGPU、そしてライブラリ
そのへんはあまり考えずにリファレンス通りに投げてしまう方がいいと思う。
ライブラリによっても日々変わるので、最適なスレッド数というのはわからない
254デフォルトの名無しさん
2016/01/21(木) 03:07:26.03ID:UGOk39Ww 並列化のアレコレの時に気をつけるのは基本的にはオーバーヘッドやで
スレッド増やしたことで減るオーバーヘッドを考えてみなされ
スレッド増やしたことで減るオーバーヘッドを考えてみなされ
255デフォルトの名無しさん
2016/01/21(木) 03:12:33.48ID:RQbtFNgK そんなもん処理にもよるわ
メモリアクセスがネックになることが多いから
物理的に真に並列で動作するなんてことの方がまれ
メモリアクセスがネックになることが多いから
物理的に真に並列で動作するなんてことの方がまれ
256デフォルトの名無しさん
2016/01/21(木) 03:52:40.75ID:ZU2ddnih >>252
時間のかかる処理を行っている間に別のワープへ命令を発行しているということなんですかね
時間のかかる処理を行っている間に別のワープへ命令を発行しているということなんですかね
257デフォルトの名無しさん
2016/01/22(金) 08:29:36.48ID:3nKRZUCp ECCにはこだわっても
マザーの品質にこだわらないならいいのではw
マザーの品質にこだわらないならいいのではw
258デフォルトの名無しさん
2016/01/22(金) 17:13:45.63ID:xiqoLqZ5 正直本格的な並列処理は非同期処理対応したGPUを待った方がよさそうなんだけどな
259デフォルトの名無しさん
2016/01/22(金) 18:34:49.79ID:EJ7vldBc 別に待つ必要なくね?
乗り換えれば済むし
乗り換えれば済むし
260デフォルトの名無しさん
2016/01/22(金) 19:37:25.23ID:xiqoLqZ5 RadeonはCUDA対応してないじゃん
nvidia製の非同期処理に対応したCPUは実質的にはまだ出てない
nvidia製の非同期処理に対応したCPUは実質的にはまだ出てない
261デフォルトの名無しさん
2016/01/22(金) 22:55:19.34ID:XypiUmy6262デフォルトの名無しさん
2016/01/22(金) 23:25:50.64ID:t81Zesj8 落ち着けよ
263デフォルトの名無しさん
2016/01/22(金) 23:38:58.19ID:/Be9v1kC 1.メモリ読みにいく
2.大きな遅延が発生するからレジスタ待避
3.別なスレッド立ち上げる
を繰り返し
レジスタがどんどん減っていく
2.大きな遅延が発生するからレジスタ待避
3.別なスレッド立ち上げる
を繰り返し
レジスタがどんどん減っていく
264デフォルトの名無しさん
2016/01/22(金) 23:48:18.02ID:xiqoLqZ5265デフォルトの名無しさん
2016/01/23(土) 00:13:36.37ID:TXnGkntP いや非同期かんけぇねぇし
266デフォルトの名無しさん
2016/01/23(土) 00:24:57.37ID:NV47HivO >>264
お前さっきからなに訳のわからない事言ってんだよ
お前さっきからなに訳のわからない事言ってんだよ
267デフォルトの名無しさん
2016/01/23(土) 02:41:31.78ID:qmdjqcBj 今あるもの使うしかないのに何が言いたいのかわからんぞ
268デフォルトの名無しさん
2016/01/28(木) 12:46:52.07ID:6a4EL6WE 非同期処理はゲームで使うもの
GPGPUには関係ないよ
GPGPUには関係ないよ
269デフォルトの名無しさん
2016/01/28(木) 12:56:49.21ID:6a4EL6WE むしろNVにとっての痛手は倍精度のGPUを作っちゃうと「ゲーム用」が完全にAMD天下になっちゃう事
その最大の理由が、SCEに吹っかけすぎて、NV切りを起こされた事
GCN世代GPUがゲーム機を総獲りし、ローレベルAPIで組まれるAAAタイトルが全てGCNに最適化
これを奇貨としたAMDがDirectX12を提唱→DirectX史上初めての互換切り→AMDデファクトスタンダードの流れ
そのために科学技術演算と言う市場を捨てないといけなくなった
VulkanもDX12に倣って完全にAMDに合わせてるからな
だからディープディープ連呼するんだよ
半精度でディープが出来るからな
その最大の理由が、SCEに吹っかけすぎて、NV切りを起こされた事
GCN世代GPUがゲーム機を総獲りし、ローレベルAPIで組まれるAAAタイトルが全てGCNに最適化
これを奇貨としたAMDがDirectX12を提唱→DirectX史上初めての互換切り→AMDデファクトスタンダードの流れ
そのために科学技術演算と言う市場を捨てないといけなくなった
VulkanもDX12に倣って完全にAMDに合わせてるからな
だからディープディープ連呼するんだよ
半精度でディープが出来るからな
270デフォルトの名無しさん
2016/01/28(木) 15:37:41.52ID:GWvEyNte カメラと連携してリアルタイムで判断をこなしながらってのは非同期処理無しでも大丈夫なのか?
271デフォルトの名無しさん
2016/01/28(木) 17:48:40.92ID:nzOvC+QF ばかがいる
272デフォルトの名無しさん
2016/01/28(木) 20:21:46.33ID:EEHWgu+r ああ、いつもの非同期君だよ
ほっとけ
ほっとけ
273デフォルトの名無しさん
2016/01/29(金) 01:29:29.84ID:q0fsZtFa 非同期はゲーム用って何度言えば
274デフォルトの名無しさん
2016/01/29(金) 02:29:28.87ID:QU8XaCF4 非同期って何だよ
275デフォルトの名無しさん
2016/01/29(金) 07:41:28.07ID:HGJh8rQ+ hyper-q
276デフォルトの名無しさん
2016/01/29(金) 12:43:58.50ID:q0fsZtFa 多分非同期君はNV信者だと思う
そうでなければこんなところのこんなスレで五月蝿く連呼するか?
問題はなぜそうするのか、だ
俺なりに出した答えは、Pascal開発が暗礁に乗り上げてる所為だと思う
未だにモックしか出してないからな、Pascal
そうでなければこんなところのこんなスレで五月蝿く連呼するか?
問題はなぜそうするのか、だ
俺なりに出した答えは、Pascal開発が暗礁に乗り上げてる所為だと思う
未だにモックしか出してないからな、Pascal
277デフォルトの名無しさん
2016/01/29(金) 15:12:50.38ID:HGJh8rQ+ ばかがいる
278デフォルトの名無しさん
2016/01/29(金) 17:56:14.69ID:q0fsZtFa hyper-阿q HG
279デフォルトの名無しさん
2016/01/30(土) 11:53:30.18ID:8faHSQBO VulkanとDirectX12は殆どAMDのためにあるようなものだからな
ゲーム機を支配したAMDはローレベルAPIを支配し、ゲームコードは全てAMD基準になった
これはNVにとっては痛恨
倍精度GPUなんか出す余裕はないだろう
ゲーム機を支配したAMDはローレベルAPIを支配し、ゲームコードは全てAMD基準になった
これはNVにとっては痛恨
倍精度GPUなんか出す余裕はないだろう
280デフォルトの名無しさん
2016/01/30(土) 12:24:57.23ID:o5vi6iJ9 GPUのグローバルメモリのバンド幅計算で質問があります。
バンド幅(GB/s) = メモリのデータレート(MHz) * bit幅(bits) / 8(byte) / 1000
メモリのデータレート GDDR5の場合 clock * 4
DDR3の場合 clock * 2
上記のようになると思うのですが、
DDR3は立ち上がり立ち下がりで情報を伝達するのでクロックの2倍になるのはわかったのですが
GDDR5がDDR3に比べなぜ2倍になるのでしょうか?
バンド幅(GB/s) = メモリのデータレート(MHz) * bit幅(bits) / 8(byte) / 1000
メモリのデータレート GDDR5の場合 clock * 4
DDR3の場合 clock * 2
上記のようになると思うのですが、
DDR3は立ち上がり立ち下がりで情報を伝達するのでクロックの2倍になるのはわかったのですが
GDDR5がDDR3に比べなぜ2倍になるのでしょうか?
281デフォルトの名無しさん
2016/01/30(土) 14:18:14.00ID:PJcKfdaW クロック信号1周期に4回データ転送してるから4倍
282デフォルトの名無しさん
2016/01/30(土) 16:35:02.53ID:o5vi6iJ9 >>281
回答ありがとうございます。
NVIDIAのスペックを見ていたのですが仕様値と計算があわず、わからなくなってしまいました。
http://www.nvidia.co.jp/object/product_tesla_C2050_C2070_jp.html
これによると、C2050は384bit, 1500MHz, で144GB/sとあるのですが、計算してみると
384 * 1500 * 4 / 8 / 1000 = 288GB/s
になってしまうのです。仮に1500MHzがデータレートと仮定すると
384 * 1500 / 8 / 1000 = 72GB/s
どちらも仕様値と違ってしまいます。もしかしてバンド幅はメモリのリードとライト
合わせての値なのでしょうか?
回答ありがとうございます。
NVIDIAのスペックを見ていたのですが仕様値と計算があわず、わからなくなってしまいました。
http://www.nvidia.co.jp/object/product_tesla_C2050_C2070_jp.html
これによると、C2050は384bit, 1500MHz, で144GB/sとあるのですが、計算してみると
384 * 1500 * 4 / 8 / 1000 = 288GB/s
になってしまうのです。仮に1500MHzがデータレートと仮定すると
384 * 1500 / 8 / 1000 = 72GB/s
どちらも仕様値と違ってしまいます。もしかしてバンド幅はメモリのリードとライト
合わせての値なのでしょうか?
283デフォルトの名無しさん
2016/01/30(土) 16:36:27.36ID:o5vi6iJ9 つまり上り72GB/s、下り72GB/sの合わせて144GB/sなのでしょうか?
284デフォルトの名無しさん
2016/01/30(土) 16:59:32.46ID:8faHSQBO NVはもう倍精度のGPUは造らないよ
ローレベルAPIをAMDに奪われた現在、半精度GPUで描画特化をせざるを得ない
ローレベルAPIをAMDに奪われた現在、半精度GPUで描画特化をせざるを得ない
285デフォルトの名無しさん
2016/01/30(土) 18:25:46.28ID:ypcCS+Q8 CUDAスレで何言ってるんだかこのアホは
286デフォルトの名無しさん
2016/01/31(日) 00:13:30.67ID:v07wXVxF 描画とかもうどうでも良い
時代はGPGPU
時代はGPGPU
287デフォルトの名無しさん
2016/01/31(日) 00:57:29.07ID:cNgLqKMa GPGPUでは倍精度がものを言うが、NVはもう倍精度に手を出せないということ
288デフォルトの名無しさん
2016/01/31(日) 01:06:55.62ID:V+Yf7lZI 単精度でも十分みたいな話じゃなかったの?
それでディープ・ラーニングを推し進めていると思ったんだけど
それでディープ・ラーニングを推し進めていると思ったんだけど
289デフォルトの名無しさん
2016/01/31(日) 01:23:20.65ID:cNgLqKMa 深層学習とビッグデータは半精度(でも可)
しかしこのスレの関心はあくまでも倍精度、出来るならば倍々精度だろ?
しかしこの倍精度は、CS機の競争環境でオマケがつくか削られるか都合で決まる
そう言うわけでVoltaはアメリカ政府との契約違反に問われないように出荷するだろうけど、
これはカスタム
AMDにCS機が獲られた現在、NVのGPUは描画/ワットパフォーマンス特化路線に軸足を置いた
DirectX11まではハイレベルAPIだったから倍精度GPUを出す余地があり、同時に科学技術演算市場を狙う二兎を追う路線を
追求できた
しかしDirectX12は完全にAMDのGCN世代GPUのハード直叩き規格だから普通に戦ったらfps/解像度共に負けてしまう
だからこそ半精度に活路を求めている
しかしこのスレの関心はあくまでも倍精度、出来るならば倍々精度だろ?
しかしこの倍精度は、CS機の競争環境でオマケがつくか削られるか都合で決まる
そう言うわけでVoltaはアメリカ政府との契約違反に問われないように出荷するだろうけど、
これはカスタム
AMDにCS機が獲られた現在、NVのGPUは描画/ワットパフォーマンス特化路線に軸足を置いた
DirectX11まではハイレベルAPIだったから倍精度GPUを出す余地があり、同時に科学技術演算市場を狙う二兎を追う路線を
追求できた
しかしDirectX12は完全にAMDのGCN世代GPUのハード直叩き規格だから普通に戦ったらfps/解像度共に負けてしまう
だからこそ半精度に活路を求めている
290デフォルトの名無しさん
2016/01/31(日) 01:27:41.36ID:v07wXVxF DirectX12とかどうでもよろしい
ここはCUDAのスレ
AMDな方はOpenCL()のスレにお帰り下さい
ここはCUDAのスレ
AMDな方はOpenCL()のスレにお帰り下さい
291デフォルトの名無しさん
2016/01/31(日) 02:27:05.81ID:tWmMlKqo GeforceはいいからTeslaがんばれ
292デフォルトの名無しさん
2016/01/31(日) 08:33:54.41ID:v07wXVxF TeslaよりTitanの方が良いよ
293デフォルトの名無しさん
2016/01/31(日) 11:45:10.40ID:k6wK0w/E ばかが常駐するようになったな
294デフォルトの名無しさん
2016/02/01(月) 01:21:54.44ID:27TlSaYk 倍精度倍精度って、使い道も無いくせに
滑稽だな
戦闘力みたいなイメージか
滑稽だな
戦闘力みたいなイメージか
295デフォルトの名無しさん
2016/02/01(月) 02:50:26.19ID:9fNLotPU 科学計算でも計算量が多くてそこまで精度が必要なものってどれだけあるんだ
296デフォルトの名無しさん
2016/02/01(月) 07:15:29.10ID:BOcjqYcH 科学技術計算では単精度や半精度で行う方がよっぽど珍しいと思うが
297デフォルトの名無しさん
2016/02/01(月) 09:11:27.82ID:fnCrDph6 物理系じゃ大きい数+極小の数なんて普通にあるからな
倍精度でも足りなくて四倍精度必要になったりすることもざら
倍精度でも足りなくて四倍精度必要になったりすることもざら
298デフォルトの名無しさん
2016/02/01(月) 09:26:01.45ID:2VMpgIMC Kerasってdeep learningフレームワークはbackend.pyてファイルを追加するだけでopenclでも動くようになってるよ。誰かbackendを書かないか?
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 中国の渡航自粛要請1カ月 大阪の観光バス予約ゼロ、東北にも波及 [蚤の市★]
- 高市首相の答弁書に「台湾有事答えない」と明記 存立危機発言当時 ★12 [蚤の市★]
- 【神戸】エレベーター「かご」なく男性医師が転落死 大手「三菱電機ビルソリューションズ」の担当者、安全装置切り放置か [ぐれ★]
- 女性天皇「賛成」69%、将来の皇位継承「不安」68%…読売世論調査 [蚤の市★]
- 不倫疑惑の永野芽郁さん、CM削除ドミノの違約金“やはり発生は免れない”可能性 約10億円になる見込み、本人は全額支払う覚悟 [牛丼★]
- 【群馬】横断歩道を渡っていたNHKアナウンサーが車にはねられ骨折などの重傷 前橋市 [ぐれ★]
- ガチニートのモーニングがお洒落すぎる件
- 趣味に年50万って多い?
- 【悲報】ドイツ人「なんで日本人って自炊するの?出来合の惣菜や冷食食った方が楽でコスパいいやん。そんなんだから低生産性なんだよ [786648259]
- 底辺テイカー気質Vtuberを破壊する遊びが闇深いと話題に [922647923]
- 【動画】まんさん、アラジンのジーニーみたいな男にボコボコにされる🧞‍♂ [632966346]
- 【時事】立憲民主党、30代の支持率が「ゼロ」😨 [369521721]
