【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net

**デフォルトの名無しさん** · 2014/11/20(木) 23:14:46.66

このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/

**デフォルトの名無しさん** · 2015/11/19(木) 23:06:47.02

間違い。OpenCLではなくてIntelのGPUね

**デフォルトの名無しさん** · 2015/11/19(木) 23:36:03.63

AMD関連使って良かったと思った印象が一度も無いから使いたくねえな

**デフォルトの名無しさん** · 2015/11/19(木) 23:54:31.95

>>212
つまり、少しでもパフォーマンスは欲しいけどdGPUほどの性能は必要なくて、
数を優先するけどオンボードグラフィックスでOpenCLが動く環境に限定していいと。
最初の「カジュアル」からは想像つかないピンポイントな要件だなｗ

**デフォルトの名無しさん** · 2015/11/20(金) 00:37:51.03

カジュアルGPGPUなら内蔵GPUでOpenCL2確定
一方、外GPUを使う高性能GPGPUものは昔はNvidiaが圧倒していたけど、いまはAMDが圧倒しているんだろ？

**デフォルトの名無しさん** · 2015/11/20(金) 00:49:06.07

>>215
そうなのかなあ？自分の文章の書き方が良くないのかもしれないが
ほとんどは内蔵GPUしか期待できないから、
その範囲で少しでも計算パワー稼ごうと思ったらそれしかないように思うのだけど

dGPUほどの性能はいらないわけじゃなくて、ほとんど期待できないからしかたなくという感じ。

**デフォルトの名無しさん** · 2015/11/20(金) 01:19:10.06

組み込みは知らないけど汎用PCでAMDが圧倒した話なんて聞いたことない

**デフォルトの名無しさん** · 2015/11/20(金) 05:55:05.61

bitcoin マイニングでは AMD 一択だったようだが

**デフォルトの名無しさん** · 2015/11/20(金) 07:13:28.40

deep learningではNVIDIA圧勝だろ？

**デフォルトの名無しさん** · 2015/11/20(金) 07:48:52.29

bitcoinは専用ASICが開発されてとっくにそっちが主流になりました
GPGPUでやったところで、最早電気代のもとを取ることすらできない

GPGPUが最適といわれるのはASIC以前にFPGA化して売り出すほどの人気もない
マイナー暗号通貨くらいでそんなニーズが世界的な需要をけん引することなんて
ありうるわけがないのだ（需要が少ないからこそGPGPUでやってるわけだし）

**デフォルトの名無しさん** · 2015/11/20(金) 07:54:46.98

>>217
一般に配布するアプリでなるべく多くの環境で動かしたいというならOpenCLで、
内蔵GPUしかない人は動けば御の字、もっと速く動かしたければちゃんとしたGPU
買ってね、でいいと思うが。
社内ツールとかで外付けがほとんど期待できないのなら、たいして速くならない
割りに動かないリスクばかり大きいんで素直にCPUのがマシ。

**デフォルトの名無しさん** · 2015/11/20(金) 08:15:06.13

GPUばりばり使ってますってアピールしているプログラムで、avxもsseも使えないようなプログラミングしている例も多いからなぁ。

**デフォルトの名無しさん** · 2015/11/20(金) 08:21:26.00

内蔵GPUはどのみちメインメモリの帯域で頭打ちになるのでたいていの問題では
AVX使ったほうが速いんだよね

どっかのA社のはCPUコア側のメモリ帯域にリミッタがかかってて内蔵GPU側も使わないと
フルに帯域を使えないうえCPU側のAVX性能が残念だから
そもそもそれ専用にプログラム書くほどの市場がない

CUDAは一握りでもちゃんと労力に見合った金を払ってくれる法人ユーザーが一定数いるから
ビジネスとして成立するんだよ。その点法人皆無で貧乏人しかいないA社ユーザーじゃ無理

**デフォルトの名無しさん** · 2015/11/20(金) 11:47:48.38

ビットコインマイニングとか普通じゃない使い方で普及してるかどうかはどうでもよくないか

**デフォルトの名無しさん** · 2015/11/27(金) 23:57:44.09

内臓GPUにこだわるのはそもそもGPUに興味もない人が増えていて
そんな人までプログラム、GPGPUに参加したり利用する可能性が高いからなんだよな
GPU自体ニッチ向けの商売になりつつあるし

**デフォルトの名無しさん** · 2015/11/28(土) 00:01:22.67

>>200
DX12でGeForce全般がAsync、非同期処理が苦手といった話があったけどそれとは関係ないよね？
自己解決ってことはやっぱ非同期で処理してたのが原因かもしれないけど
（サブで描画するのは普通にお行儀が悪いけど）

**デフォルトの名無しさん** · 2015/11/28(土) 00:33:01.21

単にOpenGLの使い方の問題だろ。context作ったスレッドと別のスレッドからアクセスしようとした。

**デフォルトの名無しさん** · 2015/11/29(日) 06:40:00.31

Win7PCに搭載されたQuadro4000とVC2012のC++AMPでfloatの計算をさせると「グラフィックスが応答しないのでリセットしました」とかメッセージをだしてプログラムが異常終了してしまう。
計算量はCPUを使った場合に８スレッド＋AVX2で30分くらい。一枚のグラボで画面表示とGPGPU計算の両立は無理？ CUDAを使えば可能なのだろうか？

**デフォルトの名無しさん** · 2015/11/29(日) 06:56:59.57

少し前のレス見てごらん

**デフォルトの名無しさん** · 2015/11/29(日) 19:54:46.97

>>229
GPGPUではよくあること
そんなことがよくあるから一般PCでGPGPUが激活用されない
一般PCではGPGPUよりOSによる画面表示の方が大事だから、画面表示を激妨げるのものは殺す
GPGPUを必死したいならGPGPU用VGAと画面表示用VGAを搭載する
画面表示を激妨害しないようなゆとりGPGPUプログラムにする

**デフォルトの名無しさん** · 2015/11/29(日) 22:14:39.86

＞＞２３１
レスありがとう。
やっぱ、無理なんだ。
動くのは、サンプルだけか。

**デフォルトの名無しさん** · 2015/11/29(日) 22:41:35.63

GPGPU始めたときに最初に引っかかるところだな。
これの一番下。
https://msdn.microsoft.com/ja-jp/library/hh873126.aspx

**デフォルトの名無しさん** · 2015/11/29(日) 23:16:26.96

QuadroってTCCモードにできなかったっけか？

**デフォルトの名無しさん** · 2015/12/02(水) 07:09:10.66

Quadro自体結構前の世代のグラボじゃないっけ・・・

**デフォルトの名無しさん** · 2015/12/09(水) 05:38:34.32

２秒たったらハードウエア割り込みをかけて一瞬だけ画面表示させて、TDRが問題にならないように制御できないのかな？

**デフォルトの名無しさん** · 2015/12/09(水) 16:39:41.14

あんたエンジニアに向いてないなw

**デフォルトの名無しさん** · 2015/12/09(水) 19:33:54.62

いや、むしろ向いてるかも
デスマーチを突破するにはそれぐらいのやっつけ仕事が出来なきゃねw

**デフォルトの名無しさん** · 2015/12/10(木) 02:04:50.93

勢いでwindows10にしてからcudaが一切認識しなくなった・・・
version7.5、ドライバ最新版入れてGPU-ZでCUDAにチェック入っているのに初期化で失敗する。
付随してwaifu2x-caffeとかも動かなくなってるしもしかしてまだwin10には対応してなかったのか。

**デフォルトの名無しさん** · 2015/12/10(木) 02:30:34.40

>>239
http://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/#axzz3tqUfj73l
によるとサポートしてそうだけど

**デフォルトの名無しさん** · 2015/12/10(木) 22:46:54.47

>>240
だよね・・・
最新ドライバや少し古いバージョンを入れてみるとGPU-Zでチェックに入ってるんだが
cudaを使うソフトがことごとく検出できませんでしたと出てサンプルプロジェクトも強制終了する。
NVEncのためにCUDAが使えなくなったとかいう記事見たけど、まさかこれが理由ってわけではないよね

**デフォルトの名無しさん** · 2015/12/10(木) 23:22:08.77

>>241
win10のvs2013で7.5問題なく使えてる。ついてくるサンプル、ビルド・実行ともに。

**デフォルトの名無しさん** · 2015/12/10(木) 23:59:35.52

今のNvidiaはAMDに比べてかなり安定度低いからな

**デフォルトの名無しさん** · 2015/12/11(金) 02:14:41.31

>>241
GPU-ZでCUDAが見えるのにアプリケーションが動かないってのはRuntime DLLが
見つからないんじゃないのか？
どっちにしても、CUDAのどの関数を呼んだときに落ちるのか、あるいはそもそも
最初から起動できないのか、どこで落ちているかくらい調べることはできるだろ。

**デフォルトの名無しさん** · 2015/12/26(土) 22:42:40.07

>>238
そんな態度でいるからデスマーチに陥るんじゃ？
いざとなった時の処世術は身につけておかなければいけないとは思うけど

**デフォルトの名無しさん** · 2016/01/10(日) 19:11:06.55

おかげさまでCUDAでchainer使えるようになりました。
爆速で進捗状況見てるだけで嬉しいです。
本当にありがとうございました。

**デフォルトの名無しさん** · 2016/01/13(水) 07:52:00.07

使えなかった理由は何だったのかと

**デフォルトの名無しさん** · 2016/01/17(日) 03:23:46.57

教えていただきたいことがあります。
ubuntu14で、chainer1.5.1のmnistをGPUで計算できるか試行錯誤中です。
python train_mnist.py --gpu 0 #エラー　
sudo python train_mnist.py --gpu 0 #エラー
python train_mnist.py --gpu 0 #うまく動いた
と、sudoをつけて外しただけで、うまく動いた理由を知りたいのです。自分の操作が正しいのか間違ってるのかよくわからなくなってきました…
ログのリンクも添付しています。2つは同じファイルです(dotupはアップローダーの都合上zip圧縮しています)

事前の処理として、vgaのドライバ、cudaとcudnnを入れてパスを通しています。
またchainerのmnistも、cpuの処理ならエラーは出ずに動いていました。

操作は
python train_mnist.pyを実行してcrl+cで止めた。
python train_mnist.py --gpu 0を実行してエラーになった（30-38行目と同じエラー）。
その後、再起動
1行目：VGAの番号を取得した（GTX750tiのIDが0）
28行目：enter押しただけ
29行目：python train_mnist.py --gpu 1　なんとなくid1で動かしてみた。エラー
39行目：id2で動かしてみた。内蔵gpuを使うかも？と思ったがエラー
49行目：id0で試すもエラー
59行目：sudoつけてみてエラー。パスを引き継いでないからnvccがない（=CUDAが見つからない）、cudnnが無いというエラーが出ているのだと思います。
91行目：sudo外したら普通に動いた

http://www.dotup.org/uploda/www.dotup.org702271.zip.html
http://www1.axfc.net/uploader/so/3602353

**デフォルトの名無しさん** · 2016/01/17(日) 04:58:38.94

普通にsudoユーザー環境でcudaにパスが通ってないだけ
パスの通し方がわからなかったらこのスレじゃなくてLinuxの初心者スレで

**デフォルトの名無しさん** · 2016/01/17(日) 14:25:56.74

>>249
ありがとうございました。

**デフォルトの名無しさん** · 2016/01/21(木) 02:42:05.52

素人な質問なんですがコア数×10スレッド立てたときとコア数と同じスレッド数で10ループした場合とでは前者の方が1.5倍くらい早かったんですけど何故でしょうか
物理的に真に並列で動作するのはコア数と同じスレッド数ではないのですか
最適なスレッド数が分からなくて困ってます

**,,・´∀｀・,,）っ-○○○** · 2016/01/21(木) 03:02:10.96

Core数ではなくWarp数に合わせるべし
Maxwellの場合はコア数とWarp数は一致してるけどね
コア数の倍以上のスレッド数を立ち上げるメリットは、ロード・ストアを含む命令間の
レイテンシが隠蔽されるのでパイプラインの充填率が上げやすくなる。
半面、1スレッドあたりで使えるレジスタ本数が少なくなるので

ロード・ストアを頻発するほどのレジスタ不足になるのは本末転倒なので
並列化は程々に。
これに特に明確な基準はない。最適なスレッド数はトライ＆エラーで決める。

慣れてくるとPTXとかCUBINを逆アセンブルして決める場合もある
（昔、理研で重力を自在に操る高貴なる男性研究者がメールで教えてくれた方法）

**デフォルトの名無しさん** · 2016/01/21(木) 03:04:52.51

>>251
仮想コア等の技術などで、本来あるコア数以上の並列処理をするのが最新のcpuやGPU、そしてライブラリ
そのへんはあまり考えずにリファレンス通りに投げてしまう方がいいと思う。
ライブラリによっても日々変わるので、最適なスレッド数というのはわからない

**デフォルトの名無しさん** · 2016/01/21(木) 03:07:26.03

並列化のアレコレの時に気をつけるのは基本的にはオーバーヘッドやで
スレッド増やしたことで減るオーバーヘッドを考えてみなされ

**デフォルトの名無しさん** · 2016/01/21(木) 03:12:33.48

そんなもん処理にもよるわ
メモリアクセスがネックになることが多いから
物理的に真に並列で動作するなんてことの方がまれ

**デフォルトの名無しさん** · 2016/01/21(木) 03:52:40.75

>>252
時間のかかる処理を行っている間に別のワープへ命令を発行しているということなんですかね

**デフォルトの名無しさん** · 2016/01/22(金) 08:29:36.48

ECCにはこだわっても
マザーの品質にこだわらないならいいのではｗ

**デフォルトの名無しさん** · 2016/01/22(金) 17:13:45.63

正直本格的な並列処理は非同期処理対応したGPUを待った方がよさそうなんだけどな

**デフォルトの名無しさん** · 2016/01/22(金) 18:34:49.79

別に待つ必要なくね？
乗り換えれば済むし

**デフォルトの名無しさん** · 2016/01/22(金) 19:37:25.23

RadeonはCUDA対応してないじゃん
nvidia製の非同期処理に対応したCPUは実質的にはまだ出てない

**デフォルトの名無しさん** · 2016/01/22(金) 22:55:19.34

>>260
＞RadeonはCUDA対応してないじゃん
当たり前じゃんw

＞nvidia製の非同期処理に対応したCPUは実質的にはまだ出てない
だからなに？
それまで待ってるの？
意味がわからない

**デフォルトの名無しさん** · 2016/01/22(金) 23:25:50.64

落ち着けよ

**デフォルトの名無しさん** · 2016/01/22(金) 23:38:58.19

1.メモリ読みにいく
2.大きな遅延が発生するからレジスタ待避
3.別なスレッド立ち上げる

を繰り返し
レジスタがどんどん減っていく

**デフォルトの名無しさん** · 2016/01/22(金) 23:48:18.02

>>263
これがあるから並列処理に制限がかかって
非同期処理はnvidiaがNG出す状況になってるんだろうなと思う

**デフォルトの名無しさん** · 2016/01/23(土) 00:13:36.37

いや非同期かんけぇねぇし

**デフォルトの名無しさん** · 2016/01/23(土) 00:24:57.37

>>264
お前さっきからなに訳のわからない事言ってんだよ

**デフォルトの名無しさん** · 2016/01/23(土) 02:41:31.78

今あるもの使うしかないのに何が言いたいのかわからんぞ

**デフォルトの名無しさん** · 2016/01/28(木) 12:46:52.07

非同期処理はゲームで使うもの
GPGPUには関係ないよ

**デフォルトの名無しさん** · 2016/01/28(木) 12:56:49.21

むしろNVにとっての痛手は倍精度のGPUを作っちゃうと「ゲーム用」が完全にAMD天下になっちゃう事
その最大の理由が、SCEに吹っかけすぎて、NV切りを起こされた事

GCN世代GPUがゲーム機を総獲りし、ローレベルAPIで組まれるAAAタイトルが全てGCNに最適化
これを奇貨としたAMDがDirectX12を提唱→DirectX史上初めての互換切り→AMDデファクトスタンダードの流れ
そのために科学技術演算と言う市場を捨てないといけなくなった

VulkanもDX12に倣って完全にAMDに合わせてるからな
だからディープディープ連呼するんだよ
半精度でディープが出来るからな

**デフォルトの名無しさん** · 2016/01/28(木) 15:37:41.52

カメラと連携してリアルタイムで判断をこなしながらってのは非同期処理無しでも大丈夫なのか？

**デフォルトの名無しさん** · 2016/01/28(木) 17:48:40.92

ばかがいる

**デフォルトの名無しさん** · 2016/01/28(木) 20:21:46.33

ああ、いつもの非同期君だよ
ほっとけ

**デフォルトの名無しさん** · 2016/01/29(金) 01:29:29.84

非同期はゲーム用って何度言えば

**デフォルトの名無しさん** · 2016/01/29(金) 02:29:28.87

非同期って何だよ

**デフォルトの名無しさん** · 2016/01/29(金) 07:41:28.07

hyper-q

**デフォルトの名無しさん** · 2016/01/29(金) 12:43:58.50

多分非同期君はNV信者だと思う
そうでなければこんなところのこんなスレで五月蝿く連呼するか？

問題はなぜそうするのか、だ

俺なりに出した答えは、Pascal開発が暗礁に乗り上げてる所為だと思う
未だにモックしか出してないからな、Pascal

**デフォルトの名無しさん** · 2016/01/29(金) 15:12:50.38

ばかがいる

**デフォルトの名無しさん** · 2016/01/29(金) 17:56:14.69

hyper-阿q　HG

**デフォルトの名無しさん** · 2016/01/30(土) 11:53:30.18

VulkanとDirectX12は殆どAMDのためにあるようなものだからな
ゲーム機を支配したAMDはローレベルAPIを支配し、ゲームコードは全てAMD基準になった
これはNVにとっては痛恨

倍精度GPUなんか出す余裕はないだろう

**デフォルトの名無しさん** · 2016/01/30(土) 12:24:57.23

GPUのグローバルメモリのバンド幅計算で質問があります。
バンド幅(GB/s) = メモリのデータレート(MHz) * bit幅(bits) / 8(byte) / 1000

メモリのデータレート　GDDR5の場合　clock * 4
　　　　　　　　　　　DDR3の場合　clock * 2

上記のようになると思うのですが、
DDR3は立ち上がり立ち下がりで情報を伝達するのでクロックの2倍になるのはわかったのですが
GDDR5がDDR3に比べなぜ2倍になるのでしょうか？

**デフォルトの名無しさん** · 2016/01/30(土) 14:18:14.00

クロック信号1周期に4回データ転送してるから4倍

**デフォルトの名無しさん** · 2016/01/30(土) 16:35:02.53

>>281
回答ありがとうございます。

NVIDIAのスペックを見ていたのですが仕様値と計算があわず、わからなくなってしまいました。
http://www.nvidia.co.jp/object/product_tesla_C2050_C2070_jp.html
これによると、C2050は384bit, 1500MHz, で144GB/sとあるのですが、計算してみると
　384 * 1500 * 4 / 8 / 1000 = 288GB/s
になってしまうのです。仮に1500MHzがデータレートと仮定すると
　384 * 1500 / 8 / 1000 = 72GB/s

どちらも仕様値と違ってしまいます。もしかしてバンド幅はメモリのリードとライト
合わせての値なのでしょうか？

**デフォルトの名無しさん** · 2016/01/30(土) 16:36:27.36

つまり上り72GB/s、下り72GB/sの合わせて144GB/sなのでしょうか？

**デフォルトの名無しさん** · 2016/01/30(土) 16:59:32.46

NVはもう倍精度のGPUは造らないよ
ローレベルAPIをAMDに奪われた現在、半精度GPUで描画特化をせざるを得ない

**デフォルトの名無しさん** · 2016/01/30(土) 18:25:46.28

CUDAスレで何言ってるんだかこのアホは

**デフォルトの名無しさん** · 2016/01/31(日) 00:13:30.67

描画とかもうどうでも良い
時代はGPGPU

**デフォルトの名無しさん** · 2016/01/31(日) 00:57:29.07

GPGPUでは倍精度がものを言うが、NVはもう倍精度に手を出せないということ

**デフォルトの名無しさん** · 2016/01/31(日) 01:06:55.62

単精度でも十分みたいな話じゃなかったの？
それでディープ・ラーニングを推し進めていると思ったんだけど

**デフォルトの名無しさん** · 2016/01/31(日) 01:23:20.65

深層学習とビッグデータは半精度（でも可）
しかしこのスレの関心はあくまでも倍精度、出来るならば倍々精度だろ？
しかしこの倍精度は、CS機の競争環境でオマケがつくか削られるか都合で決まる

そう言うわけでVoltaはアメリカ政府との契約違反に問われないように出荷するだろうけど、
これはカスタム

AMDにCS機が獲られた現在、NVのGPUは描画/ワットパフォーマンス特化路線に軸足を置いた
DirectX11まではハイレベルAPIだったから倍精度GPUを出す余地があり、同時に科学技術演算市場を狙う二兎を追う路線を
追求できた

しかしDirectX12は完全にAMDのGCN世代GPUのハード直叩き規格だから普通に戦ったらfps/解像度共に負けてしまう
だからこそ半精度に活路を求めている

**デフォルトの名無しさん** · 2016/01/31(日) 01:27:41.36

DirectX12とかどうでもよろしい
ここはCUDAのスレ
AMDな方はOpenCL()のスレにお帰り下さい

**デフォルトの名無しさん** · 2016/01/31(日) 02:27:05.81

GeforceはいいからTeslaがんばれ

**デフォルトの名無しさん** · 2016/01/31(日) 08:33:54.41

TeslaよりTitanの方が良いよ

**デフォルトの名無しさん** · 2016/01/31(日) 11:45:10.40

ばかが常駐するようになったな

**デフォルトの名無しさん** · 2016/02/01(月) 01:21:54.44

倍精度倍精度って、使い道も無いくせに
滑稽だな
戦闘力みたいなイメージか

**デフォルトの名無しさん** · 2016/02/01(月) 02:50:26.19

科学計算でも計算量が多くてそこまで精度が必要なものってどれだけあるんだ

**デフォルトの名無しさん** · 2016/02/01(月) 07:15:29.10

科学技術計算では単精度や半精度で行う方がよっぽど珍しいと思うが

**デフォルトの名無しさん** · 2016/02/01(月) 09:11:27.82

物理系じゃ大きい数+極小の数なんて普通にあるからな
倍精度でも足りなくて四倍精度必要になったりすることもざら

**デフォルトの名無しさん** · 2016/02/01(月) 09:26:01.45

Kerasってdeep learningフレームワークはbackend.pyてファイルを追加するだけでopenclでも動くようになってるよ。誰かbackendを書かないか？

**デフォルトの名無しさん** · 2016/02/01(月) 12:33:46.47

こうなったらこのスレの住人が声を上げて、PEZYに倍々精度のMPUを造ってもらおうよ
もうNVは金輪際倍精度に手を出さないよ

**デフォルトの名無しさん** · 2016/02/01(月) 14:17:42.51

倍精度が必要な要件って
例えば何があるんだ？
2.0e+38を超えるスケールで
2.0e-38以下の誤差を必要とするプロジェクト？
そんなのあんの？
そりゃー誤差が小さくなれば
破綻する可能性は減るけどさ
おたくらが求めてるのってそれだけじゃねえの？

**デフォルトの名無しさん** · 2016/02/01(月) 14:48:07.70

いらん
DNNではな

**デフォルトの名無しさん** · 2016/02/01(月) 14:59:29.79

>>296
でもシミュレーションにGPGPU使ってる人いるだろ
たいして速度でないのに倍精度でやってんのか
xeon phi使った方が良さそう

**デフォルトの名無しさん** · 2016/02/01(月) 15:05:12.00

>>300
指数分の大きさではなくて仮数部の大きさ(幅)だよね。
仮数部の幅分大きさの違う数値を加減算すると0を加減算したのと同じになると思うけど。

**デフォルトの名無しさん** · 2016/02/01(月) 15:07:09.85

増分解法では致命的になる場合あり。

**デフォルトの名無しさん** · 2016/02/01(月) 15:07:56.23

装置もんで数万枚/日のリアルタイム画像処理に使ってるけど、普通にdoubleが使えると楽なんだけどな。
速度も考慮すると大きい数と小さい数の計算前、画像処理の前後でdouble、float変換してるからCPU圧迫してくる。
でも、シンプルで意図した通りに動くからCUDAは組みやすい。
んー、この辺がジレンマだな。

**デフォルトの名無しさん** · 2016/02/01(月) 15:44:31.42

それは倍精度が必要な理由になってないような
やっぱ盲信が多そうだな

**デフォルトの名無しさん** · 2016/02/01(月) 16:07:14.05

>>299
そこの製品一般人で買えるルートあんのかよ

**デフォルトの名無しさん** · 2016/02/01(月) 18:24:22.88

大きな行列の計算、FFT、急峻なカーブの音声フィルター、レイトレーシング、物理シミュレーション、空間認識、...
倍精度以上の精度が必要な用途はいろいろとある

単精度のハードで倍精度相当の演算をすると、十数倍の時間がかかる
倍精度のハードで4倍精度相当の演算も同様に十数倍
多倍長演算も倍精度や4倍精度ハードがあれば、単精度よりもずっと速く計算が可能

**デフォルトの名無しさん** · 2016/02/01(月) 18:32:19.85

簡単な画像フィルターや音声フィルターなら単精度でいいし、ディープラーニングなら半精度でも良かったりする

半精度～4倍精度までのハードがあるのが一番なんだけど

倍精度演算ハードがあれば単精度も同じ速度で計算が可能だが、単精度のハードで倍精度相当の演算をするには十数倍の時間がかかる
ゲーム用途など、単精度を使うことがはっきりしてる時じゃなければ倍精度を積んでおくのが無難

4倍精度はさすがにGPUに積むのは規模が大きくなりすぎるが、CPUには積んで欲しい
半精度は、単精度との変換だけでとりあえずは良い

**デフォルトの名無しさん** · 2016/02/01(月) 20:19:15.33

http://www.4gamer.net/games/251/G025177/20160105002/
http://www.4gamer.net/games/251/G025177/20160105002/
＞また，Huang氏が示したスライドで，第2世代Maxwellアーキテクチャベースの「GeForce GTX TITAN X」とDrive PX 2を比較すると，
＞単精度浮動小数点演算性能は前者が7TFLOPSなのに対して後者は8TFLOPSと，
＞劇的には高速化していない点も気になった。

↓その一方で…
＞ちなみにHuang氏は，Drive PX 2の性能指標として，ディープラーニング処理の演算性能を示す
＞「DL TOPS」を示しているが，これだとデュアルPascalはGeForce GTX TITAN Xの3倍以上というスコアになっている。

これ、完全にゲーム特化とビッグデータ特化GPUじゃん、Pascalwwwwww
俺の言ったとおりもう科学技術GPGPUはオワコンなんだよ
完全に半精度依存、完全にワットパフォーマンス/描画特化GPU路線だはwwwwww 👀
Rock54: Caution(BBR-MD5:0be15ced7fbdb9fdb4d0ce1929c1b82f)

**デフォルトの名無しさん** · 2016/02/01(月) 21:46:57.46

>>309
倍精度乗算器の回路コストは単精度の約4倍

**デフォルトの名無しさん** · 2016/02/01(月) 22:30:54.71

バカが住み着いてる