このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
探検
【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2014/11/20(木) 23:14:46.66ID:jr3oZn27
265デフォルトの名無しさん
2016/01/23(土) 00:13:36.37ID:TXnGkntP いや非同期かんけぇねぇし
266デフォルトの名無しさん
2016/01/23(土) 00:24:57.37ID:NV47HivO >>264
お前さっきからなに訳のわからない事言ってんだよ
お前さっきからなに訳のわからない事言ってんだよ
267デフォルトの名無しさん
2016/01/23(土) 02:41:31.78ID:qmdjqcBj 今あるもの使うしかないのに何が言いたいのかわからんぞ
268デフォルトの名無しさん
2016/01/28(木) 12:46:52.07ID:6a4EL6WE 非同期処理はゲームで使うもの
GPGPUには関係ないよ
GPGPUには関係ないよ
269デフォルトの名無しさん
2016/01/28(木) 12:56:49.21ID:6a4EL6WE むしろNVにとっての痛手は倍精度のGPUを作っちゃうと「ゲーム用」が完全にAMD天下になっちゃう事
その最大の理由が、SCEに吹っかけすぎて、NV切りを起こされた事
GCN世代GPUがゲーム機を総獲りし、ローレベルAPIで組まれるAAAタイトルが全てGCNに最適化
これを奇貨としたAMDがDirectX12を提唱→DirectX史上初めての互換切り→AMDデファクトスタンダードの流れ
そのために科学技術演算と言う市場を捨てないといけなくなった
VulkanもDX12に倣って完全にAMDに合わせてるからな
だからディープディープ連呼するんだよ
半精度でディープが出来るからな
その最大の理由が、SCEに吹っかけすぎて、NV切りを起こされた事
GCN世代GPUがゲーム機を総獲りし、ローレベルAPIで組まれるAAAタイトルが全てGCNに最適化
これを奇貨としたAMDがDirectX12を提唱→DirectX史上初めての互換切り→AMDデファクトスタンダードの流れ
そのために科学技術演算と言う市場を捨てないといけなくなった
VulkanもDX12に倣って完全にAMDに合わせてるからな
だからディープディープ連呼するんだよ
半精度でディープが出来るからな
270デフォルトの名無しさん
2016/01/28(木) 15:37:41.52ID:GWvEyNte カメラと連携してリアルタイムで判断をこなしながらってのは非同期処理無しでも大丈夫なのか?
271デフォルトの名無しさん
2016/01/28(木) 17:48:40.92ID:nzOvC+QF ばかがいる
272デフォルトの名無しさん
2016/01/28(木) 20:21:46.33ID:EEHWgu+r ああ、いつもの非同期君だよ
ほっとけ
ほっとけ
273デフォルトの名無しさん
2016/01/29(金) 01:29:29.84ID:q0fsZtFa 非同期はゲーム用って何度言えば
274デフォルトの名無しさん
2016/01/29(金) 02:29:28.87ID:QU8XaCF4 非同期って何だよ
275デフォルトの名無しさん
2016/01/29(金) 07:41:28.07ID:HGJh8rQ+ hyper-q
276デフォルトの名無しさん
2016/01/29(金) 12:43:58.50ID:q0fsZtFa 多分非同期君はNV信者だと思う
そうでなければこんなところのこんなスレで五月蝿く連呼するか?
問題はなぜそうするのか、だ
俺なりに出した答えは、Pascal開発が暗礁に乗り上げてる所為だと思う
未だにモックしか出してないからな、Pascal
そうでなければこんなところのこんなスレで五月蝿く連呼するか?
問題はなぜそうするのか、だ
俺なりに出した答えは、Pascal開発が暗礁に乗り上げてる所為だと思う
未だにモックしか出してないからな、Pascal
277デフォルトの名無しさん
2016/01/29(金) 15:12:50.38ID:HGJh8rQ+ ばかがいる
278デフォルトの名無しさん
2016/01/29(金) 17:56:14.69ID:q0fsZtFa hyper-阿q HG
279デフォルトの名無しさん
2016/01/30(土) 11:53:30.18ID:8faHSQBO VulkanとDirectX12は殆どAMDのためにあるようなものだからな
ゲーム機を支配したAMDはローレベルAPIを支配し、ゲームコードは全てAMD基準になった
これはNVにとっては痛恨
倍精度GPUなんか出す余裕はないだろう
ゲーム機を支配したAMDはローレベルAPIを支配し、ゲームコードは全てAMD基準になった
これはNVにとっては痛恨
倍精度GPUなんか出す余裕はないだろう
280デフォルトの名無しさん
2016/01/30(土) 12:24:57.23ID:o5vi6iJ9 GPUのグローバルメモリのバンド幅計算で質問があります。
バンド幅(GB/s) = メモリのデータレート(MHz) * bit幅(bits) / 8(byte) / 1000
メモリのデータレート GDDR5の場合 clock * 4
DDR3の場合 clock * 2
上記のようになると思うのですが、
DDR3は立ち上がり立ち下がりで情報を伝達するのでクロックの2倍になるのはわかったのですが
GDDR5がDDR3に比べなぜ2倍になるのでしょうか?
バンド幅(GB/s) = メモリのデータレート(MHz) * bit幅(bits) / 8(byte) / 1000
メモリのデータレート GDDR5の場合 clock * 4
DDR3の場合 clock * 2
上記のようになると思うのですが、
DDR3は立ち上がり立ち下がりで情報を伝達するのでクロックの2倍になるのはわかったのですが
GDDR5がDDR3に比べなぜ2倍になるのでしょうか?
281デフォルトの名無しさん
2016/01/30(土) 14:18:14.00ID:PJcKfdaW クロック信号1周期に4回データ転送してるから4倍
282デフォルトの名無しさん
2016/01/30(土) 16:35:02.53ID:o5vi6iJ9 >>281
回答ありがとうございます。
NVIDIAのスペックを見ていたのですが仕様値と計算があわず、わからなくなってしまいました。
http://www.nvidia.co.jp/object/product_tesla_C2050_C2070_jp.html
これによると、C2050は384bit, 1500MHz, で144GB/sとあるのですが、計算してみると
384 * 1500 * 4 / 8 / 1000 = 288GB/s
になってしまうのです。仮に1500MHzがデータレートと仮定すると
384 * 1500 / 8 / 1000 = 72GB/s
どちらも仕様値と違ってしまいます。もしかしてバンド幅はメモリのリードとライト
合わせての値なのでしょうか?
回答ありがとうございます。
NVIDIAのスペックを見ていたのですが仕様値と計算があわず、わからなくなってしまいました。
http://www.nvidia.co.jp/object/product_tesla_C2050_C2070_jp.html
これによると、C2050は384bit, 1500MHz, で144GB/sとあるのですが、計算してみると
384 * 1500 * 4 / 8 / 1000 = 288GB/s
になってしまうのです。仮に1500MHzがデータレートと仮定すると
384 * 1500 / 8 / 1000 = 72GB/s
どちらも仕様値と違ってしまいます。もしかしてバンド幅はメモリのリードとライト
合わせての値なのでしょうか?
283デフォルトの名無しさん
2016/01/30(土) 16:36:27.36ID:o5vi6iJ9 つまり上り72GB/s、下り72GB/sの合わせて144GB/sなのでしょうか?
284デフォルトの名無しさん
2016/01/30(土) 16:59:32.46ID:8faHSQBO NVはもう倍精度のGPUは造らないよ
ローレベルAPIをAMDに奪われた現在、半精度GPUで描画特化をせざるを得ない
ローレベルAPIをAMDに奪われた現在、半精度GPUで描画特化をせざるを得ない
285デフォルトの名無しさん
2016/01/30(土) 18:25:46.28ID:ypcCS+Q8 CUDAスレで何言ってるんだかこのアホは
286デフォルトの名無しさん
2016/01/31(日) 00:13:30.67ID:v07wXVxF 描画とかもうどうでも良い
時代はGPGPU
時代はGPGPU
287デフォルトの名無しさん
2016/01/31(日) 00:57:29.07ID:cNgLqKMa GPGPUでは倍精度がものを言うが、NVはもう倍精度に手を出せないということ
288デフォルトの名無しさん
2016/01/31(日) 01:06:55.62ID:V+Yf7lZI 単精度でも十分みたいな話じゃなかったの?
それでディープ・ラーニングを推し進めていると思ったんだけど
それでディープ・ラーニングを推し進めていると思ったんだけど
289デフォルトの名無しさん
2016/01/31(日) 01:23:20.65ID:cNgLqKMa 深層学習とビッグデータは半精度(でも可)
しかしこのスレの関心はあくまでも倍精度、出来るならば倍々精度だろ?
しかしこの倍精度は、CS機の競争環境でオマケがつくか削られるか都合で決まる
そう言うわけでVoltaはアメリカ政府との契約違反に問われないように出荷するだろうけど、
これはカスタム
AMDにCS機が獲られた現在、NVのGPUは描画/ワットパフォーマンス特化路線に軸足を置いた
DirectX11まではハイレベルAPIだったから倍精度GPUを出す余地があり、同時に科学技術演算市場を狙う二兎を追う路線を
追求できた
しかしDirectX12は完全にAMDのGCN世代GPUのハード直叩き規格だから普通に戦ったらfps/解像度共に負けてしまう
だからこそ半精度に活路を求めている
しかしこのスレの関心はあくまでも倍精度、出来るならば倍々精度だろ?
しかしこの倍精度は、CS機の競争環境でオマケがつくか削られるか都合で決まる
そう言うわけでVoltaはアメリカ政府との契約違反に問われないように出荷するだろうけど、
これはカスタム
AMDにCS機が獲られた現在、NVのGPUは描画/ワットパフォーマンス特化路線に軸足を置いた
DirectX11まではハイレベルAPIだったから倍精度GPUを出す余地があり、同時に科学技術演算市場を狙う二兎を追う路線を
追求できた
しかしDirectX12は完全にAMDのGCN世代GPUのハード直叩き規格だから普通に戦ったらfps/解像度共に負けてしまう
だからこそ半精度に活路を求めている
290デフォルトの名無しさん
2016/01/31(日) 01:27:41.36ID:v07wXVxF DirectX12とかどうでもよろしい
ここはCUDAのスレ
AMDな方はOpenCL()のスレにお帰り下さい
ここはCUDAのスレ
AMDな方はOpenCL()のスレにお帰り下さい
291デフォルトの名無しさん
2016/01/31(日) 02:27:05.81ID:tWmMlKqo GeforceはいいからTeslaがんばれ
292デフォルトの名無しさん
2016/01/31(日) 08:33:54.41ID:v07wXVxF TeslaよりTitanの方が良いよ
293デフォルトの名無しさん
2016/01/31(日) 11:45:10.40ID:k6wK0w/E ばかが常駐するようになったな
294デフォルトの名無しさん
2016/02/01(月) 01:21:54.44ID:27TlSaYk 倍精度倍精度って、使い道も無いくせに
滑稽だな
戦闘力みたいなイメージか
滑稽だな
戦闘力みたいなイメージか
295デフォルトの名無しさん
2016/02/01(月) 02:50:26.19ID:9fNLotPU 科学計算でも計算量が多くてそこまで精度が必要なものってどれだけあるんだ
296デフォルトの名無しさん
2016/02/01(月) 07:15:29.10ID:BOcjqYcH 科学技術計算では単精度や半精度で行う方がよっぽど珍しいと思うが
297デフォルトの名無しさん
2016/02/01(月) 09:11:27.82ID:fnCrDph6 物理系じゃ大きい数+極小の数なんて普通にあるからな
倍精度でも足りなくて四倍精度必要になったりすることもざら
倍精度でも足りなくて四倍精度必要になったりすることもざら
298デフォルトの名無しさん
2016/02/01(月) 09:26:01.45ID:2VMpgIMC Kerasってdeep learningフレームワークはbackend.pyてファイルを追加するだけでopenclでも動くようになってるよ。誰かbackendを書かないか?
299デフォルトの名無しさん
2016/02/01(月) 12:33:46.47ID:Ucvj9UOE こうなったらこのスレの住人が声を上げて、PEZYに倍々精度のMPUを造ってもらおうよ
もうNVは金輪際倍精度に手を出さないよ
もうNVは金輪際倍精度に手を出さないよ
300デフォルトの名無しさん
2016/02/01(月) 14:17:42.51ID:fSUYSvsK 倍精度が必要な要件って
例えば何があるんだ?
2.0e+38を超えるスケールで
2.0e-38以下の誤差を必要とするプロジェクト?
そんなのあんの?
そりゃー誤差が小さくなれば
破綻する可能性は減るけどさ
おたくらが求めてるのってそれだけじゃねえの?
例えば何があるんだ?
2.0e+38を超えるスケールで
2.0e-38以下の誤差を必要とするプロジェクト?
そんなのあんの?
そりゃー誤差が小さくなれば
破綻する可能性は減るけどさ
おたくらが求めてるのってそれだけじゃねえの?
301デフォルトの名無しさん
2016/02/01(月) 14:48:07.70ID:iOXOBOCM いらん
DNNではな
DNNではな
302デフォルトの名無しさん
2016/02/01(月) 14:59:29.79ID:9fNLotPU303デフォルトの名無しさん
2016/02/01(月) 15:05:12.00ID:CUSF99yG304デフォルトの名無しさん
2016/02/01(月) 15:07:09.85ID:CUSF99yG 増分解法では致命的になる場合あり。
305デフォルトの名無しさん
2016/02/01(月) 15:07:56.23ID:SiSRa9Ib 装置もんで数万枚/日のリアルタイム画像処理に使ってるけど、普通にdoubleが使えると楽なんだけどな。
速度も考慮すると大きい数と小さい数の計算前、画像処理の前後でdouble、float変換してるからCPU圧迫してくる。
でも、シンプルで意図した通りに動くからCUDAは組みやすい。
んー、この辺がジレンマだな。
速度も考慮すると大きい数と小さい数の計算前、画像処理の前後でdouble、float変換してるからCPU圧迫してくる。
でも、シンプルで意図した通りに動くからCUDAは組みやすい。
んー、この辺がジレンマだな。
306デフォルトの名無しさん
2016/02/01(月) 15:44:31.42ID:fSUYSvsK それは倍精度が必要な理由になってないような
やっぱ盲信が多そうだな
やっぱ盲信が多そうだな
307デフォルトの名無しさん
2016/02/01(月) 16:07:14.05ID:oiE/5K5n >>299
そこの製品一般人で買えるルートあんのかよ
そこの製品一般人で買えるルートあんのかよ
308デフォルトの名無しさん
2016/02/01(月) 18:24:22.88ID:BOcjqYcH 大きな行列の計算、FFT、急峻なカーブの音声フィルター、レイトレーシング、物理シミュレーション、空間認識、...
倍精度以上の精度が必要な用途はいろいろとある
単精度のハードで倍精度相当の演算をすると、十数倍の時間がかかる
倍精度のハードで4倍精度相当の演算も同様に十数倍
多倍長演算も倍精度や4倍精度ハードがあれば、単精度よりもずっと速く計算が可能
倍精度以上の精度が必要な用途はいろいろとある
単精度のハードで倍精度相当の演算をすると、十数倍の時間がかかる
倍精度のハードで4倍精度相当の演算も同様に十数倍
多倍長演算も倍精度や4倍精度ハードがあれば、単精度よりもずっと速く計算が可能
309デフォルトの名無しさん
2016/02/01(月) 18:32:19.85ID:BOcjqYcH 簡単な画像フィルターや音声フィルターなら単精度でいいし、ディープラーニングなら半精度でも良かったりする
半精度〜4倍精度までのハードがあるのが一番なんだけど
倍精度演算ハードがあれば単精度も同じ速度で計算が可能だが、単精度のハードで倍精度相当の演算をするには十数倍の時間がかかる
ゲーム用途など、単精度を使うことがはっきりしてる時じゃなければ倍精度を積んでおくのが無難
4倍精度はさすがにGPUに積むのは規模が大きくなりすぎるが、CPUには積んで欲しい
半精度は、単精度との変換だけでとりあえずは良い
半精度〜4倍精度までのハードがあるのが一番なんだけど
倍精度演算ハードがあれば単精度も同じ速度で計算が可能だが、単精度のハードで倍精度相当の演算をするには十数倍の時間がかかる
ゲーム用途など、単精度を使うことがはっきりしてる時じゃなければ倍精度を積んでおくのが無難
4倍精度はさすがにGPUに積むのは規模が大きくなりすぎるが、CPUには積んで欲しい
半精度は、単精度との変換だけでとりあえずは良い
310デフォルトの名無しさん
2016/02/01(月) 20:19:15.33ID:Ucvj9UOE http://www.4gamer.net/games/251/G025177/20160105002/
http://www.4gamer.net/games/251/G025177/20160105002/
>また,Huang氏が示したスライドで,第2世代Maxwellアーキテクチャベースの「GeForce GTX TITAN X」とDrive PX 2を比較すると,
>単精度浮動小数点演算性能は前者が7TFLOPSなのに対して後者は8TFLOPSと,
>劇的には高速化していない点も気になった。
↓その一方で…
>ちなみにHuang氏は,Drive PX 2の性能指標として,ディープラーニング処理の演算性能を示す
>「DL TOPS」を示しているが,これだとデュアルPascalはGeForce GTX TITAN Xの3倍以上というスコアになっている。
これ、完全にゲーム特化とビッグデータ特化GPUじゃん、Pascalwwwwww
俺の言ったとおりもう科学技術GPGPUはオワコンなんだよ
完全に半精度依存、完全にワットパフォーマンス/描画特化GPU路線だはwwwwww 👀
Rock54: Caution(BBR-MD5:0be15ced7fbdb9fdb4d0ce1929c1b82f)
http://www.4gamer.net/games/251/G025177/20160105002/
>また,Huang氏が示したスライドで,第2世代Maxwellアーキテクチャベースの「GeForce GTX TITAN X」とDrive PX 2を比較すると,
>単精度浮動小数点演算性能は前者が7TFLOPSなのに対して後者は8TFLOPSと,
>劇的には高速化していない点も気になった。
↓その一方で…
>ちなみにHuang氏は,Drive PX 2の性能指標として,ディープラーニング処理の演算性能を示す
>「DL TOPS」を示しているが,これだとデュアルPascalはGeForce GTX TITAN Xの3倍以上というスコアになっている。
これ、完全にゲーム特化とビッグデータ特化GPUじゃん、Pascalwwwwww
俺の言ったとおりもう科学技術GPGPUはオワコンなんだよ
完全に半精度依存、完全にワットパフォーマンス/描画特化GPU路線だはwwwwww 👀
Rock54: Caution(BBR-MD5:0be15ced7fbdb9fdb4d0ce1929c1b82f)
311デフォルトの名無しさん
2016/02/01(月) 21:46:57.46ID:vs1yi7F6 >>309
倍精度乗算器の回路コストは単精度の約4倍
倍精度乗算器の回路コストは単精度の約4倍
312デフォルトの名無しさん
2016/02/01(月) 22:30:54.71ID:MibI1Q78 バカが住み着いてる
313デフォルトの名無しさん
2016/02/01(月) 22:58:36.28ID:9fNLotPU 実際に業務で使ってる人は倍精度で運用してるのか?
314デフォルトの名無しさん
2016/02/01(月) 23:10:33.37ID:BOcjqYcH315デフォルトの名無しさん
2016/02/01(月) 23:17:23.47ID:BOcjqYcH >>313
業務っていろいろあるが
おれの範疇は単精度、倍精度、疑似4倍精度、多倍長といろいろ
多倍長も、筆算レベルからカラツバ、DFTレベルとさまざま
もちろん普通のレジスタサイズの整数演算も
特殊なジャンルであることは否定しない
業務っていろいろあるが
おれの範疇は単精度、倍精度、疑似4倍精度、多倍長といろいろ
多倍長も、筆算レベルからカラツバ、DFTレベルとさまざま
もちろん普通のレジスタサイズの整数演算も
特殊なジャンルであることは否定しない
316デフォルトの名無しさん
2016/02/01(月) 23:19:49.62ID:BOcjqYcH 半精度もIEEE754じゃない独自フォーマットなら使った事はあるが、使った事があるって程度
317デフォルトの名無しさん
2016/02/01(月) 23:27:26.75ID:dRJvSEmL >>314
>半精度はさすがにゲームでも足りない
そんなこと分かるかよ
HDRで16bit浮動小数点フォーマットとか普通に使うだろ
メモリ帯域が半分で済むんだぞ
ゲームなんか正確さより速さ優先だから、色を表現するのに16bitで十分な場合がほとんどだろ
>半精度はさすがにゲームでも足りない
そんなこと分かるかよ
HDRで16bit浮動小数点フォーマットとか普通に使うだろ
メモリ帯域が半分で済むんだぞ
ゲームなんか正確さより速さ優先だから、色を表現するのに16bitで十分な場合がほとんどだろ
318デフォルトの名無しさん
2016/02/02(火) 01:51:42.07ID:LP8V/wwM だから違うよ
使ったことがあるかじゃねーよ
何でその精度が必要なのかってところよ
4倍精度とか軽々しく言うが
このスケールが本当にわかってるのか
疑わしいぜ
使ったことがあるかじゃねーよ
何でその精度が必要なのかってところよ
4倍精度とか軽々しく言うが
このスケールが本当にわかってるのか
疑わしいぜ
319デフォルトの名無しさん
2016/02/02(火) 03:08:21.02ID:xiUt8T5M 4倍精度とか専用ハード作れとしか言いようがない
汎用品に求めるものじゃない
汎用品に求めるものじゃない
320デフォルトの名無しさん
2016/02/02(火) 12:53:46.97ID:ULLNmZyK321デフォルトの名無しさん
2016/02/02(火) 13:17:56.85ID:sWHooGm6 混合精度って単精度と半精度が両方載ってるって事だよな
仮に1個の演算器の回路規模が1:3として、演算器の回路比率を1:1にし、単精度は半精度の演算も出来るとすると、すべて単精度にした場合に比べて演算器の数は単精度が半分で単精度が2倍か
単精度2倍のインパクトよりも単精度半分のインパクトの方が大きい気がする
仮に1個の演算器の回路規模が1:3として、演算器の回路比率を1:1にし、単精度は半精度の演算も出来るとすると、すべて単精度にした場合に比べて演算器の数は単精度が半分で単精度が2倍か
単精度2倍のインパクトよりも単精度半分のインパクトの方が大きい気がする
322デフォルトの名無しさん
2016/02/02(火) 14:24:13.48ID:ULLNmZyK 完全にグラフィックス描画効率/深層学習向けの構成だね
データ地獄になるから広帯域メモリも必要になるがHBM規格はAMDが握っているために、(HBM2の)開発が遅れた
GDDR5+を急遽導入する事になったのはそのため
このスレだとDX12とかVulkanとか一言口にするだけで「スレチガイだ馬鹿!」と怒鳴る奴がいるが、
これは全てが絡み合っている
DX12とVulkanという二つのローレベルAPIがAMD中心による策定である以上、これらのローレベルAPIへの依存を避ける
ワットパフォーマンスGPUに経営路線の舵を切るの必然
データ地獄になるから広帯域メモリも必要になるがHBM規格はAMDが握っているために、(HBM2の)開発が遅れた
GDDR5+を急遽導入する事になったのはそのため
このスレだとDX12とかVulkanとか一言口にするだけで「スレチガイだ馬鹿!」と怒鳴る奴がいるが、
これは全てが絡み合っている
DX12とVulkanという二つのローレベルAPIがAMD中心による策定である以上、これらのローレベルAPIへの依存を避ける
ワットパフォーマンスGPUに経営路線の舵を切るの必然
323デフォルトの名無しさん
2016/02/02(火) 15:52:24.40ID:MS6gBcZU >>322
スレチガイだ馬鹿!
スレチガイだ馬鹿!
324デフォルトの名無しさん
2016/02/02(火) 20:33:43.42ID:ubpTh4Nt >>322
そのすごいAMDでお前はどんなGPGPUソフト/プログラム作っていいるんだ?
そのすごいAMDでお前はどんなGPGPUソフト/プログラム作っていいるんだ?
325デフォルトの名無しさん
2016/02/02(火) 21:22:14.45ID:xseyqTiA cudaだっつうに
hsaスレでやってろ
馬鹿
hsaスレでやってろ
馬鹿
326デフォルトの名無しさん
2016/02/02(火) 22:08:37.37ID:+ZIKPYce 雑談は楽しいけど、ここCUDAスレやで
amdの話をするなってことじゃなく、スレチ話をいつまですんねんってこと
amdの話をするなってことじゃなく、スレチ話をいつまですんねんってこと
327デフォルトの名無しさん
2016/02/02(火) 22:41:10.14ID:NB4DG1EG Visual Studio 2015対応になるのはいつですかねぇ
328デフォルトの名無しさん
2016/02/03(水) 12:08:39.46ID:15l+1fC7329デフォルトの名無しさん
2016/02/03(水) 12:56:39.94ID:d3Nc4Jqw バカな上の病気なんだな
330デフォルトの名無しさん
2016/02/03(水) 14:19:34.04ID:15l+1fC7 Pasacalこけそうで危機感いっぱいだは
331デフォルトの名無しさん
2016/02/03(水) 22:25:31.36ID:hEPpn7Fg だはw
2016/02/03(水) 22:25:59.26ID:gpz71jEo
TeslaでもXeon Phiでもなく一般ピープル向けGPUに倍精度性能が必要だって言ってるのは
ろくに科研費申請が通らない貧乏研究室くらいでしょ
ろくに科研費申請が通らない貧乏研究室くらいでしょ
333デフォルトの名無しさん
2016/02/04(木) 13:10:48.29ID:lq8BoEbf >>332
お前が使い方を知らないだけ
お前が使い方を知らないだけ
334デフォルトの名無しさん
2016/02/04(木) 13:11:30.26ID:lq8BoEbf >>332
お前は半精度だけで十分
お前は半精度だけで十分
335デフォルトの名無しさん
2016/02/04(木) 18:29:53.21ID:TT5D/Cpx Maxwellは擬似的な倍精度も出来ないんだよ
それくらいしっておこうな
それくらいしっておこうな
336デフォルトの名無しさん
2016/02/04(木) 20:00:25.29ID:o+ucOEnp 単精度と比べると凄い遅いだけで
倍精度演算自体はハードで実装している。
物凄い遅いといっても1/32で1/16のradeon furyと比べると半分だから大差ないと言えば無い。
倍精度演算自体はハードで実装している。
物凄い遅いといっても1/32で1/16のradeon furyと比べると半分だから大差ないと言えば無い。
337デフォルトの名無しさん
2016/02/04(木) 20:13:21.23ID:d8M6zG1u Maxwellは倍精度の演算器が排除されただけで疑似倍精度は実装されている
そもそもソフトレベルでも実装できることだし
そもそもソフトレベルでも実装できることだし
338デフォルトの名無しさん
2016/02/04(木) 20:15:36.92ID:TT5D/Cpx FURYはMaxwellを参考にしてるからな
HBMの容量の少なさが祟って何じゃこりゃ状態だったけど、Polarisは一層Maxwell類似のワッパ路線がとられる
これでNVはもう倍精度を完全に捨てにかかる
HBMの容量の少なさが祟って何じゃこりゃ状態だったけど、Polarisは一層Maxwell類似のワッパ路線がとられる
これでNVはもう倍精度を完全に捨てにかかる
2016/02/04(木) 23:21:52.01ID:zdF89aL0
いや実際半精度が4倍速いほうが使いどころあると思うよ
ゲームで倍精度なんて使わないじゃん
ゲームで倍精度なんて使わないじゃん
340デフォルトの名無しさん
2016/02/04(木) 23:28:29.99ID:3r7tJtQx 深層学習がはやったらGPGPUももっと市民権を得るかな?
341デフォルトの名無しさん
2016/02/05(金) 00:42:53.10ID:TcXSJNY1 半精度を4倍速くしたら半精度専用になるな
そんなもの売れないぞ
そんなもの売れないぞ
342デフォルトの名無しさん
2016/02/05(金) 01:21:13.26ID:p946S2WD343デフォルトの名無しさん
2016/02/05(金) 04:09:45.89ID:iPwofUfz 倍精度を高速化したらどれだけ売り上げが見込めるのかをnvに分かるように説明したら。
>>341
頂点シェーダは単精度が必要でも、実行時間のかなりがフラグメントシェーダなんだから、別に半精度専用になって売れないとはならないだろう。
住みわけがある訳だろ。で、倍精度頑張ったのは期待の売り上げが出なかったわけだろ多分。
願望を語るスレであるより、アリモノでなんとかするスレであった方が建設的だと思うがね。
>>341
頂点シェーダは単精度が必要でも、実行時間のかなりがフラグメントシェーダなんだから、別に半精度専用になって売れないとはならないだろう。
住みわけがある訳だろ。で、倍精度頑張ったのは期待の売り上げが出なかったわけだろ多分。
願望を語るスレであるより、アリモノでなんとかするスレであった方が建設的だと思うがね。
344デフォルトの名無しさん
2016/02/05(金) 07:52:28.94ID:X6eE9Wue すまんがゲーマーは帰ってくれないか?
345デフォルトの名無しさん
2016/02/05(金) 08:26:49.67ID:23YXKvG1 なぜ団子がここにいる?
まあ、CUDAもかなり広く使われてくるようになったから、
数値演算の枠組みだけじゃなくなってきているのはわかるが。
まあ、CUDAもかなり広く使われてくるようになったから、
数値演算の枠組みだけじゃなくなってきているのはわかるが。
346デフォルトの名無しさん
2016/02/05(金) 08:45:35.15ID:bTIbnCX4 いやこのひとはかなり初期からCUDAつかってるの
それこそnvにgeforceくれてやるからCUDA使ってちょって
誘われるような時代から
それこそnvにgeforceくれてやるからCUDA使ってちょって
誘われるような時代から
347デフォルトの名無しさん
2016/02/05(金) 08:50:46.42ID:KXdvQQGq 1スレ目に三色団子おるな
348デフォルトの名無しさん
2016/02/05(金) 12:16:48.26ID:bTIbnCX4 http://techon.nikkeibp.co.jp/atcl/event/15/020100028/020400019/?bpnet&d=1454641873634
CNN専用チップ、NVIDIAなどがGPUの改良で開発
http://techon.nikkeibp.co.jp/atcl/event/15/020100028/020400019/160204NVIDIAp0.jpg
Eyerissは、グラフィックス処理プロセッサー(GPU)と同様、SIMD(single instruction multiple data)などから成る
プロセッサー・エレメント(PE)を多数集積したICである。
ただし、GPUとはデータの移動を最小限に抑えた設計にした点が異なる。
具体的には、EyerissはSRAMから成るオンチップメモリー108Kバイトを備えており、
CNNの各層の演算結果をオンチップメモリーにバッファリングさせることで、
チップ外の主記憶に書き戻す頻度を大きく減らした。
また、PEに入力するデータ列に共通部分がある場合は、その共通部分を保持して差分だけを入力する。
さらに、複数のPEに同じデータを入力する場合は、各PEにそれぞれ送るのではなく、
途中まで1つのデータとして送り、そこからPEの個数分データをコピーして入力する。いわゆるマルチキャストである。
これらによって、データ処理時のデータの移動を最小限に抑え、消費電力を大幅に低減した。
加えて、データを主記憶に書き戻す時は圧縮し、読み出す時に伸長する。
CNNの畳み込み演算後のデータはフィルターを通すことで圧縮しやすい形になっていて、メモリー帯域の節約効果が高いという。
作製したEyerissの動作をNVIDIA社のGPU「TK1」と比較すると、
EyerissはデータのスループットこそTK1の約1/2だったが、消費電力はTK1の最小約1/37と大幅に低い。
主記憶に出し入れしたデータの帯域も、TK1の1120Mバイト/秒に対し、Eyerissは127Mバイト/秒だったとする。
CNN専用チップ、NVIDIAなどがGPUの改良で開発
http://techon.nikkeibp.co.jp/atcl/event/15/020100028/020400019/160204NVIDIAp0.jpg
Eyerissは、グラフィックス処理プロセッサー(GPU)と同様、SIMD(single instruction multiple data)などから成る
プロセッサー・エレメント(PE)を多数集積したICである。
ただし、GPUとはデータの移動を最小限に抑えた設計にした点が異なる。
具体的には、EyerissはSRAMから成るオンチップメモリー108Kバイトを備えており、
CNNの各層の演算結果をオンチップメモリーにバッファリングさせることで、
チップ外の主記憶に書き戻す頻度を大きく減らした。
また、PEに入力するデータ列に共通部分がある場合は、その共通部分を保持して差分だけを入力する。
さらに、複数のPEに同じデータを入力する場合は、各PEにそれぞれ送るのではなく、
途中まで1つのデータとして送り、そこからPEの個数分データをコピーして入力する。いわゆるマルチキャストである。
これらによって、データ処理時のデータの移動を最小限に抑え、消費電力を大幅に低減した。
加えて、データを主記憶に書き戻す時は圧縮し、読み出す時に伸長する。
CNNの畳み込み演算後のデータはフィルターを通すことで圧縮しやすい形になっていて、メモリー帯域の節約効果が高いという。
作製したEyerissの動作をNVIDIA社のGPU「TK1」と比較すると、
EyerissはデータのスループットこそTK1の約1/2だったが、消費電力はTK1の最小約1/37と大幅に低い。
主記憶に出し入れしたデータの帯域も、TK1の1120Mバイト/秒に対し、Eyerissは127Mバイト/秒だったとする。
349デフォルトの名無しさん
2016/02/05(金) 12:55:11.71ID:p946S2WD >>346
だからお前はインテルスレに帰れっつってんだろ団子!
だからお前はインテルスレに帰れっつってんだろ団子!
350デフォルトの名無しさん
2016/02/05(金) 13:02:33.01ID:bTIbnCX4 また病気か
351デフォルトの名無しさん
2016/02/05(金) 13:44:39.13ID:p946S2WD >>350
倍精度イラネ、ここは管スレだぞ!と言ってたのはお前だったのか、団子!
倍精度イラネ、ここは管スレだぞ!と言ってたのはお前だったのか、団子!
352デフォルトの名無しさん
2016/02/05(金) 14:31:20.41ID:3SvgNTFs 団子ってなに?
353デフォルトの名無しさん
2016/02/05(金) 14:36:57.91ID:3a93fntK どうもこのスレには
CUDAをマシに使っている奴は
いないようにみえるな
ひたすらベンチマークしかやってない感じね
CUDAをマシに使っている奴は
いないようにみえるな
ひたすらベンチマークしかやってない感じね
354デフォルトの名無しさん
2016/02/05(金) 16:33:49.39ID:3vmCyKKd 倍精度よりコンテキスト処理の自由化をだな
Oculasからも苦言言われてるのに
Oculasからも苦言言われてるのに
355デフォルトの名無しさん
2016/02/05(金) 16:34:59.76ID:3vmCyKKd バックグラウンド処理が作りにくいからこそ、Asyncやプログラマブルコンテキストは次のGPUでは絶対に搭載してほしい
356デフォルトの名無しさん
2016/02/05(金) 16:48:34.33ID:bTIbnCX4357デフォルトの名無しさん
2016/02/05(金) 23:50:50.50ID:TcXSJNY1 はやく4倍精度のせろ!
358デフォルトの名無しさん
2016/02/06(土) 12:36:05.76ID:pRi/vsC+ それをPEZYに言ってくれ
359デフォルトの名無しさん
2016/02/06(土) 18:18:06.14ID:xHoLN9eE お前その会社好きだな
一般向けに売ってもいないのに
一般向けに売ってもいないのに
360デフォルトの名無しさん
2016/02/06(土) 20:15:07.20ID:pRi/vsC+ PEZY以外に応じてくれないぞ
361デフォルトの名無しさん
2016/02/06(土) 20:47:57.74ID:xHoLN9eE それでそこの製品は使ってるのか?
362デフォルトの名無しさん
2016/02/08(月) 05:05:55.45ID:z0FWqNRt いい加減にないものねだりはやめろ。
2016/02/08(月) 22:05:16.73ID:ZbGdhM32
「Teslaを一桁安値で買わせろ」みたいなのは論外だろ
ゲーマーと倍精度が欲しい人は市場が全くかみ合わない
そんなのもう結論出てるだろ
ゲーマーと倍精度が欲しい人は市場が全くかみ合わない
そんなのもう結論出てるだろ
2016/02/08(月) 22:24:56.08ID:lyi6FC/t
もともとTeslaとQuadro/GeForceはECCの有無で差別化してたが
世界最大級のGPGPUスパコンがNonECCで使ってるので
全く差別化になってない
だから倍精度演算器を物理的に廃することでの差別化を行った
それだけ。
Tesla買えばいいだけだろ?
どうせ予算通らないから買えないだけだろ
ろくな論文も出せない底辺大学の研究室あたりがいいご身分だな
世界最大級のGPGPUスパコンがNonECCで使ってるので
全く差別化になってない
だから倍精度演算器を物理的に廃することでの差別化を行った
それだけ。
Tesla買えばいいだけだろ?
どうせ予算通らないから買えないだけだろ
ろくな論文も出せない底辺大学の研究室あたりがいいご身分だな
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 高市首相の答弁書に「台湾有事答えない」と明記 存立危機発言当時 ★12 [蚤の市★]
- 女性天皇「賛成」69%、将来の皇位継承「不安」68%…読売世論調査 [蚤の市★]
- 不倫疑惑の永野芽郁さん、CM削除ドミノの違約金“やはり発生は免れない”可能性 約10億円になる見込み、本人は全額支払う覚悟 [牛丼★]
- 開業4ヵ月でこれは…“国民の税金”投入の『ジャングリア沖縄』で見た衝撃的な光景と、モチベーションが低い一部スタッフの現状 ★2 [ぐれ★]
- 旧姓使用拡大に連合会長が反発 「何の説明もない。選択的夫婦別氏制度導入を」 男女共同参画会議 ★2 [ぐれ★]
- 【🐻ニャー】京都府向日市の「クマ目撃情報」は見間違いか 市が映像確認「ネコに似ていた」 [nita★]
- 🍵緑茶輸出激増で国内価格6倍へ 番茶も飲めなくなる [399259198]
- 底辺テイカー気質Vtuberを破壊する遊びが闇深いと話題に [922647923]
- 食を極めてわかったこと
- 【悲報】日本人、GoTo価格に慣れすぎて旅行に行かなくなる🛍🙅 [476167917]
- クズ「勉強頑張らなかった奴は一生DQNと一緒に肉体労働しろ」☚勉強頑張れるのも環境と巡り合わせなんだが? [783475554]
- 【新潮】専門家『高市政権の物価高対策は逆効果』【経済政策】 [718678614]
