GPGPU#5

**デフォルトの名無しさん** · 2010/08/15(日) 21:47:50

GPGPUについて語りましょう

前スレ
GPGPU#4
http://hibari.2ch.net/test/read.cgi/tech/1255256230/l50

関連スレ
OpenCLプログラミング#1
http://hibari.2ch.net/test/read.cgi/tech/1228891105/l50
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
http://hibari.2ch.net/test/read.cgi/tech/1271587710/l50

参考リンク
総本山? gpgpu.org
http://www.gpgpu.org/
OpenCL
http://www.khronos.org/opencl/
NVIDIA CUDA
http://developer.nvidia.com/object/cuda.html
ATI Stream
http://developer.amd.com/gpu/ATIStreamSDK/Pages/default.aspx
GPUをCPU的に活用するGPGPUの可能性
http://pcweb.mycom.co.jp/articles/2005/09/06/siggraph2/

**,,・´∀｀・,,）っ-○○○** · 2011/12/22(木) 23:33:03.71

Tesla1のときは1:8だったけど理論値あたりの実効性能は90％に達してたんだよね
LSUやメモリなど足回りのパフォーマンスがDP演算器を支えるだけの余裕があったが

FermiでDPを増強したら今度は足回りが追いつかなくなったという皮肉

**デフォルトの名無しさん** · 2011/12/22(木) 23:56:33.23

CUDAのアーキテクトがAMDに移籍したらしいがGCNはそれがモロに出たアーキテクチャだな
公式スライドそのままの画像をリークしてたVR-Zoneによると549ドルらしいし
HD6970、GT580より省電力とのことでかなり面白そうだ

**デフォルトの名無しさん** · 2011/12/23(金) 01:10:26.44

確かに筆算の掛け算を考えると横に2倍×縦に2倍で4倍の計算量ってのが確認できますね。
仮数部が24bitと53bitで実際は4倍よりもうちょい要るはずだから、1:4でも少なからずリソースを割いているか。

64bit整数演算はまだかなぁ…使うアテないけど。
64bit整数が32bitと並ぶのはVRAMが4GB超えるのとセットなのかな。

**デフォルトの名無しさん** · 2011/12/23(金) 03:05:28.01

>>170
行列積の話？

**デフォルトの名無しさん** · 2011/12/23(金) 09:41:52.36

64bit整数演算はできないけど、53bitはできるって理解していいのでしょうか？

**デフォルトの名無しさん** · 2011/12/23(金) 13:49:56.45

金のない俺としてはどのクラスまで倍精度をサポートするかが気になるな。

贅沢は言わんから7700シリーズまで頼む。

**デフォルトの名無しさん** · 2011/12/23(金) 18:42:26.48

>>174
いいと思うけど、あくまで倍精度演算の速さでだよ。
さらに前後でdoubleに格納したり取り出したりするならその分もかかる。

**デフォルトの名無しさん** · 2011/12/28(水) 02:26:18.12

おすすめのGPUを教えてください

**デフォルトの名無しさん** · 2011/12/28(水) 09:43:57.74

最新の一番高いやつをその都度

**デフォルトの名無しさん** · 2011/12/28(水) 11:54:58.22

http://www.freepatentsonline.com/8051123.html
Multipurpose functional unit with double-precision and filtering operations

**デフォルトの名無しさん** · 2011/12/28(水) 11:57:58.69

Warpのダイナミック再構成がつくって話だなkepler

**デフォルトの名無しさん** · 2011/12/31(土) 14:45:52.09

AMD's got an ace up it's sleeve: Tahiti-ASIC probably has 36 CUs/2304 Shaders
http://www.gpu-tech.org/content.php/181-AMD-s-got-an-ace-up-it-s-sleeve-Tahiti-ASIC-probably-has-36-CUs-2304-Shaders

忍法帖【Lv=4,xxxP】 · 2012/01/05(木) 23:26:19.60

http://ascii.jp/elem/000/000/659/659849/index-3.html

大原雄介の記事来た
http://news.mynavi.jp/special/2012/tahiti/index.html

**デフォルトの名無しさん** · 2012/01/06(金) 12:45:44.61

http://news.mynavi.jp/special/2012/tahiti/005.html
めがっさ速い？

**デフォルトの名無しさん** · 2012/01/13(金) 16:13:40.53

NVIDIAのステマ・広告攻勢がすごいから、
性能が同じくらい＝AMDの圧勝ぐらいの意味だからな
そのあたりを気にしながら記事を読む必要がある

**デフォルトの名無しさん** · 2012/01/14(土) 17:46:44.04

公式の7970用ドライバ来る前の記事だからな

**デフォルトの名無しさん** · 2012/01/15(日) 12:54:20.11

nVidiaのステマ能力ははんぱない。
全世界のスパコンシェアを圧倒してしまった。
我々はこの独裁にどう対抗していけばよいのだろうか・・・

◆QZaw55cn4c · 2012/01/15(日) 13:08:06.32

>>186
ATI stream と nvidia CUDA の両刀使いが現れるまで待つしかない、と。

**デフォルトの名無しさん** · 2012/01/25(水) 10:42:49.23

Revenge is Sweet: PowerVR Discrete GPGPU PCIe Card Coming Later in 2012
ttp://vr-zone.com/articles/revenge-is-sweet-powervr-discrete-gpgpu-pcie-card-coming-later-in-2012/14609.html

レイトレを効率よく実行できるアーキテクチャなら使いでがありそうだな。

**デフォルトの名無しさん** · 2012/01/25(水) 18:08:37.86

日本でのCUDA最先鋒な
東工大のAFDSでの発表が面白い。
http://developer.amd.com/afds/assets/presentations/2913_3_final.pdf
FFTをOpenCLで6970に移植したら、さくっとC2050や580の
最速実装を超えてしまったけど、でもだからと言って
AMDの方が良いとは言わないよとか。

**デフォルトの名無しさん** · 2012/01/25(水) 18:22:40.59

TSUBAME2.0のためにTesla数千枚買っちゃったのに今更AMDが速いとか言ったら各方面から暗殺されかねんからな

**デフォルトの名無しさん** · 2012/01/25(水) 20:10:51.84

超要約すると、

「なぜなら、このプログラムがあるのはNvidia賛のおかげだから（ｷﾘｯ」

って事か？

**デフォルトの名無しさん** · 2012/01/26(木) 11:48:32.10

「汎用のOpenCLよりnVIDIA特化したCUDAの方が速いよ」だと思う
当たり前のことだがｗ
せめてATIStreamと比較してくれ

**デフォルトの名無しさん** · 2012/01/26(木) 13:04:08.77

なぜならECCが無いから問題外

**デフォルトの名無しさん** · 2012/01/26(木) 15:03:56.23

ソフトウェアECCって処理によってがくっと性能下がるらしいからなぁ

**デフォルトの名無しさん** · 2012/01/26(木) 17:07:39.79

たとえば？

**デフォルトの名無しさん** · 2012/01/26(木) 17:49:06.78

>>192
「nVIDIA特化したCUDAでnVIDIAが最適化したCUFFTの方が
当然速いと思ったら、それよりは遅い自分たちがCUDAで書いた
コードを汎用のOpenCLに移植してAMDで動かした方が速かった」
という結果が出た上での結論だから。

**デフォルトの名無しさん** · 2012/01/26(木) 19:55:34.70

>>195
話題に上がってる東工大の先生がGPUのソフトウェアECCについてまとめてたよ
あれ見るとハードでECC処理するTeslaのありがたみがよくわかる

**デフォルトの名無しさん** · 2012/01/26(木) 20:13:42.50

ECCってハミング符号？
だったら、ソフトウェアで実装したら遅くなるのは道理だね

**デフォルトの名無しさん** · 2012/01/26(木) 20:21:24.68

ECCに気を使うのも結構だけど、GPUの場合
そもそも計算間違う可能性についても
議論した方が良いと思うんだが。

長崎大でのGeforceのCUDA不適格率を考えてみても
Teslaがどの程度信頼性あるのか分からん。

**デフォルトの名無しさん** · 2012/01/26(木) 21:10:41.07

統計的バラつきを消すために最初から複数回回す必要があるような
アルゴリズムを選ぶ方がいいのかもな。

**デフォルトの名無しさん** · 2012/03/10(土) 17:43:48.01

今度のラデは800,700番台でも倍精度演算を実装してるみたいだ。
ちょっと勉強するのに買いやすくていいな。

**デフォルトの名無しさん** · 2012/03/11(日) 05:18:50.99

おまえはもう達人だろ。

**デフォルトの名無しさん** · 2012/03/20(火) 09:49:51.77

http://news.mynavi.jp/articles/2012/03/19/radeon/004.html

77x0,78x0の倍精度はエミュレーションっぽいな。
やっぱり79x0買うしかないか。

**デフォルトの名無しさん** · 2012/03/20(火) 13:12:54.98

ＧＰＵでIIRフィルタを効率よくやる方法ってあります？

**デフォルトの名無しさん** · 2012/03/21(水) 00:40:57.22

IIR位何も考えずとも効率良くやれるだろ。
並列に計算できるデータが物凄く多ければな。

並列に計算できるデータが少なくて、時系列方向に長い場合は、
FIRなら時系列方向の並列化も可能だけど
IIRは無理じゃね。

**デフォルトの名無しさん** · 2012/03/21(水) 10:31:16.75

"IIR filter vectorize"とか"~ SIMD"とかでググったらなんか出てくるし読めばいいんじゃねぇの？

**デフォルトの名無しさん** · 2012/03/22(木) 01:33:34.92

>>203
一応単精度では6950ぶっちぎる場面もあるんでまあグラフィックフィルタとか単精度で良いソフトなら試す価値はあるかな
今までと違って動かないわけじゃないから倍精度の開発検証ぐらいはできるしその程度だと思えば…

**デフォルトの名無しさん** · 2012/03/22(木) 23:22:18.46

>204
けち臭いこと言わずFFTしてフィルタリングしろ。

**デフォルトの名無しさん** · 2012/03/23(金) 00:55:17.20

GTX680出たな

**デフォルトの名無しさん** · 2012/03/23(金) 09:11:06.91

だが、APUあたりのレジスタやキャッシュが激減してるし、チップあたりの
実行可能なカーネル数も減ってる。倍精度もエミュレーションぽいし、GPGPU向きじゃないな。

**デフォルトの名無しさん** · 2012/03/23(金) 09:11:36.03

APU→ALU

**デフォルトの名無しさん** · 2012/03/23(金) 13:08:36.71

トレードオフしっかり設計に反映させないと難しい世代になってきたって事かねぇ

**デフォルトの名無しさん** · 2012/03/23(金) 21:26:08.99

>210
具体的な数値って分かる？

**デフォルトの名無しさん** · 2012/03/23(金) 21:29:40.24

pcヲチの後藤さんの記事のブロック図を見れ

**デフォルトの名無しさん** · 2012/05/07(月) 12:34:41.04

Linux上でGPGPU使って遊びたいんだけど64bitの方がいいかな
もしそうならOS入れ直すんだけど

**デフォルトの名無しさん** · 2012/08/19(日) 10:31:27.66

Ubuntu12.04 x64版上で、OpenCLを使って３ｘ３行列の固有値＆固有ベクトルを
単精度のJacobi法で計算させてみた。

CPU：intel 　 i7-2600k (4.4GHz)
GPU:AMD Radeon-HD7970 (1.05GHz)

行列の個数５百万個（全て同じ行列を使用）
OpenCLソース内で同じ計算の繰り返しを１０回
（->５千万個の３ｘ３行列の固有値＆固有ベクトルを求めたことに相当？）

OpenCLのソースコードはCPUとGPUで同じものを使用。

＜結果＞
CPUを使ったOpenCL（Jacobi法の反復回数は６回で収束）
カーネルの実行時間：４７．６８秒

GPUを使ったOpenCL（Jacobi法の反復回数はCPUと同じで６回で収束）
カーネルの実行時間：0.03389秒

GPUが１４００倍も速いと言う結果になった。

OpenCLがAMD製なので、IntelのSSE、AVXなどへの最適化がうまく
行われていないのだろうか？

**デフォルトの名無しさん** · 2012/08/19(日) 19:29:32.18

そもそもSSEやAVX使うようなコード書いているの？

**デフォルトの名無しさん** · 2012/08/19(日) 19:37:00.00

float8とか明示的に256bit幅使うように指定しないと、AVX使わないのでは

**216** · 2012/08/19(日) 20:08:03.83

float4とfloat4を引数に使ったmadは多用してるよ。

**デフォルトの名無しさん** · 2012/08/20(月) 13:15:46.35

いくらなんでも1400倍はおかしくないか？
OpenCLのことはよくしらないけど、理論性能から考えてもそんなに
差が出るはずが無いと思うが･･･
140倍なら、ＣＰＵのコードがクソならあり得るが

**デフォルトの名無しさん** · 2012/08/20(月) 18:30:40.57

i7-2600k (AVX) が単精度 220 GFlops、倍精度 110 GFlops
同 (SSE) が単精度 54 GFlops、倍精度 110 GFlops
Radeon HD 7970 が単精度 3.8 TFlops、倍精度 950 GFlops

SSE でも100 倍以内に収まらないとちと CPU 遅すぎ。
OC しているならばなおさら。

**デフォルトの名無しさん** · 2012/08/20(月) 19:26:12.93

倍精度だとSSEもAVXも同じなの？

**デフォルトの名無しさん** · 2012/08/21(火) 10:06:59.44

x87比

**216** · 2012/08/22(水) 23:02:09.92

同じ問題を APU E1-1200 のミニノートPCで解いてみた。
OSは、 >216 と同じくUbuntu12.04 x64版。

メモリ資源の制限から、行列の個数は１/５の１００万個。
Jacobi法のOpenCLモジュール内で１０回同じ計算をループで
回しているので、１０００万個の３ｘ３行列の固有値を求めたことになる。
当然ながら、このミニノートPCでは O.C. はしていない。

＜結果＞

反復回数（６回）、計算精度共にデスクトップマシンで計算結果と同じ。

CPU　 7.542 sec
GPU 0.4235 sec

OpenCLイベントタイマーで計測した正味の計算時間比較では
GPUが１８倍速いと言う結果になった。
これぐらいの比率なら正常？

**216** · 2012/08/22(水) 23:10:51.04

ついでに >２１６で使用したデスクトップマシン環境で同じ１００万個の計算（１/５の量）を
再計測してみると
＜結果＞
CPU　 9.311 　sec
GPU 0.006517 sec　　やはり、１４２９倍となる。

ただし、皆さんお気付きのように１００万個同士の計算時間比較を行うと

＜CPU同士の比較＞
APU　E1-1200 : 7.522 sec
i7-2600k (4.4GHz) : 9.311 sec

Woo！　i7-2600k(4.4GHz)が E1-1200 の　0.8倍　?????

＜GPU同士の比較＞
APU　E1-1200 : 0.4235 sec
HD7970 (1.05GHz) : 0.006517 sec

HD7970 (1.05GHz) が APU E1-1200 の６５倍となり、CPU側の計算時間が？

どちらも、C++で作成したOpenCLの環境セットアップ部を含めたJacobi法の
OpenCLコードまで全て同じソースコードを用いているが
CPU側のOpenCLイベントタイマー計測がどう見ても変なことが分かった。
デスクトップ側、ミニノートの両ドライバーファイルは12.8 catalyst + AMDAPP V2.7
で同じ。またUbuntu付属のg++4.6.3+NetBeans上で実行モジュールを作成している。

**216** · 2012/08/22(水) 23:26:18.10

>225

> CPU側のOpenCLイベントタイマー計測がどう見ても変なことが分かった。

上記行を削除します（書き間違えました）。

実際に腕時計で測っても、同等な８秒程度の時間でした。
OpenCLイベントタイマー計測が変なのではなく、実際に i7-2600k の方が若干遅かったです。

**デフォルトの名無しさん** · 2012/08/23(木) 01:59:01.61

ループでもっとぶんまわせば？
計測短すぎてクロック上がってないんだろ。

**デフォルトの名無しさん** · 2012/08/23(木) 02:51:56.85

そもそも3x3行列ってのが小さすぎ

**デフォルトの名無しさん** · 2012/08/23(木) 10:37:48.70

たしかに3x3は小さいが、全部の固有値を馬鹿並列で求められるなら、むしろＧＰＵ向きな気もする

**デフォルトの名無しさん** · 2012/08/23(木) 10:39:27.25

「100万個の固有値計算を馬鹿並列にできるなら」という意味ね。1つの行列の相異なる固有値を並列に求めるという意味では無く。俺日本語不自由すぎﾜﾛﾀ

**デフォルトの名無しさん** · 2012/08/24(金) 01:59:31.99

AMDのOpenCLランタイムは、CPUが
ちょっと異様なぐらい遅いとか聞いたことがある気がする

**デフォルトの名無しさん** · 2012/08/24(金) 12:23:43.91

それってSDKが出たばっかの頃の話じゃね
たしかデバッグか何かに絡んだ挙動だったと思ったが

**デフォルトの名無しさん** · 2012/08/28(火) 11:59:01.94

7970もECC化できればなぁ

**デフォルトの名無しさん** · 2012/08/29(水) 21:33:10.08

レイトレースをCPU、GPU側で同様のロジック作って走らせても1000倍くらい違ったし
GPUは並列度の高いコードだと思った以上に早くなる
CPUはそれだけ理論値からの落ち込みが激しいってことなんだろうけど

**デフォルトの名無しさん** · 2012/08/30(木) 05:20:58.76

CPUの方のコードが最適化されてないんじゃないの？
最新のGPUでも単精度ピークが数Tflopsだから、
1000倍差だとCPUは数Gflops以下しか出てないことになる

**デフォルトの名無しさん** · 2012/08/30(木) 08:19:16.75

x87比か

**デフォルトの名無しさん** · 2012/08/31(金) 16:20:09.66

>>235
実際、素人が行列積書くと1－2GFlops しかでないし、まぁそんなもんだろうね

**デフォルトの名無しさん** · 2012/08/31(金) 18:47:52.23

Intelがメニーコア「MIC」とAtom SoCの「Medfield」を発表
ttp://pc.watch.impress.co.jp/docs/column/kaigai/20120831_556528.html

GPU勢もうかうかしていられない？

**デフォルトの名無しさん** · 2012/09/09(日) 12:44:54.16

GPUコアは、これも PowerVR なのね。人気者すぎ。

**デフォルトの名無しさん** · 2012/09/09(日) 23:36:12.36

アーキテクチャがx86だってのは個人的にどうでもいいんだが、
メモリ階層がどうなるのか、メモリバンド幅がどれくらいでるのか、
CUDA5のdynamic parallelismに対抗できる機能があるのか、くらいが
勝負の分かれ目だな。

**デフォルトの名無しさん** · 2012/10/07(日) 21:53:45.44

>>240
dynamic parallelismなんてわざわざご大層な名前を付けなくても
x86CPUなのだから同等以上のことが出来るに決まっているだろ。

**デフォルトの名無しさん** · 2012/10/07(日) 22:01:03.70

対抗してCUDAのバイナリ仕様公開とかないかな

**デフォルトの名無しさん** · 2012/10/07(日) 23:20:36.04

ナイコナの汎用性は別に誰も否定してなくね
問題はその効率だよな。やべーさすがIntel様だ、となるのかやっぱ汎用コア並べたらそんなもんだよね、で終わるのか
うちも研究枠で調達予定なので普通にwktkしてます
GPU性能を維持したままにじり寄ってるからこそ、dynamic parallelismなるご大層な名前…というか変態的な局所性能の誇張に縋ってるんだろう

**デフォルトの名無しさん** · 2012/10/08(月) 00:16:04.33

また大人のおもちゃが税金でたくさん作られるね

**デフォルトの名無しさん** · 2012/10/08(月) 15:19:35.15

えー?
コア一つ当たりの性能ではGPGPUを圧倒するんじゃないの?
問題は、それだけの性能を発揮するために必要なコアサイズが大きすぎることであって。

一つのダイに集積可能なコアの数が、GPGPUのプロセッサより一桁以上も少なくなるので、
コア性能では圧倒していても、総合性能では大幅に負けるに違いないと予想する。

＞やっぱ汎用コア並べたらそんなもんだよね、で終わる

としか考えられないよなあ...

**,,・´∀｀・,,）っ-○○○** · 2012/10/12(金) 14:31:36.83

Coreの定義がIntelとGPUメーカーとで違うから当たり前だろ
1コアあたりのベクトルユニットが16SP/8DP積和だから
NVIDIAのCUDA Coreに換算すると16コア相当で
つまり50coreのPhiは800 CUDA coreに相当するんだけど？

**デフォルトの名無しさん** · 2012/10/12(金) 15:05:22.84

あー、そか。たしかにそうだよな。
コアサイズが二桁ぐらい違うとかじゃないと性能で見劣りすることはないかもしれんのか。

まあ、コアの世代を古い方にして回路規模を小さくしちゃったりするとスループットが落ちて不利だがな、
動作クロックがGPUより上回ってる分と併せて考えると接戦になるのかな?

**デフォルトの名無しさん** · 2012/10/12(金) 15:10:50.51

排他処理のルーチンはボトルネックとしか考えられないよなあ...

**デフォルトの名無しさん** · 2012/10/12(金) 16:11:57.09

GPGPUはピークはともかく実効値がな･･･
先日出たTSUBAME2.0の1mメッシュ気流解析で実効15%ぐらいだっけ？
複雑な分岐や並列度低いものが入るとしぬし
ほかのGPUアクセラレータ積んだクラスタもそうだけどLINPACKばっか速くても仕方ない

**デフォルトの名無しさん** · 2012/10/12(金) 16:39:36.75

その残りの85%は何してるの？

**デフォルトの名無しさん** · 2012/10/12(金) 16:56:08.79

リラックス

**デフォルトの名無しさん** · 2012/10/12(金) 18:14:08.29

良いこと考えた。
働いていない、85%を装置から除去すれば、消費電力も下がるんじゃね？

**デフォルトの名無しさん** · 2012/10/12(金) 21:11:04.99

それこそSMTできるようにして同時実行させろって話じゃね

**デフォルトの名無しさん** · 2012/10/12(金) 23:36:36.25

そしてまた効率低くてそぎ落としか
設計レベルでループしてんじゃねえよw

**デフォルトの名無しさん** · 2012/10/13(土) 00:37:04.86

人間社会もGPGPU社会も一緒なんだな

**デフォルトの名無しさん** · 2012/10/13(土) 00:49:49.97

分岐というか、単純に帯域の問題じゃね。

**デフォルトの名無しさん** · 2012/10/13(土) 02:04:35.67

あのプレゼン見たけど、プログラミングに自信のある計算機寄りの人が、
てきとーに題材みつけてきて、計算機科学の研究として発表してる感じだった。

その結果が15%

**デフォルトの名無しさん** · 2012/10/13(土) 02:37:46.42

計算目的よりも、tubameを生かすための作業やね。まあ察しはつくがw

**デフォルトの名無しさん** · 2012/10/13(土) 03:38:41.47

>>252
蟻の巣からよく働く2割の蟻以外を取り除いても、
残った蟻の8割がなぜか怠け始めるんだそうな

**,,・´∀｀・,,）っ-○○○** · 2012/10/13(土) 04:49:03.94

>>250
働いてないんじゃなくて何かしらがボトルネックになってFMACの稼働率が抑えられてるのでは？
メモリ帯域が足りてる場合でも同時命令発行数の制約でload/store命令と積和命令を
同時に実行できない、とか
（これは京のVenusアーキテクチャにもある制約）

**デフォルトの名無しさん** · 2012/10/13(土) 16:36:04.21

唐突ですまんけど、AMDはファイル名通りのこういう資料があるけど
ttp://developer.amd.com/gpu_assets/R700-Family_Instruction_Set_Architecture.pdf

nVIDIAはこういうの無いの？

**デフォルトの名無しさん** · 2012/10/13(土) 18:21:13.66

>>249
効率はFLOPSに対する効率であって、気象系のアプリは
バンド幅律速だからLINPACKと比べること自体ナンセンス。
ちなみに15％は気象系のステンシルアプリとしては高い方。

**デフォルトの名無しさん** · 2012/10/13(土) 18:24:01.07

>>257
そらまぁ、青木研究室の存在意義が「GPGPUでできることを広げる」
だからね。仕方ない。
NECのSXが沈没の今、京かGPGPUしか無いわけで･･･
それともBlueGeneを買うか？

**デフォルトの名無しさん** · 2012/10/13(土) 18:27:15.78

FLOPSに対する効率だから、アルゴリズム自体の並列化効率以上にはなりえないわけか。
気象系のアプリというものの並列化効率がどんくらいなのか知らないけど（なんとなく高そうではあるが）。

**デフォルトの名無しさん** · 2012/10/13(土) 18:51:02.05

>>264
うーん、微妙に違うな。

今時のアーキテクチャだとメモリがすごく遅いってのは知ってるだろ？
ちなみにメモリの速度はバンド幅って言う。
それに対して演算速度はムーアの法則でどんどん上がってる（上がってた）
から、バランスが全然とれてないんだ。だから、普通のCPUはキャッシュ階層を
深くして（L1、L2、L3とか）なるべくデータの再利用をしてる。

つまり、データをメモリから持ってきたら、なるべくそれを
使い回して計算したいわけ。

で、ここで問題になるのが、浮動小数点演算（FLOP）と、データ転送量の比。
業界だと byte/flops とか言われる。言い方を変えると、どれくらいデータの
使い回しが効くかってこと。
続く

**デフォルトの名無しさん** · 2012/10/13(土) 18:52:43.77

承前
アプリの要求byte/flops高いと、せかっくデータを持ってきても
たいした計算をせずに、すぐに次のデータが必要になっちゃう。
データの使い回しが効かないんだ。これはイマドキの計算機にとってはキツい。
で、気象とか流体とかはそういうアプリなわけ。

だから、基本的に流体とかの計算は演算は余ってて、バンド幅がボトルネックになる。
これはアプリの特性だから仕方ない。

気象･流体屋さんは、未だに地球シミュレーター信者みたいな人が多い。
ちなみに、気象・流体系アプリは並列度だけで言ったらはものすごくあるよ。

ちなみにスレ的に言うと、GPUはGDDR５っていう容量が少ない代わりに
バンド幅が出る贅沢なメモリを搭載して、かつ大量のスレッドを使うことで
レイテンシを隠蔽してる。これがGPGPUが気象・流体計算に使える理由。

**264** · 2012/10/13(土) 19:29:29.68

なるほど、つまり気象系のアプリはコンピュートバウンドではなくメモリバウンドのものが多い、と。
AMDのAPUの使い道の話になったときに、DDR3という制約に悲観的になってる人が少なそうだったから
世の中にはメモリバウンドのものは少数派なのかなあとも思ってたけど普通にあるんですね。

**デフォルトの名無しさん** · 2012/10/13(土) 19:43:21.60

バンド幅と言うか、物理原理的にDRAMのセルは応答が現代のCPUの演算速度に対してずっと遅い。
だから、メモリセルを並列にして同時に読み出し・書き込みするしかないのが根底にある。それをやれDDRxだの、
何ビット同時にアクセス＝複数セルに同時アクセスでなんとかしてるね。

気象系や気体がどうのって言うよりも、規則正しく計算点を並べて偏微分方程式の数値近似式を一斉に走らせる
＝SIMDだのシェーダだの言ってる演算回路がみんな一斉に同じ計算式をやる場合が最大性能が出る。
三次元の方がそりゃ、並列度は高いだろうね。境界条件とか面倒くさそうだが。

こういう根本的なところはもう全然進歩しないなw

**,,・´∀｀・,,）っ-○○○** · 2012/10/13(土) 20:27:18.96

bytes/flopsに関して言えば現状GPUはCPUより低いです。
ただbyte/sが数倍高くて、flopsが更に数倍高いというだけの話で。
Haswellあたりで、電力当たりFLOPS数はGPUとCPUは互角くらいになるのではという話も出ていますな。

**デフォルトの名無しさん** · 2012/10/13(土) 20:32:24.78

TSVって、GPUみたいな爆熱チップでもできるの？