GPGPUについて語りましょう
前スレ
GPGPU#4
http://hibari.2ch.net/test/read.cgi/tech/1255256230/l50
関連スレ
OpenCLプログラミング#1
http://hibari.2ch.net/test/read.cgi/tech/1228891105/l50
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
http://hibari.2ch.net/test/read.cgi/tech/1271587710/l50
参考リンク
総本山? gpgpu.org
http://www.gpgpu.org/
OpenCL
http://www.khronos.org/opencl/
NVIDIA CUDA
http://developer.nvidia.com/object/cuda.html
ATI Stream
http://developer.amd.com/gpu/ATIStreamSDK/Pages/default.aspx
GPUをCPU的に活用するGPGPUの可能性
http://pcweb.mycom.co.jp/articles/2005/09/06/siggraph2/
GPGPU#5
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2010/08/15(日) 21:47:502010/12/17(金) 21:25:49
そんなもん規模しだいだろ
71,,・´∀`・,,)っ-○○○
2010/12/18(土) 00:01:16 Sandy Bridgeの1EU=4Way-FMACと仮定しても、まだCPU(AVX)のほうが速いですから
2010/12/24(金) 16:15:10
ION乗ってるノートでXP入れました!!!!
これでCUDAできますよね?
俺の夢かなえられますよね?
ひゃっはあああああああああああああああああああ
これでCUDAできますよね?
俺の夢かなえられますよね?
ひゃっはあああああああああああああああああああ
2010/12/28(火) 07:59:13
IONのCUDAベンチ&レビューよろしく
2010/12/28(火) 16:38:30
GPU
グレートプログラマー初春
グレートプログラマー初春
2010/12/31(金) 20:09:33
P=>パイパン
DSPやFPGA叩いて高速度・複雑なシステム作るよりは
CPU+GPU叩いて作ったほうがはるかにましだがなあ。生産効率が桁違いだわ。
CPU+GPU叩いて作ったほうがはるかにましだがなあ。生産効率が桁違いだわ。
2011/03/31(木) 21:45:22.56
e?
2011/03/31(木) 22:10:51.72
2011/03/31(木) 23:32:44.83
具体的なカテゴリは勘弁だが、サンプリングしたデータをフィルタで処理して画面に表示
みたいな処理では、GPUでの代替はかなり強烈だよ。
FPGAだとたかだか数百タップの複素FIRフィルタを40〜50MHzの動作速度でさばくのにも
現状だと5〜15万ぐらいのデバイスがいるし。
大量生産するものなら処理をチップ化して安くあげちゃうんだろうけど、
俺のとこみたいな数のでない無線通信製品だとGPGPUはかなり魅力的。
たぶん、画像検査装置みたいな分野でもGPGPUは強力だと思う。
みたいな処理では、GPUでの代替はかなり強烈だよ。
FPGAだとたかだか数百タップの複素FIRフィルタを40〜50MHzの動作速度でさばくのにも
現状だと5〜15万ぐらいのデバイスがいるし。
大量生産するものなら処理をチップ化して安くあげちゃうんだろうけど、
俺のとこみたいな数のでない無線通信製品だとGPGPUはかなり魅力的。
たぶん、画像検査装置みたいな分野でもGPGPUは強力だと思う。
2011/04/03(日) 16:35:24.45
DX11世代だと、本当に何でも出来そうだよな。
81デフォルトの名無しさん
2011/05/04(水) 19:46:46.10 Linux版のAMD APP 2.4にCALのサンプルが付属していないのですが、
Windows版は付属していますか?
Windows版は付属していますか?
2011/05/05(木) 22:26:57.83
してません。
それどころかCALは(IL含め)2.5で死滅。
かわりにLLVM IR使え。
そんな感じです。
それどころかCALは(IL含め)2.5で死滅。
かわりにLLVM IR使え。
そんな感じです。
2011/05/06(金) 02:02:50.78
2011/05/06(金) 23:57:54.77
http://developer.amd.com/gpu/AMDAPPSDK/assets/AMD_APP_SDK_Release_Notes_Samples.pdf
ここにはCALのsampleはcalといディレクトリにあるとかいてますが、
旧バージョンから修正されてないだけでしょうか?
ここにはCALのsampleはcalといディレクトリにあるとかいてますが、
旧バージョンから修正されてないだけでしょうか?
85デフォルトの名無しさん
2011/05/27(金) 14:48:43.51 これからGPGPUを勉強する場合、どれを勉強しておくのが良いのでしょうか?
無難という意味では、OpenCLですか?
無難という意味では、OpenCLですか?
2011/05/27(金) 18:28:55.31
ソリューションは結局、問題や環境が決定するもの。
2011/05/27(金) 22:37:24.01
CUDAでいいんでない
2011/05/29(日) 19:31:28.97
2011/05/30(月) 21:43:43.33
500万個の3×3行列の固有値を
(1)CPU Intel Q9450 (4 posix threads) GCC 4.4.3 (最適化無し、125万個/スレッド)
(2)ATI HD4870 + OpenCL (AMD APP SDK 2.4) (最適化無し)
で計算させてみた(行列は正定値実対称の素直な行列)。
ハードはCPU、GPUともに定格で使用。OSはUbuntu x64 10.4 LTS , AMDドライバはCatalyst 11.5
GCC4.4.3とOpenCLで使用したソースコードは略同じものを使用(相違点は OpenCL側コードに__global 指定が付いた程度)
時間測定はC言語側の計算ルーチン呼び出し元でgettimeofday()を使用してマイクロ秒単位で測定。
(1)CPU Intel Q9450 (4 posix threads) GCC 4.4.3 (最適化無し、125万個/スレッド)
(2)ATI HD4870 + OpenCL (AMD APP SDK 2.4) (最適化無し)
で計算させてみた(行列は正定値実対称の素直な行列)。
ハードはCPU、GPUともに定格で使用。OSはUbuntu x64 10.4 LTS , AMDドライバはCatalyst 11.5
GCC4.4.3とOpenCLで使用したソースコードは略同じものを使用(相違点は OpenCL側コードに__global 指定が付いた程度)
時間測定はC言語側の計算ルーチン呼び出し元でgettimeofday()を使用してマイクロ秒単位で測定。
2011/05/30(月) 21:44:13.63
(1) Q9450 4スレッド
------------------------------------------------------------------
Posix thread creation : 0.000124(sec)
Thread #1 Exection time: 5.992(sec)
Thread #2 Exection time: 6.08448(sec)
Thread #3 Exection time: 5.9132(sec)
Thread #4 Exection time: 5.91843(sec)
Total Exection time : 6.08452(sec) <ーースレッド中の最大値 + α
------------------------------------------------------------------
Posix thread creation : 0.000124(sec)
Thread #1 Exection time: 5.992(sec)
Thread #2 Exection time: 6.08448(sec)
Thread #3 Exection time: 5.9132(sec)
Thread #4 Exection time: 5.91843(sec)
Total Exection time : 6.08452(sec) <ーースレッド中の最大値 + α
2011/05/30(月) 21:44:46.50
(2) HD4870 (800スレッド?)
------------------------------------------------------------------
GPU Kernel Compile : 1.6e-05(sec)
GPU Kernel Build : 5.02891(sec)
GPU Kernel Creation : 6e-06(sec)
GPU Kernel Set Args. : 2e-06(sec)
GPU Kernel Execution : 4e-05(sec) --- clEnqueueNDRangeKernel ()を挟むgettimeofday()の時間差
Memory mapping(READ MODE) : 5.38053(sec)
<この間でデータ読み出し>
Memory UnMapping(from READ MODE) : 0.020504(sec)
OpenCLソースのビルド&結果データの読み出しまで含めるとGPUが1.7倍遅いが計算実行時間の単純比較だと
6.08452 / 4.0E-5 = 1.5E5 = 15万倍速い! と言う結果になりました。 いくら何でも15万倍は速すぎのような気が・・・・(^_^;;)
以上。
------------------------------------------------------------------
GPU Kernel Compile : 1.6e-05(sec)
GPU Kernel Build : 5.02891(sec)
GPU Kernel Creation : 6e-06(sec)
GPU Kernel Set Args. : 2e-06(sec)
GPU Kernel Execution : 4e-05(sec) --- clEnqueueNDRangeKernel ()を挟むgettimeofday()の時間差
Memory mapping(READ MODE) : 5.38053(sec)
<この間でデータ読み出し>
Memory UnMapping(from READ MODE) : 0.020504(sec)
OpenCLソースのビルド&結果データの読み出しまで含めるとGPUが1.7倍遅いが計算実行時間の単純比較だと
6.08452 / 4.0E-5 = 1.5E5 = 15万倍速い! と言う結果になりました。 いくら何でも15万倍は速すぎのような気が・・・・(^_^;;)
以上。
2011/05/30(月) 21:56:52.70
>90 (自己レス)
ごめんなさい。 ミススペルしてました。
(1) Q9450 4スレッド
------------------------------------------------------------------
Posix thread creation : 0.000124(sec)
Thread #1 Execution time: 5.992(sec)
Thread #2 Execution time: 6.08448(sec)
Thread #3 Execution time: 5.9132(sec)
Thread #4 Execution time: 5.91843(sec)
Total Execution time : 6.08452(sec) <ーースレッド中の最大値 + α
ごめんなさい。 ミススペルしてました。
(1) Q9450 4スレッド
------------------------------------------------------------------
Posix thread creation : 0.000124(sec)
Thread #1 Execution time: 5.992(sec)
Thread #2 Execution time: 6.08448(sec)
Thread #3 Execution time: 5.9132(sec)
Thread #4 Execution time: 5.91843(sec)
Total Execution time : 6.08452(sec) <ーースレッド中の最大値 + α
2011/05/31(火) 00:50:53.32
GPGPUについては詳しくないんだけど、
(sizeof float)*3*3*5000000≒180[MB]
これがシステムメモリとVRAM間で往復するから360[MB]
所要時間が2[ms]だから、1[s]に180[GB]も動いてることになる
何か変だ
(sizeof float)*3*3*5000000≒180[MB]
これがシステムメモリとVRAM間で往復するから360[MB]
所要時間が2[ms]だから、1[s]に180[GB]も動いてることになる
何か変だ
2011/05/31(火) 03:26:44.39
ところで、結果は一致してるのか?w
2011/05/31(火) 04:53:50.24
89 です。
使った行列は
2.000000E+00, 1.000000E+00, -1.000000E+00
1.000000E+00, 3.000000E+00, 2.000000E+00
-1.000000E+00, 2.000000E+00, 4.000000E+00
ただしデータは対称性の為、(2.000000E+00, 3.000000E+00, 4.000000E+00, 1.000000E+00, 2.000000E+00, -1.000000E+00)
の6成分のみで、 システムメモリ〜VRAM間の転送量は
3×3行列 sizeof(cl_float)*6*5000000 = 114MB
固有値 sizeof(cl_float)*3*5000000 = 57MB
固有ベクトル sizeof(cl_float)*9*5000000 = 171MB
反復解法の収束回数 sizeof(cl_int )*5000000 = 19MB
CPUでの解は
Eigen value e1 = 2.855207E-01, Eigen vector1 = ( 6.345872E-01, -5.961551E-01, 4.918314E-01)
Eigen value e2 = 3.143277E+00, Eigen vector2 = ( 7.708385E-01, 5.341269E-01, -3.471549E-01)
Eigen value e3 = 5.571202E+00, Eigen vector3 = ( 5.574225E-02, -5.994226E-01, -7.984895E-01)
<e1,e2> = 5.960464E-08 ← 固有ベクトル間の内積での直交性チェック
<e2,e3> = 0.000000E+00
<e3,e1> = 0.000000E+00
GPUでの解は
Eigen value e1 = 2.855215E-01, Eigen vector1 = ( 6.345873E-01, -5.961550E-01, 4.918314E-01)
Eigen value e2 = 3.143277E+00, Eigen vector2 = ( 7.708384E-01, 5.341271E-01, -3.471551E-01)
Eigen value e3 = 5.571201E+00, Eigen vector3 = ( 5.574221E-02, -5.994227E-01, -7.984894E-01)
<e1,e2> = -4.470348E-08
<e2,e3> = -5.960464E-08
<e3,e1> = 0.000000E+00
で略一致してます。
使った行列は
2.000000E+00, 1.000000E+00, -1.000000E+00
1.000000E+00, 3.000000E+00, 2.000000E+00
-1.000000E+00, 2.000000E+00, 4.000000E+00
ただしデータは対称性の為、(2.000000E+00, 3.000000E+00, 4.000000E+00, 1.000000E+00, 2.000000E+00, -1.000000E+00)
の6成分のみで、 システムメモリ〜VRAM間の転送量は
3×3行列 sizeof(cl_float)*6*5000000 = 114MB
固有値 sizeof(cl_float)*3*5000000 = 57MB
固有ベクトル sizeof(cl_float)*9*5000000 = 171MB
反復解法の収束回数 sizeof(cl_int )*5000000 = 19MB
CPUでの解は
Eigen value e1 = 2.855207E-01, Eigen vector1 = ( 6.345872E-01, -5.961551E-01, 4.918314E-01)
Eigen value e2 = 3.143277E+00, Eigen vector2 = ( 7.708385E-01, 5.341269E-01, -3.471549E-01)
Eigen value e3 = 5.571202E+00, Eigen vector3 = ( 5.574225E-02, -5.994226E-01, -7.984895E-01)
<e1,e2> = 5.960464E-08 ← 固有ベクトル間の内積での直交性チェック
<e2,e3> = 0.000000E+00
<e3,e1> = 0.000000E+00
GPUでの解は
Eigen value e1 = 2.855215E-01, Eigen vector1 = ( 6.345873E-01, -5.961550E-01, 4.918314E-01)
Eigen value e2 = 3.143277E+00, Eigen vector2 = ( 7.708384E-01, 5.341271E-01, -3.471551E-01)
Eigen value e3 = 5.571201E+00, Eigen vector3 = ( 5.574221E-02, -5.994227E-01, -7.984894E-01)
<e1,e2> = -4.470348E-08
<e2,e3> = -5.960464E-08
<e3,e1> = 0.000000E+00
で略一致してます。
2011/05/31(火) 05:05:03.85
89 です。
同じ問題を maxima の eigens_by_jacobi で解くと
(%i1) A:matrix([2,1,-1],[1,3,2],[-1,2,4]);
(%i2) eigens_by_jacobi(A);
(%o2) [[0.28552125561224, 3.143277321839643, 5.571201422548121],
[ 0.63458730239817 0.77083835004074 - 0.055742207899264 ]
[ ]
[ - 0.59615502320039 0.53412697029887 0.59942269552653 ]]
[ ]
[ 0.49183141821965 - 0.347155034107 0.79848934767235 ]
(こちらは、固有ベクトルの成分が縦方向に並んでいます)
2011/05/31(火) 07:21:15.15
GPUのほうは最適化の有無でガラっと変わるんでそこんとこどうなのよ
2011/05/31(火) 19:27:14.54
89です。
rtn = clBuildProgram ( pgm, the_number_of_devices, devices, "-cl-opt-disable", NULL, NULL );
でBUILDしています。
KHRONOSのPDFマニュアル p115に
-cl-opt-disable
This option disables all optimizations. The default is optimizations are enabled.
と記述があります。
またkernel 実行は
rtn = clEnqueueNDRangeKernel ( CommandQueue,
kernel,
1,
NULL,
&pe_size, // 5000000
&group_size, // 64
0,
NULL,
NULL // No triger event will be used.
);
今気がついたのですが、p132に
clEnqueueNDRangeKernel returns CL_SUCCESS if the kernel execution was successfully 〜〜 queued 〜〜.
Otherwise, it returns one of the following errors:
とありました。 "Execution Time" と上で書いた時間は実行キューへの登録時間でした。
お騒がせしてすみませんでした。
2011/05/31(火) 22:53:09.21
89 です。以下の方法で、Kernel実行時間とメモリマッピング時間の計測が可能であることが分かりましたので再計測してみました。
cl_event event;
rtn = clEnqueueNDRangeKernel ( CommandQueue, kernel, 1, NULL, &pe_size /* 5000000 */, &group_size /* 64 */,
0, NULL,
&event <- イベント追加
);
if( event ){
(void)clWaitForEvents( 1, &event );
(void)clGetEventProfilingInfo ( event, CL_PROFILING_COMMAND_START, sizeof(cl_ulong), &device_time_counter[0], NULL );
(void)clGetEventProfilingInfo ( event, CL_PROFILING_COMMAND_END, sizeof(cl_ulong), &device_time_counter[1], NULL );
(void)clReleaseEvent( event );
}
実行時間 device_time_counter[1] - device_time_counter[0] (nsec);
GPU Kernel Compile : 1.5e-05(sec)
GPU Kernel Build : 5.02459(sec)
GPU Kernel Creation : 6e-06(sec)
GPU Kernel Set Args. : 1e-06(sec)
*GPU Kernel Execution : 0.114895(sec)
*C[114MB] memory mapping(READ MODE): 0.0358828(SEC) 3177.01(MB/sec)
*E[ 57MB] memory mapping(READ MODE): 0.0179288(SEC) 3179.24(MB/sec)
*V[171MB] memory mapping(READ MODE): 0.0537894(SEC) 3179.07(MB/sec)
*iter[19MB] memory mapping(READ MODE): 0.00600078(SEC) 3166.26(MB/sec)
*はOpenCLのプロファイリング機能で測定した時間。 それ以外はgettimeofday()を使用して呼び出し元から測定した時間。
結局 6.08452 / 0.114895 = 52.96倍 次期 HD7000 が楽しみになってきました (^_^)。
cl_event event;
rtn = clEnqueueNDRangeKernel ( CommandQueue, kernel, 1, NULL, &pe_size /* 5000000 */, &group_size /* 64 */,
0, NULL,
&event <- イベント追加
);
if( event ){
(void)clWaitForEvents( 1, &event );
(void)clGetEventProfilingInfo ( event, CL_PROFILING_COMMAND_START, sizeof(cl_ulong), &device_time_counter[0], NULL );
(void)clGetEventProfilingInfo ( event, CL_PROFILING_COMMAND_END, sizeof(cl_ulong), &device_time_counter[1], NULL );
(void)clReleaseEvent( event );
}
実行時間 device_time_counter[1] - device_time_counter[0] (nsec);
GPU Kernel Compile : 1.5e-05(sec)
GPU Kernel Build : 5.02459(sec)
GPU Kernel Creation : 6e-06(sec)
GPU Kernel Set Args. : 1e-06(sec)
*GPU Kernel Execution : 0.114895(sec)
*C[114MB] memory mapping(READ MODE): 0.0358828(SEC) 3177.01(MB/sec)
*E[ 57MB] memory mapping(READ MODE): 0.0179288(SEC) 3179.24(MB/sec)
*V[171MB] memory mapping(READ MODE): 0.0537894(SEC) 3179.07(MB/sec)
*iter[19MB] memory mapping(READ MODE): 0.00600078(SEC) 3166.26(MB/sec)
*はOpenCLのプロファイリング機能で測定した時間。 それ以外はgettimeofday()を使用して呼び出し元から測定した時間。
結局 6.08452 / 0.114895 = 52.96倍 次期 HD7000 が楽しみになってきました (^_^)。
100デフォルトの名無しさん
2011/06/15(水) 12:15:39.69 visual studio pro, radeon 6000 台 で ati stream ないし open cl
使って、 並列FPU高速化を確認するだけ、ってどのくらい大変ですか?
前提としてCは出来ます
使って、 並列FPU高速化を確認するだけ、ってどのくらい大変ですか?
前提としてCは出来ます
101デフォルトの名無しさん
2011/06/16(木) 00:28:27.42 GPUすごいなあ・・・。もうお前イラネで、失業の危機を感じるわ…。
102デフォルトの名無しさん
2011/06/16(木) 08:09:43.34103デフォルトの名無しさん
2011/06/16(木) 13:12:43.15 GPUをCPUのように扱えるFusion System ArchitectureをAMDが発表
http://pc.watch.impress.co.jp/docs/column/kaigai/20110616_453498.html
.NETで使えるように・・・したのがWPFだっけか
http://pc.watch.impress.co.jp/docs/column/kaigai/20110616_453498.html
.NETで使えるように・・・したのがWPFだっけか
104デフォルトの名無しさん
2011/06/16(木) 23:17:05.13 >>103
全然違う
WPFはGDIの代わりにDirectX使ってるだけ(Vista/7のみ)
FSAに先駆けてVisual Studio2012でついにAMDとnVidiaのGPUがC++プログラミングに完全対応
全然違う
WPFはGDIの代わりにDirectX使ってるだけ(Vista/7のみ)
FSAに先駆けてVisual Studio2012でついにAMDとnVidiaのGPUがC++プログラミングに完全対応
105天使 ◆uL5esZLBSE
2011/07/01(金) 18:26:05.76 Rubyバカにしてる子ってさ
変数に$ついてる言語触ってるって事だよね
いちいちSHIFT+4キーおして $ 打ちまくってる感触はどう?
変数に$ついてる言語触ってるって事だよね
いちいちSHIFT+4キーおして $ 打ちまくってる感触はどう?
106デフォルトの名無しさん
2011/07/01(金) 18:56:59.71 【レス抽出】
対象スレ:GPGPU#5
キーワード:ruby
検索方法:マルチワード(OR)
105 名前:天使 ◆uL5esZLBSE [sage] 投稿日:2011/07/01(金) 18:26:05.76
Rubyバカにしてる子ってさ
変数に$ついてる言語触ってるって事だよね
いちいちSHIFT+4キーおして $ 打ちまくってる感触はどう?
対象スレ:GPGPU#5
キーワード:ruby
検索方法:マルチワード(OR)
105 名前:天使 ◆uL5esZLBSE [sage] 投稿日:2011/07/01(金) 18:26:05.76
Rubyバカにしてる子ってさ
変数に$ついてる言語触ってるって事だよね
いちいちSHIFT+4キーおして $ 打ちまくってる感触はどう?
107デフォルトの名無しさん
2011/07/05(火) 19:30:20.01 GPGPUプログラムしている人、どこののGPU使っている人が多いの?
Intel、nVidia、ATi、どれ?
Intel、nVidia、ATi、どれ?
108デフォルトの名無しさん
2011/07/05(火) 20:26:42.62 速度求めるならATIただしライブラリとドライバが糞
109デフォルトの名無しさん
2011/07/05(火) 20:26:53.66 intelってできるんだ?
110デフォルトの名無しさん
2011/07/06(水) 03:52:32.44 intelからOpenCLのSDKは出てるようだが
111デフォルトの名無しさん
2011/07/06(水) 07:54:48.31 それCPU用だから。でもインテルのだから速いんだろうなきっと。他力本願
112デフォルトの名無しさん
2011/07/06(水) 08:10:04.21 来年のIvyBridgeからだろうなあ
113デフォルトの名無しさん
2011/07/06(水) 09:51:30.14 OpenCV2.3がCUDA対応になったけど、どこまで対応してるんだろうな
114ふぁふぁ ◆mPVQxchC5E
2011/07/21(木) 11:41:22.23 ってすと
115デフォルトの名無しさん
2011/07/27(水) 23:23:53.51116デフォルトの名無しさん
2011/08/05(金) 21:37:53.19 CUDAとかそういうGPGPU向けに作られた言語でなくて、プログラマブルシェーダでできるGPGPUってどんなのあるかな
そういう初期のGPGPU用の参考サイトある?
そういう初期のGPGPU用の参考サイトある?
117デフォルトの名無しさん
2011/08/12(金) 15:29:18.34 Cgとかじゃなくて?
118デフォルトの名無しさん
2011/08/12(金) 20:15:53.69 >>117
純粋に古の技術を学びたいです
純粋に古の技術を学びたいです
119デフォルトの名無しさん
2011/08/12(金) 20:23:35.76 DXCSがまさにそれだから、むしろ最新の技術なんじゃないか?
120デフォルトの名無しさん
2011/08/12(金) 20:34:42.35 そうなのか
レンダリング結果のピクセルカラーから値を読み取るやつをやりたかったんだけど、DCCSってのはそうなの?
レンダリング結果のピクセルカラーから値を読み取るやつをやりたかったんだけど、DCCSってのはそうなの?
121デフォルトの名無しさん
2011/08/12(金) 21:02:24.14 DXCSは先祖がえり
122デフォルトの名無しさん
2011/08/12(金) 21:07:24.66 わざわざ先祖返りしたってことは、
書くのは大変だけど速さはGPGPU用よりも速いってことかな
ちょっと調べてみるわサンクス
書くのは大変だけど速さはGPGPU用よりも速いってことかな
ちょっと調べてみるわサンクス
123デフォルトの名無しさん
2011/08/27(土) 04:28:09.76 おや、こんなスレなんてあったんですね
124デフォルトの名無しさん
2011/09/27(火) 00:26:31.09 JOCLって
125デフォルトの名無しさん
2011/09/27(火) 09:43:30.24 とりあえず安定ならCUDAが一番なのかな?
126デフォルトの名無しさん
2011/09/28(水) 00:15:54.14 安定=他人のソースをコピペできる
ならそうかな
ならそうかな
127デフォルトの名無しさん
2011/09/28(水) 02:40:38.94 不安定だと他人のソースのコピペもできないのか!
128デフォルトの名無しさん
2011/09/28(水) 16:27:35.03 性能ならATi
汎用性ならCUDA
でおk?
汎用性ならCUDA
でおk?
129デフォルトの名無しさん
2011/09/28(水) 17:17:55.93130デフォルトの名無しさん
2011/10/02(日) 09:07:43.00 DirectComputeは?
あとATI Streamは悲しいほどに資料がみつからないんだけどそんなに高性能だったの?
あとATI Streamは悲しいほどに資料がみつからないんだけどそんなに高性能だったの?
131デフォルトの名無しさん
2011/10/02(日) 11:11:37.87 ATI Streamが高性能というより
AMDGPUの演算性能自体がNVIDIAより2-3倍高い。
NVIDIAが力を入れているC2090のDP性能でも
6970と理論値で互角、実効値では後塵を拝している。
AMDGPUの演算性能自体がNVIDIAより2-3倍高い。
NVIDIAが力を入れているC2090のDP性能でも
6970と理論値で互角、実効値では後塵を拝している。
132デフォルトの名無しさん
2011/10/02(日) 13:07:08.51 以前、ATIのIL(アセンブリ)で組んだことあるけど、
チップセット内蔵GPUしか持ってなかったから糞遅かった。
ちゃんとしたGPUで動かすと速いのかな。
チップセット内蔵GPUしか持ってなかったから糞遅かった。
ちゃんとしたGPUで動かすと速いのかな。
133デフォルトの名無しさん
2011/10/02(日) 19:07:21.59 >>131
そうだったんだ。OpenCLやDirectComputeでの比較がないか探してみよっと。
そうだったんだ。OpenCLやDirectComputeでの比較がないか探してみよっと。
134デフォルトの名無しさん
2011/10/03(月) 09:33:34.11 ATI Streamは本当に資料が無いよな・・・
CUDAの本は何冊か出てるのに
OpenCLで最新ATIの性能をフルに引き出せる?
CUDAの本は何冊か出てるのに
OpenCLで最新ATIの性能をフルに引き出せる?
135デフォルトの名無しさん
2011/10/03(月) 15:09:16.19 前に例の長崎大のGPUスパコンの人がOpenCLでCypressのDGEMMベンチマークやってたよ
136デフォルトの名無しさん
2011/10/03(月) 23:52:36.43 もしかして俺がCAL+ILの日本語本を書いたら大もうけできるのだろうか。
でも需要無いか。
でも需要無いか。
2011/10/04(火) 01:30:15.92
次期東大スパコンにも使われる予定のIntel MICのほうが良いかも。
LarrabeeはGPUではなくなってしまったからGP「GPU」ではないかもしれないが。
LarrabeeはGPUではなくなってしまったからGP「GPU」ではないかもしれないが。
138デフォルトの名無しさん
2011/10/04(火) 01:34:43.66 >>136
それよりはOpenCLで書いて各ハード向けへの最適化手法を本にしたほうが儲かると思うよ
それよりはOpenCLで書いて各ハード向けへの最適化手法を本にしたほうが儲かると思うよ
139デフォルトの名無しさん
2011/10/04(火) 02:11:32.30 NVIDIAのGPUでOpenCLやろうとすると徹底的に最適化しなきゃお話にならないあたりでどうにも
140デフォルトの名無しさん
2011/10/04(火) 09:36:23.59 NVIDIA<CUDA使え
って意味だな
って意味だな
141デフォルトの名無しさん
2011/10/06(木) 09:36:21.40 CUDAはC#版もいちおー出てるのが大きいな
142デフォルトの名無しさん
2011/10/14(金) 15:14:25.33 それ言ったらOpenCLもJava版出てるよ
143デフォルトの名無しさん
2011/10/14(金) 19:41:56.68 両方いろいろ出てるよな。Python版とか。C/C++しか使わんけど
144デフォルトの名無しさん
2011/10/15(土) 11:09:55.49 pythonからpycuda経由で使ってみているけど、結構便利。
細かいことやろうとすると、結局python内にC(CUDA)のコード埋め込む事になるけど。
細かいことやろうとすると、結局python内にC(CUDA)のコード埋め込む事になるけど。
145デフォルトの名無しさん
2011/10/15(土) 15:25:56.50 VisualStudio11のDPでC++AMPって使るんだねコンパイルしただけだから
実際どうだかとかわからないけど
実際どうだかとかわからないけど
146デフォルトの名無しさん
2011/10/17(月) 09:42:39.10 ATI Streamは資料も無いしラッパーも無いし、何も無いのが痛い
147デフォルトの名無しさん
2011/10/17(月) 09:54:44.42148デフォルトの名無しさん
2011/10/18(火) 19:29:48.59 英語読めない人にも配慮してもらわないとな
149デフォルトの名無しさん
2011/10/22(土) 11:35:46.31 >>131
2〜3倍ってそんなに違うのか。ATIはいいもの作ってもマーケッティング面が弱いのかな
2〜3倍ってそんなに違うのか。ATIはいいもの作ってもマーケッティング面が弱いのかな
150デフォルトの名無しさん
2011/10/22(土) 11:46:32.47 ベンチマークで良い数値が出てもドライバがバグだらけなので実用的じゃないんです。
151デフォルトの名無しさん
2011/10/22(土) 16:00:19.52 AMDとintelのドライバ、どっちが悪いかってくらいダメだからなぁ
152デフォルトの名無しさん
2011/10/22(土) 16:09:57.98 いっそのことプンソにして作って貰った方がいいんじゃね
153デフォルトの名無しさん
2011/10/22(土) 18:35:35.82 >>151
その2つ合わせたよりも高いOSクラッシュ率のNVも相当なもんだぞ
その2つ合わせたよりも高いOSクラッシュ率のNVも相当なもんだぞ
154デフォルトの名無しさん
2011/10/23(日) 11:26:03.73 >>152
AMDのLinux向けドライバはもう大分前からオープンソースでやってるんじゃ?
AMDのLinux向けドライバはもう大分前からオープンソースでやってるんじゃ?
155デフォルトの名無しさん
2011/10/23(日) 12:44:21.72 両方あるよ。
AMDとNVIDIAの違いはオープンソースコミュニティに
ハードウェアの仕様をドライバ書けるレベルまで公開しているかどうか。
AMDとNVIDIAの違いはオープンソースコミュニティに
ハードウェアの仕様をドライバ書けるレベルまで公開しているかどうか。
156デフォルトの名無しさん
2011/10/23(日) 13:34:45.12 オープンな方のドライバはopenclをまだ実行できないんじゃないかな
AMDが配布してるクローズドな方は実行できるしもう研究に使ってるとこもあるみたい
AMDが配布してるクローズドな方は実行できるしもう研究に使ってるとこもあるみたい
157デフォルトの名無しさん
2011/10/26(水) 04:22:15.81 ゲフォで一般向け、と言うかteslaじゃないのは計算誤りが含まれてるから選別したとか、
どこかの大学で言ってたと思うんだけど、その辺の事情はアムも同じなの?
どこかの大学で言ってたと思うんだけど、その辺の事情はアムも同じなの?
158デフォルトの名無しさん
2011/10/26(水) 05:21:34.17 ソレ言った長崎大の先生はそのあとHD5870でクラスタ組んで論文出してるけどそのへんの事情は言ってないね
まあ保証が欲しいならFirePro買ってくれって立場なのはAMDも変わらんだろうけど
まあ保証が欲しいならFirePro買ってくれって立場なのはAMDも変わらんだろうけど
159デフォルトの名無しさん
2011/11/05(土) 13:53:48.44 こんな技術、BEEP音鳴らすブザーで音階を奏でる類の技術なわけで、
広く実用されることは永遠にないと思うな。
広く実用されることは永遠にないと思うな。
160デフォルトの名無しさん
2011/11/05(土) 14:15:01.69 だいぶ違うと思うが
初期はともかく、現在のハードウェアはほぼ完全にHPCのトレンドに乗せてきてるし
初期はともかく、現在のハードウェアはほぼ完全にHPCのトレンドに乗せてきてるし
161デフォルトの名無しさん
2011/11/06(日) 02:36:21.19 だいぶ違うのは確かだが、広く実用化されるかというとどうだろう。
フィットする問題領域がいくつかあるし、将来もなくならないだろう。
そして多くの領域ではGPGPUが必要にならない。
ほんと下らない当たり前なことで、>159 は何を言いたかったんだろう。
フィットする問題領域がいくつかあるし、将来もなくならないだろう。
そして多くの領域ではGPGPUが必要にならない。
ほんと下らない当たり前なことで、>159 は何を言いたかったんだろう。
162デフォルトの名無しさん
2011/11/08(火) 10:32:58.02 需要がニッチ過ぎるしなぁ
CPUもコア数増やすしか無くなってきたし、一時的な技術なのは確か
今のところは、単純な計算を繰り返すだけならGPGPUのほうが優位ってだけで
CPUもコア数増やすしか無くなってきたし、一時的な技術なのは確か
今のところは、単純な計算を繰り返すだけならGPGPUのほうが優位ってだけで
163デフォルトの名無しさん
2011/11/08(火) 10:40:38.94 そりゃまあ、一家に1台クレイ風ベクトルプロセッサ、みたいにはならなかった、
という意味では、たいていの技術は「広く実用されることは永遠にない」ものだろうが。
という意味では、たいていの技術は「広く実用されることは永遠にない」ものだろうが。
164デフォルトの名無しさん
2011/12/22(木) 14:36:12.59 ラデの7000シリーズが出たな。
165デフォルトの名無しさん
2011/12/22(木) 14:54:46.40 金のある研究員の人
ラデの人柱になってください
ラデの人柱になってください
166デフォルトの名無しさん
2011/12/22(木) 15:15:25.43 某東北の公立大の中の人がなるんじゃないか?
167デフォルトの名無しさん
2011/12/22(木) 21:17:08.51 4Gamer.net ― AMD,新世代ハイエンドGPU「Radeon HD 7970」を発表――Southern Island世代のGPUアーキテクチャを整理する
http://www.4gamer.net/games/135/G013536/20111221078/
>つまり,GNCでSPの演算機能に手は入っておらず,単精度の浮動小数点積和演算・
>積和算・乗算・加算と整数演算のみをサポートしたものだということだ。
>言い換えると,VLIW5アーキテクチャにおける“ビッグSP”のような,
>倍精度演算や超越関数演算に対応した特別機能ユニットは搭載されていない。
Graphics Core Nextって倍精度が激遅になったりしないんだろうか。
一応次のようなCTOの発言↓があるのでそれをカバーするしくみがあるのかもしれないけど。
>「依存関係にない複数の命令を1命令としてまとめて実行できるVLIW方式も,
>グラフィックス用途では十分に活用できるアーキテクチャだが,
>GCNは汎用コンピューティング用途などでも優れたパフォーマンスを発揮できるアーキテクチャだ」
http://www.4gamer.net/games/135/G013536/20111221078/
>つまり,GNCでSPの演算機能に手は入っておらず,単精度の浮動小数点積和演算・
>積和算・乗算・加算と整数演算のみをサポートしたものだということだ。
>言い換えると,VLIW5アーキテクチャにおける“ビッグSP”のような,
>倍精度演算や超越関数演算に対応した特別機能ユニットは搭載されていない。
Graphics Core Nextって倍精度が激遅になったりしないんだろうか。
一応次のようなCTOの発言↓があるのでそれをカバーするしくみがあるのかもしれないけど。
>「依存関係にない複数の命令を1命令としてまとめて実行できるVLIW方式も,
>グラフィックス用途では十分に活用できるアーキテクチャだが,
>GCNは汎用コンピューティング用途などでも優れたパフォーマンスを発揮できるアーキテクチャだ」
168デフォルトの名無しさん
2011/12/22(木) 21:38:45.64 自己解決しました。何にせよ新しいモノは楽しみですな。
【後藤弘茂のWeekly海外ニュース】 大きく進化を遂げた新世代GPU「Radeon HD 7900」
http://pc.watch.impress.co.jp/docs/column/kaigai/20111222_501138.html
>倍精度演算などは命令発行に16サイクルかかるため、Graphics Core Nextでは単精度と倍精度の
>ピークパフォーマンス比率は1対4となっている。925MHz動作なら947GFLOPSの倍精度性能となる。
>ここはトレードオフで、HPC(High Performance Computing)を重視するNVIDIAは、
>ダイ効率のトレードオフを払っても、単精度と倍精度の比率を1対2にしたが、AMDは1対4に抑えた。
【後藤弘茂のWeekly海外ニュース】 大きく進化を遂げた新世代GPU「Radeon HD 7900」
http://pc.watch.impress.co.jp/docs/column/kaigai/20111222_501138.html
>倍精度演算などは命令発行に16サイクルかかるため、Graphics Core Nextでは単精度と倍精度の
>ピークパフォーマンス比率は1対4となっている。925MHz動作なら947GFLOPSの倍精度性能となる。
>ここはトレードオフで、HPC(High Performance Computing)を重視するNVIDIAは、
>ダイ効率のトレードオフを払っても、単精度と倍精度の比率を1対2にしたが、AMDは1対4に抑えた。
169デフォルトの名無しさん
2011/12/22(木) 22:53:29.18 つーか乗算の筆算考えてみれば
SPvsDPの計算負荷は1:4の方が自然なのは当たり前
NVIDIAのは倍精度重視というより、単精度軽視という方が近い
SP2倍結局計算できる回路があるのに使えなくしているだけなのだもの
まあ、レジスタ帯域とか考えれば1:2も分かるけど
これはレジスタの割り当て自由度を無駄に上げて
レジスタ帯域を上げる事を難しくしている
Fermiの構造的な問題だからな。
SPvsDPの計算負荷は1:4の方が自然なのは当たり前
NVIDIAのは倍精度重視というより、単精度軽視という方が近い
SP2倍結局計算できる回路があるのに使えなくしているだけなのだもの
まあ、レジスタ帯域とか考えれば1:2も分かるけど
これはレジスタの割り当て自由度を無駄に上げて
レジスタ帯域を上げる事を難しくしている
Fermiの構造的な問題だからな。
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【サッカー】Jリーグ観客動員が歴代最多を更新 初の「1300万人超え」達成…平均入場者数も史上最高に [尺アジ★]
- 女性天皇「賛成」69%、将来の皇位継承「不安」68%…読売世論調査 ★3 [蚤の市★]
- サナエノミクスについて力説 積極的な財政出動で「所得増える 消費マインド上がる 税収増える」片山さつき財務大臣 ★3 [少考さん★]
- 日中対立「着地点」見えず 中国、他国にも圧力の過去―関係悪化から1カ月 [蚤の市★]
- 【芸能】粗品、日本テレビに苦言 客のレベルが「かなり低い。あいつら分かってない」「拍手したいだけやねん」 [冬月記者★]
- 日本の英語力96位から動かず AI評価で可視化された「読めるが話せない」の正体 (EF EPI 2025) ★2 [少考さん★]
- このお🏡は好都合に未完成🦖
- 00:00:00.000
- 【朗報】イーロン・マスク「AIとロボットで誰も働かなくて良くなる。全員ニートで金銭も税金もないパラダイスみてぇな国を作りてえ」 [347751896]
- 世界一の運動神経を持つけど身長140センチの男がやるべきスポーツ
- 伊東市の元市長、高市が激励メッセージを送り自民党県連が全面支援したのに敗北 [931948549]
- 【悲報】米山隆一と室井佑月、ガチで離婚しそうwwwwwwwwwwwwwwwwwwww [802034645]
