このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。
CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone
関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50
前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
http://toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
【GPGPU】くだすれCUDAスレ part7【NVIDIA】 [転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2014/11/20(木) 23:14:46.66ID:jr3oZn27
153デフォルトの名無しさん
2015/06/26(金) 09:30:43.08ID:gBS6mhz7 >>150
ちゃんとアンチウイルス入れておけよ。
ちゃんとアンチウイルス入れておけよ。
154デフォルトの名無しさん
2015/06/26(金) 11:48:22.16ID:JVzNXP51 CUDA7入れたのですが、
cublas.hが見つからないと出てしまいました。
cublas使うには他に何か必要なのでしょうか?
cublas.hが見つからないと出てしまいました。
cublas使うには他に何か必要なのでしょうか?
155デフォルトの名無しさん
2015/06/26(金) 12:57:38.26ID:1v0mrakI >>154
C:> dir /s /b "%CUDA_PATH%\cublas.h"
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include\cublas.h
C:> dir /s /b "%CUDA_PATH%\cublas.h"
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include\cublas.h
156デフォルトの名無しさん
2015/06/26(金) 13:07:12.91ID:JVzNXP51 ありがとうございます。
みつかりました
みつかりました
157デフォルトの名無しさん
2015/06/26(金) 23:47:30.95ID:f2ddT7MK >>152
>ゲームするならかなりいけてる
こういうのがイマイチよくわかりません
単純にFLOPSで性能を見ちゃいけないのでしょうか
ゲームやGPUプログラミングに向いてるかどうかってどうやって判断してるんでしょうか
>ゲームするならかなりいけてる
こういうのがイマイチよくわかりません
単純にFLOPSで性能を見ちゃいけないのでしょうか
ゲームやGPUプログラミングに向いてるかどうかってどうやって判断してるんでしょうか
158デフォルトの名無しさん
2015/06/27(土) 03:38:35.85ID:y7j5+l1E >>157
プロはGPGPUするのにゲーム用のGFやRadeonをはあんまり使わない
趣味レベルでOKのGPGPUならGPGPUがオマケであるゲーム用(ゲームドライバ)のVGAでも良いが。
Xeonが一般的な業務サーバーに普通のデスクトップPCをいっぱい使うなことは
しないのと同じ。あと、FLOPSは目的のGPGPUするのに必要なレベルあれあば良い。
低FLOPSでOKなGPGPU処理に超高FLOPSのものを使うって趣味だし
プロはGPGPUするのにゲーム用のGFやRadeonをはあんまり使わない
趣味レベルでOKのGPGPUならGPGPUがオマケであるゲーム用(ゲームドライバ)のVGAでも良いが。
Xeonが一般的な業務サーバーに普通のデスクトップPCをいっぱい使うなことは
しないのと同じ。あと、FLOPSは目的のGPGPUするのに必要なレベルあれあば良い。
低FLOPSでOKなGPGPU処理に超高FLOPSのものを使うって趣味だし
159デフォルトの名無しさん
2015/06/27(土) 09:17:14.69ID:f1QkQQtg プロだってコスパ考えるだろ。
倍精度演算性能と信頼性で妥協できるならゲーム用GPUの方が圧倒的に安いしな。
倍精度演算性能と信頼性で妥協できるならゲーム用GPUの方が圧倒的に安いしな。
2015/06/27(土) 23:23:04.05ID:XHzW5ECE
まあ中国の天河1号はFireStreamですらないRadeonのデュアルGPUカードを大量搭載したが
結局実用にならなくて次の更新で全部Teslaに差し替えたからね
額面のFLOPS数だけで実用性は評価できない
結局実用にならなくて次の更新で全部Teslaに差し替えたからね
額面のFLOPS数だけで実用性は評価できない
161デフォルトの名無しさん
2015/06/28(日) 09:51:05.56ID:MpgQMMEq 中国はスパコンにTESLAとか使えなくなったから、NVIDIAやインテルは大口顧客を失った。
162デフォルトの名無しさん
2015/06/28(日) 16:33:48.10ID:zku7pwa+ >NVIDIAやインテルは大口顧客を失った。
その損失分は米国内の大型スパコンでの便宜をはかることで補填されてるから企業としては差し引きOKとなったはず
その損失分は米国内の大型スパコンでの便宜をはかることで補填されてるから企業としては差し引きOKとなったはず
163デフォルトの名無しさん
2015/06/29(月) 08:06:36.49ID:FIYCVjDt windows7でchainer試そうとすると
pycudaでなんか不具合出る
pycudaでなんか不具合出る
164デフォルトの名無しさん
2015/06/29(月) 08:13:35.83ID:FIYCVjDt165デフォルトの名無しさん
2015/06/29(月) 09:25:13.60ID:uPSGGZxo 並列計算でGTX780Ti使ってるんだけどGTX980Tiにしたら倍精度の計算って遅くなる?
166デフォルトの名無しさん
2015/06/30(火) 16:00:18.94ID:vWTsPJO/ cudaってMFCのcppから呼べますか?
サンプルで.cuから.cppを呼んでるのは見つけたんですが。
サンプルで.cuから.cppを呼んでるのは見つけたんですが。
167デフォルトの名無しさん
2015/06/30(火) 17:26:54.94ID:vWTsPJO/ あーexternで呼べました
168デフォルトの名無しさん
2015/07/02(木) 01:47:05.99ID:cql5ELb9 >>165
単精度演算性能 コア数×クロック数×2
倍精度演算性能 単精度演算性能/24(Kepler), 単精度演算性能/32(Maxwell)
として計算すると、
780Tiが2880×875×2/24=205GFLOPS
980Tiが2816×1000×2/32=172GLOPS
だから、遅くなるんじゃね?
単精度演算性能 コア数×クロック数×2
倍精度演算性能 単精度演算性能/24(Kepler), 単精度演算性能/32(Maxwell)
として計算すると、
780Tiが2880×875×2/24=205GFLOPS
980Tiが2816×1000×2/32=172GLOPS
だから、遅くなるんじゃね?
169デフォルトの名無しさん
2015/07/02(木) 15:34:36.77ID:bfg1NSwR CUDAって仕様上できないこともコンパイルとおるのか〜
170デフォルトの名無しさん
2015/07/02(木) 23:26:03.68ID:Pfy0Io9G Nvはゲームにゲーム用VGAには倍精度演算イラネから省くって流れだから
ゲーム用VGAで倍精度演算性能ほしいならRadeにしたほうがいいよな
ゲーム用VGAで倍精度演算性能ほしいならRadeにしたほうがいいよな
171デフォルトの名無しさん
2015/07/03(金) 14:37:16.26ID:WUZUNux9172デフォルトの名無しさん
2015/07/03(金) 23:30:48.50ID:dkeXuonA TITANヤフオクで探すのはどうでしょ
173デフォルトの名無しさん
2015/07/05(日) 22:31:36.27ID:tW1t1zZP 全く値段見ないでカンで言うけど
中古の無印TITANならウンコに混じったコーン位の値段で売ってんじゃないの?
中古の無印TITANならウンコに混じったコーン位の値段で売ってんじゃないの?
174デフォルトの名無しさん
2015/07/07(火) 16:43:12.64ID:y9jINuhY CULAのエラーでpos 1022ってなんですか?
LAPACKドキュメントを見よとか書いてありますが、見当たりません
LAPACKドキュメントを見よとか書いてありますが、見当たりません
175デフォルトの名無しさん
2015/07/08(水) 10:49:51.33ID:UJb9gmN3 CUDA7.5 RC
176デフォルトの名無しさん
2015/07/08(水) 20:10:01.47ID:h2HOA+i0 最近始めたんだけどversionって無理して最新にする必要無いのかな
7入れるのに結構苦労したんであんまり変えたくない
みなさんはガンガン上げてく感じですか?
7入れるのに結構苦労したんであんまり変えたくない
みなさんはガンガン上げてく感じですか?
177デフォルトの名無しさん
2015/07/08(水) 20:20:41.59ID:QsV0kvB4 共存できるやん
178デフォルトの名無しさん
2015/07/11(土) 13:57:32.12ID:QRzfcgY3 困らなければ基本的に更新とかはしないと思うけど…
179デフォルトの名無しさん
2015/07/13(月) 01:32:34.78ID:BK2wG7MT でも最新のほうが速くなったりするかもしれないし
180デフォルトの名無しさん
2015/07/27(月) 20:50:16.33ID:0YcBUgDv 分割コンパイルができないんだけど、どうしたらいいんだろ?
ビルドどころか1ファイルのコンパイルもエラーになる
vs2013ce, cuda7.0, fermi, debug,x64
D:\cuda_test\cuda_test>
"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\bin\nvcc.exe"
-gencode=arch=compute_20,code=\"sm_20,compute_20\" --use-local-env --cl-version 2013
-ccbin "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin\x86_amd64" -rdc=true
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\lib\x64"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-G --keep-dir x64\Debug -maxrregcount=0 --machine 64
--compile -cudart static -g -DWIN32 -DWIN64 -D_DEBUG -D_CONSOLE -D_UNICODE -DUNICODE
-Xcompiler "/EHsc /W3 /nologo /Od /Zi /RTC1 /MDd "/wd 4819""
-o x64\Debug\cuda_body.cu.obj "D:\cuda_test\cuda_test\cuda_body.cu"
1> nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
ビルドどころか1ファイルのコンパイルもエラーになる
vs2013ce, cuda7.0, fermi, debug,x64
D:\cuda_test\cuda_test>
"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\bin\nvcc.exe"
-gencode=arch=compute_20,code=\"sm_20,compute_20\" --use-local-env --cl-version 2013
-ccbin "C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\bin\x86_amd64" -rdc=true
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\lib\x64"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-I"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include"
-G --keep-dir x64\Debug -maxrregcount=0 --machine 64
--compile -cudart static -g -DWIN32 -DWIN64 -D_DEBUG -D_CONSOLE -D_UNICODE -DUNICODE
-Xcompiler "/EHsc /W3 /nologo /Od /Zi /RTC1 /MDd "/wd 4819""
-o x64\Debug\cuda_body.cu.obj "D:\cuda_test\cuda_test\cuda_body.cu"
1> nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
181デフォルトの名無しさん
2015/07/27(月) 20:55:02.52ID:0YcBUgDv nvcc fatal : A single input file is required for a non-link phase when an outputfile is specified
コンパイルフェーズで出力ファイル指定するときは1ファイルでやれっていうけど、出力ファイル指定しないと何にも出力されないし、
cuda5.0以降は分割コンパイルは対応してるよね? rdcもdlinkも指定してるし何がいけないんだ
コンパイルフェーズで出力ファイル指定するときは1ファイルでやれっていうけど、出力ファイル指定しないと何にも出力されないし、
cuda5.0以降は分割コンパイルは対応してるよね? rdcもdlinkも指定してるし何がいけないんだ
182デフォルトの名無しさん
2015/08/02(日) 15:01:41.54ID:LFE7g0os 別にCUDAじゃなくても良いんですが、
GPUで直接JPEGを、DirectXのテクスチャに展開して、そのまま表示したいです。
そういったライブラリって無いですか?
かなり需要がありそうなんですが
GPUで直接JPEGを、DirectXのテクスチャに展開して、そのまま表示したいです。
そういったライブラリって無いですか?
かなり需要がありそうなんですが
183デフォルトの名無しさん
2015/09/07(月) 00:27:30.12ID:nK71AIt7 ヘッダファイルで定義した定数は__device__内では使えないのでしょうか?
184183
2015/09/08(火) 02:08:23.68ID:V+WRCKAL 少し分かったことがありました
グローバルで
const int i = 1;
const double d = 1;
と定義すると
__device__内でiは使えてdは使えませんでした
error: identifier "d" is undefined in device code
とエラーが出てしまいます
どうしてdouble型だとエラーになるのでしょうか?
グローバルで
const int i = 1;
const double d = 1;
と定義すると
__device__内でiは使えてdは使えませんでした
error: identifier "d" is undefined in device code
とエラーが出てしまいます
どうしてdouble型だとエラーになるのでしょうか?
185デフォルトの名無しさん
2015/09/11(金) 23:39:48.38ID:myHMFCwl floatやlongは?
186デフォルトの名無しさん
2015/09/14(月) 22:17:35.79ID:2IqUP8/H floatはダメでlong intはOK
だめならだめで引数とすれば良いんですけどね
整数だけというのはcudaの仕様ですかね?
だめならだめで引数とすれば良いんですけどね
整数だけというのはcudaの仕様ですかね?
187デフォルトの名無しさん
2015/09/15(火) 09:01:24.15ID:10B5WSYL なんでだろうな。全く調べていないので100%想像だけど、
GPU上にstatic変数が確保されているとは思えないから、
(無いとは言い切れないが)
コンパイル時に定数展開しているんだろうな。
C++の言語仕様としてconst intは定数展開していいし、
(厳密な言い方だと間違いかもしれん)
クラスのstaticメンバにしても宣言のみで定義が不要ってのがあるから、
それに則った処理なんじゃなかろうか。
GPU上にstatic変数が確保されているとは思えないから、
(無いとは言い切れないが)
コンパイル時に定数展開しているんだろうな。
C++の言語仕様としてconst intは定数展開していいし、
(厳密な言い方だと間違いかもしれん)
クラスのstaticメンバにしても宣言のみで定義が不要ってのがあるから、
それに則った処理なんじゃなかろうか。
188デフォルトの名無しさん
2015/09/15(火) 14:26:04.38ID:8ArN6+Sd Visual Studioでエラーでた
似たような状況の人いたら教えてほしいです
環境
CPU core i5 4570
GPU GTX 980
Visual Studio 2010 Ultimate
CUDA v7.0
NSIGHT v5.0
使用言語はC
エラーが起こる状況↓
__device__ function1(){
int array1[ 1000 ];
function2( array1 );
}
__device__ function2( int *array1 ){
int array2[ 1000 ];
for( int k = 0 ; k < 1000 ; k++ ){
array1[ k ] = rand(); // rand()は何らかの乱数を返す関数
array2[ k ] = rand();
}
}
function1を呼び出したとき,時折だがarray1の値がarray2の値と同じになってしまう
エラーが起きた状況で以下のことは確認済み
・array1,2ともにグローバルメモリに確保されている
・array1とarray2のポインタは異なっている
・rand()が異なる値を返している
また,array2の宣言をfunction1で行い,function2にarray2のポインタを返すことで回避ができる
似たような状況の人いたら教えてほしいです
環境
CPU core i5 4570
GPU GTX 980
Visual Studio 2010 Ultimate
CUDA v7.0
NSIGHT v5.0
使用言語はC
エラーが起こる状況↓
__device__ function1(){
int array1[ 1000 ];
function2( array1 );
}
__device__ function2( int *array1 ){
int array2[ 1000 ];
for( int k = 0 ; k < 1000 ; k++ ){
array1[ k ] = rand(); // rand()は何らかの乱数を返す関数
array2[ k ] = rand();
}
}
function1を呼び出したとき,時折だがarray1の値がarray2の値と同じになってしまう
エラーが起きた状況で以下のことは確認済み
・array1,2ともにグローバルメモリに確保されている
・array1とarray2のポインタは異なっている
・rand()が異なる値を返している
また,array2の宣言をfunction1で行い,function2にarray2のポインタを返すことで回避ができる
189デフォルトの名無しさん
2015/09/15(火) 14:29:46.25ID:JgRUCOJR 全然知らんけど、スタックオーバーフローじゃね?
static int array2[1000];にすれば解決
static int array2[1000];にすれば解決
190デフォルトの名無しさん
2015/09/17(木) 00:01:30.77ID:6wQsOGVx >>184
device修飾してないだけとか馬鹿なおちはないよな?
device修飾してないだけとか馬鹿なおちはないよな?
191デフォルトの名無しさん
2015/09/27(日) 11:58:09.30ID:X6SDQWu/ VS2013 cuda7.0で
intelisenseがcudaの関数やthreadIdxなんかに赤線つけるんだけど
intelisenseを無効化させる方法ではなく、対応させられない?
intelisenseがcudaの関数やthreadIdxなんかに赤線つけるんだけど
intelisenseを無効化させる方法ではなく、対応させられない?
192デフォルトの名無しさん
2015/09/29(火) 16:27:34.89ID:++1fLQj6 CUDAって余計な決まり事が多くてGLSLよりわかりにくくなってると思うんだけど
193デフォルトの名無しさん
2015/09/30(水) 06:44:35.73ID:OmftLuOo194デフォルトの名無しさん
2015/10/01(木) 00:53:18.68ID:44xt2+tf cuda_header.hに以下をまとめて、これを.cuでインクルードしてるんだけど、インテリセンスがエラーとして表示したままなんだ。
また従来のcutil系の代わりのhelper関数のヘッダが開けないともなぜか出る。(プロジェクトの追加のインクルードDirには指定してあるんだが・・)
でもコンパイルはされるんだよ・・・。インテリセンスのキャッシュクリアしようと考えたんだが2013のメニューにはないみたいだし・・。
#include <cuda.h>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>
#include <device_functions.h>
#include <math_constants.h>
#include <helper_cuda.h>
#include <helper_math.h>
また従来のcutil系の代わりのhelper関数のヘッダが開けないともなぜか出る。(プロジェクトの追加のインクルードDirには指定してあるんだが・・)
でもコンパイルはされるんだよ・・・。インテリセンスのキャッシュクリアしようと考えたんだが2013のメニューにはないみたいだし・・。
#include <cuda.h>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>
#include <device_functions.h>
#include <math_constants.h>
#include <helper_cuda.h>
#include <helper_math.h>
195デフォルトの名無しさん
2015/11/11(水) 20:55:36.03ID:FAkUvGGr 超初歩的な質問ですがよろしければお願いします
環境 windows7 64bit Visual Studio 2013 community CUDA7.5
CUDAインストール時にはVS2013をインストール済みと判定するものの
コマンドプロンプトからnvccでサンプルを実行させると
nvcc fatal : nvcc cannot find a supported version of microsoft visual studio
とエラーが発生します
パスなどの設定の問題なのでしょうか?
環境 windows7 64bit Visual Studio 2013 community CUDA7.5
CUDAインストール時にはVS2013をインストール済みと判定するものの
コマンドプロンプトからnvccでサンプルを実行させると
nvcc fatal : nvcc cannot find a supported version of microsoft visual studio
とエラーが発生します
パスなどの設定の問題なのでしょうか?
196デフォルトの名無しさん
2015/11/11(水) 22:32:08.88ID:kzShUi9X コマンドプロンプトからcl.exe叩くのと同じだろう。
VSの開発者コマンドプロンプトからやってみれば?
VSの開発者コマンドプロンプトからやってみれば?
197デフォルトの名無しさん
2015/11/12(木) 06:18:25.24ID:oFlt1n6m Communityでもいけるんだ?
少し前に断念してProにした記憶がある
少し前に断念してProにした記憶がある
198デフォルトの名無しさん
2015/11/16(月) 00:30:41.16ID:wFEoXPFZ 質問です
OpenGLとCUDAを使って流体のシミュレーションをしようと考えています
OpenGLの描画とCUDAの計算を別スレッドで行ってCUDAの計算の完了を待たずに描画をしようとするとプログラムが落ちてしまいます
そもそもこういう使い方は間違いですか?
GPUを二つ使わないと不可能なのでしょうか?
OpenGLとCUDAを使って流体のシミュレーションをしようと考えています
OpenGLの描画とCUDAの計算を別スレッドで行ってCUDAの計算の完了を待たずに描画をしようとするとプログラムが落ちてしまいます
そもそもこういう使い方は間違いですか?
GPUを二つ使わないと不可能なのでしょうか?
199デフォルトの名無しさん
2015/11/16(月) 04:31:20.12ID:yRzaBdvH CUDAを待たずにどういったデータで描画してるの?
200デフォルトの名無しさん
2015/11/16(月) 11:12:07.65ID:wFEoXPFZ 正確には
CUDAで計算
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算 ←ここを並列化したい
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算
↓
といった処理の流れです
描画と計算の処理の合計が少しでも速くなれば最終的には速くなる見込みなんですが、描画とCUDAは同時にはできないのでしょうか?
CUDAで計算
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算 ←ここを並列化したい
↓
計算用と描画用として二つのデータをメモリにコピー
↓ ↓
グラフィック描画 CUDAで計算
↓
といった処理の流れです
描画と計算の処理の合計が少しでも速くなれば最終的には速くなる見込みなんですが、描画とCUDAは同時にはできないのでしょうか?
201デフォルトの名無しさん
2015/11/16(月) 13:12:47.35ID:tPyDrti9202デフォルトの名無しさん
2015/11/16(月) 18:15:47.96ID:wFEoXPFZ すいません何故か解決しました
OpenGLによる描画をサブスレッドにしていたところメインスレッドにしたら問題なく実行できるようになりました
OpenGLによる描画をサブスレッドにしていたところメインスレッドにしたら問題なく実行できるようになりました
203デフォルトの名無しさん
2015/11/19(木) 10:22:54.59ID:78JlLUmP AMD、GPGPUの向けの取り組み「ボルツマンイニシアチブ」を発表。CUDAとの互換性も提供 | スラド
http://srad.jp/story/15/11/18/0657225/
http://srad.jp/story/15/11/18/0657225/
204デフォルトの名無しさん
2015/11/19(木) 18:31:49.90ID:xKyOvSDo >>203
いまや一般向けプログラムですらGPUを使うことが普通になったから、
これがC++コンパイラーのデファクトになるだろうな。
DX12,VulkanでGPUするならAMDって流れにまってしまったからな
いまや一般向けプログラムですらGPUを使うことが普通になったから、
これがC++コンパイラーのデファクトになるだろうな。
DX12,VulkanでGPUするならAMDって流れにまってしまったからな
205デフォルトの名無しさん
2015/11/19(木) 20:24:21.71ID:FjjW9TL1 え?
GPGPUの世界は圧倒的にNVIDIAなんだけど?
GPGPUの世界は圧倒的にNVIDIAなんだけど?
206デフォルトの名無しさん
2015/11/19(木) 20:26:18.29ID:Zq45eYUV PC用GPUでもAMDはシェア2割切ってるでしょ
207デフォルトの名無しさん
2015/11/19(木) 21:33:26.48ID:ngiRjlY7 産業向けのガチのやつならNvidiaでくだ
カジュアルな一般向けならIntelをOpenCLでってとこかな
カジュアルな一般向けならIntelをOpenCLでってとこかな
208デフォルトの名無しさん
2015/11/19(木) 22:05:05.00ID:btQoS/xZ 開発の手間で言えばCUDAが一番楽。NV限定にできるなら趣味でやるにしてもそれが一番手軽。
OpenCLならせめてAMD。IntelはOpenCLの経験を積んだ苦労と向け。
OpenCLならせめてAMD。IntelはOpenCLの経験を積んだ苦労と向け。
209デフォルトの名無しさん
2015/11/19(木) 22:09:50.57ID:ngiRjlY7 個人向けやオフィスPCでグラボ別にあるのって少数だから仕方ない。
数を優先するならむしろNvidia切ってIntelのみ対応という手もありうる。
数を優先するならむしろNvidia切ってIntelのみ対応という手もありうる。
210デフォルトの名無しさん
2015/11/19(木) 22:10:45.45ID:ngiRjlY7 慣れてるし開発ツール揃ってるからNが一番楽なんだけど。
211デフォルトの名無しさん
2015/11/19(木) 22:48:28.04ID:btQoS/xZ HD GraphicsでOpenCLやってもCPUと大して性能変わらんぞ?
それに、オンボードグラフィックスのPC自体は多いだろうが、OpenCL1.0しか動かんとか
そもそもOpenCLが使えないのも少なくない。間口でいうならSSEでもやるほうがまし。
そうでなければAMDでOpenCL開発してNVとIntelで動作確認ってところだな。
それに、オンボードグラフィックスのPC自体は多いだろうが、OpenCL1.0しか動かんとか
そもそもOpenCLが使えないのも少なくない。間口でいうならSSEでもやるほうがまし。
そうでなければAMDでOpenCL開発してNVとIntelで動作確認ってところだな。
212デフォルトの名無しさん
2015/11/19(木) 23:05:53.48ID:ngiRjlY7 >>211
CPUの代わりというよりは少しでも計算パワーがほしい場合もあってさ。
GPU使ってる間CPU使えるなら2倍になるじゃん?
あるいはBGでうごかしてフロントでは通常のアプリ使えるじゃない?
絶対的なパワーというよりはそういう所に使いでを見出してる。
確かにOpenCLはHWアーキ変更激しいし世代でがらりと変えてくるからやりにくそうなんだけど。
CPUの代わりというよりは少しでも計算パワーがほしい場合もあってさ。
GPU使ってる間CPU使えるなら2倍になるじゃん?
あるいはBGでうごかしてフロントでは通常のアプリ使えるじゃない?
絶対的なパワーというよりはそういう所に使いでを見出してる。
確かにOpenCLはHWアーキ変更激しいし世代でがらりと変えてくるからやりにくそうなんだけど。
213デフォルトの名無しさん
2015/11/19(木) 23:06:47.02ID:ngiRjlY7 間違い。OpenCLではなくてIntelのGPUね
214デフォルトの名無しさん
2015/11/19(木) 23:36:03.63ID:u4ZVkU4H AMD関連使って良かったと思った印象が一度も無いから使いたくねえな
215デフォルトの名無しさん
2015/11/19(木) 23:54:31.95ID:btQoS/xZ >>212
つまり、少しでもパフォーマンスは欲しいけどdGPUほどの性能は必要なくて、
数を優先するけどオンボードグラフィックスでOpenCLが動く環境に限定していいと。
最初の「カジュアル」からは想像つかないピンポイントな要件だなw
つまり、少しでもパフォーマンスは欲しいけどdGPUほどの性能は必要なくて、
数を優先するけどオンボードグラフィックスでOpenCLが動く環境に限定していいと。
最初の「カジュアル」からは想像つかないピンポイントな要件だなw
216デフォルトの名無しさん
2015/11/20(金) 00:37:51.03ID:XYOZ5eLO カジュアルGPGPUなら内蔵GPUでOpenCL2確定
一方、外GPUを使う高性能GPGPUものは昔はNvidiaが圧倒していたけど、いまはAMDが圧倒しているんだろ?
一方、外GPUを使う高性能GPGPUものは昔はNvidiaが圧倒していたけど、いまはAMDが圧倒しているんだろ?
217デフォルトの名無しさん
2015/11/20(金) 00:49:06.07ID:H4wqwi3u >>215
そうなのかなあ?自分の文章の書き方が良くないのかもしれないが
ほとんどは内蔵GPUしか期待できないから、
その範囲で少しでも計算パワー稼ごうと思ったらそれしかないように思うのだけど
dGPUほどの性能はいらないわけじゃなくて、ほとんど期待できないからしかたなくという感じ。
そうなのかなあ?自分の文章の書き方が良くないのかもしれないが
ほとんどは内蔵GPUしか期待できないから、
その範囲で少しでも計算パワー稼ごうと思ったらそれしかないように思うのだけど
dGPUほどの性能はいらないわけじゃなくて、ほとんど期待できないからしかたなくという感じ。
218デフォルトの名無しさん
2015/11/20(金) 01:19:10.06ID:mr/p17yR 組み込みは知らないけど汎用PCでAMDが圧倒した話なんて聞いたことない
219デフォルトの名無しさん
2015/11/20(金) 05:55:05.61ID:M/+Jbdu5 bitcoin マイニングでは AMD 一択だったようだが
220デフォルトの名無しさん
2015/11/20(金) 07:13:28.40ID:08M9JHWM deep learningではNVIDIA圧勝だろ?
221デフォルトの名無しさん
2015/11/20(金) 07:48:52.29ID:kIzUFPbb bitcoinは専用ASICが開発されてとっくにそっちが主流になりました
GPGPUでやったところで、最早電気代のもとを取ることすらできない
GPGPUが最適といわれるのはASIC以前にFPGA化して売り出すほどの人気もない
マイナー暗号通貨くらいでそんなニーズが世界的な需要をけん引することなんて
ありうるわけがないのだ(需要が少ないからこそGPGPUでやってるわけだし)
GPGPUでやったところで、最早電気代のもとを取ることすらできない
GPGPUが最適といわれるのはASIC以前にFPGA化して売り出すほどの人気もない
マイナー暗号通貨くらいでそんなニーズが世界的な需要をけん引することなんて
ありうるわけがないのだ(需要が少ないからこそGPGPUでやってるわけだし)
222デフォルトの名無しさん
2015/11/20(金) 07:54:46.98ID:h5Le2W6O >>217
一般に配布するアプリでなるべく多くの環境で動かしたいというならOpenCLで、
内蔵GPUしかない人は動けば御の字、もっと速く動かしたければちゃんとしたGPU
買ってね、でいいと思うが。
社内ツールとかで外付けがほとんど期待できないのなら、たいして速くならない
割りに動かないリスクばかり大きいんで素直にCPUのがマシ。
一般に配布するアプリでなるべく多くの環境で動かしたいというならOpenCLで、
内蔵GPUしかない人は動けば御の字、もっと速く動かしたければちゃんとしたGPU
買ってね、でいいと思うが。
社内ツールとかで外付けがほとんど期待できないのなら、たいして速くならない
割りに動かないリスクばかり大きいんで素直にCPUのがマシ。
223デフォルトの名無しさん
2015/11/20(金) 08:15:06.13ID:lXZVvFkG GPUばりばり使ってますってアピールしているプログラムで、avxもsseも使えないようなプログラミングしている例も多いからなぁ。
224デフォルトの名無しさん
2015/11/20(金) 08:21:26.00ID:kIzUFPbb 内蔵GPUはどのみちメインメモリの帯域で頭打ちになるのでたいていの問題では
AVX使ったほうが速いんだよね
どっかのA社のはCPUコア側のメモリ帯域にリミッタがかかってて内蔵GPU側も使わないと
フルに帯域を使えないうえCPU側のAVX性能が残念だから
そもそもそれ専用にプログラム書くほどの市場がない
CUDAは一握りでもちゃんと労力に見合った金を払ってくれる法人ユーザーが一定数いるから
ビジネスとして成立するんだよ。その点法人皆無で貧乏人しかいないA社ユーザーじゃ無理
AVX使ったほうが速いんだよね
どっかのA社のはCPUコア側のメモリ帯域にリミッタがかかってて内蔵GPU側も使わないと
フルに帯域を使えないうえCPU側のAVX性能が残念だから
そもそもそれ専用にプログラム書くほどの市場がない
CUDAは一握りでもちゃんと労力に見合った金を払ってくれる法人ユーザーが一定数いるから
ビジネスとして成立するんだよ。その点法人皆無で貧乏人しかいないA社ユーザーじゃ無理
225デフォルトの名無しさん
2015/11/20(金) 11:47:48.38ID:mr/p17yR ビットコインマイニングとか普通じゃない使い方で普及してるかどうかはどうでもよくないか
226デフォルトの名無しさん
2015/11/27(金) 23:57:44.09ID:tzomtYgx 内臓GPUにこだわるのはそもそもGPUに興味もない人が増えていて
そんな人までプログラム、GPGPUに参加したり利用する可能性が高いからなんだよな
GPU自体ニッチ向けの商売になりつつあるし
そんな人までプログラム、GPGPUに参加したり利用する可能性が高いからなんだよな
GPU自体ニッチ向けの商売になりつつあるし
227デフォルトの名無しさん
2015/11/28(土) 00:01:22.67ID:KoXr/JyJ >>200
DX12でGeForce全般がAsync、非同期処理が苦手といった話があったけどそれとは関係ないよね?
自己解決ってことはやっぱ非同期で処理してたのが原因かもしれないけど
(サブで描画するのは普通にお行儀が悪いけど)
DX12でGeForce全般がAsync、非同期処理が苦手といった話があったけどそれとは関係ないよね?
自己解決ってことはやっぱ非同期で処理してたのが原因かもしれないけど
(サブで描画するのは普通にお行儀が悪いけど)
228デフォルトの名無しさん
2015/11/28(土) 00:33:01.21ID:CG0HQ1xP 単にOpenGLの使い方の問題だろ。context作ったスレッドと別のスレッドからアクセスしようとした。
229デフォルトの名無しさん
2015/11/29(日) 06:40:00.31ID:Ciaig/FJ Win7PCに搭載されたQuadro4000とVC2012のC++AMPでfloatの計算をさせると「グラフィックスが応答しないのでリセットしました」とかメッセージをだしてプログラムが異常終了してしまう。
計算量はCPUを使った場合に8スレッド+AVX2で30分くらい。一枚のグラボで画面表示とGPGPU計算の両立は無理? CUDAを使えば可能なのだろうか?
計算量はCPUを使った場合に8スレッド+AVX2で30分くらい。一枚のグラボで画面表示とGPGPU計算の両立は無理? CUDAを使えば可能なのだろうか?
230デフォルトの名無しさん
2015/11/29(日) 06:56:59.57ID:PzHZjgEI 少し前のレス見てごらん
231デフォルトの名無しさん
2015/11/29(日) 19:54:46.97ID:jxlspYCF >>229
GPGPUではよくあること
そんなことがよくあるから一般PCでGPGPUが激活用されない
一般PCではGPGPUよりOSによる画面表示の方が大事だから、画面表示を激妨げるのものは殺す
GPGPUを必死したいならGPGPU用VGAと画面表示用VGAを搭載する
画面表示を激妨害しないようなゆとりGPGPUプログラムにする
GPGPUではよくあること
そんなことがよくあるから一般PCでGPGPUが激活用されない
一般PCではGPGPUよりOSによる画面表示の方が大事だから、画面表示を激妨げるのものは殺す
GPGPUを必死したいならGPGPU用VGAと画面表示用VGAを搭載する
画面表示を激妨害しないようなゆとりGPGPUプログラムにする
232デフォルトの名無しさん
2015/11/29(日) 22:14:39.86ID:Ciaig/FJ >>231
レスありがとう。
やっぱ、無理なんだ。
動くのは、サンプルだけか。
レスありがとう。
やっぱ、無理なんだ。
動くのは、サンプルだけか。
233デフォルトの名無しさん
2015/11/29(日) 22:41:35.63ID:eJ1soHzz234デフォルトの名無しさん
2015/11/29(日) 23:16:26.96ID:vsLNXKl8 QuadroってTCCモードにできなかったっけか?
235デフォルトの名無しさん
2015/12/02(水) 07:09:10.66ID:REHK1l6p Quadro自体結構前の世代のグラボじゃないっけ・・・
236デフォルトの名無しさん
2015/12/09(水) 05:38:34.32ID:0m997ITy 2秒たったらハードウエア割り込みをかけて一瞬だけ画面表示させて、TDRが問題にならないように制御できないのかな?
237デフォルトの名無しさん
2015/12/09(水) 16:39:41.14ID:OazooE89 あんたエンジニアに向いてないなw
238デフォルトの名無しさん
2015/12/09(水) 19:33:54.62ID:wnEGaksG いや、むしろ向いてるかも
デスマーチを突破するにはそれぐらいのやっつけ仕事が出来なきゃねw
デスマーチを突破するにはそれぐらいのやっつけ仕事が出来なきゃねw
239デフォルトの名無しさん
2015/12/10(木) 02:04:50.93ID:0cE1JGhL 勢いでwindows10にしてからcudaが一切認識しなくなった・・・
version7.5、ドライバ最新版入れてGPU-ZでCUDAにチェック入っているのに初期化で失敗する。
付随してwaifu2x-caffeとかも動かなくなってるしもしかしてまだwin10には対応してなかったのか。
version7.5、ドライバ最新版入れてGPU-ZでCUDAにチェック入っているのに初期化で失敗する。
付随してwaifu2x-caffeとかも動かなくなってるしもしかしてまだwin10には対応してなかったのか。
240デフォルトの名無しさん
2015/12/10(木) 02:30:34.40ID:DGBX2/sF241デフォルトの名無しさん
2015/12/10(木) 22:46:54.47ID:0cE1JGhL >>240
だよね・・・
最新ドライバや少し古いバージョンを入れてみるとGPU-Zでチェックに入ってるんだが
cudaを使うソフトがことごとく検出できませんでしたと出てサンプルプロジェクトも強制終了する。
NVEncのためにCUDAが使えなくなったとかいう記事見たけど、まさかこれが理由ってわけではないよね
だよね・・・
最新ドライバや少し古いバージョンを入れてみるとGPU-Zでチェックに入ってるんだが
cudaを使うソフトがことごとく検出できませんでしたと出てサンプルプロジェクトも強制終了する。
NVEncのためにCUDAが使えなくなったとかいう記事見たけど、まさかこれが理由ってわけではないよね
242デフォルトの名無しさん
2015/12/10(木) 23:22:08.77ID:9vd2ccw+ >>241
win10のvs2013で7.5問題なく使えてる。ついてくるサンプル、ビルド・実行ともに。
win10のvs2013で7.5問題なく使えてる。ついてくるサンプル、ビルド・実行ともに。
243デフォルトの名無しさん
2015/12/10(木) 23:59:35.52ID:Qmth+aWu 今のNvidiaはAMDに比べてかなり安定度低いからな
244デフォルトの名無しさん
2015/12/11(金) 02:14:41.31ID:f48gwmmB >>241
GPU-ZでCUDAが見えるのにアプリケーションが動かないってのはRuntime DLLが
見つからないんじゃないのか?
どっちにしても、CUDAのどの関数を呼んだときに落ちるのか、あるいはそもそも
最初から起動できないのか、どこで落ちているかくらい調べることはできるだろ。
GPU-ZでCUDAが見えるのにアプリケーションが動かないってのはRuntime DLLが
見つからないんじゃないのか?
どっちにしても、CUDAのどの関数を呼んだときに落ちるのか、あるいはそもそも
最初から起動できないのか、どこで落ちているかくらい調べることはできるだろ。
245デフォルトの名無しさん
2015/12/26(土) 22:42:40.07ID:Xbomr4ek246デフォルトの名無しさん
2016/01/10(日) 19:11:06.55ID:EetmQxdp おかげさまでCUDAでchainer使えるようになりました。
爆速で進捗状況見てるだけで嬉しいです。
本当にありがとうございました。
爆速で進捗状況見てるだけで嬉しいです。
本当にありがとうございました。
247デフォルトの名無しさん
2016/01/13(水) 07:52:00.07ID:6qdfgrgw 使えなかった理由は何だったのかと
248デフォルトの名無しさん
2016/01/17(日) 03:23:46.57ID:lMNqpq/q 教えていただきたいことがあります。
ubuntu14で、chainer1.5.1のmnistをGPUで計算できるか試行錯誤中です。
python train_mnist.py --gpu 0 #エラー
sudo python train_mnist.py --gpu 0 #エラー
python train_mnist.py --gpu 0 #うまく動いた
と、sudoをつけて外しただけで、うまく動いた理由を知りたいのです。自分の操作が正しいのか間違ってるのかよくわからなくなってきました…
ログのリンクも添付しています。2つは同じファイルです(dotupはアップローダーの都合上zip圧縮しています)
事前の処理として、vgaのドライバ、cudaとcudnnを入れてパスを通しています。
またchainerのmnistも、cpuの処理ならエラーは出ずに動いていました。
操作は
python train_mnist.pyを実行してcrl+cで止めた。
python train_mnist.py --gpu 0を実行してエラーになった(30-38行目と同じエラー)。
その後、再起動
1行目:VGAの番号を取得した(GTX750tiのIDが0)
28行目:enter押しただけ
29行目:python train_mnist.py --gpu 1 なんとなくid1で動かしてみた。エラー
39行目:id2で動かしてみた。内蔵gpuを使うかも?と思ったがエラー
49行目:id0で試すもエラー
59行目:sudoつけてみてエラー。パスを引き継いでないからnvccがない(=CUDAが見つからない)、cudnnが無いというエラーが出ているのだと思います。
91行目:sudo外したら普通に動いた
http://www.dotup.org/uploda/www.dotup.org702271.zip.html
http://www1.axfc.net/uploader/so/3602353
ubuntu14で、chainer1.5.1のmnistをGPUで計算できるか試行錯誤中です。
python train_mnist.py --gpu 0 #エラー
sudo python train_mnist.py --gpu 0 #エラー
python train_mnist.py --gpu 0 #うまく動いた
と、sudoをつけて外しただけで、うまく動いた理由を知りたいのです。自分の操作が正しいのか間違ってるのかよくわからなくなってきました…
ログのリンクも添付しています。2つは同じファイルです(dotupはアップローダーの都合上zip圧縮しています)
事前の処理として、vgaのドライバ、cudaとcudnnを入れてパスを通しています。
またchainerのmnistも、cpuの処理ならエラーは出ずに動いていました。
操作は
python train_mnist.pyを実行してcrl+cで止めた。
python train_mnist.py --gpu 0を実行してエラーになった(30-38行目と同じエラー)。
その後、再起動
1行目:VGAの番号を取得した(GTX750tiのIDが0)
28行目:enter押しただけ
29行目:python train_mnist.py --gpu 1 なんとなくid1で動かしてみた。エラー
39行目:id2で動かしてみた。内蔵gpuを使うかも?と思ったがエラー
49行目:id0で試すもエラー
59行目:sudoつけてみてエラー。パスを引き継いでないからnvccがない(=CUDAが見つからない)、cudnnが無いというエラーが出ているのだと思います。
91行目:sudo外したら普通に動いた
http://www.dotup.org/uploda/www.dotup.org702271.zip.html
http://www1.axfc.net/uploader/so/3602353
249デフォルトの名無しさん
2016/01/17(日) 04:58:38.94ID:rTwmHzKS 普通にsudoユーザー環境でcudaにパスが通ってないだけ
パスの通し方がわからなかったらこのスレじゃなくてLinuxの初心者スレで
パスの通し方がわからなかったらこのスレじゃなくてLinuxの初心者スレで
250デフォルトの名無しさん
2016/01/17(日) 14:25:56.74ID:lMNqpq/q >>249
ありがとうございました。
ありがとうございました。
251デフォルトの名無しさん
2016/01/21(木) 02:42:05.52ID:ZU2ddnih 素人な質問なんですがコア数×10スレッド立てたときとコア数と同じスレッド数で10ループした場合とでは前者の方が1.5倍くらい早かったんですけど何故でしょうか
物理的に真に並列で動作するのはコア数と同じスレッド数ではないのですか
最適なスレッド数が分からなくて困ってます
物理的に真に並列で動作するのはコア数と同じスレッド数ではないのですか
最適なスレッド数が分からなくて困ってます
2016/01/21(木) 03:02:10.96ID:tV143knu
Core数ではなくWarp数に合わせるべし
Maxwellの場合はコア数とWarp数は一致してるけどね
コア数の倍以上のスレッド数を立ち上げるメリットは、ロード・ストアを含む命令間の
レイテンシが隠蔽されるのでパイプラインの充填率が上げやすくなる。
半面、1スレッドあたりで使えるレジスタ本数が少なくなるので
ロード・ストアを頻発するほどのレジスタ不足になるのは本末転倒なので
並列化は程々に。
これに特に明確な基準はない。最適なスレッド数はトライ&エラーで決める。
慣れてくるとPTXとかCUBINを逆アセンブルして決める場合もある
(昔、理研で重力を自在に操る高貴なる男性研究者がメールで教えてくれた方法)
Maxwellの場合はコア数とWarp数は一致してるけどね
コア数の倍以上のスレッド数を立ち上げるメリットは、ロード・ストアを含む命令間の
レイテンシが隠蔽されるのでパイプラインの充填率が上げやすくなる。
半面、1スレッドあたりで使えるレジスタ本数が少なくなるので
ロード・ストアを頻発するほどのレジスタ不足になるのは本末転倒なので
並列化は程々に。
これに特に明確な基準はない。最適なスレッド数はトライ&エラーで決める。
慣れてくるとPTXとかCUBINを逆アセンブルして決める場合もある
(昔、理研で重力を自在に操る高貴なる男性研究者がメールで教えてくれた方法)
253デフォルトの名無しさん
2016/01/21(木) 03:04:52.51ID:l5HMGS+b >>251
仮想コア等の技術などで、本来あるコア数以上の並列処理をするのが最新のcpuやGPU、そしてライブラリ
そのへんはあまり考えずにリファレンス通りに投げてしまう方がいいと思う。
ライブラリによっても日々変わるので、最適なスレッド数というのはわからない
仮想コア等の技術などで、本来あるコア数以上の並列処理をするのが最新のcpuやGPU、そしてライブラリ
そのへんはあまり考えずにリファレンス通りに投げてしまう方がいいと思う。
ライブラリによっても日々変わるので、最適なスレッド数というのはわからない
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 上野動物園の双子パンダ、1月末に中国に返還へ 国内でパンダ不在に [蚤の市★]
- 中国軍機のレーダー照射1週間 駆け引き続く 中国、米のレッドライン模索 日本、米以外の同志国とも連携探る 米は対立から距離置く★2 [ぐれ★]
- ゼレンスキー氏、NATO加盟断念に言及 ドイツで米代表団と [蚤の市★]
- 【静岡】伊東市長選、前市議の杉本氏初当選 学歴詐称疑惑の田久保氏は及ばず 市長選3700万円、市議選6300万円の計1億円費やされる [ぐれ★]
- 【芸能】粗品、日本テレビに苦言 客のレベルが「かなり低い。あいつら分かってない」「拍手したいだけやねん」 [冬月記者★]
- 橋下徹氏「総理なら岡田さんに何を聴かれても耐えてほしかった」 高市首相の台湾有事めぐる答弁に# [jinjin★]
- 高市早苗、病気か?ろれつ回らず上手く喋れずwwwwww [153490809]
- 男さん「女性が低身長チー牛弱者男性との結婚を拒んだから少子化してるんだ。日本衰退も移民受入も全てチー牛との結婚を拒んだ女の責任 [786648259]
- (財務)片山さつき『サナエノミクス💕』開始。「所得、経済、税収全てが上がる夢のような政策」 [153490809]
- (´・ω・ `)グッチョモーニン!!
- (ヽ´ん`)「アフィのせいで撮り鉄が叩かれる。撮り鉄は嫌儲公認趣味。撮り鉄を叩くネトウヨは死ね。撮り鉄を叩いてるのは統一教会」 [932029429]
- スモークチーズって食べ始めたらやめられない止まらないになるんだが
