【C++】高速化手法【SSE】2 [転載禁止]©2ch.net

**デフォルトの名無しさん** · 2015/05/21(木) 01:53:58.15

C++やインラインアセンブラ、SSEなどによる高速化の手法
について語りましょう。

前スレ
【C++】高速化手法【SSE】
http://peace.2ch.net/test/read.cgi/tech/1130349336/

**デフォルトの名無しさん** · 2020/09/07(月) 18:25:16.84

SIMDなんて-O3付けとけば自動で行われるじゃん。
それ以上は考えるだけ無駄でしょ。

**デフォルトの名無しさん** · 2020/09/13(日) 20:11:59.25

>>435、ディレクティブ(#pragma omp～)、コンパイラバージョン、環境変数OMP_NUM_THREADS、実行環境のCore/Threadsはどんなの？

**デフォルトの名無しさん** · 2020/09/14(月) 01:56:59.78

>>460
g++ (GCC) 10.2.0
OpenMP_CXX: -fopenmp (found version "4.5")
物理コア数2, 論理コア数4

コードは大体こんなイメージ↓

--- RayTracer.hpp
static int y = 0;
#pragma omp parallel_for num_threads(3)
for (int x = 0; x < W; ++x) {
render(result, x, y); // 重い処理（毎行0.8秒程度かかる）
}
++y;

--- Window.hpp（SDL2のメインループ）
while (!stop) {
raytracer->render(result);
applyResult(result);
}

**デフォルトの名無しさん** · 2020/09/14(月) 02:02:22.29

parallel_for: 誤
parallel for: 正

**デフォルトの名無しさん** · 2020/09/14(月) 02:42:30.59

スレッド数も１～４でいろいろ変えてみたら
1スレッド：一番早い
2スレッド：最悪
3スレッド：2スレよりマシ
4スレッド：3スレよりマシだけど1スレより遅い。CPU使用率100％に張り付く。
みたいな感じだった

**デフォルトの名無しさん** · 2020/09/14(月) 07:25:57.13

yのループどうなってんだこれ

**デフォルトの名無しさん** · 2020/09/14(月) 07:57:55.59

もしスレッドプールが使われていないんだったら外側のyループで並列化するのがいいんだろうな。

**デフォルトの名無しさん** · 2020/09/14(月) 11:24:08.29

L1キャッシュヒット率が低すぎかな？
[1 thread]
233,710,687 cache-references:u (57.13%)
170,103,633 cache-misses:u # 72.784 % of all cache refs (57.15%)
107,023,099,494 L1-dcache-loads:u (57.12%)
172,491,811 L1-dcache-load-misses:u # 0.16% of all L1-dcache hits (57.14%)
29,286,128,938 L1-dcache-stores:u (57.11%)
<not supported> L1-dcache-store-misses:u
107,114,953,718 dTLB-loads:u (57.21%)
1,665,512 dTLB-load-misses:u # 0.00% of all dTLB cache hits (57.14%)

71.532926647 seconds time elapsed
68.955555000 seconds user
0.410194000 seconds sys

[3 thread]
2,821,811,091 cache-references:u (57.15%)
158,279,338 cache-misses:u # 5.609 % of all cache refs (57.13%)
107,538,202,753 L1-dcache-loads:u (57.13%)
1,355,563,439 L1-dcache-load-misses:u # 1.26% of all L1-dcache hits (57.16%)
29,423,932,980 L1-dcache-stores:u (57.15%)
<not supported> L1-dcache-store-misses:u
107,129,155,399 dTLB-loads:u (57.15%)
2,350,280 dTLB-load-misses:u # 0.00% of all dTLB cache hits (57.12%)

151.557505458 seconds time elapsed
253.433918000 seconds user
119.253409000 seconds sys

**デフォルトの名無しさん** · 2020/09/14(月) 12:11:30.32

実行時のコアの負荷どうなってるのかと
コンパイルオプションでopenmp有効にしてるの?
してるんだったらループ内の排他制御周りで時間食ってんじゃないの

**デフォルトの名無しさん** · 2020/09/14(月) 12:20:38.35

あとマルチスレッドにしてる部分で大量のメモリ確保とかファイルの読み書きとかしてないよね?

**デフォルトの名無しさん** · 2020/09/14(月) 12:23:55.08

スレッド数に応じてCPU使用率は上がってる
排他制御は不要だからしてない

**デフォルトの名無しさん** · 2020/09/14(月) 12:32:30.05

マルチスレッドにしてる部分は純粋な計算のみで結果を配列に書き込んでるだけ

**デフォルトの名無しさん** · 2020/09/14(月) 12:44:52.40

あとはxじゃなくてyのループをpararellにするぐらいしかないんじゃね
スレッド呼び出しの回数多くなってるでしょそれ
1行0.8秒もかかるならスレッドのコストあんま関係ないような気もするけど
俺に思いつくのはApplyresultがなにかしてんのかなってぐらい

**デフォルトの名無しさん** · 2020/09/14(月) 12:45:56.25

このあたりのomp_get_max_threads()とか二重ループのオーバーヘッドの話はどうなん？

http://www.sanko-shoko.net/note.php?id=9twp

**デフォルトの名無しさん** · 2020/09/14(月) 12:55:20.98

もともと外側ループに#pragma ompつけてたけどそれも遅かった（1スレッドに比べて）
Applyresultは画面に結果を表示させる（バッファ入れ替え）だけで
処理時間は0.01秒もかからない

**デフォルトの名無しさん** · 2020/09/14(月) 13:00:39.33

画面表示は別スレッドにすべきだと思うが
バッファ入れ替えのみで別スレッドで描画させてるなら多分問題ないけど
あとは暗黙のコピーでもどっか発生してるのかね
vsのopen mpだとデフォでスレッドプールしてるっぽいけどgccどうなんだろ

**デフォルトの名無しさん** · 2020/09/14(月) 13:04:20.42

あーコピーは有り得そうだなぁ

**デフォルトの名無しさん** · 2020/09/14(月) 13:41:47.43

ラムダ式にthisをキャプチャしても単なるポインタのコピーだけだよね
うーんもうあきらめようかな

**デフォルトの名無しさん** · 2020/09/14(月) 14:04:34.23

この話はどう？

https://www.softek.co.jp/SPG/Pgi/TIPS/public/general/multicore-para.html

**デフォルトの名無しさん** · 2020/09/14(月) 14:31:35.53

> 1スレッド：一番早い
> 2スレッド：最悪
> 3スレッド：2スレよりマシ
> 4スレッド：3スレよりマシだけど1スレより遅い。CPU使用率100％に張り付く。

これで結論は出てる。同期コストを見積もれない馬鹿は並列化すんなってこと。

**デフォルトの名無しさん** · 2020/09/14(月) 14:31:55.00

スレッドで動かすタスクの単位がデカすぎてキャッシュに乗りきらなかった可能性ですかね
ありえそう

**デフォルトの名無しさん** · 2020/09/14(月) 14:50:37.02

同期コストに目をつけるのが的外れってことはわかる

**デフォルトの名無しさん** · 2020/09/14(月) 15:07:54.11

まだその小学生の理科の実験みたいな分析を続けるのはいかがなものか。ここはム板である。
答えはコードに書いてある。夏休みの宿題じゃないから答えを見ていい。
結果とコードがあるから後はそれを理解する脳みそが足りてるかどうかだけ。

>>480
結論は出たな。キミにはこのスレはまだ早い。並列化=同期。基礎知識が全く足りてない。
コードを見てコストが読めない人が一体なにを最適化するのだ。
キミのやってることはPCパーツをとっかえひっかえしてベンチ走らす自作マニアと同じだ。

**デフォルトの名無しさん** · 2020/09/14(月) 15:24:00.24

よくしゃべる無能だな

**デフォルトの名無しさん** · 2020/09/14(月) 15:29:50.65

メモリ足りてないとかないよな

**デフォルトの名無しさん** · 2020/09/14(月) 15:32:26.78

同期コストもなにも共有するリソースないし
お前みたいな雑魚に話しかけてねえよ

**デフォルトの名無しさん** · 2020/09/14(月) 15:39:22.64

メモリは余裕ありますね
>>477
に載ってる内容で今週末くらいに確認してみます

**デフォルトの名無しさん** · 2020/09/14(月) 20:40:46.18

>>466、prefのここ、一桁も違う、2C/4Tってキャッシュサイズどれくらい？orCPUの型番なに？

1T:　 233,710,687 cache-references:u (57.13%)
3T: 2,821,811,091 cache-references:u (57.15%)

1T:　 172,491,811 L1-dcache-load-misses:u # 0.16% of all L1-dcache hits (57.14%)
3T: 1,355,563,439 L1-dcache-load-misses:u # 1.26% of all L1-dcache hits (57.16%)

**デフォルトの名無しさん** · 2020/09/14(月) 20:43:28.09

>>486、すまん、タイプミスです

×　pref
〇　perf

**デフォルトの名無しさん** · 2020/09/15(火) 00:54:25.17

CPUは↓です
https://ark.intel.com/content/www/jp/ja/ark/products/85212/intel-core-i5-5200u-processor-3m-cache-up-to-2-70-ghz.html

**デフォルトの名無しさん** · 2020/09/15(火) 07:39:41.08

ここは昔から機械語レベルの最適化スレなんだが、
そういう丸投げ系の上流の話はスレ分けたほうがよくないか。バイナリは見る気ないんだろ？

**デフォルトの名無しさん** · 2020/09/15(火) 13:44:37.95

同期コストとかまったく関係無かったねw

**デフォルトの名無しさん** · 2020/09/18(金) 14:56:14.26

　　　　　　　,､‐ "￣:::ﾞ:丶､
　　　 ,r::::l3ﾞ::::::::/ﾊヽ:ヽ::::､:ヽ
　　　 {::://::::::://　ヽ＼ﾄ､:::::::!
　　　ヾ l:::::::/ 丶　｀ヾｨ､:::|
　　　　　|;:r::| 　Ｏ`　　'Ｏﾞﾊ|　　　＜　ここ初心者がくるところじゃないから
　　　　　ヽﾊ　:.:.　　　　:.: ﾚ
　　　　　　 ´＼ r‐--‐､,ノ
　r､　　　　r､／ヾ￣下ヘ
　ヽヾ　三　|:l1､＿ヽ/__ .ィヽ
　　＼>ヽ/ |｀｝　　　 n_n|　|
　　　ﾍ　lノ `'ｿ　　 lﾟωﾟ|　|
　　　　/´　 /　　　　　￣|.　|

**デフォルトの名無しさん** · 2020/10/01(木) 16:30:20.85

なんだこの馬鹿議論は。

**デフォルトの名無しさん** · 2020/10/02(金) 14:52:54.88

>>492
そう思うなら思い当たる原因とか教えてあげたら？
一言言うだけだよ

**デフォルトの名無しさん** · 2020/10/02(金) 15:13:27.56

それすらできないと本当に馬鹿なのがどっちか疑われても仕方ない

**デフォルトの名無しさん** · 2020/10/02(金) 15:30:34.86

sage入れずに書いているのは１人だけ・・・

**デフォルトの名無しさん** · 2020/10/02(金) 16:17:08.57

こんな機能あったのか
すまんな5ch使ったの最近なんだ

**デフォルトの名無しさん** · 2020/10/02(金) 16:21:49.97

ID:PyqKwzZq
ID:5Y5z53c+
ID:R9hS5H3t

はいはい（笑）

**デフォルトの名無しさん** · 2020/10/02(金) 16:32:57.58

もしかしてここって底辺の集まり？

**デフォルトの名無しさん** · 2020/10/02(金) 17:33:14.36

えーえーそうでちゅよ（笑）

**デフォルトの名無しさん** · 2020/10/02(金) 18:21:05.73

>>493
何の切り分けもしてない頓珍漢な結果ではなく全コード出しなよ。ここム板だよ？
アセンブラわかりませんとか、自分で書いたC++コードがどういうバイナリ吐くか想像もできないとか、
最適化、高速化スレでは話にならないんだけど初心者プログラマ君。

**デフォルトの名無しさん** · 2020/10/02(金) 18:26:33.85

底辺が必死だなｗ

**デフォルトの名無しさん** · 2020/10/03(土) 09:40:53.11

餓鬼に餌を与えないでください

**デフォルトの名無しさん** · 2020/10/09(金) 19:32:19.84

>>488
コア内のキャッシュがコンフリクトしまくっていると予想
ハイパースレッディングをoffにして2スレッドにしたらいいと予想

**デフォルトの名無しさん** · 2020/10/09(金) 19:56:21.81

HTが何か分かってないレベルでマルチスレッドにしたら遅くなったとか入門者スレでやれよ。

**デフォルトの名無しさん** · 2020/10/10(土) 07:36:17.00

>>470
キャッシュラインコンフリクトミスしまくるような
配列の数にしているんだろうね

**デフォルトの名無しさん** · 2020/12/09(水) 21:38:54.77

oneAPI って無料なん？

**デフォルトの名無しさん** · 2022/04/21(木) 11:21:49.16

基本無料やぞ
というかvtune使わずに最適化なんぞ出来る訳が無い

**デフォルトの名無しさん** · 2022/04/21(木) 11:53:42.82

OPPAIに見えた

**デフォルトの名無しさん** · 2022/07/30(土) 16:25:46.55

低俗化せいこう