【C++】高速化手法【SSE】2 [転載禁止]©2ch.net

**,,・´∀｀・,,）っ-○○○** · 2015/12/02(水) 22:20:01.73

>>189-190
みたいな頓珍漢なこというお前の言うことははなから聞く気はない

**デフォルトの名無しさん** · 2015/12/02(水) 22:32:44.25

>>201
上位の高速化も該当するから是非話題振ってね。
JITなんかもOK！

**デフォルトの名無しさん** · 2015/12/02(水) 23:16:28.02

>>203
命令レベルの並列化にしろマルチプロセッサでの並列化にしろ
クリティカルパスじゃない部分を見つけて並列化してるという点では一緒で
並列化のアプローチの仕方が違ってるだけなのは理解してるんでしょ？
命令レベルの並列化であるOoOの方が直接的にクリティカルパスの影響を受けて
並列化が並列化が制限されるようになったからハイパースレッディングが投入されたのに
メイニーコアでクリティカルパスが問題になるって言い方は引っかかるんだよ

**デフォルトの名無しさん** · 2015/12/03(木) 05:09:10.56

【　オンラインTCGエディター　】　>>1

デュエル・マスターズ的な非電源TCGの　《　オンライン化ツクール系ソフト　》　制作の企画。

例えば、ガチンコ・ジャッジを直ぐにでも導入できる機能を持っておりながら、
当面それを扱わず単純化させておいて、事後的に導入拡張する際に当該システムを
ブロック構造の組み合わせで後付け挿入できるように予めシステム化してあるソフト（エディター）。
既存の非電源TCGを劣らずに再現できるならば大概のニーズに応えられる筈。
バトスピ、ヴァンガ、ウィクロス、ポケカ、デジモン、ゼクス、モンコレ、ガンダム・ウォー、ライブオン、ディメンション・ゼロ、カードヒーロー、シャーマン・キングなど
のシステムを完全再現できるように設計するけど、他に此のTCGの此のシステムは再現希望とか有ったら書いて。
マジック：ザ・ギャザリングの全システムを完全に再現するのは無理だから、此れだけは必用だ！って部分のみリクエストして。
WEB通信での対戦は、個vs個、多数乱戦、チームvsチーム、個vsチームを可能な仕様とする方針。

設計思想は　《　RPGツクール　》　が良いかな？　　他に、優れたエディター有ったら挙げてみて。

個人や企業などのベンダーが提示する開発費（見積もり）で折り合えば、発注する。
↓
エディター群から基本コンセプトを絞り込む（もちろんオリジナルで優れた新ネタが有れば導入する）。
↓
遊戯王OCGに関しては、タッグフォース、ADS、デュエルオンラインを発注先ベンダーに研究させる。
なるべく前述３つで可能な再現は全て実装させる方向を目指す。　まぁ努力する・・・
バトスピ、ヴァンガ、バディ、デュエマなど発売済みゲームソフトが存在してるケースはベンダーに研究させる。
↓
各社TCGを再現するテストプレイ　⇒　更に改良や修正。
↓
機能制限した下位版を５万円以上で発売　＋　デュエリ－グ用に改造した上位版でサーバー稼動＝営業開始。
↑
下位版の改造および商用利用には、別途で当社との契約が必要。

さ～て、製作ベンダー見つけよっと！ｗｗ（ｸｽ
http://wc2014.2ch.net/test/read.cgi/entrance2/1449039272/-18

**,,・´∀｀・,,）っ-○○○** · 2015/12/03(木) 19:46:04.23

メイニーってどこの田舎訛りだよ

**,,・´∀｀・,,）っ-○○○** · 2015/12/03(木) 19:53:16.18

さすがに[?]をエイと発音するのは苦しいぞ
実はmainie coreという架空世界のCPUの話をしているという可能性もあるけどな

学の無い語るに値しない人間なんだろう

**デフォルトの名無しさん** · 2015/12/04(金) 00:10:19.06

>>207
そうそう、気になって仕方なかったんだよ。

**デフォルトの名無しさん** · 2015/12/04(金) 00:26:47.97

世界で唯一の稀有な存在かもしれねえぜ…

**デフォルトの名無しさん** · 2015/12/04(金) 00:59:55.26

煽りじゃなくてぐうの音もでないような真実を突きつけてこそじゃねえかな

**デフォルトの名無しさん** · 2015/12/04(金) 09:21:04.02

メイニーコアってなんぞｗ

**デフォルトの名無しさん** · 2015/12/04(金) 09:31:38.80

逝ってるさん　マンセー

**デフォルトの名無しさん** · 2015/12/04(金) 10:37:56.49

母国語英語、第二母国語C++と日本語な俺からするとMulti-をマルチって言うのも違和感あるけどな

**デフォルトの名無しさん** · 2015/12/04(金) 18:14:24.01

やっぱりこの板の住民は英語でレスする方が楽な感じですか？
苦手過ぎる…

**デフォルトの名無しさん** · 2015/12/04(金) 19:14:07.09

どこに英語のレスがあるんだ

**デフォルトの名無しさん** · 2015/12/04(金) 22:00:51.54

だからメイニーコアってなんだよｗ

**デフォルトの名無しさん** · 2015/12/04(金) 22:03:30.55

メニイコアならよかったのにな

**デフォルトの名無しさん** · 2016/05/01(日) 15:00:17.83

匿名通信（Tor、i2p等）ができるファイル共有ソフトBitComet（ビットコメット）みたいな、
BitTorrentがオープンソースで開発されています

言語は何でも大丈夫だそうなので、P2P書きたい！って人居ませんか？

Covenantの作者（Lyrise）がそういう人と話したいそうなので、よろしければツイートお願いします
https://twitter.com/Lyrise_al

ちなみにオイラはCovenantの完成が待ち遠しいプログラミングできないアスペルガーｗ

The Covenant Project
概要

Covenantは、純粋P2Pのファイル共有ソフトです

目的

インターネットにおける権力による抑圧を排除することが最終的な目標です。そのためにCovenantでは、中央に依存しない、高効率で検索能力の高いファイル共有の機能をユーザーに提供します

特徴

Covenant = Bittorrent + Abstract Network + DHT + (Search = WoT + PoW)

接続は抽象化されているので、I2P, Tor, TCP, Proxy, その他を利用可能です
DHTにはKademlia + コネクションプールを使用します
UPnPによってポートを解放することができますが、Port0でも利用可能です(接続数は少なくなります)
検索リクエスト、アップロード、ダウンロードなどのすべての通信はDHT的に分散され、特定のサーバーに依存しません
ｇ

**デフォルトの名無しさん** · 2016/09/28(水) 13:29:19.39

書いて

**デフォルトの名無しさん** · 2016/11/10(木) 01:32:20.10

書いて

**デフォルトの名無しさん** · 2017/01/21(土) 13:23:31.22

なんかない？

**デフォルトの名無しさん** · 2017/05/07(日) 23:05:11.98

１次キャッシュに収まるスレッドを沢山作りたいとき、ＳＳＥやらＡＶＸ
のレジスタをメモリ代わりに使うのとメモリ直でアクセスするのとどっちが
キャッシュ乱さずに動くかな。
３次キャッシュは使いたくないし、２次キャッシュもスレッド切り替えだけに
消費させたいし。

**デフォルトの名無しさん** · 2017/05/08(月) 00:55:10.37

>>223
理論的にはレジスタを使うほうが乱さないだろうけど、
コンパイラやプロセッサがどうするかは動かしてみないと分からないだろうね。

**デフォルトの名無しさん** · 2017/08/09(水) 20:46:58.02

レジスタに収まるならレジスタの方が良いに決まってる

**デフォルトの名無しさん** · 2017/08/09(水) 20:56:25.64

1次キャッシュに収まるなら他のキャッシュなんて気にする必要は無いと思うんだが
普通のOSで普通のコードを動かすなら、スレッド切り替えによるオーバーヘッドなんて無視できるレベルだし

そんなことを心配するよりも、肝心なコードを気にしようよ
いろんなテクニックを知ってるからコードをアップしてくれれば、小さいループならお役にたてるかも知れない

**デフォルトの名無しさん** · 2017/08/09(水) 20:57:28.26

ロングパスだったorz

**デフォルトの名無しさん** · 2017/08/16(水) 16:38:15.04

最近ニコニコ動画に上がってる経済シミュ、生態シミュ動画の人の高速化手法がすごい

**デフォルトの名無しさん** · 2017/08/17(木) 03:34:48.76

どんな高速化手法なんだい？

**デフォルトの名無しさん** · 2017/09/13(水) 01:32:53.89

std::copyってsimd化などの最適化って既にされてるのかな？
sse_copy()とか自作したとして
効果は期待出来る？

**デフォルトの名無しさん** · 2017/09/13(水) 02:02:50.51

sse_copyとやらはmemcpy、memmoveと何が違うの？

**デフォルトの名無しさん** · 2017/09/13(水) 02:20:34.07

名前的に、SSEの128bitレジスタを使ってのコピーだろう

memcpyとmemmoveの違いはぐぐればすぐわかる

**デフォルトの名無しさん** · 2017/09/13(水) 02:25:23.48

じゃなくて、自作しようとしているSSEでコピーするであろう「sse_copy」と
標準で用意されている「memcpy、memmove」←両方合わせて、とで
何が違うの？という話
当たり前だがmemcpyはCPUがSIMDに対応していれば使うし
カリカリにチューニングしてあるわけだが
sse_copyなど要るの？

**デフォルトの名無しさん** · 2017/09/13(水) 02:48:41.88

memcpyはC言語の関数だったか
存在を忘れてた
こいつは最適化入ってるのね
これ使えば良さそうだ
そうする、どうもです

**デフォルトの名無しさん** · 2017/09/13(水) 05:53:18.22

条件にもよるがmemcpyあたりはコンパイラ自身がインライン展開したりする

**デフォルトの名無しさん** · 2017/09/13(水) 11:25:41.68

std::copy使っておけばPODならmemcpyかmemmove使うんじゃないの
VS2017のやつはmemmove使ってるな

**デフォルトの名無しさん** · 2017/09/13(水) 15:04:16.35

copyrect

**デフォルトの名無しさん** · 2017/09/13(水) 18:53:59.90

謎の速度低下で悩んでいたが、キャッシュレイアウトって重要だな。
AVX512で一部分だけ値更新したい時、16バイト読み込んでその位置に64バイト書き戻すようなケース。
そのまま16バイト読み込みで実装すると、読み込み時に16バイト分しかキャッシュがないので、書き込む時に64バイトに拡張というか再配置されて遅くなる。
最初から64バイトで読み出すと、サイズが変化しないので遅くならない。
ついつい、読み出し量が少ない方が速いに違いないと思い込んでしまう罠。

**デフォルトの名無しさん** · 2017/09/13(水) 20:49:54.25

パーシャルライトって奴だな
キャッシュにも有効なのか

昔のPenProの頃の8/16bitレジスタへの書き込み後の32bit読み出しとか
HDDが2T超える頃の4Kセクタのパーティションでの位置ずれとか
信じられないほど遅くなる要因になるもんな

**デフォルトの名無しさん** · 2017/09/13(水) 21:31:13.89

え、memcpy()とかstd::copy()ってSIMD使うん？？
vectorのコピー遅いから困ってて、カリカリとSIMDで書こうかと思ってたんやけど、手間省けるわ。

**デフォルトの名無しさん** · 2017/09/13(水) 21:45:57.88

コピーが遅いから困っててと言うけれど
どうやって遅いと結論づけたのですか？
本来なら16ms完了するはずなのに29msもかかってしまっている！
とかわかるんですか？

**デフォルトの名無しさん** · 2017/09/13(水) 21:55:49.49

ああ、いえいえ、言い方が悪かったですが、
処理時間に占めるコピーの割合が増えてきたので、高速化したいなぁ、と思っただけです。

**デフォルトの名無しさん** · 2017/09/14(木) 20:07:50.27

rep movsbが糞速い
https://srad.jp/~miyuri/journal/569822/
＞＞REP MOVSはマイクロコードで実装されていて、最初にコピーサイズを見て適するコピーアルゴリズムを決めるセットアップ処理を行なってから
＞＞実際のコピー処理を始めるようになっている。そのため小さいサイズのコピーではセットアップ時間のオーバーヘッドが無視できないが
＞＞コピーサイズ(適度に大きいサイズ)とアラインメントの要件とプロセッサの世代の条件を満たすとそこそこの性能が出る。
＞
＞＞プロセッサの世代によって展開されるマイクロプログラムが変わり最適化の度合いも変わってくると。
＞＞第1世代Core i以降のプロセッサのREP MOVSのマイクロコードは比較的速い。
デコード済みの命令をキャッシュ出来るようになったから、マイクロコード展開命令でも最適化が行われるようになってるみたいだよ。

**デフォルトの名無しさん** · 2017/09/14(木) 21:12:13.74

メモリのレイテンシ、スループットやキャッシュサイズに依存するんだから
ブロック転送命令の最適化は無駄な努力だとインテルは思ってんだろう。

**デフォルトの名無しさん** · 2017/09/14(木) 21:41:42.21

Visual Studio 2017 で
memcpyを調べてみた

x86は rep movs
x64は vmovups 128bit 2パラ16アンロール

オプションでAVX2命令を使うようにしてもかわらず

vmovaps 256bit/512bitの方が速いから
頻繁に使うなら自作した方が良い

**デフォルトの名無しさん** · 2017/09/14(木) 23:27:05.22

>>238
キャッシュ可な領域はキャッシュライン単位でDRAMの読み書きが行われるはずだから
キャッシュは関係ないでしょ。

**デフォルトの名無しさん** · 2017/09/15(金) 00:42:48.43

>>246
アライメントのほうだったかも。
境界跨いで更新する時、あらかじめ更新サイズで読み出しておけば、全領域使用可能状態になるが、読み出し半分だと残り分キャッシュ要求発生して遅くなると。

**デフォルトの名無しさん** · 2017/09/16(土) 02:31:32.38

>>247
一定のストライドで読み込んでいれば自動プリフェッチで早めにキャッシュに取り込まれる可能性もあるけど、
DRAMの帯域を圧迫しないようにページ境界をまたいでは機能しないようになってるはずだったので、
AVX512のベクタ長だと、何サイクルか先のループで使うデータをプリフェッチで要求した方がいいかも。

**デフォルトの名無しさん** · 2017/09/16(土) 11:37:46.61

>>248
ありがとう。すでに別件でPrefetchもやってみてるけど、AVX512だとかなり効果があった。

**デフォルトの名無しさん** · 2017/09/16(土) 17:07:26.32

>>249
一時は自動プリフェッチの性能が向上してあまりprefetchの意味がない状態が続いていたけど、
AVX512ともなると1ページ分のデータをループ64回で消費しちゃうんだよな…
DRAMのCASレイテンシをCPUクロックで換算すると結構長いからね。

**デフォルトの名無しさん** · 2017/09/17(日) 15:21:48.39

え？AVX512は手書きprefetchのほうが性能出る？
これまではハードウェアプリフェッチが超優秀で、手書きprefetchはむしろオーバーヘッドになって遅くなる感じだったんだけど。

**デフォルトの名無しさん** · 2017/12/10(日) 20:33:52.61

prefetchはハードウェアにまかせて手書きでclflush入れるのが一番いい感じなんだけど。こんなケースは少数派なのかな。

**デフォルトの名無しさん** · 2018/02/01(木) 08:35:26.88

xeonでavx命令使うと過熱防止のため1ms間、動作クロック下げるなんて聞いてないよ～(＞∀＜)

**デフォルトの名無しさん** · 2018/02/02(金) 00:44:37.85

>>253
本末転倒やなw

**デフォルトの名無しさん** · 2018/02/16(金) 06:35:40.61

☆ 日本の、改憲を行いましょう。現在、衆議員と参議院の
両院で、改憲議員が３分の２を超えております。
『憲法改正国民投票法』、でググってみてください。国会の発議は
すでに可能です。平和は勝ち取るものです。お願い致します。☆☆

**デフォルトの名無しさん** · 2018/05/23(水) 20:32:42.01

僕の知り合いの知り合いができたパソコン一台でお金持ちになれるやり方
役に立つかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法　モニアレフヌノ』

YF4RO

**デフォルトの名無しさん** · 2018/06/04(月) 11:52:09.21

過熱してなくても1ms間、強制的にクロック下げるん？

**デフォルトの名無しさん** · 2018/06/09(土) 11:11:22.69

>>257、そうみたいなんですよ

https://pc.watch.impress.co.jp/img/pcw/docs/665/641/html/14.png.html
> AVX命令が実行されるときに、CPUはAVXベースで定義されている
> クロック周波数に一時的に下がって実行し、実行終了後元のベースクロックに戻る

> AVX命令の実行完了後1ms程度で通常(非AVX)動作モードに復帰

**デフォルトの名無しさん** · 2018/06/09(土) 11:42:37.36

1msってペナルティ、デカすぎやろ

**デフォルトの名無しさん** · 2018/06/09(土) 12:18:26.60

AVXが有効な処理なら微妙にクロックが落ちようがどうでもいい

**デフォルトの名無しさん** · 2018/06/09(土) 12:21:09.00

クロックが高いのが目的じゃなくて
処理が速いのが目的

その辺がよくわかってないアホがいるみたい

**デフォルトの名無しさん** · 2018/06/10(日) 12:04:49.97

なんか知らんがPCUの動作速度だろ。

**デフォルトの名無しさん** · 2018/06/10(日) 12:47:49.30

CPU?

**デフォルトの名無しさん** · 2018/06/10(日) 13:00:30.59

Programmable Calculation Unit (嘘)

**デフォルトの名無しさん** · 2018/06/10(日) 13:18:51.18

どうせならUも工夫しろよ

**デフォルトの名無しさん** · 2018/06/13(水) 06:44:44.44

XEON、AVX-512だとさらにクロック下がるぞ
コア数多いとさらにクロック低下するでw

Platinum 8180M 28C 2.5GHz -> 2.1GHz(AVX2) -> 1.7GHz(AVX-512)
Platinum 8153 16C 2.0GHz -> 1.6GHz(AVX2) -> 1.2GHz(AVX-512)

**デフォルトの名無しさん** · 2018/06/13(水) 07:54:13.98

さすがに下がり過ぎｗ

**デフォルトの名無しさん** · 2018/07/04(水) 22:24:56.45

HHG

**デフォルトの名無しさん** · 2018/07/05(木) 16:49:03.96

HHG

**デフォルトの名無しさん** · 2018/07/12(木) 17:41:30.02

そもそも4倍の量が同時に計算できるわけだから
クロックが半分になっても元は取れる

**デフォルトの名無しさん** · 2018/07/12(木) 18:11:27.11

だね

**デフォルトの名無しさん** · 2018/07/12(木) 22:27:22.56

同じクロックで2倍の効率との違いは消費電力？

**デフォルトの名無しさん** · 2018/07/13(金) 00:03:25.32

クロックが実際は半分にならないから
メリットは高速化

**デフォルトの名無しさん** · 2018/10/24(水) 21:06:49.85

これsum1()とsum2()でだいぶスピード違うんだが、みんな知ってた？
#include<vector>
#include<iostream>
using namespace std;
class Tree{
public:
long long i;
vector<Tree> v;
Tree(){i=0;}
long long sum1(){
long long x=i;
for(vector<Tree>::iterator p=v.begin();p!=v.end();++p)x+=p->sum1();
return x;}
long long sum2(){
long long x=i;
for(auto p:v)x+=p.sum2();
return x;}
};
void big_tree(Tree *t,int d){
t->i=d;
if(d<=0)return;
t->v.push_back(Tree());
t->v.push_back(Tree());
big_tree(&(t->v[0]),d-1);
big_tree(&(t->v[1]),d-1);}
int main(){
Tree t;
big_tree(&t,20);
cout<<t.sum1()<<endl;
cout<<t.sum2()<<endl;
}

**デフォルトの名無しさん** · 2018/10/24(水) 22:27:31.88

そりゃ、やってることが違うんだから
同じにしたけりゃ sum2 で for (auto& p: v) にしてみ

**デフォルトの名無しさん** · 2018/10/24(水) 22:49:24.04

うお、autoってこんな書き方も出来るのかよｗ
勉強になりました。

**デフォルトの名無しさん** · 2018/10/25(木) 11:47:46.18

結果も違うんじゃね
ちゃんと中身観たか

**デフォルトの名無しさん** · 2018/10/25(木) 17:06:36.77

結果は同じだろ? 鬼のように発生するコピーのためにメモリ不足で死なない限りは。

**デフォルトの名無しさん** · 2018/10/25(木) 17:51:37.93

C++は高速化に向かいないといういい見本だ。

**デフォルトの名無しさん** · 2018/10/25(木) 19:41:56.48

C++は、書いた通りに実行されるだけ。
高速な処理が必要なら、そう実行されるように実装しないと。

**デフォルトの名無しさん** · 2018/10/25(木) 21:01:08.67

まるでC++コンパイラは最適化しないとかデタラメな言い分けだな。

**デフォルトの名無しさん** · 2018/10/26(金) 16:39:17.96

vectorとか激しくコピーしすぎ

**デフォルトの名無しさん** · 2018/10/26(金) 16:49:29.10

何のためにコピーしてるん？　使い方間違ってんじゃね？

**デフォルトの名無しさん** · 2018/10/27(土) 19:00:07.11

reserveせずのpush_backしまくるバカのことじゃね？

**デフォルトの名無しさん** · 2019/11/09(土) 12:43:46.37

push_backしまくってもそれほどパフォーマンスは悪化しないように出来てるはずだが
コピーしまくりっていうんだから関数で値渡ししてるとかじゃないか？

いずれにしろC++自体の問題ではない

**デフォルトの名無しさん** · 2019/11/09(土) 12:46:29.28

データの並び順やアルゴリズム、...
この辺がパフォーマンスに大きな影響を与える

コンパイラの最適化なんぞ知れてる
その辺を最適化したければガシガシアセンブラだが
その前にいくらでもやることがあるのが普通

**デフォルトの名無しさん** · 2019/11/09(土) 12:48:19.04

メインメモリが相対的に遅くなってきてるので
データの並びは非常に重要
大きなデータはディスクアクセスのような感覚で扱わないとダメ

**デフォルトの名無しさん** · 2019/11/09(土) 12:49:37.15

ちゃんとキャッシュサイズや階層を意識する

**デフォルトの名無しさん** · 2019/11/09(土) 21:44:34.74

突っ込みどころもあるが1年前のレスに真面目に返答してるおまえを評価する。

**デフォルトの名無しさん** · 2019/11/10(日) 12:14:45.63

x おまえ
o おまえら

って書こうとしたが
同じ人だった orz

**デフォルトの名無しさん** · 2019/11/10(日) 18:59:30.87

御評価、有難う御座います

**デフォルトの名無しさん** · 2019/11/11(月) 20:31:51.81

プログラムを高速化する話
https://www.slideshare.net/KMC_JP/ss-45855264

コンパイラでベクトル化されやすいコードの書き方
https://jp.xlsoft.com/documents/intel/compiler/17/for_17_win_lin/GUID-D284C1EE-BFA4-4EA3-BB67-4A3E5D50199F.html

Intel Intrinsics Guide
https://software.intel.com/sites/landingpage/IntrinsicsGuide/

メモリアクセスが相対的に遅くなってるってことは、人間が組み込み関数使って最適化すれば
別にアセンブラなんて使わなくてもいいってこと
それに、64bitではインラインアセンブラも使えないコンパイラがあるし、関数呼び出しや例外処理の
書き方も変わってしまっているので移植性が低いよ

**デフォルトの名無しさん** · 2019/11/11(月) 20:40:17.77

組み込み関数でSIMD命令駆使すれば、しっかり高速化されてキモティー！

**デフォルトの名無しさん** · 2019/11/12(火) 13:18:01.61

>>292
アセンブラを使わなくても速度チューニングネタはたくさんあるが
当然最後の手段としてはアセンブラは有効

小さいループに処理が集中してるような処理は
特に効果的

下手くそがアセンブラに手を出すと逆に遅くなったりもするけど

**デフォルトの名無しさん** · 2019/11/12(火) 23:06:40.80

>>292
急にどうしたｗ
レジスタ割り当て面倒くさいから、Intrinsics使うの普通だぞ

**デフォルトの名無しさん** · 2019/11/13(水) 00:56:22.92

>>295
>>286が
＞コンパイラの最適化なんぞ知れてる
＞その辺を最適化したければガシガシアセンブラだが
とか書いてたから
この人10年くらい時間が止まってるよね
64bitと32bitじゃレジスタの数も違うし、SIMDの新命令に対応させるたびに
レジスタ割り付けが全く変わってしまうこともあるのにアセンブラって…
AVXなら3オペランドも使えるから、コンパイラに任せてもコードの質は低下しにくくなってるはず

**デフォルトの名無しさん** · 2019/11/13(水) 10:22:08.98

費用対効果を考えればIntrinsicsでも良いけど

究極の最適化はアセンブラしか無い
IACAを使ったり実測したりしながらパズルする

処理が非常に単純で速度の求められる小規模DSPなんかでも
いまだにそういう開発をする

**デフォルトの名無しさん** · 2019/11/13(水) 11:21:40.17

FPGAで専用回路組んだ方が手っ取り早い

**デフォルトの名無しさん** · 2019/11/13(水) 12:35:34.29

>>297
IACA=Intel Architecture Code Analyzer
ですよね。

**デフォルトの名無しさん** · 2019/11/13(水) 13:05:36.17

SIMDを覚えたての初心者はこんなコードを書きやすい
典型的な糞コード

ループ {
sum = _mm_add_ps(sum, data[i]);
}

>>299
そうです

**デフォルトの名無しさん** · 2019/11/13(水) 13:15:07.61

>>298
CPU, GPU, FPGA
それぞれ得意分野が違うから

**デフォルトの名無しさん** · 2019/11/13(水) 13:21:58.53

GPUユニットはCPUに乗っけたのだから後はFPGAも乗っけるだけ。
アルテラは既に買収済みだしな。

**デフォルトの名無しさん** · 2019/11/13(水) 15:28:17.20

FPGAに夢見すぎじゃね？

**デフォルトの名無しさん** · 2019/11/13(水) 16:48:11.25

スパコン分野じゃ固定の計算式はFPGAが一番効率的。そういう意味で地球シミュレータや京はゴミ。
スパコンが必要な分野でCPUのような汎用性などいらない。

**デフォルトの名無しさん** · 2019/11/13(水) 17:02:40.99

今度はスパコンが出て来たか
関わったこともないだろうに

スーパーコンピューターこそ汎用性が必要
ベクトルコンピューターが消えたのも
より汎用性を重視するから

スーパーコンピューターの世界でFPGAが求められてるなら
当然スーパーFPGAが流行ってないと辻褄が合わないわけだけど
流行ってないね

**デフォルトの名無しさん** · 2019/11/13(水) 17:18:55.90

何を言ってるからよく分からないなぁ。
特定の式を大量に速く計算したいという要望に対してなんで汎用性が出てくるの？
汎用性スパコンが1億なら同じ性能で1000万で達成できるんだよ。
しかも汎用性のために可用性が落ちるとか話にならないよ。京見れば分かるでしょ。

**デフォルトの名無しさん** · 2019/11/13(水) 17:37:57.46

自分専用ならTSSにする必要もないしな

**デフォルトの名無しさん** · 2019/11/13(水) 18:11:35.42

FPGAとかスーパーコンピューターとか自分専用とか
具体的な処理を何も語ってないのによくもまあ勝手に前提を作るよなあ

ここはソフトの最適化のスレなんだけど

**デフォルトの名無しさん** · 2019/11/13(水) 18:13:46.44

FPGAなんかで妥協しないでASICでも作れば良いよ

**デフォルトの名無しさん** · 2019/11/13(水) 18:26:47.86

FPGAだってプログラムでコーディングするんだが・・・。勝手な前提作ってるのはおまえじゃん。
というかSSEでの高速化がOKなら、GPGPU、FPGAもOKだろう。

**デフォルトの名無しさん** · 2019/11/13(水) 19:03:44.22

スレタイ
他のスレへどうぞ

**デフォルトの名無しさん** · 2019/11/13(水) 19:23:44.45

1年もレスが無かった過疎スレになんでこんな必死な自治厨がいるのだろうw
前スレも10年かけて1スレ消費したんだぞw

おまえは何者だw

**デフォルトの名無しさん** · 2019/11/13(水) 19:25:42.10

突然カテ違いのFPGAなんか布教し始めるから

**デフォルトの名無しさん** · 2019/11/13(水) 19:49:30.87

ID:EqcpRCSG　= >>311 = >>313 か？

こんな過疎スレで布教ってw マジおまえここの住人じゃないんだな。

**デフォルトの名無しさん** · 2019/11/13(水) 19:51:20.51

>>312
前に64bitで絶対アドレス使えって書いて突っ込み受けたらファビョってたのいたでしょ
あれと同一人物っぽいんだよなあ
＞究極の最適化はアセンブラしか無い
とか書くところとか

午後のこ～だの開発者たちが動画コーデックの開発しなかったのだって、
MMXは除外しても、SSE2、SSE3、SSSE3、SSE4、SSE4.1、AVX、AVX2、AVX512に加えて、
64bitでは一気に種類が2倍と、次々と登場する新命令ごとに最速のルーチン用意していく手間と、
コードが異なるために特定のCPUでしか発現しないバグがでるリスクが増すこと考えたら、
最速に拘るのが現実的ではなくなったんだよ
彼らとしては妥協したコード書く気はなかっただろうし、興味が失せるのも仕方ないのかもね

AVISynthもインラインアセンブラ使ったプラグインだらけで64bit化に対応できずに放置されてたのが
相当あったけど、自分も64bit化やった経験からも、今更初心者にアセンブラ使えなんて教えんなと言いたい

**デフォルトの名無しさん** · 2019/11/13(水) 20:53:55.20

初心者ならIntrinsicsなんか使わないで素直に汎用性のあるC++で書くかライブラリを使えばいいよ

ここは高速化手法スレだから高速なコードであることは重要
Intrinsicsよりアセンブラの方が高速に書けるのは自明なのでアセンブラの話題は当然出てくる

**デフォルトの名無しさん** · 2019/11/13(水) 21:08:18.46

アセンブラ狂信者はお前だけだよ

**デフォルトの名無しさん** · 2019/11/13(水) 21:12:18.74

Intrinsicsで32bit/64bitの共通化は出来ても
新命令がでたらどうせ作り直しだよ

新命令に最適化しないならそのままでいいよ
｢新命令対応｣て謳うのが目的じゃなければ

SSEからAVXの移植もレーン縛りで苦労しただろ？
単純に置き換えなんて出来ない
128bitのまま単に3オペとレジスタ数だけなら簡単だけど

AVX512も同じ
マスクレジスタや新命令を使うなら書き直し

**デフォルトの名無しさん** · 2019/11/13(水) 21:13:39.13

アセンブラ狂信者じゃない
Intrinsicsも使う

極限な最適化にはアセンブラが必要ってだけ
まあ当然だ

**デフォルトの名無しさん** · 2019/11/13(水) 21:19:04.07

どうせ今後は32bit向けの最適化なんかやらんだろ
だとすると手間の差はレジスタ管理くらい

**デフォルトの名無しさん** · 2019/11/13(水) 21:42:54.67

>>320
＞だとすると手間の差はレジスタ管理くらい
こんなこと書くようだと大したコードは書けないな
レジスタ割り付けの妙味と面倒さを知らないのなら、別に組み込み関数で書いても構わないだろ

**デフォルトの名無しさん** · 2019/11/13(水) 22:04:42.12

>>321
レジスタ割り付けの妙味www
さほど時間をかけなくてもコンパイラよりマシなのは作れるよ
そもそもIntrinsicsの時点でもレジスタ数削減は考えるべきであって
何も考えなきゃIntrinsicsだろうがアセンブラだろうが遅い

**デフォルトの名無しさん** · 2019/11/13(水) 22:06:07.35

詳しい自信があるなら
とりあえず問題ありまくりな>>300の問題点でも語ってみようか

**デフォルトの名無しさん** · 2019/11/13(水) 22:09:21.49

SIMDの一番簡単とも思えるこんなコードでも
最適化に関して語れることは山ほどある

**デフォルトの名無しさん** · 2019/11/13(水) 22:22:02.11

>>322
やっぱこいつ絶対アドレス君だｗ
妙味の部分に草生やすってことは大したコード書いてない証拠みたいなもんだよ
コンパイラより1%速くなっただけでもドヤ顔するタイプだろ

**デフォルトの名無しさん** · 2019/11/13(水) 22:38:51.61

絶対アドレス？

一番アクセスが速いのはスタック
ほぼ確実にL1キャッシュにある
一等地

**デフォルトの名無しさん** · 2019/11/13(水) 22:45:26.14

アドレス含め、
デカい即値は色々と遅くなる要素だぞ

**デフォルトの名無しさん** · 2019/11/13(水) 22:49:24.63

プログラムで勝負する？

**デフォルトの名無しさん** · 2019/11/14(木) 12:00:59.24

300 みたいなことはこのスレの本来の住民なら誰でも知ってるから
いちいち講釈垂れるのはスレの無駄遣いだからやらないだけ

FPGA だって互換性気にしなければオリジナルの CPU の IP 書けば済む話で
少なくともこの板でやる話ではない

**デフォルトの名無しさん** · 2019/11/14(木) 13:21:05.62

もっとレベルの高い話をお願いします

**デフォルトの名無しさん** · 2019/11/14(木) 13:24:41.66

>>329
>>300にいろんな要素が詰まってるわけだけど
どの程度わかるかな？

**デフォルトの名無しさん** · 2019/11/14(木) 16:17:09.42

>>315
>MMXは除外しても、SSE2、SSE3、SSSE3、SSE4、SSE4.1、AVX、AVX2、AVX512に加えて、
>64bitでは一気に種類が2倍と、次々と登場する新命令ごとに最速のルーチン用意していく手間と、

知らなくてもいいことかもしれないけど、これはアセンブラ作者泣かせでもあったりする。
命令数が多すぎるので手作業での入力は例えテーブル方式を採用していても無理が有り、
インストラクションセットの表を自動的にテーブルに変換するようなプログラムをしなくては
ならなくなってきている。

**デフォルトの名無しさん** · 2019/11/14(木) 18:28:43.14

>>300は非常に良い教材だよ
これだけで語れることは山ほどある
｢誰でも知ってる｣なんて言う人は
ほとんど何も知らない初心者だけ

>>332
全てのCPUに対して最適化したコードを書く人なんていないだろ
せいぜい128bit, 256bit, 512bit の3バージョンくらい
32bit 512bit なんていらんだろうし
マーケティング上の理由で作らされてる人がいるのか？
それなら御愁傷様

本当に最適化するなら対応命令だけじゃダメ
IceLakeはAVX512が遅いし
AMDも昔はAVXがとても遅い

**デフォルトの名無しさん** · 2019/11/14(木) 19:03:05.40

>>333
アセンブラ=アセンブリ言語を処理してマシン語に変換するコンパイラ
の話。

**デフォルトの名無しさん** · 2019/11/14(木) 19:18:18.01

前半からアセンブリ言語での記述の話だと思ってしまった

命令数めちゃくちゃ多いよね
多いだけじゃなくて複雑にもなってる
{k1} とか {z} とか

まあそれでも(高級言語の)コンパイラを作るよりははるかに楽だろうけど

**デフォルトの名無しさん** · 2019/11/14(木) 20:19:51.75

>>326
前にアセンブラスレでこんなこと書いてた変なのがいたんだよ
＞実際には問題がある。なぜなら、そんなにアドレスが大きいと、さっきから話題の
＞mov　　　al, my_mojiretu[rbx]
＞という命令が使えなくなるからだ。
とか、
＞RIP相対32bitdispだとアクセスできない場合が出てくる
＞シンボルがRIP相対2GBに制限されるなどはあくまでCコンパイラの制限であって
＞アセンブラはその制限を受けない

ちょっと考えれば64bitなのに2GB制限するオプションとか使ってDLLも作れなくなるような
記法が推奨されてるはずないよな
それで複数の人から突っ込まれたら、誤りを認めて引っ込めばいいものを、
ファビョって連投しまくるから、皆呆れて無視したってことがあったんだよ

挙句にこんなことまで言い出したり
＞自分は 64BIT 用C/C++コンパイラをインストールして無いので、試せません。
>>326だってこいつの言ってることはおかしいと思うだろ？

**デフォルトの名無しさん** · 2019/11/14(木) 20:47:59.72

初心者スレなんかあったのか。乗り遅れたぜ。

**デフォルトの名無しさん** · 2019/11/14(木) 22:25:49.84

>>336
その人は、64BIT命令にとても詳し過ぎてみんなが理解できなかったようだ。

**デフォルトの名無しさん** · 2019/11/14(木) 23:49:04.19

>>338
Microsoftの人より頭いいんだｗ
でも連投してるときはあまり余裕無さそうだったよｗ

**デフォルトの名無しさん** · 2019/11/14(木) 23:52:36.80

>>339
MSの人より頭が言いなんて、当たり前じゃない。
日本人をなめてはいけない。

**デフォルトの名無しさん** · 2019/11/14(木) 23:54:38.25

純粋に技術競争になったら、日本は絶対にアメリカに勝つ。
いつもそうだったし、IT分野でもそう。
問題はアメリカ人は自分が負けそうになると、圧力をかけて壊してくることだ。

**デフォルトの名無しさん** · 2019/11/15(金) 01:13:10.47

>>341
そういう考え方情けないわ
お前がまず手本を示して見ろよ

**デフォルトの名無しさん** · 2019/11/15(金) 06:20:01.64

>>336
そこだけ抜き出しても何が言いたいのかわかりません

スレタイとは関係なく
ただ人をバカにするためだけの書き込みなら
感心しない

**デフォルトの名無しさん** · 2019/11/15(金) 07:39:37.60

>>342
そうそう
40～50行程度の32bitSSEの自慢のコード片を晒せば大体の実力は判るんじゃないかな

でもね、自分が本気で最適化する時は、IACAの分析結果じゃいい加減すぎて役に立たないから
人力で計算してたんだよね
社外に秘密にしたいパイプラインの実装の詳細を気前よくツールに実装するはずないよね
だから、IACAを使って最適化してるのを自慢してる辺り、あまり期待はしてないけどね

**デフォルトの名無しさん** · 2019/11/15(金) 08:12:16.93

なんで32bitSSE？

**デフォルトの名無しさん** · 2019/11/15(金) 08:13:55.97

IACAの使い方間違ってないか？
自力で計算するための情報を手っ取り早く得る為の物だぞ

**デフォルトの名無しさん** · 2019/11/15(金) 08:37:45.48

>>342
IT関連は狡猾な人が多いので、アイデアだけ真似されるので完成するまでは
公開しない。

**デフォルトの名無しさん** · 2019/11/15(金) 08:41:09.49

>>344
40～50行程度になる題材があればコードを書くよ

今更32bit SSEってのも
時代についていってない感じでイマイチだけど
最適化はその時代のCPU向けでいいのかな？

**デフォルトの名無しさん** · 2019/11/15(金) 08:43:42.26

>>341
IT分野で日本が技術力で勝ってると思ってるの？
頭がお花畑で良いねえ

**デフォルトの名無しさん** · 2019/11/15(金) 08:45:31.01

>>349
多くは無いが個人レベルでは勝てる人はいる。

**デフォルトの名無しさん** · 2019/11/15(金) 08:47:47.96

量子コンピューターに日本人の名前がクレジットされる可能性は高い。
一方、○○互換のソフトウェアはほぼ100%が中国発。
一見欧州製のように見えてもほぼほぼ中国。
人工知能に中国人の名前がクレジットされる可能性は相当高い。

**デフォルトの名無しさん** · 2019/11/15(金) 08:50:37.54

>>350
なんだその無意味な主張

**デフォルトの名無しさん** · 2019/11/15(金) 08:51:56.44

おそらく世界最初の人工知能は春麗とかいう名前になる。

**デフォルトの名無しさん** · 2019/11/15(金) 08:52:04.36

>>352
日本の平均レベルが低いからといって、このスレに来ている人全員のレベルが
低いことにはならないということだよ。

**デフォルトの名無しさん** · 2019/11/15(金) 08:53:57.40

日本とアメリカの技術力の比較の話から
なんで個人の能力に話をすり替える？

**デフォルトの名無しさん** · 2019/11/15(金) 08:55:36.81

>>355
日本では、かつては半導体業界に優秀な人が集まっていた。
その当時、日本を引っ張っていたのは平均レベルの人達ではなかったんだよ。
自分の周りの平均以下のプログラマを見て、それが日本を代表するプログラマの
レベルだと思ってもらっては困る。

**デフォルトの名無しさん** · 2019/11/15(金) 08:56:48.41

しかも
勝てる人もいる
って

アメリカのトップに勝つ人がいるって言うなら多少の意味はあるけど

**デフォルトの名無しさん** · 2019/11/15(金) 08:57:04.71

様は、生まれつきのIQや理解力や記憶力の話だ。
努力とかじゃない。純粋のそういうものを比較すれば、日本のTOP層は
MSのTOP層と互角に戦える。

**デフォルトの名無しさん** · 2019/11/15(金) 08:57:41.59

>>357
TOPに勝てる人は要るよ。数学オリンピックとか見ていたら分かる。

**デフォルトの名無しさん** · 2019/11/15(金) 08:58:10.04

IQ、理解力、記憶力

技術力からずいぶんと話題が変わって来たね

**デフォルトの名無しさん** · 2019/11/15(金) 09:00:00.74

>>359
想像じゃなくて具体的に示してください

数学オリンピックって
俺も出たけどね

そんな高校生の遊びと技術力を同一視しないで

**デフォルトの名無しさん** · 2019/11/15(金) 09:11:49.17

>>361
あなたは数学ヲタクなだけでプログラミングが出来ないから
生意気なことを言ってるのか？

**デフォルトの名無しさん** · 2019/11/15(金) 09:12:33.92

だからプログラムで勝負しようって言ってるのに

**デフォルトの名無しさん** · 2019/11/15(金) 09:13:29.93

本当に地数学オリンピックに出られるなら、プログラミングなんてアホみたいに
簡単なはずだ。嘘なんじゃないか。

**デフォルトの名無しさん** · 2019/11/15(金) 09:14:45.79

>>363
プログラミングは勝負の世界ではなく、お金の世界だ。
金儲けの手段。数学がそんなに出来りゃ学者にでもなればいい。
コンピュータ系の教授なら簡単になれるはずだ。

**デフォルトの名無しさん** · 2019/11/15(金) 09:17:17.89

勘違いしてる人がいるようだが、本当に数学オリンピックに出るような人は、
いろいろなことが出来て、プログラミングなんて簡単に出来てしまう。
実例で行けば語学も堪能で13ヶ国語がぺらぺら立ったりする人までいる。
実際、数学オリンピックに出られるような人は、自分でもそれが分かる。
何もかも簡単に理解できるのだ。

**デフォルトの名無しさん** · 2019/11/15(金) 09:19:48.94

単なる局所的な最適化、高速化
と
コーディング
と
ソフト開発

は全然違うから

>>365
じゃあ収入で勝負するか？

**デフォルトの名無しさん** · 2019/11/15(金) 09:25:01.76

>>366
夢見すぎじゃね？

**デフォルトの名無しさん** · 2019/11/15(金) 09:28:59.67

>>368
そんなことない。数学は頭脳の頂点にあるので、本当に何でも出来る。

**デフォルトの名無しさん** · 2019/11/15(金) 09:29:06.33

数学の天才が本気で高速化したコード
興味があるなら素直にそういえば良いのに

**デフォルトの名無しさん** · 2019/11/15(金) 09:30:47.63

>>370
そんなのには興味ない。
俺も天才だし。

**デフォルトの名無しさん** · 2019/11/15(金) 09:31:36.73

勝負から逃げる天才www

**デフォルトの名無しさん** · 2019/11/15(金) 09:34:00.16

>>372
金にならない勝負はしない。

**デフォルトの名無しさん** · 2019/11/15(金) 09:35:16.56

金にならない落書きが趣味なのに？

**デフォルトの名無しさん** · 2019/11/15(金) 09:41:11.47

>>374
掲示板書き込みは、頭を使わないので簡単に出来るので全然違う。
他の人が思ってるように検索して調べることもしてない。
記憶に頼って書いてるだけなので簡単。一人には高度に見えるかも
しれないが、頭は停止状態で書いている。掲示板書き込みは頭の休憩。
プログラミングの勝負などは脳のフル活動が必要になるので
絶対にしたくない。特に天才の脳はフル活動すると疲れる。凡人とは違う
かも知れない。

**デフォルトの名無しさん** · 2019/11/15(金) 09:43:30.90

>>375
誤：記憶に頼って書いてるだけなので簡単。一人には高度に見えるかも
正：記憶に頼って書いてるだけなので簡単。一般人には高度に見えるかも

ちなみに誤字脱字が多いのも、頭を休めながらテキトーに書いているからだ。
長文だから必死に書いている事は無い。キーボードはスラスラ打てるから。
一般人には分からないだろう。

**デフォルトの名無しさん** · 2019/11/15(金) 09:44:13.05

数オリに幻想を抱いてるようじゃ
能力も知れてる

でもびっくりするくらい数学を知らない人もいるよね
自信満々でアップした行列の掛け算のコード
実は行列の掛け算を知らなくて掛け算になってないとか

**デフォルトの名無しさん** · 2019/11/15(金) 09:48:27.12

>>377
数学オリンピックは、出るだけでも少なくとも東大や、東大の大学院に入るより
ずっと難しい。マイクロソフトに入社するよりも難しい。
ハーバードやMITよりもずっと難しい。
工学系の教授になるよりも難しい。

**デフォルトの名無しさん** · 2019/11/15(金) 09:48:29.22

昔いた団子とかいうコテの話

**デフォルトの名無しさん** · 2019/11/15(金) 09:49:42.54

>>378
それを俺に言ってどうするの？
俺のファンか？

**デフォルトの名無しさん** · 2019/11/15(金) 09:52:16.79

>>380
本当にそんなに頭がいいなら、どっかの教授にでもなったらいいでしょう。
こんなところで人を馬鹿にしてはいけません。

**デフォルトの名無しさん** · 2019/11/15(金) 09:53:30.53

虚言癖だと思われてるだけだろ

**デフォルトの名無しさん** · 2019/11/15(金) 09:56:05.40

まあなんでもいいや
話をスレタイに戻そうぜ

とりあえず天才の>>381
>>300のコードの問題点と修正コードをよろしくね

**デフォルトの名無しさん** · 2019/11/15(金) 09:56:57.67

>>382
俺は虚言ではない。
俺が嘘をついていると思ってるから、嘘で対抗しているの？
それは間違い。

**デフォルトの名無しさん** · 2019/11/15(金) 09:58:10.18

>>383
SIMD命令には詳しく無いので、検索して調べないといけないのでやりません。
ここは頭を休める場所として使っているので、頭を使うことは出来ないのです。

**デフォルトの名無しさん** · 2019/11/15(金) 10:00:55.84

実は、高IQ者が休憩時間に簡単なおしゃべりのつもりで言っていることが、
一般人には、高度すぎて勝負をしてきていると思ったりする可能性があります。
こういうことでギフテッドは一般の学校でトラブルになり易いのです。
本人は勝負のつもりではなく、とても簡単に言っているのです。一般人は、
勝負だと受け止めます。これが軋轢になるのです。

**デフォルトの名無しさん** · 2019/11/15(金) 10:02:08.40

じゃあ何に詳しいんだ？

別に頭を使うようなコードでもないけどねえ
単なる知識の問題
考慮すべき内容は大きく分けて5個

**デフォルトの名無しさん** · 2019/11/15(金) 10:03:25.27

>>386
スレタイ

**デフォルトの名無しさん** · 2019/11/15(金) 16:52:20.54

技術的内容を1個も語らずに消えたか
文系君かな？

**デフォルトの名無しさん** · 2019/11/15(金) 20:23:52.61

マウンティング合戦で過疎スレを伸ばさないでくれよ。
質問攻めして相手の揚げ足取りって馬鹿左翼みたいだし。

ループ {
sum = _mm_add_ps(sum, data[i]);
}

について語れるなら結論だけ書いてOKだよ。

**デフォルトの名無しさん** · 2019/11/15(金) 20:34:07.26

>>329が答えてくれるよ

**デフォルトの名無しさん** · 2019/11/16(土) 11:20:10.45

・レイテンシとスループット
・メモリ帯域
・CPUと搭載命令
・演算の順番と精度
・処理の構成

SIMDの一番簡単とも思えるこのコードで
このくらい語れることはある

**デフォルトの名無しさん** · 2019/11/16(土) 11:24:47.82

・アラインメントと端数処理

これも

**デフォルトの名無しさん** · 2019/11/16(土) 11:31:47.92

・レイテンシとスループット
ADDPSは多くのCPUで
レイテンシ 3～4クロック
スループット 0.5クロック/命令
(メモリリードもL1にデータがあれば0.5)

このコードは、
前の演算結果を使うので
このままだと1回のループに3～4クロックかかってしまう

スループットを生かすには8個並列にする

ループ {
sum0 = _mm_add_ps(sum0, data[0]);
sum1 = _mm_add_ps(sum1, data[1]);
sum2 = _mm_add_ps(sum2, data[2]);
sum3 = _mm_add_ps(sum3, data[3]);
sum4 = _mm_add_ps(sum4, data[4]);
sum5 = _mm_add_ps(sum5, data[5]);
sum6 = _mm_add_ps(sum6, data[6]);
sum7 = _mm_add_ps(sum7, data[7]);
data += 8;
}

32bitコードでもSIMDレジスタが8個あるので
コンパイラはsumをレジスタに割り当ててくれることが期待できる
(一応確認する)

**デフォルトの名無しさん** · 2019/11/16(土) 11:48:37.57

・メモリ帯域 / 処理の構成
このコードの性能が生かせるのは、
データがL1にある場合

メインメモリは非常に遅いので
大きなデータにこのループを使うと
ほとんど待ち時間になってしまう
(HTTなら他方のスレッドが動き放題)

小さなデータで頻繁に呼ばれるのであれば意味があるが(例えば低レイテンシが要求されるオーディオ処理)
大きなデータの場合はほとんどがメモリアクセス時間になってしまう

L1やL2に入るようにこまめにサイズを区切りながら処理をするとか
他の処理も合わせてループにすれば
メインメモリの帯域による性能劣化を減らす事が出来る

なのでこのループ自体の存在をまずは疑問視しよう

**デフォルトの名無しさん** · 2019/11/16(土) 11:59:07.97

・CPUと搭載命令
128bit命令は古い
パフォーマンスが重要であれば
より性能のある256bit命令、512bit命令を使う
その為に、搭載命令を判別すること

・アラインメントと端数処理
メモリはキャッシュ境界をまたがない場合に性能が出る
今回の場合はデータが1個なので
前側端数と後側端数をゆっくり処理して
それ以外を高速なコードで処理をする

・演算順と演算精度
演算の順番で精度が悪化することがあるので注意
今回のコードは順番に足していくが
これは精度が悪化する順番である
(2^24個を超える個数の1を加え続ける事を考えると分かりやすい)

**デフォルトの名無しさん** · 2019/11/16(土) 12:00:48.23

このくらいを把握していれば初心者を卒業できます

**デフォルトの名無しさん** · 2019/11/16(土) 12:11:36.08

>>397
お前が初心者なのは良く分かった

**デフォルトの名無しさん** · 2019/11/16(土) 12:25:17.83

はいはい

**デフォルトの名無しさん** · 2019/11/16(土) 16:08:28.47

>>397
なるほどね。かなり勉強になりました。
こんだけ簡潔に日本語で説明されているものは、そう簡単には
ネット検索では見つけられないんじゃないかと思います。
SIMD命令には詳しく有りませんが、ちゃんとレイテンシのことまで
考えないと真価を発揮できないようですね。
知りませんけど、Intelコンパイラでもここまでは自動最適化で
やってくれないかもしれませんね。実際どうなのかお聞きしてみたいものですが。

実はコンパイラの最適化というものは、コンパイラ作者自身はやりたいと思っていても、
実際にコンピュータに自動的にやらせるのは結構大変なものなのです。
細かな注意点が沢山あるためです。最大の問題は、レジスタが無限に
あるわけではないことと、特定のレジスタにしか対応していないマシン語が
あることから来ます。もう一つは、さまざまな型やサイズの変数があるために、
色々なパターンに対応するのが難しいことにあります。
そういうこととに加えてレイテンシの自動配慮などを行おうとすると、最適化を
自動的に行うコードは非常に複雑で膨大な量になるのです。
また、今のCPUには、レジスタは16本くらいと結構沢山有るので、レジスタが不足した
場合の処理は、滅多にテストできません。そのため、その最適化処理はなかなか
テストできないのです。ですので、生半可なテストでは間違いが含まれていても
分からないままコンパイラを出荷してしまう事がありえます。敢えてレジスタが3本しか
使えないようにした状態でコンパイラをテストしたりする方法も一つの手です。
または、テストを余りしなくても明らかに正しいことが分かるようにコーディングする
ことです。しかし、それは余り簡単なことでは有りません。

**デフォルトの名無しさん** · 2019/11/16(土) 16:18:37.52

>>400
最適化に関して。
例えば、最適化は、色々なパターンの最適化をどのような順序で施すかによって、
最終コードの質が変わってくることがあります。というのは、人間にとっては
割と大丈夫なのですが、コンパイラにとっては、非常に複雑でそれ以上最適化
できないようなコードに見える状態に陥ってしまうことがあるからです。
普通は、少しずつ良いコードになるよな修正を何度も何度も繰り返して、それ以上
良いコードになる方法が分からなくなった時点で最適化が終わります。
ところが、いったん、悪いコードにしてから、もう一度最適化をしてみると、
最後のコードは良いコードになる場合があります。このような最適化は人間には
余り難しくないのですが、コンパイラにとっては大変なのです。
なぜなら、悪いコードになってもいい事を許しだすと、オセロの先読みの min, max
方の様な試行錯誤型の人工知能的なものが必要になるのですが、そのような最適化は、
普段は余り効果を発揮しにくいのに、処理時間が膨大になるためです。
人間は、一度最適化したコードは、何年もそのまま使います。ところが、コンパイラは、
10分に一度くらいは、ビルドし直します。ですので、最適化にかけられる時間が違うのです。
CPUが人間より速くても、このような事情があるので、人間より良いコードを出すのは
案外難しいのです。

**デフォルトの名無しさん** · 2019/11/16(土) 17:14:42.25

長いんだよ