C言語なら俺に聞け 159

2022/08/04(木) 23:32:27.83

!extend:checked:vvvvv:1000:512
(新スレ立ての際上記コマンドを2行書き込んでください)
C言語の話題のみ取り扱います C++の話題はC++スレへ
質問には最低限の情報(ソース/コンパイラ/OS)を付ける
数行で収まらないソースは以下を適当に使ってURLを晒す
https://paiza.io/
https://ideone.com/
http://codepad.org/

C17
http://www.open-std.org/jtc1/sc22/wg21/docs/papers/2017/n4713.pdf

C11
http://www.open-std.org/jtc1/sc22/WG14/www/docs/n1570.pdf

C2x ドラフト
http://www.open-std.org/jtc1/sc22/wg14/www/docs/n2731.pdf

C99
http://www.open-std.org/jtc1/sc22/WG14/www/docs/n1256.pdf
http://kikakurui.com/x3/X3010-2003-01.html

C FAQ 日本語訳
http://www.kouno.jp/home/c_faq/

JPCERT C コーディングスタンダード
https://www.jpcert.or.jp/sc-rules/

※前スレ
C言語なら俺に聞け 158
https://mevius.5ch.net/test/read.cgi/tech/1640401906/

VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

2022/09/18(日) 02:19:18.49

>>210
大きく言語自体から脱線するようだとあまりよくないかなと思うけど、
ささいなことなら多少は良かろうと思うし、程度次第じゃね。

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/18(日) 02:40:43.36

>>209
UTF-8 に BOM は本質的に不要です
なぜならば BOM = Byte Order Mark ですが、UTF にバイトオーダーなど存在しません
BOM なし、と断ること自体、頭が悪い証拠を如実に表出していると愚考させていただきます

馬鹿は死ね

2022/09/18(日) 02:43:34.57

はじめてのC言語完全入門！【Hello World〜ポインタまで徹底解説】
91,121 回視聴
freeCodeチャンネル

2022/09/18(日) 03:28:52.56

>>212
BOM はエンコード方式の識別に使われる場合もあると公式 (unicode consortium) の資料に書かれている。
BOM が BOM という名前である以上は本来の用途からの転用ではあるが、
バイトオーダーだけを根拠にして不要と断じるのはエンジニアリング的に良い姿勢ではないな。

2022/09/18(日) 04:26:41.31

>>212
いい大人がバカとか4ねとか言ってるの見ると悲しくなってくるわ
人付き合いをろくにしてこなかった精神的にガキのおっさん痛すぎる

2022/09/18(日) 05:15:19.35

>>205
めちゃくちゃだよアンタｗ
文系ポエムは他でやんなさい

2022/09/18(日) 05:26:48.38

>>205
よく見るとそのページ内容がむちゃくちゃだなｗ
データが格納される順番はコンパイラ依存なのでそんなサンプルコードは作ってはいけない

「まず、arr のオブジェクトサイズは 24 バイトと表示されますが、」じゃねえよｗ
「内部の詳細を無視してしまうと恐ろしいエラーが発生する可能性があります。」もう起こっているｗ

以上

2022/09/18(日) 10:38:22.56

>>198
そもそも上のコード
size = 24 bytes
size = 17 bytes
この２つはどこから出てきたんだ？
printCharArray　のあとの　printf("size = %lu bytes \n", ... ); はひとつしかないのに

>>195
array1とarray2がそれぞれスタックに積まれるなら　array2、array1の順は正しいし
array1とarray2がリテラルとしてコード上に存在するならarray1、array2の順は正しい
ただの最適化の問題じゃないのか

2022/09/18(日) 13:53:49.44

文系は全称と単称の区別が出来ない
大抵の馬鹿はこれで判別出来る

2022/09/18(日) 14:04:23.72

そういう表現も、大体根拠が希薄
血液型占いと同程度

2022/09/18(日) 14:12:29.01

>>203
規格では一切順序の保証はないので
同じ結果が欲しければそのぺーじと同じ環境を用意してください

2022/09/18(日) 18:22:49.00

機械翻訳まるだしだし
Pythonのおまけで載ってるだけだから
そんなページあてにするなとしか

2022/09/18(日) 18:23:22.20

>>212
Windowsのメモ帳でUTF-8で保存するとBOMが先頭に入った状態になるよね。
そういう変な出力をするソフトがあるせいでUTF-8なのにBOMの有無を意識しなきゃいけなくなるんだよ。

2022/09/18(日) 19:08:21.37

>>223
UTF-8 ではない形で保存されている可能性はいつでもあるわけだが……。

2022/09/18(日) 19:35:00.75

メモ帳で保存する場合、選択はこの中から

https://i.imgur.com/eJf3vLE.png

2022/09/18(日) 20:14:09.21

wcharはutf8圧に負けて廃れるんかね
Cのようなロートル言語使ってると固定幅(但し幅は決まっていない)エンコの有り難みをひしひしと感じる

2022/09/18(日) 21:11:58.46

ストレージはutf-8
メモリーはwchar_t
じゃね？

2022/09/18(日) 22:03:00.04

>>225
それでBOM付き選んじゃうやつが居るんだろうな。選択肢無くして欲しいものだ。

2022/09/18(日) 22:05:23.89

>>226
入出力でJavaみたいに変換すれば良いじゃん。
iconvライブラリとか使って。

2022/09/18(日) 22:23:37.69

>>229
ふぇふふ…

2022/09/18(日) 22:58:27.34

メモ帳は、BOM 付きUTF-8 になるから、ダメ

BOM無しUTF-8は、VSCode, サクラエディタなどを使う。
TeraPad は、新し目の文字に対応していないので、ダメ

2022/09/18(日) 23:06:51.28

メモ帳、デフォルトでBOM無しで保存する
BOM付けるにはセレクトで一番下を選ぶ操作が必要

2022/09/18(日) 23:10:07.79

UnicodeのBOMはUTF-{8, 16, 32}で並び順が違うから判別に使える
逆に無いと推測に頼るしかない
メモ帳はSJISのテキストを開かれることもあるから、BOM無しUTF-8の場合は推測している
BOMが有れば確実に判別出来る
なのでBOM付きUTF-8は悪くない

2022/09/18(日) 23:10:14.33

WindowsではBOM付きのほうが便利だけどね。

2022/09/18(日) 23:12:31.63

gccもBOMに対応したことですし。

2022/09/18(日) 23:23:26.35

UTF-8にBOMが要らないと主張しているのは今の現実について言っているわけじゃなくて
「UTF-8しか存在しない美しい世界」を目指している活動家だからな。
説明したところで話が?み合わない。

**212** (US 0H7f-G1yF) · 2022/09/19(月) 00:00:08.46

>>236
よくわかっていますね、実はそうなんですよね

2022/09/19(月) 00:15:30.26

自覚したなら今度からはバイトオーダーにかこつけたアホな主張はやめとけよ。

**ハノン** ◆QZaw55cn4c (US 0H7f-G1yF) · 2022/09/19(月) 00:18:28.74

美しい世界（爆笑）のために、今後も活動を続けていきます！

2022/09/19(月) 02:37:34.04

ユニコードの上位セットであるGB18030もあるんだけど。

2022/09/19(月) 11:10:12.09

>>236
そんなあなたに Nim がおすすめ

2022/09/19(月) 11:11:36.70

>>233
ASCII (8bit以内) しかないテキストに BOM 付いてたらさすがにうざいと思う

**ハノン** ◆QZaw55cn4c (US 0H7f-G1yF) · 2022/09/19(月) 11:21:09.68

>>242
ですよね！
コードは普通コメントも英語で書くし、なんで BOM がつかなきゃならないのか意味不明なんですよ、ましてや UTF-8 に BOM つけてもいい規約なんて後付けなんでしょう？
美しい世界（爆笑）のために今日もがんばります！

2022/09/19(月) 11:40:57.93

>>241
まさに今、話が噛み合わないことを痛感した。

2022/09/19(月) 11:41:54.30

なくても使えるなら、ない方が良い

2022/09/19(月) 11:43:27.96

どれでもいいけど規格で決めないという対処には愚痴を言いたくもなる。

2022/09/19(月) 11:55:32.42

>>242
ウザいの定義を言え
普通にテキストエディタで編集してるだけなら気付きもしないだろう

2022/09/19(月) 12:00:13.75

気付かなかったあなたはたぶん幸せ者です

2022/09/19(月) 12:13:35.24

10年前ならともかく今時BOMの有無で困ることなんてほぼなくね？

2022/09/19(月) 12:30:39.37

BOMなしUTF-8のデータを読ませるとエラーになるプログラムを作ったやつがいる。
こういうやつをどうするべきか？

2022/09/19(月) 12:33:02.11

市中引き回しのうえ、磔獄門で

2022/09/19(月) 13:00:37.09

仕様で読めることになっているのにエラーになるならバグだがそうでないなら読ませる方が悪い。
日本語Windows向けアプリの大半はそうだな。

2022/09/19(月) 13:09:05.53

仕様ではUTF-8と書いてあるだけ。ならばBOMの有無に関係なく読めるようにするべき。

2022/09/19(月) 13:13:10.64

仕様ではUTF-8と書いてあるなら、あったら読み飛ばせば良いだけだな

2022/09/19(月) 13:29:40.55

にも関わらずBOMがないとわざわざエラーを出して終わる

2022/09/19(月) 13:40:15.70

単なるバグだろ、とっとと直させろよ

2022/09/19(月) 14:03:09.97

> こういうやつ

BOMなしUTF-8のデータそのものを修正したいのか
BOMなしUTF-8のデータを読めるようにプログラムを修正したいのか
プログラムを作ったやつに復讐したいのか

どれだ

**ハノン** ◆QZaw55cn4c (US 0H7f-G1yF) · 2022/09/19(月) 15:32:18.43

BOM はもともと UTF-16 のためのものでしょう？
それを、UTF-8 に対しても無条件に BOM をつけてしまうウンコエディターを量産している奴等に問題があるんですよ…

また、正直にいって、規格で決めればいいとかいう思考停止にも我慢ならないんですよ
美しい世界（爆笑）のために今日もがんばります！

2022/09/19(月) 15:34:28.84

HTMLもBOM推奨してなかったっけ。

2022/09/19(月) 15:56:49.87

HTMLの場合、「BOM」付けると、PHP で謎の空白ができてしまうなど動作や表示に不具合が出る可能性があるそうです。

2022/09/19(月) 16:04:04.51

それは、BOM付けるのがPHPの仕事だからじゃないの？

2022/09/19(月) 16:20:33.07

PHPは中途半端に歴史が古いから、Unicodeといえば、UTF-16なんだよな。

でもそのおかげでWindowsとの相性は悪くない。

2022/09/19(月) 16:20:51.69

そもそも UTF-8 には、エンディアンの違いがなく、BOM（バイトオーダーマーク）を付ける必要がないんだそうだ

2022/09/19(月) 16:22:57.02

HTMLの場合はHEADに使っている文字コード情報が入っているのでそれを見れば良い事になる

2022/09/19(月) 16:25:44.76

>>264
たしか規格でBOMを優先することになってなかったっけ？

2022/09/19(月) 16:33:42.03

文字列としてバイトオーダーが実際に問われるのは、
UTF-16やUTF-32のケースだけです
その場合は必要ですね

2022/09/19(月) 16:34:41.81

確認したところ、なってたわ。
HTMLパーサー書いたことがあるから、おぼろげに覚えてた。

2022/09/19(月) 16:46:36.41

・BOMがある場合、BOMに従う。
・ない場合、500ms、あるいは1024バイト読み込むまで待機し、エンコーディング走査アルゴリズムを呼び出す。

エンコーディング走査アルゴリズム内で、ヘッダー内の情報が読み取られる場合もある。
（このアルゴリズムでも、他に優先される情報がある。）

やはり、HTMLにおいては、BOMをつけるべきだな。
読み込みが速くなるし、文字コードの違いを利用した攻撃を避けることが出来るし。

2022/09/19(月) 16:47:54.37

HTMLの場合は、HEADに使用するcharsetが記述されてますから心配ありません

2022/09/19(月) 16:48:57.21

昔の外国映画で「ふにゃちん野郎が！」という悪口があったよね。
今後は「BOM無し野郎が！」と言うことを提案いたします。

2022/09/19(月) 16:49:03.30

それにUTF-8にはバイトオーダーがありません

2022/09/19(月) 16:50:38.05

>>269
規格上、BOMのほうが優先される。
BOMがある場合、エンコーディング走査アルゴリズムは呼び出されない。
BOMをつけましょう。

2022/09/19(月) 16:52:03.62

BOMをつけないとセキュリティ上の問題がある。

2022/09/19(月) 16:52:15.94

付けたWebサイトをここで公開して下さい
楽しみにしています

2022/09/19(月) 17:25:06.78

すべてのUTF-8にBOMがついてたらSJISはもっと早く消えてくれたと思うんだよね

2022/09/19(月) 17:31:57.08

この話題は、BOMをつけましょうということで、良いのでは？

**ハノン** ◆QZaw55cn4c (US 0H7f-G1yF) · 2022/09/19(月) 18:02:53.27

>>276
違います
BOM を付けるべき正統な理由がある時には付け、特に理由がなく惰性で付けてるんだったらやめよう、です

2022/09/19(月) 18:05:47.85

BOMを付けていない人を見かけたら、注意して差し上げましょう。
ということで、良いのでは？

2022/09/19(月) 18:12:09.41

テキストファイルを開いたとき最初の三文字がゴミかどうかいちいち判断するの？
2つのテキストファイルを結合するときゴミをひとつにまとめる処理するの？
BOMという考えが誤りなんだよ

2022/09/19(月) 18:14:42.87

法令でBOMを義務付けるべきでは？

BOMが無かったら通報するみたいな。

2022/09/19(月) 18:15:00.74

Windowsの一部アプリでBOMがないと動作不具合起こすんだよ
Officeとか、Officeとか、その辺
この辺への思いやりが必要な時は付けてあげると良い

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/19(月) 18:19:47.40

>>278
それに加えて BOM を無駄につけている人を見かけたら、注意して差し上げましょう、も追加してください。

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/19(月) 18:20:53.56

>>280
その法令は間違っていますね

正直いって、規格で決めればいいとかいう思考停止にも我慢ならないんですよ
美しい世界（爆笑）のために今日もがんばります！

2022/09/19(月) 18:22:38.11

>>279
ふたつのテキストファイルが Unicode である保証もない。
メタ情報で保証があるなら BOM があっても困らないし、
保証がないなら BOM があろうがなかろうが困る。

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/19(月) 18:23:22.11

>>281
たしかに office とか office とか office とか office とかに思いやりを示す寛大な処置ということであれば、付けて差し上げることにやぶさかではないのですけれどもね

2022/09/19(月) 18:27:12.50

>>277
後半に関して言えば、そのテキストがどのエンコードを用いているかが他の手段で示されているなら
BOMは用いるべきではないとされているからそれに従えばいい話だね。
「俺が扱うテキストは全部UTF-8に決まってるんだからBOMは要らない」という自己中心的な主張と
混同してくれなければいい。

2022/09/19(月) 18:28:42.31

まあ私はどちらでも良いんですけれども。
（レイヤード・ストリームをつこてますので）
gccがBOMに対応したのだから、BOM付ける陣営の勝利では？

2022/09/19(月) 18:33:34.93

ところで明日は地下鉄が止まるかもしれないので、調べておいた方が良いですよ。

2022/09/19(月) 18:35:51.09

わたくし思うのですが、BOMに対応しないソフトウェアを企画してしまう技術者って、もはや技術者で無いのでは？
ユーザーが必要としてるわけですからね。

2022/09/19(月) 19:59:29.61

WindowsはBOMがあった方が判別しやすいが、LinuxやUNIXはBOMがあると余計なものが付いているという感じになる。

マルチバイト圏への配慮が足らなかったマイクロソフトが一番悪い。

だいたい2バイトで漢字がすべて収まると思ったアメリカ人に対して、早く日本人が漢字は何万字もあると教えなかったのが失敗だった。

2022/09/19(月) 20:35:04.98

BOMキチガイども

2022/09/19(月) 20:42:51.60

MS-DOSの頃は、これで十分って思ってたからな。

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/19(月) 21:05:32.45

>>290
＞だいたい2バイトで漢字がすべて収まると思ったアメリカ人

CJK 漢字統合なんて醜い仕様のひと言に尽きますよね

>>286
自己中心的、という言葉の使い方が間違っていますよ
その昔は Shift-JIS, JIS, EUC が入り乱れまくっていましたが、だれもテキストデータにエンコードを示すプリフィックスを付けようなどとは思わなかった事実があります
UTF-8 にバイトオーダーマークなんか絶対に不要なのにバイトオーダーマークを安易につける発想そのものが自己中心的なのでは？

美しい世界（爆笑）のために今日もがんばります！

2022/09/19(月) 22:08:36.69

「俺が扱うテキストは全部UTF-8に決まってるんだからBOMは要らない」というのが自己中心的な主張だと言ったんだが？
こんな単純な日本語の文章すらまともに読解できない奴に間違ってるとか言われても困惑するわ。

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/19(月) 22:24:33.90

>>294
同じことを繰り返しますが、
①過去、エンコードの違うテキストを各種取り扱っていたからといって、「テキストの内部に恣意的にエンコードを示すマークを入れる」などという自己中心的なことをした歴史はなかったのです。
　特にそういうことをしたいときは、ソースコードにその言語のコメントでエンコードを示す、くらいの配慮をしていたものです
②UTF-8 でエンコードされている限り、そのコンテンツがアスキーコードのみで構成されているのならば、特にバイトオーダーコードは不要で、as is で使えるように、欧米諸国に配慮した設計です

特に②が重要で、バイトオーダーコードを要れずとも、C のソースコードは UTF-8 であれば普通にコンパイルできる、はず、なのに、なぜわざわざバイトオーダーコードを付加して既存の処理系がそのままでは使えなくなってしまったのか？
コンパイラは MS-VC だけではなく、gcc も clang も lsi-c （ｗ）もあるというのに、既存のコンパイラの動作を妨害してまで、バイトオーダーコードを付加するエディター側の方が自己中心的といえるのではないでしょうか？
そしてエンコードを示すマークなどではないバイトオーダーマークをエンコード種を示すマークに乱用するしている二重の矛盾も指摘しなければなりますまい

私の言っていることがわかりますか？

2022/09/19(月) 23:05:07.14

>>264
そのHEADの箇所に行くまでエンコードが分からないのだよな？
そこまでどうやって読むのか？
まあ、現実問題としてASCIIで入れておきゃいいわけだけど、厳密にはそれじゃいかんよな。

2022/09/19(月) 23:10:53.08

>>290
エンコード切り替えの規格は ISO/IEC 2022 がある。
PC-9801 時代あたりにはマニュアルで KI/KO コードという名前で説明されていた。
ヨーロッパ言語も ISO/IEC 8859 として十種類以上の文字セットが定義されているんだ。
日本での事情以上に混在は深刻な問題であって、対処する規格は当然ある。

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/19(月) 23:18:33.90

>>296
おっしゃるとおり、そこまでは、ただのアスキー7bit で記述するんですよ
大概は第一行目にエンコード種をアスキーで書くものでしたけれどもね
厳密っていうけれども、あなたのおっしゃる厳密の意味がよくわかりませんね

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/19(月) 23:19:31.82

>>297
英語が一番簡単で、ウムラウトとか苦労していたと思いますよ、ウムラウトは確か 7　ビット領域に侵食していたような気が

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/19(月) 23:23:44.77

>>297
おっと、私のいっていたことが少し不正確でしたね、たしかに　KI/KO は生 JIS にありましたね

2022/09/19(月) 23:40:42.70

自然言語なんて数千年単位の歴史的経緯の塊だ。その文字も。
綺麗に整理しようとしたって元がグダグダなんだからどこかしらでグダグダになる。
そんでそのグダグダをひとつに寄せ集めたのが Unicode なんだぞ。
そりゃグダグダで当たり前だし、そういうもんだと思うしかしょうがないだろ。

そんでもって Unicode がかなり広まったといっても従来の文字コードが消滅したわけでもない。
https://xkcd.com/927/

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/19(月) 23:43:18.98

>>240
チャイナ規格ですか‥‥（差別意識満々）
調べてみましたが基本的に4ビット固定長であり、UTF-8 を包含してはいないようですね、UTF-8 の上位規格というのはどういう根拠でそういっているのですか？
どっちかというと現行中国漢字エンコード規格の上位規格でしょう

私の理解
・7 ビット圏は 1 バイト
・拡張部分は可変長ではなく 4 バイト固定
・現行の中国の漢字エンコード規格 GBK（シフトJIS と同じ仕組み）を包含するように第二・第四バイトの範囲を GBK と被らない範囲に制限している。

2022/09/19(月) 23:48:55.05

>>302
ユニコード・コードポイント全てを内蔵したうえで、さらに少数民族の文字を追加してあるからでしょ。
そういう生い立ちなんだから。

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/19(月) 23:52:42.86

>>301
How standards have been overproducted とか易しい英語にしてほしいなあ

**デフォルトの名無しさん** (US 0H7f-G1yF) · 2022/09/19(月) 23:55:05.42

>>303
コードポイントの数は十分確保している、って言う意味で「ユニコードの上位規格だ」と主張しているわけですか
この理解で正しいですか？

2022/09/19(月) 23:55:54.72

EBCDIC なんていうコード体系もあるんだよな
これはASCIIよりも古い
このコードで動いていたPCもあった（今もあるかは知らない）

2022/09/20(火) 05:35:11.57

N5200か

2022/09/20(火) 05:38:15.50

>>290
2千字の常用漢字で済ませという時代だったから。

> だいたい2バイトで漢字がすべて収まると思ったアメリカ人に対して、早く日本人が漢字は何万字もあると教えなかったのが失敗だった。

2022/09/20(火) 07:29:23.63

>>295
ここまでくると狂気しか感じないが。>>286で自己中心的と書いた内容と全然関係ない内容を
延々と繰り返すのはなんでだろう。
ついでに>>295の内容について言えば、規格で定めているもののどこがどう自己中心的なんだか。
この場合の「自己」って誰のこと？

2022/09/20(火) 09:59:52.88

>>270
PHP+SJIS全盛の頃にBOMの代わりに「美乳」が使われてた時代があったな