文字コード総合スレ part14

**デフォルトの名無しさん** · 2023/03/03(金) 15:46:58.08

Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/

**デフォルトの名無しさん** · 2023/03/03(金) 18:50:36.86

乙

**デフォルトの名無しさん** · 2023/03/04(土) 05:49:15.61

Q. UTF-8 に BOM をつけるべきですか？
A. Unocode Standard では「付けたければ付けても良いが、付ける必要はないし、付けるのはお勧めしない」と規定されています。

**デフォルトの名無しさん** · 2023/03/04(土) 11:03:14.60

>>1
>Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。

filesystem の文字コードと system locale についても詳しく
あとファイル名に BOM 必要かどうかも

**デフォルトの名無しさん** · 2023/03/04(土) 11:35:06.58

>>3
訳し方でニュアンスが変わるから根拠となる規格の原文も載せた方が良いぞ

**デフォルトの名無しさん** · 2023/03/04(土) 20:52:22.05

UTF-8, UTF-16, UTF-32 & BOM
https://unicode.org/faq/utf_bom.html

「付けたければ付けても良いが、付ける必要はないし、付けるのはお勧めしない」なんてどこにも書いてないんだが

**デフォルトの名無しさん** · 2023/03/04(土) 23:54:57.70

>>4
Windowsの場合はUnicodeというのはUTF-16LEを示す模様
UTF-16LEはリトルエンディアン固定でBOMは付かないフォーマット

UnicodeといってもUTF-8ではない

**デフォルトの名無しさん** · 2023/03/05(日) 00:42:43.70

>>3
何で規定されてんの？

**デフォルトの名無しさん** · 2023/03/05(日) 01:11:17.97

>>6
Unicode Standard を嫁。

**デフォルトの名無しさん** · 2023/03/05(日) 01:17:14.07

>>8
規格に理由は書かれてない。
規格書では趣旨として UTF-8 では Unicode をASCII互換にするための方式みたいな説明してるので、BOM をつけると ASCII互換性が崩れるのが駄目なのかもしれない。違うかもしれない。

**デフォルトの名無しさん** · 2023/03/05(日) 10:21:41.04

すまそ。ここの40ページにUTF-8でBOMが許可されるって書いてあった
https://www.unicode.org/versions/Unicode15.0.0/UnicodeStandard-15.0.pdf

Table 2-4. The Seven Unicode Encoding Schemes
Encoding Scheme: UTF-8
Endian Order: N/A
BOM Allowed?: yes

**デフォルトの名無しさん** · 2023/03/05(日) 10:24:42.19

The Unicode® Standard Version 15.0 – Core Specification
https://www.unicode.org/versions/Unicode15.0.0/ch03.pdf

When converting between different encoding schemes, extreme care must be taken in handling any initial byte order marks.
For example, if one converted a UTF-16 byte serialization with an initial byte order mark to a UTF-8 byte serialization, thereby converting the byte order mark to <EF BB BF> in the UTF-8 form, the <EF BB BF> would now be ambiguous as to its status as a byte order mark (from its source) or as an initial zero width no break space.
If the UTF-8 byte serialization were then converted to UTF-16BE and the initial <EF BB BF> were converted to <FE FF>, the interpretation of the U+FEFF character would have been modified by the conversion.
This would be nonconformant behavior according to conformance clause C7, because the change between byte serializations would have resulted in modification of the interpretation of the text.
This is one reason why the use of the initial byte sequence <EF BB BF> as a signature on UTF-8 byte sequences is not recommended by the Unicode Standard.

**デフォルトの名無しさん** · 2023/03/05(日) 10:24:58.61

>>10
ASCIIは文字コードで言えば0～127までの文字
UTF-8が使う128～255はASCII互換ではない

128～255を許容するのであれば
BOMもこの範囲に含まれるのでASCII互換

**デフォルトの名無しさん** · 2023/03/05(日) 11:15:20.72

一般に言うASCII互換ってそういう意味じゃねえだろ。

**デフォルトの名無しさん** · 2023/03/05(日) 12:40:57.35

BOMがもし先頭以外に現れたら読み飛ばす？

**デフォルトの名無しさん** · 2023/03/05(日) 16:31:35.44

>>13
ここで言われるASCII互換は、ASCII上位互換だな。
今までと同じ入力(ASCII)には同じ出力になることが期待されている。今まで勝手にBOMを付けなかったので、勝手にBOMつけるのはNGくらいの意味。

**デフォルトの名無しさん** · 2023/03/05(日) 17:06:23.64

>>12
「UTF-8 の先頭にある U+FEFF は BOM なのか ZWNBS なのか曖昧なのが、UTF-8 に signature として <FE BB BF> をつけることを推奨しない理由の一つ。」
と書いてあるのか。一つということは他にもあるのか。

**デフォルトの名無しさん** · 2023/03/05(日) 17:10:12.27

>>15
「BOM が不要の場合は先頭の U+FEFF は後方互換性のために ZWNBS として扱う」と規定には書かれいる。

**デフォルトの名無しさん** · 2023/03/05(日) 17:13:23.86

>>18
途中で送ってしまった。
当然途中にある U+FEFF は全て Zero Width Non-Breakable Space (ここで改行禁止くらいの意味）として扱われる。

**デフォルトの名無しさん** · 2023/03/05(日) 21:42:23.56

>>16
ASCIIと同じ出力になるって言うなら
0～127までの文字しか使えないじゃんｗ

まさか最初さえ同じなら、後ろは違ってもいいとかいう
意味不明な話してるの？

**デフォルトの名無しさん** · 2023/03/05(日) 21:44:41.60

>>20
素人発見。

**デフォルトの名無しさん** · 2023/03/05(日) 21:46:48.07

規格がどうであれ、可能な限りBOMをつけるのが最善策。

**デフォルトの名無しさん** · 2023/03/05(日) 21:53:29.71

>>22
とうとう規格無視しろって言い始めた。
オレオレ基準は他所でやれ。技術者どうしの合意は規格を使う。お前に発言する資格はない。

**デフォルトの名無しさん** · 2023/03/05(日) 21:56:43.19

元がASCII → UTF-8 （BOM なし）に変換？ → それはただのASCII

UTF-8に対応するのであれば
128～255を許容した上で
UTF-8の仕様に対応しなければいけない

UTF-8に対応するならBOMにも対応しなければいけない
それだけのこと

**デフォルトの名無しさん** · 2023/03/05(日) 21:59:56.36

UTF-8という規格に対応するのなら
BOMにも対応しろって話だな

**デフォルトの名無しさん** · 2023/03/05(日) 22:09:24.16

>>23
これは規格外をどうするかという話なので、規格の話をしても意味がないぞ
君はエンジニアにむいてない。技術者じゃなくて法律家にでもなれ。

**デフォルトの名無しさん** · 2023/03/05(日) 22:11:31.00

交通事故が起きた時に、人命救助したり、クルマを安全な場所に移動させようとするのが技術者。
交通事故の責任問題ばかり考えるのが法律家。ID:JF7lH/t4は技術者にむいてない。断言する。

**デフォルトの名無しさん** · 2023/03/05(日) 22:16:09.81

>>27
悔しかったら Unicode Standard 書き換えてこいや。もしくは賛同者つのって新しい規格でも作ったら？

**デフォルトの名無しさん** · 2023/03/05(日) 22:16:39.06

規格が不完全でも現実として運用していかなければならないのに、規格を盾に対応を拒否するような技術者はクビだよ

**デフォルトの名無しさん** · 2023/03/05(日) 22:20:27.96

>>29
規格が不完全なら規格を正しく修正するのが技術者の仕事。
お前の主張が正しいなら規格はとっくに直されてる。変更されないのは今の規格が正しいということ。

**デフォルトの名無しさん** · 2023/03/05(日) 22:26:54.92

>>30
そのとおり。誰も問題と思ってないのだからBOM付きはどんどん増える

**デフォルトの名無しさん** · 2023/03/05(日) 22:32:47.50

>>27
つまり文字化けという事故が起きたときに
文字コードを安全に変換できるようにUTF-8のBOMは使われているということか

**デフォルトの名無しさん** · 2023/03/05(日) 22:42:24.63

うわあ時代遅れのBOM強要おじさんがまだ粘着してる
このクソくだらない流れいつまで続けるんだ、あほらし

**デフォルトの名無しさん** · 2023/03/05(日) 22:44:16.68

BOMありもなしも規格では許容していて、あとはその仕様の違いを意識せずに混ぜるなというだけの話。
その一方ですべての文字コードをUTF-8 BOMなしに統一すべきだという原理主義者が存在いる構図。

**デフォルトの名無しさん** · 2023/03/05(日) 23:33:36.53

規格に「推奨しない」って書かれているのをどうしても見なかったことにしたい人がいるみたいだな。

**デフォルトの名無しさん** · 2023/03/05(日) 23:42:49.54

>>35
そんなに強く否定してるとこあったっけ
原文どれだ

**デフォルトの名無しさん** · 2023/03/05(日) 23:51:56.87

>>12にあったw

**デフォルトの名無しさん** · 2023/03/05(日) 23:57:59.32

not recommended ってのは、必要性を十分検討したうえで使えってことだな。

**デフォルトの名無しさん** · 2023/03/06(月) 00:10:15.45

>>37
本体は2.6章にあるよ。12はその理由を説明してる感じみたい。

**デフォルトの名無しさん** · 2023/03/06(月) 03:36:44.43

「お前が○○するぶんには好きにしろ」でいい気がするのだが
なんか相手の使い方にそれ以上踏み込んで口を出したくてたまらない人がいるのがエンドレスの原因な気がするのだが

**デフォルトの名無しさん** · 2023/03/06(月) 05:16:32.79

>>40
自分が口出してるという自覚はないのか？
「UTF-8でBOMは許容されている。推奨されていないだけ。」
これが事実だろ

これ以上のことは言わんでいい

**デフォルトの名無しさん** · 2023/03/06(月) 08:52:12.04

推奨されてないものを付けろだの、対応しろだの、規格無視しろだの言うから荒れてる。
つけたきゃ勝手につけろ。他人に勧めるなで終わり。

**デフォルトの名無しさん** · 2023/03/06(月) 09:27:16.62

https://www.unicode.org/versions/Unicode15.0.0/UnicodeStandard-15.0.pdf#page=967

In UTF-8, the BOM corresponds to the byte sequence <EF BB BF>.
Although there are never any questions of byte order with UTF-8 text, this sequence can serve as signature for UTF-8 encoded text where the character set is unmarked.
(中略)
For compatibility with versions of the Unicode Standard prior to Version 3.2, the code point U+FEFF has the word-joining semantics of zero width no-break space when it is not used as a BOM. In new text, these semantics should be encoded by U+2060 word joiner.
See “Line and Word Breaking” in Section 23.2, Layout Controls, for more information.

**デフォルトの名無しさん** · 2023/03/06(月) 10:05:23.97

BOMというのはバイトオーダーマークの略で
リトルエンディアンかビッグエンディアンか区別するためのもの
UTF-8では必要ない
これはWindowsのメモ帳のバグでM$がUTF-8にBOMをつけたのが始まり
仕方ないからUnicodeで許可されてるだけで本来はつけてはいけない

**デフォルトの名無しさん** · 2023/03/06(月) 11:39:19.84

>>44
ついてた時にどうするかが重要なのであって、そこが自由裁量であり経営判断。
Windowsの資産をすべて捨てる決断をするのはカネを払う経営者やユーザーであって技術者ではない。

**デフォルトの名無しさん** · 2023/03/06(月) 11:42:21.59

山茶花(サザンカ)は本来サンザカと読まなければならないのだから、今後はサザンカは受け付けない(ｷﾘｯ

**デフォルトの名無しさん** · 2023/03/06(月) 11:50:48.53

>>45
お前のようなやつがいるからWindowsはいつまでもShiftJISを使い続けることになる
BOMはUnicodeでは認められていない。禁止すべきものだ。

**デフォルトの名無しさん** · 2023/03/06(月) 11:51:31.28

>>45
入力がBOMつきUTF-8に指定されている場合はBOMとして処理しろ。
入力がBOMなしUTF-8に指定されている場合はZWNBSとして処理しろ。

**デフォルトの名無しさん** · 2023/03/06(月) 12:05:50.90

>>47
推奨されてなくても一応認められてるでしょ
何でそこを捻じ曲げるの

**デフォルトの名無しさん** · 2023/03/06(月) 12:36:46.99

ま、積極的にBOMを使うのが運用として自然だから、BOMをつけるアプリがドンドン増える。
デファクトスタンダード。

**デフォルトの名無しさん** · 2023/03/06(月) 14:23:24.15

>>19
>Zero Width Non-Breakable Space (ここで改行禁止くらいの意味）

何も処理せず読み飛ばせって意味では

**デフォルトの名無しさん** · 2023/03/06(月) 14:36:44.93

>>51 の補足だが
入力に(BOMありかBOMなしかはともかく)
[ZWNBS]AB[ZWNBS]CD
というデータがあれば
出力は
ABCD
になるという意味ね

**デフォルトの名無しさん** · 2023/03/06(月) 14:53:51.51

>>52
先頭は無意味だがそのまま保存する。
途中のはBとCの間で自動改行禁止という指示になる。
# 家(ZWNBS)康ってしとけば難癖つけらなくて安全だな。

**デフォルトの名無しさん** · 2023/03/06(月) 18:29:55.53

話の途中ですまんのだが
ASCIIって7bitのはずなのに下みたいにどう見ても先頭に0がついて8桁あるのはなんでなんや
https://medium-company.com/ascii%E3%82%B3%E3%83%BC%E3%83%89/
もしかして先頭に0をつけて8bitにしたのがメモ帳とかでは標準の表現方法なんか？

**デフォルトの名無しさん** · 2023/03/06(月) 19:54:14.87

>>54
単に 8bit = 1byte の世界で説明してるからだろう。（最近はそれしかないので、昔は 7bit = 1byte とかもあった）

**デフォルトの名無しさん** · 2023/03/06(月) 21:19:45.89

そうなん？
じゃあ実際のバイナリ列は7桁なんやね

**デフォルトの名無しさん** · 2023/03/06(月) 23:59:43.85

ハイともイイエともどうとでもとれる書き方なんですんのやろ

**デフォルトの名無しさん** · 2023/03/07(火) 00:04:49.03

>>56
7bitマシンならそうだな

**デフォルトの名無しさん** · 2023/03/07(火) 00:31:08.63

電子メールは7ビットで世界を駆け巡っているの？

**デフォルトの名無しさん** · 2023/03/07(火) 00:53:18.81

大昔は一番上のビットをパリティとして利用していたこともあつたし

**デフォルトの名無しさん** · 2023/03/07(火) 00:56:51.64

JSONではUTF8必須かつBOMを付けてはいけないと明確に定められてるんだな
全てがこのように決まれば文字コードで悩むこと無くなるな

ソース
https://www.rfc-editor.org/rfc/rfc8259.html#section-8.1
JSON text exchanged between systems that are not part of a closed ecosystem
MUST be encoded using UTF-8 [RFC3629].
Implementations MUST NOT add a byte order mark (U+FEFF)
to the beginning of a networked-transmitted JSON text.

**デフォルトの名無しさん** · 2023/03/07(火) 01:03:35.76

8b/10bの10bitが云々の話になるぞ

**デフォルトの名無しさん** · 2023/03/07(火) 03:00:53.09

>>54
M$がShiftJIS対応のために8bitに変更したんだろ

**デフォルトの名無しさん** · 2023/03/07(火) 09:10:52.97

なんだろな。このど素人が混ざってる感じ
ASCII はもともと 1byte に 1文字を入れる設計。
6bit マシンには非対応
7bit マシンにはそのまま入れる
8bit マシンでパリティ不要なら最上位bitにゼロを入れる
という設計。最近の機器は全部8bitマシンなので最上位にゼロが入る。
（ISO 2022 拡張とかで変更できるけど）

**デフォルトの名無しさん** · 2023/03/07(火) 09:56:10.33

ShiftJIS対応だけのために8bitに変更とか日本はどんだけ凄いんだよ…

**デフォルトの名無しさん** · 2023/03/07(火) 10:08:55.63

本質がわかってないやつがいるが
論点はBOM禁止という話
M$のバグのために仕様を歪めるな！

**デフォルトの名無しさん** · 2023/03/07(火) 12:02:26.19

将来SJIS(cp932)やそれ以外のcp(cp65001を除く)は全部無くなるんだろうし
その頃にはUTF-8にBOM付けるやつは居なくなると想定していて
その準備段階として現状UTF-8にBOM付けるべきでないってスタンス
今がんばってBOM付けろって言ってるアホは死ぬまでSJIS浸かってろ

**デフォルトの名無しさん** · 2023/03/07(火) 12:58:43.14

>>67
そのとおり。死ぬまでSJIS浸かってる人は今後もずっと存在し続けるからBOMつけるのが最適解だよ。