Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
探検
文字コード総合スレ part13
レス数が950を超えています。1000を超えると書き込みができなくなります。
1デフォルトの名無しさん
2020/07/03(金) 20:53:47.08ID:elbfDzqw892デフォルトの名無しさん
2023/02/27(月) 19:12:40.37ID:hpJa9B57 >>884
> そりゃそうだろUTF-8ができたのが、JavaやJavaScriptが出来るよりも後なんだから
UTF-8は1992年9月にFSS-UTFとして提案されたのが初出
JavaとJavaScriptはどちらも1995年がファーストリリース
> そりゃそうだろUTF-8ができたのが、JavaやJavaScriptが出来るよりも後なんだから
UTF-8は1992年9月にFSS-UTFとして提案されたのが初出
JavaとJavaScriptはどちらも1995年がファーストリリース
893デフォルトの名無しさん
2023/02/27(月) 20:54:01.76ID:jlyK/+pC894デフォルトの名無しさん
2023/02/27(月) 21:08:05.40ID:FhIHw4p1 単純なUTF-32配列だとEMOJI MODIFIERなどに対処できない。すでにUTF-32でも可変長に対応必須が前提になってる。
895デフォルトの名無しさん
2023/02/27(月) 22:08:49.50ID:Ms3I5yW6896デフォルトの名無しさん
2023/02/27(月) 22:45:37.52ID:WKLLShCH >>892
その提案が採用された日付を見てみ
その提案が採用された日付を見てみ
897デフォルトの名無しさん
2023/02/27(月) 22:46:26.63ID:WKLLShCH >>895
Unicode signatureとしてそのような用途として使ってよいと書いてある
Unicode signatureとしてそのような用途として使ってよいと書いてある
898デフォルトの名無しさん
2023/02/27(月) 22:52:06.63ID:WKLLShCH899デフォルトの名無しさん
2023/02/27(月) 22:54:22.19ID:DVrHyfiD >>895
バイトオーダーの無いUTF-8のBOMにそれ以外に何の意味が
バイトオーダーの無いUTF-8のBOMにそれ以外に何の意味が
900デフォルトの名無しさん
2023/02/27(月) 22:57:56.43ID:+0iiKFkK utf8-bomで保存するソフトもutf8-bomを受け付けないソフトもそういう仕様だと謳えばどっちもありだろう。
自分の主義主張と合わないのは許せないという奴が困ったちゃんなだけで。
自分の主義主張と合わないのは許せないという奴が困ったちゃんなだけで。
901デフォルトの名無しさん
2023/02/27(月) 22:59:30.26ID:Y3EgytEI >>897
規格はちゃんと読もう。
・UTF-8 のBOMは必要でもなければ推奨でもない。
・それにもかかわらず、UTF-16などからの変換やsignature として、BOMに遭遇するかもしれない
の2点だよ。CP932なんて眼中にないし、「使って良い(may use)」ではなく、「遭遇するかも(may encounter)」だよ
規格はちゃんと読もう。
・UTF-8 のBOMは必要でもなければ推奨でもない。
・それにもかかわらず、UTF-16などからの変換やsignature として、BOMに遭遇するかもしれない
の2点だよ。CP932なんて眼中にないし、「使って良い(may use)」ではなく、「遭遇するかも(may encounter)」だよ
902デフォルトの名無しさん
2023/02/27(月) 23:03:56.05ID:hpJa9B57903デフォルトの名無しさん
2023/02/27(月) 23:08:26.08ID:hpJa9B57 規格に入ったことを基準にするならShiftJISは1997年に
生まれたことになるんだけど、それでいいの?
生まれたことになるんだけど、それでいいの?
904デフォルトの名無しさん
2023/02/27(月) 23:08:41.53ID:WKLLShCH >>901
>・UTF-8 のBOMは必要でもなければ推奨でもない。
禁止されてなくて許可されてるのだから
UTF-8 のBOMは仕様として正しいということだね
やれやれw
UTF-16の前身のUCS-2のことも知らないようだ
> UTF-8がJavaやJavaScriptより前から存在していたことに
Unicode団体と関係ないところが考えて
まだ標準化されてないものに対応するわけ無いやろw
>・UTF-8 のBOMは必要でもなければ推奨でもない。
禁止されてなくて許可されてるのだから
UTF-8 のBOMは仕様として正しいということだね
やれやれw
UTF-16の前身のUCS-2のことも知らないようだ
> UTF-8がJavaやJavaScriptより前から存在していたことに
Unicode団体と関係ないところが考えて
まだ標準化されてないものに対応するわけ無いやろw
905デフォルトの名無しさん
2023/02/27(月) 23:09:42.74ID:Y3EgytEI >>901
英語苦手なやつのために解説しとくと may encounter の may は「許可」ではなく、「可能性」の may だからな。
これを根拠に使って良いとはならないからな。単に過去の経緯や不出来なシステムの可能性に注意喚起してる項目。
英語苦手なやつのために解説しとくと may encounter の may は「許可」ではなく、「可能性」の may だからな。
これを根拠に使って良いとはならないからな。単に過去の経緯や不出来なシステムの可能性に注意喚起してる項目。
906デフォルトの名無しさん
2023/02/27(月) 23:10:15.34ID:WKLLShCH907デフォルトの名無しさん
2023/02/27(月) 23:11:07.15ID:WKLLShCH908デフォルトの名無しさん
2023/02/27(月) 23:12:14.77ID:WKLLShCH https://youneedaken.hate
nablog.com/entry/2022/10/11/104904
MAY
MAY (してもよい) は、選択的な要件を表す場合に使います。
OPTIONAL (選択してもよい) も同じ使い方をします。
nablog.com/entry/2022/10/11/104904
MAY
MAY (してもよい) は、選択的な要件を表す場合に使います。
OPTIONAL (選択してもよい) も同じ使い方をします。
909デフォルトの名無しさん
2023/02/27(月) 23:17:27.33ID:Y3EgytEI >>907
お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?
お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?
910デフォルトの名無しさん
2023/02/27(月) 23:23:20.91ID:o85fWYlD マジで英語読めずに単語拾ってる状態やん
911デフォルトの名無しさん
2023/02/27(月) 23:35:24.56ID:+0iiKFkK >>909
赤信号は横断しちゃダメと決められているけどBOMは禁止されてる?
赤信号は横断しちゃダメと決められているけどBOMは禁止されてる?
912デフォルトの名無しさん
2023/02/27(月) 23:52:22.36ID:0XbN/TTN 先に英語の勉強した方がいいんじゃない?
いや日本語の読解力を鍛える方が先か
いや日本語の読解力を鍛える方が先か
913デフォルトの名無しさん
2023/02/27(月) 23:54:30.47ID:hpJa9B57 >>904
> まだ標準化されてないものに対応するわけ無いやろw
ShiftJISは1980年代に各ベンダーが勝手に実装していて、
微妙に差異があったから1997年にJISで規格化した
UTF-8も1992年にPlan9で提案実装したものを1996年に
Unicodeで規格化した
どっちも実装が先
> まだ標準化されてないものに対応するわけ無いやろw
ShiftJISは1980年代に各ベンダーが勝手に実装していて、
微妙に差異があったから1997年にJISで規格化した
UTF-8も1992年にPlan9で提案実装したものを1996年に
Unicodeで規格化した
どっちも実装が先
914デフォルトの名無しさん
2023/02/28(火) 00:05:34.32ID:RiXy5X63 そろそろ議論を終わろう。テンプレに
Q. UTF-8 に BOM は必要ですか?
A. 不要です。規格書にそう明記されています。
とか入れとけば良いやろ。ここまでなら確定事実なので。
Q. UTF-8 に BOM は必要ですか?
A. 不要です。規格書にそう明記されています。
とか入れとけば良いやろ。ここまでなら確定事実なので。
915デフォルトの名無しさん
2023/02/28(火) 00:10:17.26ID:arzeasWt どの規格書かも明記しておいて。
916デフォルトの名無しさん
2023/02/28(火) 03:25:44.83ID:TvT0Tpcw >>909
> お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?
何言ってるんだ? 「赤信号は渡っていけない」って書いてあるだろ
赤信号のどこにMAYが出てくるんだよ?
> お前は、赤信号横断するやつに遭遇する可能性があるって書いてあったら、赤信号で渡って良いって考える?
何言ってるんだ? 「赤信号は渡っていけない」って書いてあるだろ
赤信号のどこにMAYが出てくるんだよ?
917デフォルトの名無しさん
2023/02/28(火) 03:26:52.16ID:TvT0Tpcw918デフォルトの名無しさん
2023/02/28(火) 18:09:24.12ID:iD64SDKM >>916
日本語読めない人かな?
日本語勉強中の外国人かもしれないので丁寧に説明すると、日本語の
「AだったらBですか?」という文はAという仮定のもとでBが成り立つかの論理を問う構文だよ。Aは仮定なんだから真偽とかは誰も問題にしてない。日本人なら小学校低学年の国語で習うよ。
今回のは「Xに遭遇する可能性がある」という命題から「Xしても良い」という結論が導けるかが問われている。Xは任意の変数(BOMでも赤信号横断でも、自己矛盾してなければ何でも可)
あと日本語苦手なら条件反射で書き込む前にさかのぼって話の流れを確認した方がいいね。がんばれ
日本語読めない人かな?
日本語勉強中の外国人かもしれないので丁寧に説明すると、日本語の
「AだったらBですか?」という文はAという仮定のもとでBが成り立つかの論理を問う構文だよ。Aは仮定なんだから真偽とかは誰も問題にしてない。日本人なら小学校低学年の国語で習うよ。
今回のは「Xに遭遇する可能性がある」という命題から「Xしても良い」という結論が導けるかが問われている。Xは任意の変数(BOMでも赤信号横断でも、自己矛盾してなければ何でも可)
あと日本語苦手なら条件反射で書き込む前にさかのぼって話の流れを確認した方がいいね。がんばれ
919デフォルトの名無しさん
2023/02/28(火) 21:07:59.09ID:Tc4CBiEC >>856
なわけない
なわけない
920デフォルトの名無しさん
2023/02/28(火) 22:51:31.47ID:arzeasWt >>918
つまり、UTF-8にBOMを付けてはならないと規格に明記されているなら付けるべきじゃないってことだろ。
つまり、UTF-8にBOMを付けてはならないと規格に明記されているなら付けるべきじゃないってことだろ。
921デフォルトの名無しさん
2023/02/28(火) 23:38:31.89ID:blbEyEwW 長文君と論破将軍
922デフォルトの名無しさん
2023/03/01(水) 00:21:41.81ID:OaPBPWBe >>918
お前のいう喩えはおかしい
× 赤信号横断するやつ(UTF-8 BOM)に遭遇する可能性がある
○ 赤信号で横断しても良い(UTF-8 BOMを使っても良い)が非推奨
赤信号で横断しても良いが非推奨なんてどこにも書いてないのだから
UTF-8 BOMのたと終えになってない
頭悪いならレスバ仕掛けてくるなよw
お前のいう喩えはおかしい
× 赤信号横断するやつ(UTF-8 BOM)に遭遇する可能性がある
○ 赤信号で横断しても良い(UTF-8 BOMを使っても良い)が非推奨
赤信号で横断しても良いが非推奨なんてどこにも書いてないのだから
UTF-8 BOMのたと終えになってない
頭悪いならレスバ仕掛けてくるなよw
923デフォルトの名無しさん
2023/03/01(水) 01:31:29.23ID:XRlhYtl4924デフォルトの名無しさん
2023/03/01(水) 04:49:48.76ID:OaPBPWBe https://www.unicode.org/versions/Unicode15.0.0/UnicodeStandard-15.0.pdf
ここの40ページにBOMが許可されてるって書いてある
Table 2-4. The Seven Unicode Encoding Schemes
Encoding Scheme: UTF-8
Endian Order: N/A
BOM Allowed?: yes
ここの40ページにBOMが許可されてるって書いてある
Table 2-4. The Seven Unicode Encoding Schemes
Encoding Scheme: UTF-8
Endian Order: N/A
BOM Allowed?: yes
925デフォルトの名無しさん
2023/03/01(水) 07:32:03.44ID:ewnrwQ6k その仕様書の130ページ
UTF-8 encoding scheme に
While there is obviously no need for a byte order signature when using UTF-8,
の項目を読んでみたら?
UTF-8 encoding scheme に
While there is obviously no need for a byte order signature when using UTF-8,
の項目を読んでみたら?
926デフォルトの名無しさん
2023/03/01(水) 07:51:50.58ID:OaPBPWBe927デフォルトの名無しさん
2023/03/01(水) 07:56:52.79ID:OaPBPWBe 翻訳しときますよ
While there is obviously no need for a byte order signature when using UTF-8,
there are occasions when processes convert UTF-16 or UTF-32 data containing a byte order mark into UTF-8.
UTF-8を使用する場合、バイトオーダー署名は明らかに不要(訳注 禁止ではない)であるが、
プロセスがバイトオーダーマークを含むUTF-16やUTF-32のデータをUTF-8に変換する場合がある。
(訳注 つまり UTF-8 に BOM が含まれることがある)
Its usage at the beginning of a UTF-8 data stream is neither required nor recommended by the Unicode Standard,
but its presence does not affect conformance to the UTF-8 encoding scheme.
UTF-8データストリームの冒頭で使用することは UTF-8データストリームの先頭での使用は、
Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。
(訳注 ここからも必須でも推奨でもないだけで、適合性に影響を与えないと書いてある)
Identification of the <EF BB BF> byte sequence at the beginning of a data stream can, however,
be taken as a near-certain indication that the data stream is using the UTF-8 encoding scheme.
データストリームの先頭の<EF BB BF>バイト列の識別は、そのデータストリームがUTF-8エンコーディング方式を
使用していることをほぼ確実に示すものと見なすことができる。
(訳注 UTF-8を使用していると確実に示すという意味だから使っていいということ)
While there is obviously no need for a byte order signature when using UTF-8,
there are occasions when processes convert UTF-16 or UTF-32 data containing a byte order mark into UTF-8.
UTF-8を使用する場合、バイトオーダー署名は明らかに不要(訳注 禁止ではない)であるが、
プロセスがバイトオーダーマークを含むUTF-16やUTF-32のデータをUTF-8に変換する場合がある。
(訳注 つまり UTF-8 に BOM が含まれることがある)
Its usage at the beginning of a UTF-8 data stream is neither required nor recommended by the Unicode Standard,
but its presence does not affect conformance to the UTF-8 encoding scheme.
UTF-8データストリームの冒頭で使用することは UTF-8データストリームの先頭での使用は、
Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。
(訳注 ここからも必須でも推奨でもないだけで、適合性に影響を与えないと書いてある)
Identification of the <EF BB BF> byte sequence at the beginning of a data stream can, however,
be taken as a near-certain indication that the data stream is using the UTF-8 encoding scheme.
データストリームの先頭の<EF BB BF>バイト列の識別は、そのデータストリームがUTF-8エンコーディング方式を
使用していることをほぼ確実に示すものと見なすことができる。
(訳注 UTF-8を使用していると確実に示すという意味だから使っていいということ)
928デフォルトの名無しさん
2023/03/01(水) 09:10:35.41ID:XRlhYtl4 結局
禁止とも使えとも明記されてない
書かれているには「不要で非推奨」だな。
禁止とも使えとも明記されてない
書かれているには「不要で非推奨」だな。
929デフォルトの名無しさん
2023/03/01(水) 09:12:03.02ID:GQlAPTkO Unicodeの仕様としてはBOMは合法
もし禁止してるとしたらそれはそのアプリやサービスの独自仕様
もし禁止してるとしたらそれはそのアプリやサービスの独自仕様
930デフォルトの名無しさん
2023/03/01(水) 09:17:42.66ID:XRlhYtl4931デフォルトの名無しさん
2023/03/01(水) 10:03:24.48ID:68s28u+f >>923
+1
+1
932デフォルトの名無しさん
2023/03/01(水) 10:07:23.21ID:68s28u+f >>927
>プロセスがバイトオーダーマークを含むUTF-16やUTF-32のデータをUTF-8に変換する場合がある。
>(訳注 つまり UTF-8 に BOM が含まれることがある)
訳注を善意的に解釈すると
間抜けな変換ツールによる変換時にそのまま先頭のBOMが残ることはあるかも知れないが
新たなプレーンテキストにはBOMは入れないでくれって読めるな
>プロセスがバイトオーダーマークを含むUTF-16やUTF-32のデータをUTF-8に変換する場合がある。
>(訳注 つまり UTF-8 に BOM が含まれることがある)
訳注を善意的に解釈すると
間抜けな変換ツールによる変換時にそのまま先頭のBOMが残ることはあるかも知れないが
新たなプレーンテキストにはBOMは入れないでくれって読めるな
933デフォルトの名無しさん
2023/03/01(水) 10:10:47.18ID:68s28u+f >>627
>Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
>の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。
>(訳注 ここからも必須でも推奨でもないだけで、適合性に影響を与えないと書いてある)
漏れは改行コードは LF だけ派なんだけど
君は CR+LF 必須だと思ってる?
>Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
>の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。
>(訳注 ここからも必須でも推奨でもないだけで、適合性に影響を与えないと書いてある)
漏れは改行コードは LF だけ派なんだけど
君は CR+LF 必須だと思ってる?
934デフォルトの名無しさん
2023/03/01(水) 10:11:39.61ID:68s28u+f 安価ミスすまそ
935デフォルトの名無しさん
2023/03/01(水) 11:54:30.89ID:VYfkavGa 読み手がBOM付きデータをどう扱うかは、経営の話であって技術の話ではない。
サービスサポートするファイル形式を減らすことで生じる機会損失の軽重を判断するのは経営の領分であって技術の領分ではないから。
サービスサポートするファイル形式を減らすことで生じる機会損失の軽重を判断するのは経営の領分であって技術の領分ではないから。
936デフォルトの名無しさん
2023/03/01(水) 12:40:14.45ID:XRlhYtl4 >>935
規格書の話してるのに経営とか言い出すアホ。規格書に「BOMは不要」って書かれてたのがよっぽど悔しいのかね。
規格は法律じゃないんだから、お前は経営判断wで無視してもいいよ。利用者や通信相手が納得してるのなら規格なんて読まなくて良い。オレオレ実装でOK。
ただし技術の話しないんならスレチ、よそでやれ。
規格書の話してるのに経営とか言い出すアホ。規格書に「BOMは不要」って書かれてたのがよっぽど悔しいのかね。
規格は法律じゃないんだから、お前は経営判断wで無視してもいいよ。利用者や通信相手が納得してるのなら規格なんて読まなくて良い。オレオレ実装でOK。
ただし技術の話しないんならスレチ、よそでやれ。
937デフォルトの名無しさん
2023/03/01(水) 14:20:00.05ID:VYfkavGa938デフォルトの名無しさん
2023/03/01(水) 15:32:04.65ID:lE31oeIj 技術的に対応できるのであれば、
それに対応するのに割くリソースというかコストをどう考えるかが問題になるもんな
BOMなしで統一しているところにBOM付きが紛れ込めば、
必然的にそれに対応しなければならない
その対応分のリソースを他に振り分けることが有用であるから、
「BOMをつけるな」というのはコストの話ではある
それに対応するのに割くリソースというかコストをどう考えるかが問題になるもんな
BOMなしで統一しているところにBOM付きが紛れ込めば、
必然的にそれに対応しなければならない
その対応分のリソースを他に振り分けることが有用であるから、
「BOMをつけるな」というのはコストの話ではある
939デフォルトの名無しさん
2023/03/01(水) 15:47:34.03ID:VYfkavGa 切符を買わずに乗ってきた客がいた場合、切符を売ることなく摘まみだすかどうかは鉄道会社や車掌が決めることであって、技術者である機関士の領分じゃないんだよ
940デフォルトの名無しさん
2023/03/01(水) 18:23:02.55ID:68s28u+f 鐵ヲタさんいらっしゃい
941デフォルトの名無しさん
2023/03/01(水) 18:30:00.14ID:XRlhYtl4 >>937
技術者「BOMは不要かつ非推奨」
技術者「BOMは不要かつ非推奨」
942デフォルトの名無しさん
2023/03/01(水) 19:22:22.84ID:VBsu1zb7 「非推奨のものを他人に勧めるな。隠れてこっそり使う分には誰も困らないので、こっそりやれ、ここに書き込むな」
ここまでの結論。
ここまでの結論。
943デフォルトの名無しさん
2023/03/01(水) 20:40:41.27ID:UJmHFiTt >>932
解釈する余地はない
許可されてるって書いてあるんだから
https://www.unicode.org/versions/Unicode15.0.0/UnicodeStandard-15.0.pdf
ここの40ページにBOMが許可されてるって書いてある
Table 2-4. The Seven Unicode Encoding Schemes
Encoding Scheme: UTF-8
Endian Order: N/A
BOM Allowed?: yes
解釈する余地はない
許可されてるって書いてあるんだから
https://www.unicode.org/versions/Unicode15.0.0/UnicodeStandard-15.0.pdf
ここの40ページにBOMが許可されてるって書いてある
Table 2-4. The Seven Unicode Encoding Schemes
Encoding Scheme: UTF-8
Endian Order: N/A
BOM Allowed?: yes
944デフォルトの名無しさん
2023/03/01(水) 21:06:32.67ID:Ia8UybxF うわー、まだやってんのか?
とっくに結論は出ただろうに、、、
とっくに結論は出ただろうに、、、
945デフォルトの名無しさん
2023/03/01(水) 21:25:20.33ID:GQlAPTkO お互いが自分の意見こそ結論だって言いあってるからね
946デフォルトの名無しさん
2023/03/02(木) 00:13:31.42ID:l6zpHt6k 結論はBOM Allowed?: yesとでてるのに
それを認めたくないのでしょう
それを認めたくないのでしょう
947デフォルトの名無しさん
2023/03/02(木) 01:19:24.89ID:SYo8L+Nt もともと BOM をつけろというやつと BOM は不要というやつがいて、規格に BOM は不要で非推奨と書かれていることが判明した。
BOM をつけろと言ってた側が互換性のために BOM を付けても規格準拠というのを理由に土俵際でねばってる。
どうやっても BOM は不要という結論にしかならないのに。
BOM をつけろと言ってた側が互換性のために BOM を付けても規格準拠というのを理由に土俵際でねばってる。
どうやっても BOM は不要という結論にしかならないのに。
948デフォルトの名無しさん
2023/03/02(木) 01:26:38.91ID:w/H+Tpf4 つけろ派と不要派じゃなくて
つけてもいい派とつけるな派の争いに見えるんだけど
つけてもいい派とつけるな派の争いに見えるんだけど
949デフォルトの名無しさん
2023/03/02(木) 01:39:10.27ID:SYo8L+Nt950デフォルトの名無しさん
2023/03/02(木) 01:48:43.41ID:s9PRV0S9 すでに原理主義の突き合わせでしかないだろ
951デフォルトの名無しさん
2023/03/02(木) 02:12:10.89ID:SYo8L+Nt >>950
技術的に何が正しいか議論してるのに、話を逸して誤魔化そうとしてるやつがいるだけ。技術的には
「規格では不要、ついでに非推奨。非推奨のものを他人に勧めるな。勝手に使う分には好きにしろ」
で合意が取れるはずなんだが。
技術的に何が正しいか議論してるのに、話を逸して誤魔化そうとしてるやつがいるだけ。技術的には
「規格では不要、ついでに非推奨。非推奨のものを他人に勧めるな。勝手に使う分には好きにしろ」
で合意が取れるはずなんだが。
952デフォルトの名無しさん
2023/03/02(木) 03:43:37.41ID:l6zpHt6k >>947
> 規格に BOM は不要で非推奨と書かれていることが判明した。
ちゃんと基礎知識を身につけろ
BOMはバイトオーダーマークの略で、UTF-16などのために作られた仕様
互換性のためじゃねーよ。Unicodeで必要だからBOMが作られたんだろ
でUTF-8は1バイト単位の可変長だから、BOMはいらないはずだって主張するやつが出てきた
ところがどっこいBOMにははUnicode Signatureの意味があることが判明した
(知っている人にとっては常識)
そしてUTF-8でBOMは仕様違反だとか禁止とか言ってるやつのトーン下がって
「非推奨だから付けたらだめ」みたいな屁理屈を言い始めたが
PDFにBOM Allowed?: yesという文言が見つかって、ゲームオーバーっていうのが
これまでの流れだ
> 規格に BOM は不要で非推奨と書かれていることが判明した。
ちゃんと基礎知識を身につけろ
BOMはバイトオーダーマークの略で、UTF-16などのために作られた仕様
互換性のためじゃねーよ。Unicodeで必要だからBOMが作られたんだろ
でUTF-8は1バイト単位の可変長だから、BOMはいらないはずだって主張するやつが出てきた
ところがどっこいBOMにははUnicode Signatureの意味があることが判明した
(知っている人にとっては常識)
そしてUTF-8でBOMは仕様違反だとか禁止とか言ってるやつのトーン下がって
「非推奨だから付けたらだめ」みたいな屁理屈を言い始めたが
PDFにBOM Allowed?: yesという文言が見つかって、ゲームオーバーっていうのが
これまでの流れだ
953デフォルトの名無しさん
2023/03/02(木) 03:44:43.31ID:l6zpHt6k954デフォルトの名無しさん
2023/03/02(木) 04:24:23.36ID:0lgr0WAt お前ら何もわかってないな
各サービスに複雑な文字コード自動判定処理が追加されたことで、
UTF-8/16/32であることをオレオレ自己申告して複雑な文字コード自動判定をスキップするBOMの存在価値はかえって高まったのだ
各サービスに複雑な文字コード自動判定処理が追加されたことで、
UTF-8/16/32であることをオレオレ自己申告して複雑な文字コード自動判定をスキップするBOMの存在価値はかえって高まったのだ
955デフォルトの名無しさん
2023/03/02(木) 09:28:49.86ID:eRjCsfKd956デフォルトの名無しさん
2023/03/02(木) 09:31:59.48ID:eRjCsfKd957デフォルトの名無しさん
2023/03/02(木) 09:35:25.95ID:l6zpHt6k >>955
だからなんで「規格で許可されている」を消すんだよ?
「規格で許可されているが、必須ではなく推奨もしていないと書いてある」だろうが
Its usage at the beginning of a UTF-8 data stream is neither required nor recommended by the Unicode Standard,
but its presence does not affect conformance to the UTF-8 encoding scheme.
UTF-8データストリームの冒頭で使用することは UTF-8データストリームの先頭での使用は、
Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。
neither required nor recommended
→ neither 必須 nor 推奨
→ 必須ではなく、推奨でもない
不要は unnecessary だ
訳ぐらい間違えんな
だからなんで「規格で許可されている」を消すんだよ?
「規格で許可されているが、必須ではなく推奨もしていないと書いてある」だろうが
Its usage at the beginning of a UTF-8 data stream is neither required nor recommended by the Unicode Standard,
but its presence does not affect conformance to the UTF-8 encoding scheme.
UTF-8データストリームの冒頭で使用することは UTF-8データストリームの先頭での使用は、
Unicode Standardでは必須でも推奨でもありませんが、その存在はUTF-8エンコーディングスキームへ
の適合性に影響を与えず、UTF-8エンコーディングスキームへの適合性に影響を与えません。
neither required nor recommended
→ neither 必須 nor 推奨
→ 必須ではなく、推奨でもない
不要は unnecessary だ
訳ぐらい間違えんな
958デフォルトの名無しさん
2023/03/02(木) 09:36:34.26ID:l6zpHt6k >>956
「許可されている。必須ではない。推奨されていない。」と認めるわけだぞ。
BOM Allowed?: yes
neither required nor recommended
書いてあるとおりだ。
「許可されている。必須ではない。推奨されていない。」と認めるわけだぞ。
BOM Allowed?: yes
neither required nor recommended
書いてあるとおりだ。
959デフォルトの名無しさん
2023/03/02(木) 09:51:49.99ID:rYHGX+R7960デフォルトの名無しさん
2023/03/02(木) 09:53:53.57ID:SYo8L+Nt961デフォルトの名無しさん
2023/03/02(木) 09:54:35.67ID:rYHGX+R7962デフォルトの名無しさん
2023/03/02(木) 10:17:01.49ID:l6zpHt6k > 要らないものをつけるためには理由が必要
だから何度もUnicode Signatureって
書いてあるって話をしてるんだがな
だから何度もUnicode Signatureって
書いてあるって話をしてるんだがな
963デフォルトの名無しさん
2023/03/02(木) 10:50:40.57ID:/D1s32sE 文字コードが統一されているシステムなら(意味が無いから)BOMは付けない
他の文字コードも扱うシステムなら(識別子として)BOMを付けるか検討する
で良いじゃん
他の文字コードも扱うシステムなら(識別子として)BOMを付けるか検討する
で良いじゃん
964デフォルトの名無しさん
2023/03/02(木) 11:50:12.21ID:p0hvnhfU965963
2023/03/02(木) 12:05:55.59ID:/D1s32sE 書き忘れた
他の文字コードも扱うシステムでも、文字列以外から文字コードが分かるならそちらを使い、BOMは付けない
BOMが欲しくなるのはSJISとUTF-8等が混在するWindowsのファイル
ファイルのメタデータとして文字コードが設定出来れば良いのに
他の文字コードも扱うシステムでも、文字列以外から文字コードが分かるならそちらを使い、BOMは付けない
BOMが欲しくなるのはSJISとUTF-8等が混在するWindowsのファイル
ファイルのメタデータとして文字コードが設定出来れば良いのに
966デフォルトの名無しさん
2023/03/02(木) 12:53:49.69ID:dC3Ayx4m windowsなら
hoge.utf8.txt
hoge.sjis.txt
で解決
しらんけど
hoge.utf8.txt
hoge.sjis.txt
で解決
しらんけど
967デフォルトの名無しさん
2023/03/02(木) 13:07:13.28ID:XGv9oiQm ファイルの拡張属性にでも,TextEncoding を加えておけば良いんでは?
968デフォルトの名無しさん
2023/03/02(木) 13:08:38.21ID:i0CU6OJ9 いや、そこまでしてBOMを避ける理由がわからん
BOMでなければなんでもいいのかよw
BOMでなければなんでもいいのかよw
969デフォルトの名無しさん
2023/03/02(木) 13:36:36.77ID:SYo8L+Nt >>968
好きな理由1つ選んで
・UTF-8の最大の特徴はASCIIと上位互換、BOMをつけたら台無しになる
・今はUTF-8 はBOM無しが主流
・将来の外部コードはUTF-8のBOM無しになることがほぼ確定している
・移行期だけのために余計なものをつけたくない
・BOMつきだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるので削除したい
・SJISとか時代遅れのものはもう使用してない
・BOMの曖昧さはセキュリティホールになる可能性がある
・ZWNBS との曖昧さがいやらしい
・規格で非推奨のものは避けたい
・ファイルの接続とか分割やファイル名操作などに曖昧さがあるのはいや
・不要なものを付ける理由が思いつかない
・とにかく嫌い
他にも理由はあるだろうけど、人それぞれ
好きな理由1つ選んで
・UTF-8の最大の特徴はASCIIと上位互換、BOMをつけたら台無しになる
・今はUTF-8 はBOM無しが主流
・将来の外部コードはUTF-8のBOM無しになることがほぼ確定している
・移行期だけのために余計なものをつけたくない
・BOMつきだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるので削除したい
・SJISとか時代遅れのものはもう使用してない
・BOMの曖昧さはセキュリティホールになる可能性がある
・ZWNBS との曖昧さがいやらしい
・規格で非推奨のものは避けたい
・ファイルの接続とか分割やファイル名操作などに曖昧さがあるのはいや
・不要なものを付ける理由が思いつかない
・とにかく嫌い
他にも理由はあるだろうけど、人それぞれ
970デフォルトの名無しさん
2023/03/02(木) 13:36:59.98ID:QpnfRCZF BOMを付けておくと都合がいいケースがたまたまあっただけ
971デフォルトの名無しさん
2023/03/02(木) 15:35:38.23ID:j9aKoD1k ・移行期だからこそBOMで他のエンコーディングと区別できるようにしておきたい場合がある
・BOMなしだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるのでBOMを付けておきたい
・SJISはJIS X 0208で標準化されている現役の規格
・今のUnicodeの規格ではZWNBSP(U+FEFF)ではなくWORD JOINER(U+2060)の使用が強く推奨されているのでBOMとの曖昧性は起きない
・規格で許可されてるものを無理に避ける必要はない
・許可されているものを避ける理由が思いつかない
・BOMなしだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるのでBOMを付けておきたい
・SJISはJIS X 0208で標準化されている現役の規格
・今のUnicodeの規格ではZWNBSP(U+FEFF)ではなくWORD JOINER(U+2060)の使用が強く推奨されているのでBOMとの曖昧性は起きない
・規格で許可されてるものを無理に避ける必要はない
・許可されているものを避ける理由が思いつかない
972デフォルトの名無しさん
2023/03/02(木) 15:58:33.33ID:0lgr0WAt すべてはカネ次第。カネを出す人が決めればいいだけ。つまり経営マターってこと。
973デフォルトの名無しさん
2023/03/02(木) 16:21:08.46ID:H1OYjGZw > ・文字コードの自動判定はバグやセキュリホールの温床になるのでBOMを付けておきたい
BOM付けてリスク変わる?
BOM付けてリスク変わる?
974デフォルトの名無しさん
2023/03/02(木) 17:03:17.28ID:i0CU6OJ9 そりゃ変わるだろ、BOMが付いてれば判定ミスがなくなる
975デフォルトの名無しさん
2023/03/02(木) 17:19:23.19ID:H1OYjGZw BOM見てUTF-8だってのは自動判定の一要素でしかないしBOMなし対応いらなくなるわけじゃないから変わらないと思うんだけどな
ユーザー視点の話なら一つ前のと同じこと言ってるわけだし
ユーザー視点の話なら一つ前のと同じこと言ってるわけだし
976デフォルトの名無しさん
2023/03/02(木) 17:51:26.36ID:0lgr0WAt >>975
ゴールポストを動かすように自動判定の定義を動かすのはみっともないからやめとけ
ゴールポストを動かすように自動判定の定義を動かすのはみっともないからやめとけ
977デフォルトの名無しさん
2023/03/02(木) 18:28:28.35ID:l6zpHt6k978デフォルトの名無しさん
2023/03/02(木) 18:43:46.01ID:SYo8L+Nt >>977
自動判定のセキュリティ・リスクはそういうところじゃないよ。認識率100%でも起こる、むしろそっちが攻撃に使い易い。セキュリティまわりは勉強したことない素人が思いつくほど単純じゃない。
自動判定のセキュリティ・リスクはそういうところじゃないよ。認識率100%でも起こる、むしろそっちが攻撃に使い易い。セキュリティまわりは勉強したことない素人が思いつくほど単純じゃない。
979デフォルトの名無しさん
2023/03/02(木) 19:12:41.37ID:/D1s32sE980デフォルトの名無しさん
2023/03/02(木) 19:16:14.91ID:l6zpHt6k >>978
つまり世の中のテキストエディタからEUC-JP対応を削除しろって話をしてるの?
つまり世の中のテキストエディタからEUC-JP対応を削除しろって話をしてるの?
981デフォルトの名無しさん
2023/03/02(木) 19:30:13.68ID:H1OYjGZw 仕様で文字コードが固定されていようがBOMで判断しようが
不正データを読んで変なことにならないようにすることと全く関係ないだろ
もしかして「文字コードの自動判定」という機能単体の話でBOMチェックだけならば堅牢だって趣旨だったのか
不正データを読んで変なことにならないようにすることと全く関係ないだろ
もしかして「文字コードの自動判定」という機能単体の話でBOMチェックだけならば堅牢だって趣旨だったのか
982デフォルトの名無しさん
2023/03/02(木) 20:53:06.62ID:YeVHKr55 「文字コードの自動判定にはセキュリティリスクがある」
↓
BOMによる判定も自動判定だ
↓
だからBOMにセキュリティリスクがある
なにこの三段論法w
↓
BOMによる判定も自動判定だ
↓
だからBOMにセキュリティリスクがある
なにこの三段論法w
983デフォルトの名無しさん
2023/03/02(木) 21:03:19.85ID:4xkEbAJQ そんなこと言ってんのお前だけやで
984デフォルトの名無しさん
2023/03/02(木) 21:44:42.19ID:H1OYjGZw985蟻人間 ◆T6xkBnTXz7B0
2023/03/02(木) 21:56:36.58ID:ymadH6pR https://github.com/reactos/reactos/blob/6d57c6c91cdf2854b73b9696cd45f41322449368/base/applications/notepad/text.c#L40
ちなみにReactOSのメモ帳の文字セット判定はこうなっている。
ちなみにReactOSのメモ帳の文字セット判定はこうなっている。
986デフォルトの名無しさん
2023/03/03(金) 00:03:50.07ID:GXuOSZhF >>984
すげー単純な例だとバイナリファイルの先頭に UTF-8 BOM つけてテキストに偽装、ファイアウォールやウィルスチェックをすり抜ける。うかつなソフトが自動判別してBOMを外して次段に渡してマルウェア発動。
アホみたいだがこんなんで実際に被害が出てるんだぜ。実際はこんな単純じゃなくてもっと複雑で発見され難い攻撃ができる。
すげー単純な例だとバイナリファイルの先頭に UTF-8 BOM つけてテキストに偽装、ファイアウォールやウィルスチェックをすり抜ける。うかつなソフトが自動判別してBOMを外して次段に渡してマルウェア発動。
アホみたいだがこんなんで実際に被害が出てるんだぜ。実際はこんな単純じゃなくてもっと複雑で発見され難い攻撃ができる。
987デフォルトの名無しさん
2023/03/03(金) 01:54:41.66ID:BY62yhT8 >>971
ZWNBS についてだが uniccode standard には
「BOMが不要な場合には先頭の U+FEFF は後方互換性のために ZWNBS と解釈される」という規定がある。
これと「UTF-8 に BOM は不要」という規定を合わせると...入力処理系の実装はどうなる? 曖昧さがあるだろ。
ZWNBS についてだが uniccode standard には
「BOMが不要な場合には先頭の U+FEFF は後方互換性のために ZWNBS と解釈される」という規定がある。
これと「UTF-8 に BOM は不要」という規定を合わせると...入力処理系の実装はどうなる? 曖昧さがあるだろ。
988デフォルトの名無しさん
2023/03/03(金) 02:53:30.47ID:NQKxEL/3989デフォルトの名無しさん
2023/03/03(金) 02:55:06.26ID:NQKxEL/3990デフォルトの名無しさん
2023/03/03(金) 05:11:52.34ID:Utd2ywhQ バイナリとして扱ったとしてもデータとして使うのか?
それとも実行可能ファイルとして使うのか?
後者はもう BOMの使い方を大きく離脱しているな
それとも実行可能ファイルとして使うのか?
後者はもう BOMの使い方を大きく離脱しているな
991デフォルトの名無しさん
2023/03/03(金) 09:15:08.54ID:oC7cFOXy I hate Windows.
レス数が950を超えています。1000を超えると書き込みができなくなります。
ニュース
- NY円、一時1ユーロ=180円台まで下落…1999年のユーロ導入以来初 [蚤の市★]
- 国内ホテル、既にキャンセルも 訪日客関連業界、事態見守る ★3 [蚤の市★]
- 「どうしようもない」 ため息つくアジアの玄関口 中国の訪日自粛で−福岡市 [蚤の市★]
- NHK、受信料の未払い世帯に督促強化へ 民事手続きの新組織を設置 差し押さえなどの強制執行も ★2 [1ゲットロボ★]
- 【外交】日中関係悪化、長期化の様相 2012年には自動車輸出80%減も ロイター★3 [1ゲットロボ★]
- 橋下徹氏 外務省幹部の訪中受け「口だけ番長」へ痛烈指摘 「喧嘩は日本の完敗…なんとかっこ悪い日本か」★2 [冬月記者★]
- 日本人、歴史も経済も分からず貧乏に耐えかねて第二次日中戦争を求めてしまう…ヤバイよ [819729701]
- お前らは今年の冬何回くらいカニバスツアー行くんだ? この国の冬の味覚と言えばカニだろ [452836546]
- んなっても良いお🏡
- 【悲報】高市早苗を妄信している今の日本人見ると80年前も市民は進んで戦争協力してたんだって理解出来るよね🥺 [616817505]
- 【超悲報】中国への武力行使、世論調査で「賛成」「どちらかといえば賛成」48.8% 「反対」「どちらかといえば反対」の44.2%を上回る [314039747]
- 中国「高市が頭を下げて謝罪しない限り、絶対に許さない」 [329329848]
