Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
レス数が1000を超えています。これ以上書き込みはできません。
1デフォルトの名無しさん
2020/07/03(金) 20:53:47.08ID:elbfDzqw959デフォルトの名無しさん
2023/03/02(木) 09:51:49.99ID:rYHGX+R7960デフォルトの名無しさん
2023/03/02(木) 09:53:53.57ID:SYo8L+Nt961デフォルトの名無しさん
2023/03/02(木) 09:54:35.67ID:rYHGX+R7962デフォルトの名無しさん
2023/03/02(木) 10:17:01.49ID:l6zpHt6k > 要らないものをつけるためには理由が必要
だから何度もUnicode Signatureって
書いてあるって話をしてるんだがな
だから何度もUnicode Signatureって
書いてあるって話をしてるんだがな
963デフォルトの名無しさん
2023/03/02(木) 10:50:40.57ID:/D1s32sE 文字コードが統一されているシステムなら(意味が無いから)BOMは付けない
他の文字コードも扱うシステムなら(識別子として)BOMを付けるか検討する
で良いじゃん
他の文字コードも扱うシステムなら(識別子として)BOMを付けるか検討する
で良いじゃん
964デフォルトの名無しさん
2023/03/02(木) 11:50:12.21ID:p0hvnhfU965963
2023/03/02(木) 12:05:55.59ID:/D1s32sE 書き忘れた
他の文字コードも扱うシステムでも、文字列以外から文字コードが分かるならそちらを使い、BOMは付けない
BOMが欲しくなるのはSJISとUTF-8等が混在するWindowsのファイル
ファイルのメタデータとして文字コードが設定出来れば良いのに
他の文字コードも扱うシステムでも、文字列以外から文字コードが分かるならそちらを使い、BOMは付けない
BOMが欲しくなるのはSJISとUTF-8等が混在するWindowsのファイル
ファイルのメタデータとして文字コードが設定出来れば良いのに
966デフォルトの名無しさん
2023/03/02(木) 12:53:49.69ID:dC3Ayx4m windowsなら
hoge.utf8.txt
hoge.sjis.txt
で解決
しらんけど
hoge.utf8.txt
hoge.sjis.txt
で解決
しらんけど
967デフォルトの名無しさん
2023/03/02(木) 13:07:13.28ID:XGv9oiQm ファイルの拡張属性にでも,TextEncoding を加えておけば良いんでは?
968デフォルトの名無しさん
2023/03/02(木) 13:08:38.21ID:i0CU6OJ9 いや、そこまでしてBOMを避ける理由がわからん
BOMでなければなんでもいいのかよw
BOMでなければなんでもいいのかよw
969デフォルトの名無しさん
2023/03/02(木) 13:36:36.77ID:SYo8L+Nt >>968
好きな理由1つ選んで
・UTF-8の最大の特徴はASCIIと上位互換、BOMをつけたら台無しになる
・今はUTF-8 はBOM無しが主流
・将来の外部コードはUTF-8のBOM無しになることがほぼ確定している
・移行期だけのために余計なものをつけたくない
・BOMつきだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるので削除したい
・SJISとか時代遅れのものはもう使用してない
・BOMの曖昧さはセキュリティホールになる可能性がある
・ZWNBS との曖昧さがいやらしい
・規格で非推奨のものは避けたい
・ファイルの接続とか分割やファイル名操作などに曖昧さがあるのはいや
・不要なものを付ける理由が思いつかない
・とにかく嫌い
他にも理由はあるだろうけど、人それぞれ
好きな理由1つ選んで
・UTF-8の最大の特徴はASCIIと上位互換、BOMをつけたら台無しになる
・今はUTF-8 はBOM無しが主流
・将来の外部コードはUTF-8のBOM無しになることがほぼ確定している
・移行期だけのために余計なものをつけたくない
・BOMつきだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるので削除したい
・SJISとか時代遅れのものはもう使用してない
・BOMの曖昧さはセキュリティホールになる可能性がある
・ZWNBS との曖昧さがいやらしい
・規格で非推奨のものは避けたい
・ファイルの接続とか分割やファイル名操作などに曖昧さがあるのはいや
・不要なものを付ける理由が思いつかない
・とにかく嫌い
他にも理由はあるだろうけど、人それぞれ
970デフォルトの名無しさん
2023/03/02(木) 13:36:59.98ID:QpnfRCZF BOMを付けておくと都合がいいケースがたまたまあっただけ
971デフォルトの名無しさん
2023/03/02(木) 15:35:38.23ID:j9aKoD1k ・移行期だからこそBOMで他のエンコーディングと区別できるようにしておきたい場合がある
・BOMなしだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるのでBOMを付けておきたい
・SJISはJIS X 0208で標準化されている現役の規格
・今のUnicodeの規格ではZWNBSP(U+FEFF)ではなくWORD JOINER(U+2060)の使用が強く推奨されているのでBOMとの曖昧性は起きない
・規格で許可されてるものを無理に避ける必要はない
・許可されているものを避ける理由が思いつかない
・BOMなしだと動かないシステムがある
・文字コードの自動判定はバグやセキュリホールの温床になるのでBOMを付けておきたい
・SJISはJIS X 0208で標準化されている現役の規格
・今のUnicodeの規格ではZWNBSP(U+FEFF)ではなくWORD JOINER(U+2060)の使用が強く推奨されているのでBOMとの曖昧性は起きない
・規格で許可されてるものを無理に避ける必要はない
・許可されているものを避ける理由が思いつかない
972デフォルトの名無しさん
2023/03/02(木) 15:58:33.33ID:0lgr0WAt すべてはカネ次第。カネを出す人が決めればいいだけ。つまり経営マターってこと。
973デフォルトの名無しさん
2023/03/02(木) 16:21:08.46ID:H1OYjGZw > ・文字コードの自動判定はバグやセキュリホールの温床になるのでBOMを付けておきたい
BOM付けてリスク変わる?
BOM付けてリスク変わる?
974デフォルトの名無しさん
2023/03/02(木) 17:03:17.28ID:i0CU6OJ9 そりゃ変わるだろ、BOMが付いてれば判定ミスがなくなる
975デフォルトの名無しさん
2023/03/02(木) 17:19:23.19ID:H1OYjGZw BOM見てUTF-8だってのは自動判定の一要素でしかないしBOMなし対応いらなくなるわけじゃないから変わらないと思うんだけどな
ユーザー視点の話なら一つ前のと同じこと言ってるわけだし
ユーザー視点の話なら一つ前のと同じこと言ってるわけだし
976デフォルトの名無しさん
2023/03/02(木) 17:51:26.36ID:0lgr0WAt >>975
ゴールポストを動かすように自動判定の定義を動かすのはみっともないからやめとけ
ゴールポストを動かすように自動判定の定義を動かすのはみっともないからやめとけ
977デフォルトの名無しさん
2023/03/02(木) 18:28:28.35ID:l6zpHt6k978デフォルトの名無しさん
2023/03/02(木) 18:43:46.01ID:SYo8L+Nt >>977
自動判定のセキュリティ・リスクはそういうところじゃないよ。認識率100%でも起こる、むしろそっちが攻撃に使い易い。セキュリティまわりは勉強したことない素人が思いつくほど単純じゃない。
自動判定のセキュリティ・リスクはそういうところじゃないよ。認識率100%でも起こる、むしろそっちが攻撃に使い易い。セキュリティまわりは勉強したことない素人が思いつくほど単純じゃない。
979デフォルトの名無しさん
2023/03/02(木) 19:12:41.37ID:/D1s32sE980デフォルトの名無しさん
2023/03/02(木) 19:16:14.91ID:l6zpHt6k >>978
つまり世の中のテキストエディタからEUC-JP対応を削除しろって話をしてるの?
つまり世の中のテキストエディタからEUC-JP対応を削除しろって話をしてるの?
981デフォルトの名無しさん
2023/03/02(木) 19:30:13.68ID:H1OYjGZw 仕様で文字コードが固定されていようがBOMで判断しようが
不正データを読んで変なことにならないようにすることと全く関係ないだろ
もしかして「文字コードの自動判定」という機能単体の話でBOMチェックだけならば堅牢だって趣旨だったのか
不正データを読んで変なことにならないようにすることと全く関係ないだろ
もしかして「文字コードの自動判定」という機能単体の話でBOMチェックだけならば堅牢だって趣旨だったのか
982デフォルトの名無しさん
2023/03/02(木) 20:53:06.62ID:YeVHKr55 「文字コードの自動判定にはセキュリティリスクがある」
↓
BOMによる判定も自動判定だ
↓
だからBOMにセキュリティリスクがある
なにこの三段論法w
↓
BOMによる判定も自動判定だ
↓
だからBOMにセキュリティリスクがある
なにこの三段論法w
983デフォルトの名無しさん
2023/03/02(木) 21:03:19.85ID:4xkEbAJQ そんなこと言ってんのお前だけやで
984デフォルトの名無しさん
2023/03/02(木) 21:44:42.19ID:H1OYjGZw985蟻人間 ◆T6xkBnTXz7B0
2023/03/02(木) 21:56:36.58ID:ymadH6pR https://github.com/reactos/reactos/blob/6d57c6c91cdf2854b73b9696cd45f41322449368/base/applications/notepad/text.c#L40
ちなみにReactOSのメモ帳の文字セット判定はこうなっている。
ちなみにReactOSのメモ帳の文字セット判定はこうなっている。
986デフォルトの名無しさん
2023/03/03(金) 00:03:50.07ID:GXuOSZhF >>984
すげー単純な例だとバイナリファイルの先頭に UTF-8 BOM つけてテキストに偽装、ファイアウォールやウィルスチェックをすり抜ける。うかつなソフトが自動判別してBOMを外して次段に渡してマルウェア発動。
アホみたいだがこんなんで実際に被害が出てるんだぜ。実際はこんな単純じゃなくてもっと複雑で発見され難い攻撃ができる。
すげー単純な例だとバイナリファイルの先頭に UTF-8 BOM つけてテキストに偽装、ファイアウォールやウィルスチェックをすり抜ける。うかつなソフトが自動判別してBOMを外して次段に渡してマルウェア発動。
アホみたいだがこんなんで実際に被害が出てるんだぜ。実際はこんな単純じゃなくてもっと複雑で発見され難い攻撃ができる。
987デフォルトの名無しさん
2023/03/03(金) 01:54:41.66ID:BY62yhT8 >>971
ZWNBS についてだが uniccode standard には
「BOMが不要な場合には先頭の U+FEFF は後方互換性のために ZWNBS と解釈される」という規定がある。
これと「UTF-8 に BOM は不要」という規定を合わせると...入力処理系の実装はどうなる? 曖昧さがあるだろ。
ZWNBS についてだが uniccode standard には
「BOMが不要な場合には先頭の U+FEFF は後方互換性のために ZWNBS と解釈される」という規定がある。
これと「UTF-8 に BOM は不要」という規定を合わせると...入力処理系の実装はどうなる? 曖昧さがあるだろ。
988デフォルトの名無しさん
2023/03/03(金) 02:53:30.47ID:NQKxEL/3989デフォルトの名無しさん
2023/03/03(金) 02:55:06.26ID:NQKxEL/3990デフォルトの名無しさん
2023/03/03(金) 05:11:52.34ID:Utd2ywhQ バイナリとして扱ったとしてもデータとして使うのか?
それとも実行可能ファイルとして使うのか?
後者はもう BOMの使い方を大きく離脱しているな
それとも実行可能ファイルとして使うのか?
後者はもう BOMの使い方を大きく離脱しているな
991デフォルトの名無しさん
2023/03/03(金) 09:15:08.54ID:oC7cFOXy I hate Windows.
992デフォルトの名無しさん
2023/03/03(金) 09:18:38.82ID:oC7cFOXy993デフォルトの名無しさん
2023/03/03(金) 09:24:55.04ID:oC7cFOXy >>980
ついでにSJIS対応もISO2022JP対応も削除で
ついでにSJIS対応もISO2022JP対応も削除で
994デフォルトの名無しさん
2023/03/03(金) 09:26:04.28ID:oC7cFOXy >>982 が稀に観る白雉
995デフォルトの名無しさん
2023/03/03(金) 11:30:01.20ID:I6sfeYN1 誰だシェルスクリプトをBOM付きで編集したのは!
996デフォルトの名無しさん
2023/03/03(金) 11:33:14.61ID:NQKxEL/3 お前だろ
ってかBOMは許可されてるのに
そういう例外を持ってきてわーわー騒ごうとするのは頭が悪い
ってかBOMは許可されてるのに
そういう例外を持ってきてわーわー騒ごうとするのは頭が悪い
997デフォルトの名無しさん
2023/03/03(金) 12:02:55.61ID:oC7cFOXy シェルスクリプトが万が一BOM付きshebangを解釈するようになったとしても
catはどう処理されるんだろ
面倒だから止めてるんだろうな
catはどう処理されるんだろ
面倒だから止めてるんだろうな
998デフォルトの名無しさん
2023/03/03(金) 12:46:30.84ID:NnDpncr7 昔のmsysのcat.exeは0x0Aを勝手に0x0D0x0Aに変換して出力する仕様だったので、人知れず泣いた人多かったんじゃないかと思う
>>997
BOMをスキップするオプションとか追加すれば対処できるんじゃまいか
>>997
BOMをスキップするオプションとか追加すれば対処できるんじゃまいか
999デフォルトの名無しさん
2023/03/03(金) 12:50:33.85ID:oC7cFOXy binaryオプション付けなければwin上で0d0aにされても文句言えない罠
しかしデフォでbom無であるべきで
デフォがbom付になるのは許すまじ
しかしデフォでbom無であるべきで
デフォがbom付になるのは許すまじ
1000デフォルトの名無しさん
2023/03/03(金) 12:50:48.52ID:oC7cFOXy EOF
10011001
Over 1000Thread このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 972日 15時間 57分 1秒
新しいスレッドを立ててください。
life time: 972日 15時間 57分 1秒
レス数が1000を超えています。これ以上書き込みはできません。
ニュース
- 【音楽】Perfume・あ~ちゃんの結婚相手「一般男性」は吉田カバンの社長・吉田幸裕氏(41) 高身長で山本耕史似 [Ailuropoda melanoleuca★]
- 【サッカー】U-17日本代表、激闘PK戦制す 北朝鮮撃破で6大会ぶり8強入り U17W杯 [久太郎★]
- 【サッカー】日本代表、ボリビアに3発快勝 森保監督通算100試合目を飾る…鎌田、町野、中村がゴール [久太郎★]
- 【インバウンド】中国人観光客の日本での消費額は年間約2兆円超…中国政府は公務員の出張取り消し [1ゲットロボ★]
- XやChatGPTで広範囲の通信障害 投稿や閲覧できず [蚤の市★]
- 【芸能】日中関係悪化でエンタメ業界に大ダメージ… JO1の中国でのイベント中止、邦画は公開延期、STARTOアイドルへの影響も [冬月記者★]
- 石井ちゃんです!
- アンケート調査で「高市発言は問題なし」 93.5%wwwwwwwwwwwwwwwwwwwwwwwww [279254606]
- 職場の俺のあだ名がブロリーなんだが
- お前らは“スカイマイルタワー”建設計画を知っているか?
- これ誰か分かるか?
- 万引きJC「すいません許してください!何でもしますから!」←どうする?
