文字コード総合スレ part14

**デフォルトの名無しさん** · 2023/03/03(金) 15:46:58.08

Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/

**デフォルトの名無しさん** · 2023/03/03(金) 18:50:36.86

乙

**デフォルトの名無しさん** · 2023/03/04(土) 05:49:15.61

Q. UTF-8 に BOM をつけるべきですか？
A. Unocode Standard では「付けたければ付けても良いが、付ける必要はないし、付けるのはお勧めしない」と規定されています。

**デフォルトの名無しさん** · 2023/03/04(土) 11:03:14.60

>>1
>Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。

filesystem の文字コードと system locale についても詳しく
あとファイル名に BOM 必要かどうかも

**デフォルトの名無しさん** · 2023/03/04(土) 11:35:06.58

>>3
訳し方でニュアンスが変わるから根拠となる規格の原文も載せた方が良いぞ

**デフォルトの名無しさん** · 2023/03/04(土) 20:52:22.05

UTF-8, UTF-16, UTF-32 & BOM
https://unicode.org/faq/utf_bom.html

「付けたければ付けても良いが、付ける必要はないし、付けるのはお勧めしない」なんてどこにも書いてないんだが

**デフォルトの名無しさん** · 2023/03/04(土) 23:54:57.70

>>4
Windowsの場合はUnicodeというのはUTF-16LEを示す模様
UTF-16LEはリトルエンディアン固定でBOMは付かないフォーマット

UnicodeといってもUTF-8ではない

**デフォルトの名無しさん** · 2023/03/05(日) 00:42:43.70

>>3
何で規定されてんの？

**デフォルトの名無しさん** · 2023/03/05(日) 01:11:17.97

>>6
Unicode Standard を嫁。

**デフォルトの名無しさん** · 2023/03/05(日) 01:17:14.07

>>8
規格に理由は書かれてない。
規格書では趣旨として UTF-8 では Unicode をASCII互換にするための方式みたいな説明してるので、BOM をつけると ASCII互換性が崩れるのが駄目なのかもしれない。違うかもしれない。

**デフォルトの名無しさん** · 2023/03/05(日) 10:21:41.04

すまそ。ここの40ページにUTF-8でBOMが許可されるって書いてあった
https://www.unicode.org/versions/Unicode15.0.0/UnicodeStandard-15.0.pdf

Table 2-4. The Seven Unicode Encoding Schemes
Encoding Scheme: UTF-8
Endian Order: N/A
BOM Allowed?: yes

**デフォルトの名無しさん** · 2023/03/05(日) 10:24:42.19

The Unicode® Standard Version 15.0 – Core Specification
https://www.unicode.org/versions/Unicode15.0.0/ch03.pdf

When converting between different encoding schemes, extreme care must be taken in handling any initial byte order marks.
For example, if one converted a UTF-16 byte serialization with an initial byte order mark to a UTF-8 byte serialization, thereby converting the byte order mark to <EF BB BF> in the UTF-8 form, the <EF BB BF> would now be ambiguous as to its status as a byte order mark (from its source) or as an initial zero width no break space.
If the UTF-8 byte serialization were then converted to UTF-16BE and the initial <EF BB BF> were converted to <FE FF>, the interpretation of the U+FEFF character would have been modified by the conversion.
This would be nonconformant behavior according to conformance clause C7, because the change between byte serializations would have resulted in modification of the interpretation of the text.
This is one reason why the use of the initial byte sequence <EF BB BF> as a signature on UTF-8 byte sequences is not recommended by the Unicode Standard.

**デフォルトの名無しさん** · 2023/03/05(日) 10:24:58.61

>>10
ASCIIは文字コードで言えば0～127までの文字
UTF-8が使う128～255はASCII互換ではない

128～255を許容するのであれば
BOMもこの範囲に含まれるのでASCII互換

**デフォルトの名無しさん** · 2023/03/05(日) 11:15:20.72

一般に言うASCII互換ってそういう意味じゃねえだろ。

**デフォルトの名無しさん** · 2023/03/05(日) 12:40:57.35

BOMがもし先頭以外に現れたら読み飛ばす？

**デフォルトの名無しさん** · 2023/03/05(日) 16:31:35.44

>>13
ここで言われるASCII互換は、ASCII上位互換だな。
今までと同じ入力(ASCII)には同じ出力になることが期待されている。今まで勝手にBOMを付けなかったので、勝手にBOMつけるのはNGくらいの意味。

**デフォルトの名無しさん** · 2023/03/05(日) 17:06:23.64

>>12
「UTF-8 の先頭にある U+FEFF は BOM なのか ZWNBS なのか曖昧なのが、UTF-8 に signature として <FE BB BF> をつけることを推奨しない理由の一つ。」
と書いてあるのか。一つということは他にもあるのか。

**デフォルトの名無しさん** · 2023/03/05(日) 17:10:12.27

>>15
「BOM が不要の場合は先頭の U+FEFF は後方互換性のために ZWNBS として扱う」と規定には書かれいる。

**デフォルトの名無しさん** · 2023/03/05(日) 17:13:23.86

>>18
途中で送ってしまった。
当然途中にある U+FEFF は全て Zero Width Non-Breakable Space (ここで改行禁止くらいの意味）として扱われる。

**デフォルトの名無しさん** · 2023/03/05(日) 21:42:23.56

>>16
ASCIIと同じ出力になるって言うなら
0～127までの文字しか使えないじゃんｗ

まさか最初さえ同じなら、後ろは違ってもいいとかいう
意味不明な話してるの？

**デフォルトの名無しさん** · 2023/03/05(日) 21:44:41.60

>>20
素人発見。

**デフォルトの名無しさん** · 2023/03/05(日) 21:46:48.07

規格がどうであれ、可能な限りBOMをつけるのが最善策。

**デフォルトの名無しさん** · 2023/03/05(日) 21:53:29.71

>>22
とうとう規格無視しろって言い始めた。
オレオレ基準は他所でやれ。技術者どうしの合意は規格を使う。お前に発言する資格はない。

**デフォルトの名無しさん** · 2023/03/05(日) 21:56:43.19

元がASCII → UTF-8 （BOM なし）に変換？ → それはただのASCII

UTF-8に対応するのであれば
128～255を許容した上で
UTF-8の仕様に対応しなければいけない

UTF-8に対応するならBOMにも対応しなければいけない
それだけのこと

**デフォルトの名無しさん** · 2023/03/05(日) 21:59:56.36

UTF-8という規格に対応するのなら
BOMにも対応しろって話だな

**デフォルトの名無しさん** · 2023/03/05(日) 22:09:24.16

>>23
これは規格外をどうするかという話なので、規格の話をしても意味がないぞ
君はエンジニアにむいてない。技術者じゃなくて法律家にでもなれ。

**デフォルトの名無しさん** · 2023/03/05(日) 22:11:31.00

交通事故が起きた時に、人命救助したり、クルマを安全な場所に移動させようとするのが技術者。
交通事故の責任問題ばかり考えるのが法律家。ID:JF7lH/t4は技術者にむいてない。断言する。

**デフォルトの名無しさん** · 2023/03/05(日) 22:16:09.81

>>27
悔しかったら Unicode Standard 書き換えてこいや。もしくは賛同者つのって新しい規格でも作ったら？

**デフォルトの名無しさん** · 2023/03/05(日) 22:16:39.06

規格が不完全でも現実として運用していかなければならないのに、規格を盾に対応を拒否するような技術者はクビだよ

**デフォルトの名無しさん** · 2023/03/05(日) 22:20:27.96

>>29
規格が不完全なら規格を正しく修正するのが技術者の仕事。
お前の主張が正しいなら規格はとっくに直されてる。変更されないのは今の規格が正しいということ。

**デフォルトの名無しさん** · 2023/03/05(日) 22:26:54.92

>>30
そのとおり。誰も問題と思ってないのだからBOM付きはどんどん増える

**デフォルトの名無しさん** · 2023/03/05(日) 22:32:47.50

>>27
つまり文字化けという事故が起きたときに
文字コードを安全に変換できるようにUTF-8のBOMは使われているということか

**デフォルトの名無しさん** · 2023/03/05(日) 22:42:24.63

うわあ時代遅れのBOM強要おじさんがまだ粘着してる
このクソくだらない流れいつまで続けるんだ、あほらし

**デフォルトの名無しさん** · 2023/03/05(日) 22:44:16.68

BOMありもなしも規格では許容していて、あとはその仕様の違いを意識せずに混ぜるなというだけの話。
その一方ですべての文字コードをUTF-8 BOMなしに統一すべきだという原理主義者が存在いる構図。

**デフォルトの名無しさん** · 2023/03/05(日) 23:33:36.53

規格に「推奨しない」って書かれているのをどうしても見なかったことにしたい人がいるみたいだな。

**デフォルトの名無しさん** · 2023/03/05(日) 23:42:49.54

>>35
そんなに強く否定してるとこあったっけ
原文どれだ

**デフォルトの名無しさん** · 2023/03/05(日) 23:51:56.87

>>12にあったw

**デフォルトの名無しさん** · 2023/03/05(日) 23:57:59.32

not recommended ってのは、必要性を十分検討したうえで使えってことだな。

**デフォルトの名無しさん** · 2023/03/06(月) 00:10:15.45

>>37
本体は2.6章にあるよ。12はその理由を説明してる感じみたい。

**デフォルトの名無しさん** · 2023/03/06(月) 03:36:44.43

「お前が○○するぶんには好きにしろ」でいい気がするのだが
なんか相手の使い方にそれ以上踏み込んで口を出したくてたまらない人がいるのがエンドレスの原因な気がするのだが

**デフォルトの名無しさん** · 2023/03/06(月) 05:16:32.79

>>40
自分が口出してるという自覚はないのか？
「UTF-8でBOMは許容されている。推奨されていないだけ。」
これが事実だろ

これ以上のことは言わんでいい

**デフォルトの名無しさん** · 2023/03/06(月) 08:52:12.04

推奨されてないものを付けろだの、対応しろだの、規格無視しろだの言うから荒れてる。
つけたきゃ勝手につけろ。他人に勧めるなで終わり。

**デフォルトの名無しさん** · 2023/03/06(月) 09:27:16.62

https://www.unicode.org/versions/Unicode15.0.0/UnicodeStandard-15.0.pdf#page=967

In UTF-8, the BOM corresponds to the byte sequence <EF BB BF>.
Although there are never any questions of byte order with UTF-8 text, this sequence can serve as signature for UTF-8 encoded text where the character set is unmarked.
(中略)
For compatibility with versions of the Unicode Standard prior to Version 3.2, the code point U+FEFF has the word-joining semantics of zero width no-break space when it is not used as a BOM. In new text, these semantics should be encoded by U+2060 word joiner.
See “Line and Word Breaking” in Section 23.2, Layout Controls, for more information.

**デフォルトの名無しさん** · 2023/03/06(月) 10:05:23.97

BOMというのはバイトオーダーマークの略で
リトルエンディアンかビッグエンディアンか区別するためのもの
UTF-8では必要ない
これはWindowsのメモ帳のバグでM$がUTF-8にBOMをつけたのが始まり
仕方ないからUnicodeで許可されてるだけで本来はつけてはいけない

**デフォルトの名無しさん** · 2023/03/06(月) 11:39:19.84

>>44
ついてた時にどうするかが重要なのであって、そこが自由裁量であり経営判断。
Windowsの資産をすべて捨てる決断をするのはカネを払う経営者やユーザーであって技術者ではない。

**デフォルトの名無しさん** · 2023/03/06(月) 11:42:21.59

山茶花(サザンカ)は本来サンザカと読まなければならないのだから、今後はサザンカは受け付けない(ｷﾘｯ

**デフォルトの名無しさん** · 2023/03/06(月) 11:50:48.53

>>45
お前のようなやつがいるからWindowsはいつまでもShiftJISを使い続けることになる
BOMはUnicodeでは認められていない。禁止すべきものだ。

**デフォルトの名無しさん** · 2023/03/06(月) 11:51:31.28

>>45
入力がBOMつきUTF-8に指定されている場合はBOMとして処理しろ。
入力がBOMなしUTF-8に指定されている場合はZWNBSとして処理しろ。

**デフォルトの名無しさん** · 2023/03/06(月) 12:05:50.90

>>47
推奨されてなくても一応認められてるでしょ
何でそこを捻じ曲げるの

**デフォルトの名無しさん** · 2023/03/06(月) 12:36:46.99

ま、積極的にBOMを使うのが運用として自然だから、BOMをつけるアプリがドンドン増える。
デファクトスタンダード。

**デフォルトの名無しさん** · 2023/03/06(月) 14:23:24.15

>>19
>Zero Width Non-Breakable Space (ここで改行禁止くらいの意味）

何も処理せず読み飛ばせって意味では

**デフォルトの名無しさん** · 2023/03/06(月) 14:36:44.93

>>51 の補足だが
入力に(BOMありかBOMなしかはともかく)
[ZWNBS]AB[ZWNBS]CD
というデータがあれば
出力は
ABCD
になるという意味ね

**デフォルトの名無しさん** · 2023/03/06(月) 14:53:51.51

>>52
先頭は無意味だがそのまま保存する。
途中のはBとCの間で自動改行禁止という指示になる。
# 家(ZWNBS)康ってしとけば難癖つけらなくて安全だな。

**デフォルトの名無しさん** · 2023/03/06(月) 18:29:55.53

話の途中ですまんのだが
ASCIIって7bitのはずなのに下みたいにどう見ても先頭に0がついて8桁あるのはなんでなんや
https://medium-company.com/ascii%E3%82%B3%E3%83%BC%E3%83%89/
もしかして先頭に0をつけて8bitにしたのがメモ帳とかでは標準の表現方法なんか？

**デフォルトの名無しさん** · 2023/03/06(月) 19:54:14.87

>>54
単に 8bit = 1byte の世界で説明してるからだろう。（最近はそれしかないので、昔は 7bit = 1byte とかもあった）

**デフォルトの名無しさん** · 2023/03/06(月) 21:19:45.89

そうなん？
じゃあ実際のバイナリ列は7桁なんやね

**デフォルトの名無しさん** · 2023/03/06(月) 23:59:43.85

ハイともイイエともどうとでもとれる書き方なんですんのやろ

**デフォルトの名無しさん** · 2023/03/07(火) 00:04:49.03

>>56
7bitマシンならそうだな

**デフォルトの名無しさん** · 2023/03/07(火) 00:31:08.63

電子メールは7ビットで世界を駆け巡っているの？

**デフォルトの名無しさん** · 2023/03/07(火) 00:53:18.81

大昔は一番上のビットをパリティとして利用していたこともあつたし

**デフォルトの名無しさん** · 2023/03/07(火) 00:56:51.64

JSONではUTF8必須かつBOMを付けてはいけないと明確に定められてるんだな
全てがこのように決まれば文字コードで悩むこと無くなるな

ソース
https://www.rfc-editor.org/rfc/rfc8259.html#section-8.1
JSON text exchanged between systems that are not part of a closed ecosystem
MUST be encoded using UTF-8 [RFC3629].
Implementations MUST NOT add a byte order mark (U+FEFF)
to the beginning of a networked-transmitted JSON text.

**デフォルトの名無しさん** · 2023/03/07(火) 01:03:35.76

8b/10bの10bitが云々の話になるぞ

**デフォルトの名無しさん** · 2023/03/07(火) 03:00:53.09

>>54
M$がShiftJIS対応のために8bitに変更したんだろ

**デフォルトの名無しさん** · 2023/03/07(火) 09:10:52.97

なんだろな。このど素人が混ざってる感じ
ASCII はもともと 1byte に 1文字を入れる設計。
6bit マシンには非対応
7bit マシンにはそのまま入れる
8bit マシンでパリティ不要なら最上位bitにゼロを入れる
という設計。最近の機器は全部8bitマシンなので最上位にゼロが入る。
（ISO 2022 拡張とかで変更できるけど）

**デフォルトの名無しさん** · 2023/03/07(火) 09:56:10.33

ShiftJIS対応だけのために8bitに変更とか日本はどんだけ凄いんだよ…

**デフォルトの名無しさん** · 2023/03/07(火) 10:08:55.63

本質がわかってないやつがいるが
論点はBOM禁止という話
M$のバグのために仕様を歪めるな！

**デフォルトの名無しさん** · 2023/03/07(火) 12:02:26.19

将来SJIS(cp932)やそれ以外のcp(cp65001を除く)は全部無くなるんだろうし
その頃にはUTF-8にBOM付けるやつは居なくなると想定していて
その準備段階として現状UTF-8にBOM付けるべきでないってスタンス
今がんばってBOM付けろって言ってるアホは死ぬまでSJIS浸かってろ

**デフォルトの名無しさん** · 2023/03/07(火) 12:58:43.14

>>67
そのとおり。死ぬまでSJIS浸かってる人は今後もずっと存在し続けるからBOMつけるのが最適解だよ。

**デフォルトの名無しさん** · 2023/03/07(火) 13:14:07.69

MSがWindows12でSJIS(CP932)を異様に扱い難くくするとかの
ペナルティが無いと10年後でも平気で残ってそうだ
互換性重視のWindowsが完全にUTF-8で統一なんて20年はかかると予想

**デフォルトの名無しさん** · 2023/03/07(火) 13:18:03.53

>>68
お前にとってはそうなんだろうな。後5年くらいしか生きない老害にとってはそれが最適解。間違いないな。

**デフォルトの名無しさん** · 2023/03/07(火) 13:18:03.91

暴れている人は、最近覚えたCP932という単語ばかり使ってlatin-1の話が出てこないあたり、初心者っぽい。
もうこのスレに書き込まないでくれ。静かに読むだけにしてくれ。

**デフォルトの名無しさん** · 2023/03/07(火) 13:25:15.27

お前が書き込むな

**デフォルトの名無しさん** · 2023/03/07(火) 14:05:19.65

誰か1人が暴れていると書く人は自分が見えていない
このスレでは2人がお互い暴れている

**デフォルトの名無しさん** · 2023/03/07(火) 23:08:58.35

暴れてるのはやっぱりUTF-8原理主義者の人だよなあ

**デフォルトの名無しさん** · 2023/03/07(火) 23:22:22.92

原理ｗって反対の立場ですと表明してるようなもんだが
愉快犯かなにかか

**デフォルトの名無しさん** · 2023/03/07(火) 23:29:59.54

もちろん反対の立場(自由主義)だよ。BOM付けても付けなくてもいいしUTF-8以外のコードも容認する。

**デフォルトの名無しさん** · 2023/03/08(水) 00:34:32.71

>>61の例のように文字コードは全てUTB8で統一そしてBOMは使用不可が現在進んでいる方向だろう
文字コード問題があるおかげで喰ってる既得権益層にとっては脅威

**デフォルトの名無しさん** · 2023/03/08(水) 02:50:08.33

外部コードが UTF-8 BOM 無しで統一されれば文字コードで悩むやつは少なくなるだろうな
Linux はほぼそうなっていて、Mac も頑張っている。Windows はまだこれからだけどMicrosoft はその方向性を技術者向けに発信してる
10年後くらいの新人に「SJIS? 昔そういうのもあったんですね。まだ使ってるんですか?」とか言われそう

**デフォルトの名無しさん** · 2023/03/08(水) 03:53:49.16

過去のソフト・データの資産こそがWindowsの存在意義なんだから、いまさら捨てられる分けがない
それがなかったらWindowsである必要がないからな
古すぎて非効率極まりないWin32 APIが結局今も残っているのと同じこと
マイクロソフトがいくら頑張ってもこれはどうしようもないことなんだよね
もはや誰もメンテしてないDOS時代に作られたツールがひっそりと使われていたりするし
10年後はまだ確実にSJISが残っていると思うよ
20年後はわからないが

**デフォルトの名無しさん** · 2023/03/08(水) 04:42:28.62

過去のデータや文字コードは、そういうのを取り扱うレガシーなアプリケーション
（ブラウザなり古いテキストエディタなり）が対応してれば事足りるよね

今後作成するシステムは基本的にすべてBOMなしUTF8で統一、
連携対象となる外部I/Fがあればインターフェース仕様に応じたエンコーディングを採用すればよい
CSVなんかはExcelで開くことを考えるとどうしてもBOMありにせざるを得ないだろうけど
普通のプレーンテキストならメモ帳ですらBOMなしUTF8がデフォルトになってもう何年も経ってる以上
あえて今更BOMありを要件にする必要はないだろう

**デフォルトの名無しさん** · 2023/03/08(水) 04:53:38.07

EUC-JPのテキストファイルにお目にかかる機会もほとんどなくなった
linuxのデフォルト文字コードがUTF8に変わったのっていつ頃だったっけ

iso2022jpもほぼほぼ見なくなったかな
メールクライアントやメールサーバでUTF8がデフォルトになってから15年位ってところか

sjisが消滅するまでEUCやiso2022jpと同じくらい時間がかかるとすれば
やっぱり2030～2040年位になるのかな

**デフォルトの名無しさん** · 2023/03/08(水) 07:30:34.89

>文字コード問題があるおかげで喰ってる既得権益層にとっては脅威

そんなんで食っていけるってどんな仕事だよと思うが、本人は本気で思っていそうだな。

**デフォルトの名無しさん** · 2023/03/08(水) 07:57:02.61

>>81
SMTPはまだ 7bit code が残ってるよね。
UTF-8 もBase64 でエンコードだし

**デフォルトの名無しさん** · 2023/03/08(水) 08:52:21.73

>>83
プロトコルの話なら SMTPUTF8 があるよ。

**デフォルトの名無しさん** · 2023/03/08(水) 10:32:01.17

インターネットの世界だとUTF-8のBOMは「つけるな、解釈するな、さわるな」だから。
20年前にRFC改定されてからはそんな感じ。

**デフォルトの名無しさん** · 2023/03/08(水) 19:22:53.32

>>81
ひと昔前の海外OSSのソースコードやドキュメントはCP1252(latin)が当たり前だったな
いつのまにかUTF8で統一されたように感じるのはなぜだろう

**デフォルトの名無しさん** · 2023/03/08(水) 19:41:48.35

>>86
淘汰された

**デフォルトの名無しさん** · 2023/03/08(水) 20:01:21.53

なんでだと思うんだ？😠

**デフォルトの名無しさん** · 2023/03/08(水) 20:46:09.77

nginxの台頭
当時はこぞってドキュメントを原文で輪読してたとか

**デフォルトの名無しさん** · 2023/03/09(木) 18:57:54.79

なんで？って一瞬思ったけどロシア製だからか
koi8?cp1251どっちだとしても非キリル文字圏のwindowsだと辛いね

**デフォルトの名無しさん** · 2023/03/11(土) 08:34:25.16

VS Code と PowerShell でのファイルのエンコードの概要
https://learn.microsoft.com/ja-jp/powershell/scripting/dev-cross-plat/vscode/understanding-file-encoding#choosing-the-right-encoding

システムやアプリケーションごとに使用しているエンコードが異なる可能性があります。

・現在、.NET Standard、Web、Linux の世界では、UTF-8 が主流のエンコードです。
・多くの .NET Framework アプリケーションは UTF-16 を使用しています。歴史的な理由から、これは "Unicode" と呼ばれることもあり、現在では UTF-8 と UTF-16 の両方を含む広範な標準を指しています。
・Windows では、Unicode より前のネイティブアプリケーションの多くが既定で Windows-1252 を使用し続けています。

BOM はオプションであり、Linux の世界ではそれほど採用されていません。UTF-8 の信頼性の高い規則があらゆるところで使用されているためです。ほとんどの Linux アプリケーションでは、テキスト入力が UTF-8 でエンコードされていると想定されています。多くの Linux アプリケーションは BOM を認識して正しく処理しますが、認識しないものもあります。そのため、そのようなアプリケーションで処理されたテキストにアーティファクトが生じます。

したがって:

・主に Windows アプリケーションと Windows PowerShell を使用している場合は、BOM ありの UTF-8 または UTF-16 のようなエンコードをお勧めします。
・複数のプラットフォームにまたがって作業する場合は、BOM ありの UTF-8 をお勧めします。
・主に Linux 関連のコンテキストで作業する場合は、BOM なしの UTF-8 をお勧めします。
・Windows-1252 とラテン-1 は基本的にレガシエンコードであり、できれば避けてください。ただし、一部の古い Windows アプリケーションではそれらに依存している可能性があります。

**デフォルトの名無しさん** · 2023/03/11(土) 09:00:57.05

LinuxはBOMをうまく扱えないんやな

**デフォルトの名無しさん** · 2023/03/11(土) 10:23:36.62

UNIX はパイプで複数のデータストリームが一つになったりするので，
データストリームの「先頭」とは何かがはっきりしないよね
tar のデータストリームとかどうするんだろうね

**デフォルトの名無しさん** · 2023/03/11(土) 10:42:53.36

そういいながら、結局 PowerShell の新しいバージョンからデフォルトを BOM無しUTF-8 に変更してきたのがマイクロソフト流儀だけどな。
時代の流れは早いお。

**デフォルトの名無しさん** · 2023/03/11(土) 15:13:41.78

>>93
そもそもtarはバイナリだ。テキストファイルじゃねーよｗ

**デフォルトの名無しさん** · 2023/03/11(土) 19:53:47.04

ファイル名とか入ってるけど，そのファイル名の先頭にBOMつけるの？

**デフォルトの名無しさん** · 2023/03/11(土) 19:54:34.90

Windows技術者「お前ぇぇ、WindowsアプリではBOMつきUTF-8 使えって言ってたじゃん。なんでVScodeやPowerShellの新しいの BOMなしなの？」
MS「BOMつきは昔の話」
俺「......

**デフォルトの名無しさん** · 2023/03/11(土) 20:33:35.60

>>97
何かおかしいかな？

**デフォルトの名無しさん** · 2023/03/11(土) 20:42:13.29

tar扉を開く

**デフォルトの名無しさん** · 2023/03/11(土) 23:21:38.53

>>97
Linuxにも対応してるからだろ
ちょっとアホすぎやろ

**デフォルトの名無しさん** · 2023/03/11(土) 23:22:42.03

>>96
BOMはテキストファイルの頭につけるものなの
tarはテキストファイルか？違うだろ。アホすぎ。

**デフォルトの名無しさん** · 2023/03/12(日) 00:00:06.48

へえ
tarはただ元のファイルにヘッダをつけてひたすら結合するだけという認識だったんだけど
こういうファイルもバイナリファイルって呼ぶべきものなのかな

BOMつきテキストファイルならBOMつきのまま無圧縮で格納されちゃうものかと思ってたんだが
tar化するときにはファイルの先頭じゃなくなるから除去されちゃうの？
で展開するときにはまた自動でBOMがついちゃうの

**デフォルトの名無しさん** · 2023/03/12(日) 00:02:44.53

途中送信しちゃったけど、
もしBOMの付け外しまでフルオートでよしなにやってくれるとしたらtarコマンドって随分と賢いんだね
そんなｸｿめんどくさい考慮せずに済ませるほうがよっぽど楽だろうに

**デフォルトの名無しさん** · 2023/03/12(日) 00:46:06.01

おちつけ
最近の tar は gzip やその他の圧縮なんか対応してたりする賢い tar で便利に使われてるので人によって認識にいろいろ違いが出るのは仕方ない。
もともと tar は tape archiver で、磁気テープにファイルを読み書きするためのツールでバイナリとかテキストとか気にしない。
というか unix 系のツールにはバイナリとテキストを区別しないやつが多い。
「それバイナリやろ」とか、「それテキストやろ」とか言われれも、「何の違いが？」ってなる。

**デフォルトの名無しさん** · 2023/03/12(日) 01:06:11.40

圧縮されていようがいまいがこんな発想が出てくるのはただものではない

**デフォルトの名無しさん** · 2023/03/12(日) 05:16:54.72

>>94 >>97
MicrosoftもBOM無しUTF8へと移行をどんどん進めてるね
Microsoft以外の一般環境だとBOM無しUTF8で統一されてしまったからね

**デフォルトの名無しさん** · 2023/03/12(日) 05:55:05.23

というか、MicrosoftとLinux以外のOSがなくなってしまったんだぜ
あとmacOSが残ってるか

**デフォルトの名無しさん** · 2023/03/12(日) 09:21:56.46

そういえば、テキストだけ特別な扱いはしたくないからBOMは入れてくれるなという主張はわからんでもないが
とあるそこそこ有名なOSSは逆にストリームの先頭の EF BB BF を強制的に削るという強硬策をとってたな。

**デフォルトの名無しさん** · 2023/03/12(日) 09:39:57.05

今はテキストファイルの話をしてる
ストリームの仕様は関係ない話だ

**デフォルトの名無しさん** · 2023/03/12(日) 10:13:38.29

あほだな。テキストのストリームとか言われたら死にそうだな。

**デフォルトの名無しさん** · 2023/03/12(日) 15:01:05.66

UNIXはバイトストリームしかない中古品
C言語もWindows向けと違ってテキストモードとか実装して当然ものすら無いし

**デフォルトの名無しさん** · 2023/03/12(日) 16:18:15.25

>>111
レイヤの区別をできない素人かよ

**デフォルトの名無しさん** · 2023/03/12(日) 17:11:02.31

Windows の改行コードが 0D0A なのはMSDOS の名残
C言語の \n は1バイトなのだが，これを2バイトでも処理できるように
苦し紛れに作ったモードがテキストモード

**デフォルトの名無しさん** · 2023/03/12(日) 21:43:16.22

Why is the line terminator CR+LF?
https://devblogs.microsoft.com/oldnewthing/20040318-00/?p=40193

This protocol dates back to the days of teletypewriters. CR stands for “carriage return” – the CR control character returned the print head (“carriage”) to column 0 without advancing the paper. LF stands for “linefeed” – the LF control character advanced the paper one line without moving the print head. So if you wanted to return the print head to column zero (ready to print the next line) and advance the paper (so it prints on fresh paper), you need both CR and LF.

If you go to the various internet protocol documents, such as RFC 0821 (SMTP), RFC 1939 (POP), RFC 2060 (IMAP), or RFC 2616 (HTTP), you’ll see that they all specify CR+LF as the line termination sequence. So the the real question is not “Why do CP/M, MS-DOS, and Win32 use CR+LF as the line terminator?” but rather “Why did other people choose to differ from these standards documents and use some other line terminator?”

Unix adopted plain LF as the line termination sequence. If you look at the stty options, you’ll see that the onlcr option specifies whether a LF should be changed into CR+LF. If you get this setting wrong, you get stairstep text, where

each
　　line
　　　　begins

where the previous line left off. So even unix, when left in raw mode, requires CR+LF to terminate lines. The implicit CR before LF is a unix invention, probably as an economy, since it saves one byte per line.

**デフォルトの名無しさん** · 2023/03/12(日) 22:44:50.34

こんなスレにおるのはほぼオッサンなんだけど
キミに学びがあったのならよかった

**デフォルトの名無しさん** · 2023/03/12(日) 22:58:02.67

最後の方の Unix の記述は間違いだな。ちゃんと調査せずに適当な風説を元に回答したようだ。

**デフォルトの名無しさん** · 2023/03/12(日) 23:20:28.70

1) 大昔の teleprinter/teletypewriter では CR+LF で改行にしていた。違うのもあった。
2) それを引き継いでビデオ端末の多くが CR+LF を改行にしていた。違うのもあった。
3) デバイスに直接出力していた古いOSや、OS無しの低機能のシステムではデバイスの多数派に合わせて CR+LF を改行コードにした。
4) Multics ではデバイス・ドライバーで出力先デバイスに合わせて改行処理を変更する機能があるので、デバイスに依存しない抽象化された文字コードを採用することにした。
5) このときに、当時の ISO 646 のドラフトにおいて LF だけで改行とできる規定があったので、それを採用した。
6) unix はこの Multics の仕様を引き継いだ。
#）一方で CP/M はデバイス・ドライバーによる抽象化などの高度な機能は無かったので、CR+LF を改行コードにするしかなかった。MS-DOS および MS-Windows はこの仕様を引き継いだ。

**デフォルトの名無しさん** · 2023/03/13(月) 03:18:43.79

>>113
タイプライターの名残やろ

**デフォルトの名無しさん** · 2023/03/13(月) 09:07:24.07

CP/Mのパクリをしなければ改行にCR+LFを採用する必要はなかった
まあこのパクリのおかげでCP/M86に勝ったんだけどね

**デフォルトの名無しさん** · 2023/03/13(月) 11:13:13.34

レトロmac: "CR" ぼくも忘れないで

**デフォルトの名無しさん** · 2023/03/13(月) 13:38:04.06

>>120
お前は深く考えてない玩具 Apple II の文字コード継承しただけじゃないか？正直に白状したまえ。

**デフォルトの名無しさん** · 2023/03/13(月) 14:36:51.97

Macはワンボタンが素晴らしいと思ってるし、画面下にアプリ切り替えバーなんていらないし、UNIXなんてクソだからCRを使った

**デフォルトの名無しさん** · 2023/03/13(月) 21:35:59.50

CRはCarriage Returnで行頭に復帰
改行はしない

**デフォルトの名無しさん** · 2023/03/13(月) 22:29:34.49

それ端末の動作だし
だからなんやねん

**デフォルトの名無しさん** · 2023/03/14(火) 16:02:14.81

読むときは CR(単独) が来ようが CR+LF(連続) が来ようが LF(単独) が来ようが LF として処理する
描くときは LF のみ描き込む
これが正しい在り方

**デフォルトの名無しさん** · 2023/03/14(火) 17:57:34.43

問題はCRとLFとCRLFが混ざっているときだ

**デフォルトの名無しさん** · 2023/03/14(火) 19:20:49.37

LF, CR, LF, LF, LF, CR ときたら何行改行するか問題。
CR+LF 派にこれを突きつけると、言行がバグる人が多い。CR+LF派は脳に欠陥があるに違いない。

**デフォルトの名無しさん** · 2023/03/14(火) 19:52:03.66

>>127
LRの次がCRだったら無視する（読み飛ばす）
CRの次がLFだったら無視する（読み飛ばす）
で問題なし

**デフォルトの名無しさん** · 2023/03/14(火) 19:53:53.28

CRLFで1回、CRで1回、LFで1回だろ？

**デフォルトの名無しさん** · 2023/03/14(火) 20:20:53.43

LF派：誰に聞いても同じ回答を返す
CR+LF派：人によって回答が違う。謎のオレオレ理論を説明しだす
CR派：問を無視してアップルへの恨み言を言い始める

**デフォルトの名無しさん** · 2023/03/14(火) 20:23:34.83

BOMは諦めて今度は改行かね

**デフォルトの名無しさん** · 2023/03/14(火) 20:27:00.01

>>131
ﾜﾛﾀ

**デフォルトの名無しさん** · 2023/03/14(火) 23:03:37.37

CRは先頭位置に戻す
LFは行替え
だから>>127は4行改行して先頭位置になる

**デフォルトの名無しさん** · 2023/03/14(火) 23:25:04.85

>>133
本来はそんなんだけど
タイプライターで打つときにそれだと二動作必要になるので
一動作でcr+lfにするようにした
これが混乱の始まりかも

**デフォルトの名無しさん** · 2023/03/15(水) 01:01:29.12

>>133
つまり先頭位置にある時には CR は不要で LF だけで改行すべきで、
毎回 CR+LF を出力している某OSは無駄と言いたいの？
それでは CR+LF 派とは言えないよな？

**デフォルトの名無しさん** · 2023/03/15(水) 02:30:17.71

HTTPプロトコルは改行がCR+LFなのはどうして？

**デフォルトの名無しさん** · 2023/03/15(水) 04:53:01.78

>>136
まじめに答えると、
SMTPなどの既存のプロトコルを参考にしたから。
で、SMTPがCRLFなのは、インターネット以前の汎用機とか使ったメールシステムとの相互接続性に気を使ったから。
実際のHTMLは場所によってLFだけやCRだけの改行も許されていてかなり複雑なんだが。

**デフォルトの名無しさん** · 2023/03/15(水) 11:00:18.93

ほー、ってことはWindowsも
そういった互換性を大切にしてたんだな

**デフォルトの名無しさん** · 2023/03/15(水) 11:12:26.56

むしろ>>127なんて通常はあり得ないって事さ

**デフォルトの名無しさん** · 2023/03/15(水) 12:41:20.81

>>138
まあ、そうだな。
Windows が大事にしたのは MS-DOS との互換性で、
MS-DOS が大事にしたのは CP/M との互換性で、
CP/M は大昔の汎用機と同じくらい古臭い<BS><BS><BS>シンプルな設計だったというだけだな。

**デフォルトの名無しさん** · 2023/03/15(水) 22:20:01.44

UNIXは元々研究用だからね
互換性なんか考えちゃいない
だからUNIXはBSD系とSystemV系に分離した
多くのコマンドの互換性がなくなった

**デフォルトの名無しさん** · 2023/03/16(木) 00:21:30.90

>>141
歴史をまったく知らない素人妄想だな。
Multics で導入されたテキストデータの抽象化とか知ってるか？

**デフォルトの名無しさん** · 2023/03/16(木) 03:57:32.72

http2以降はヘッダに改行なくなったんだね、、、

**デフォルトの名無しさん** · 2023/03/16(木) 07:48:28.62

>>141
多くのコマンドの互換性ってたかだかオプションが違うくらい
シェルスクリプトでどのバージョンでも対応できた

**デフォルトの名無しさん** · 2023/03/16(木) 10:25:24.39

>>142
知ってる。お前のターン。
俺を論破してみせろやｗ

**デフォルトの名無しさん** · 2023/03/16(木) 10:25:51.36

>>144
歴史を知らんのねｗ

**デフォルトの名無しさん** · 2023/03/16(木) 10:41:46.04

知ってる→実は何もわかってない
知らんのかね→自分が何も知らない
どうして、こういう知ったかぶりする小学生みたいんな奴が混ざってるんだろう？

**デフォルトの名無しさん** · 2023/03/16(木) 10:46:31.88

コマンドラインにプログレスバーを出したり
固定レイアウトでリアルタイム更新する画面とか
きちんとCRとLFは区別されてるって感じる

**デフォルトの名無しさん** · 2023/03/16(木) 11:13:17.10

BOMは文字コード？
ZWNBSは文字コード？
CRは文字コード？
LFは文字コード？

**デフォルトの名無しさん** · 2023/03/16(木) 11:31:30.24

>>147
俺のこと言ってる？

「知らんだろ」っていうやつは、
自分が知らないことを相手に要求して
揚げ足取ろうとしているだけだから
「知ってる」っていうと相手に大ダメージを与えられる

知ってた？

**デフォルトの名無しさん** · 2023/03/16(木) 14:30:41.33

知っとって知らんて言うのは犯罪やぞ

**デフォルトの名無しさん** · 2023/03/16(木) 14:32:32.77

>>150
無知なやつは恥も知らんなwww
自分が知らないから相手も知らないはずwww

**デフォルトの名無しさん** · 2023/03/16(木) 14:59:26.59

UNIX終了wwやはり正義はWindowsだったwwww

Unix is dead. Long live Unix!
https://www.theregister.com/2023/01/17/unix_is_dead/

**デフォルトの名無しさん** · 2023/03/16(木) 16:43:13.46

Unix というか Linux に徐々に移行でしょ
メインフレームやスーパーコンピュータはLinux になっちゃたし

**デフォルトの名無しさん** · 2023/03/16(木) 16:58:32.87

>>153
タイトルすらまともに読めてなくてｗ
その記事
IBM が Redhat 買ってこれからは Linux を始めとする unix-like の時代。AIX とかの(旧来の) Unix は終わり。
Windows についてはマイクロソフトも WSL を頑張ってるとしか書かれてない。

そもそも文字コードに何の関係が？

**デフォルトの名無しさん** · 2023/03/16(木) 17:04:46.17

>>141,153
お前 UTF-8 に BOM つけろ君だろ
教養が感じられないあたりがそっくり
主張が通らなかった、腹いせにスレを荒らすな！

**デフォルトの名無しさん** · 2023/03/16(木) 17:42:30.76

>>156
アホ化。逆だわ
UTF-8にBOMつけるな
あれはMSが歪めた仕様
元々はバグだ
シランなら黙っとれ

**デフォルトの名無しさん** · 2023/03/17(金) 20:09:59.24

このスレは以下で全員が一致している
・文字コードはUTF8で統一
・UTF8はBOMを付けない

**デフォルトの名無しさん** · 2023/03/17(金) 21:06:51.85

https://i.imgur.com/5H1ZeBj.png
＞ LinuxやMacでは、ファイル名やメタデータから文字コードを判断することが多いので、BOMは不要です。

これマジ？

**デフォルトの名無しさん** · 2023/03/17(金) 21:09:37.93

BOMって、 UTF16とかじゃないと意味が無いやん？

**デフォルトの名無しさん** · 2023/03/17(金) 21:21:18.90

一応は出典付きになってんだからそれ辿って判断しろ

**デフォルトの名無しさん** · 2023/03/17(金) 22:17:32.94

mac のファイルシステムはリソースフォークを持っているので
そこにTextEncoding を格納しておけば良い

**デフォルトの名無しさん** · 2023/03/18(土) 09:15:45.80

>>159
出典を挙げてくれるところが親切だな。そのqiitaどこ？

**デフォルトの名無しさん** · 2023/03/19(日) 12:16:38.49

Windows のファイルシステムは拡張子を持っているので
そこが .txt なら BOM 無し UTF-8 を前提にして良い

**デフォルトの名無しさん** · 2023/03/19(日) 12:24:54.52

おいおい
Windowsで.txtなんてそれこそ山程CP932のファイルがあるだろう(日本の場合)
それらは全て無視かい

**デフォルトの名無しさん** · 2023/03/19(日) 13:04:41.50

>>165
そいつらは将来に備えて .sjt とかにでも改名しとけw

**デフォルトの名無しさん** · 2023/03/19(日) 13:31:52.51

UTF-8を使う俺が困らなければ他人はどうでもいい。

**デフォルトの名無しさん** · 2023/03/19(日) 14:22:28.77

>>167
UTF-8を使う俺＝将来のお前
どうせ嫌でも皆がUTF-8を使うことになる
遅いか早いかの違いでしかない

**デフォルトの名無しさん** · 2023/03/19(日) 14:46:22.57

遅いか早いか、まさにそこがポイントだわな。
100年後には確実に死んでいるだろうからといって明日すぐに死んでもいいなんて考える人はまずいない。

**デフォルトの名無しさん** · 2023/03/19(日) 15:05:53.25

あきらめろ！もう勝負はついてしまったんだ
今は粛々と対応を進めるフェーズだ
早く対応するほど傷は浅くてすむぞ

**デフォルトの名無しさん** · 2023/03/19(日) 15:11:12.34

>>166
むしろ新しいほうが.utf8のほうが合理的かと

**デフォルトの名無しさん** · 2023/03/19(日) 15:20:23.00

>>171
あきらめろ。どうせSJISのファイルは無くなるんだ。
何ならSJISのテキスト .txt ファイル今後一切作らなくても生きていける。 UTF-8はそうはいかない。

**デフォルトの名無しさん** · 2023/03/19(日) 15:26:26.02

春休みっぽいね。

**デフォルトの名無しさん** · 2023/03/19(日) 16:57:13.82

今日は日曜日なんだぜ。仕事引退したご老人は気づかんかもだが。

**デフォルトの名無しさん** · 2023/03/19(日) 17:30:01.32

C言語でShiftJISからUTF-8に変換するコードをライブラリは使用しないで書いて下さい。

以下はC言語でShiftJISからUTF-8に変換する簡単なコードです。このコードでは、ShiftJISの1バイト目が0x81以上0x9F以下または0xE0以上0xEF以下の場合には2バイト文字、それ以外の場合には1バイト文字として扱います。

#include <stdio.h>

void sjis_to_utf8(char *sjis, char *utf8) {
unsigned char c1, c2;
while (*sjis != '\0') {
c1 = *(unsigned char *)sjis++;
if (c1 <= 0x7F) {
*utf8++ = c1;
} else {
c2 = *(unsigned char *)sjis++;
if ((0x81 <= c1 && c1 <= 0x9F) || (0xE0 <= c1 && c1 <= 0xEF)) {
*utf8++ = ((c1 << 8) | c2) + 0x3C00;
} else {
*utf8++ = c1;
sjis--;
}
}
}
*utf8 = '\0';
}

int main() {
char sjis[] = "こんにちは、世界！";
char utf8[100];
sjis_to_utf8(sjis, utf8);
printf("%s\n", utf8);
return 0;
}

**デフォルトの名無しさん** · 2023/03/19(日) 17:39:03.96

ShiftJISって表現だと文字集合定まらないのに回答もらえんだ
どんだけクソ記事多いんだよ

**デフォルトの名無しさん** · 2023/03/19(日) 21:07:41.87

>>162
macのリソースフォークとか、知識が化石だな
今は大概のファイルシステムが拡張ファイル属性をサポートするので、そこにメタデータを
記録することが可能

**デフォルトの名無しさん** · 2023/03/19(日) 22:36:34.34

apfs はxattr もresource fork も両方使える
named resource fork は無くなってるが

**デフォルトの名無しさん** · 2023/03/28(火) 06:36:26.58

>>175
バッファオーバーフローのチェックがなく不合格

**デフォルトの名無しさん** · 2023/03/28(火) 08:25:55.12

それ以前の問題だろ。>>175はChatGPTに作らせたんじゃね？

**デフォルトの名無しさん** · 2023/04/03(月) 12:56:12.62

AIによるプログラミングはまだ無理だね

**デフォルトの名無しさん** · 2023/04/03(月) 16:26:10.65

AIって、コンピュータのくせに自分でトレース実行してバグ無いか確認しないのなw

**デフォルトの名無しさん** · 2023/04/09(日) 09:21:00.03

検算してもその検算が正しいかどうかすら自身が持てないのがchatGPT

**デフォルトの名無しさん** · 2023/04/09(日) 09:22:48.40

WindowsだがExcelもWordも入れてない
自分のHDD/SSDにはSJISで保存されたファイルなんてもうほぼ存在しない

**デフォルトの名無しさん** · 2023/04/09(日) 12:54:00.15

今MacユーザーになるともれなくUnicode絡みの問題が付いてくるよ
https://applech2.com/archives/20230402-nfd-and-nfc-issues-in-macos-13-3-ventura.html

**デフォルトの名無しさん** · 2023/04/09(日) 13:04:53.10

>>185
Mac が定期的にかかる病気。
すぐ治るけど、時間をおいてまた再発する。

**デフォルトの名無しさん** · 2023/04/09(日) 14:46:54.72

Macは日本の野党と同じで世間からの評価が甘いよなあ。
Macが基幹業務で使われてない何よりの証拠でもあるが。

**デフォルトの名無しさん** · 2023/04/09(日) 17:56:56.24

地震ないのに自信たっぷりに回答するのがChatGPT

**デフォルトの名無しさん** · 2023/04/09(日) 18:30:06.98

ｸｴｰｯ!

**デフォルトの名無しさん** · 2023/04/09(日) 19:01:55.55

知らないことは知らない
調査した限りでは存在しない
そういう答えのほうがいいのに
なんで捏造するんだろうね

**デフォルトの名無しさん** · 2023/04/09(日) 21:05:33.99

そういうのはだいたい、知らないと答えたらひどく怒られた経験があって委縮して育ってしまったんだと思う

**デフォルトの名無しさん** · 2023/04/12(水) 12:03:52.02

自信たっぷりに嘘を答えるから
文系はすぐにだまされるωωω

**デフォルトの名無しさん** · 2023/04/14(金) 14:38:56.45

キャラ名に「ソ」があると画面がフリーズ　Switchの新作ゲームにバグ　制作会社が謝罪
https://www.itmedia.co.jp/news/articles/2304/14/news119.html

**デフォルトの名無しさん** · 2023/04/14(金) 15:45:01.31

>>193
ShiftJISならバックスラッシュ誤判定だろうけど、ShiftJISなわけないよな

**デフォルトの名無しさん** · 2023/04/14(金) 15:53:05.13

浅慮すぎるのは置いといて
ゲームだし手軽にバイト長固定で処理したかったは十分考えられる

**デフォルトの名無しさん** · 2023/04/14(金) 17:03:50.51

芸能人は化ける

**デフォルトの名無しさん** · 2023/04/14(金) 18:27:55.47

ネットの論調は「ソ」と言ったらSJISバグみたいになってるけど今時ありえるだろうか？
もし事実だとしたら旧作からライブラリか何かを移植して流用したのかな？

**デフォルトの名無しさん** · 2023/04/14(金) 18:50:37.36

「ソ」とか「ポ」を含む文字列で壊れる問題、昔はS-JIS絡みで時々見かけたね

**デフォルトの名無しさん** · 2023/04/14(金) 21:31:31.20

ここで念のため

**デフォルトの名無しさん** · 2023/04/15(土) 11:49:15.28

ノーパソ