文字コード総合スレ part14

**デフォルトの名無しさん** · 2023/03/03(金) 15:46:58.08

Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/

**デフォルトの名無しさん** · 2024/06/04(火) 17:15:26.05

>>805
CSV の利点は制御文字(cc)ではなく表示文字を使っている点。TAB はccなので表示系によっては見た目で区別できない場合がある。典型的にはスペースと見間違える（1文字TABはスペースと同じアキになる可能性
常にTABとスペースが正確に区別できる環境ならTSVの方がだんぜん便利だと思うが TAB は普通の文字じゃないことも文字コード設計として念頭においておくべき
あと unicode にはスペース類似文字もカンマに似た文字も多過ぎるので、どのみち見た目で区別は駄目という話はある、酷い話だ。

**デフォルトの名無しさん** · 2024/06/04(火) 17:46:25.88

すげーな
職場でもあんま話通じない人なのかな

**デフォルトの名無しさん** · 2024/06/04(火) 22:21:43.51

「慶応」も「コンクリート」も漢字1文字で～Unicode標準に新しいブロックが提案中
手書きでしばしば用いられる「部首＋カナ」スタイルの略式漢字
https://forest.watch.impress.co.jp/docs/serial/yajiuma/1597030.html

**デフォルトの名無しさん** · 2024/06/04(火) 23:02:09.29

>>810
そういうのは合字といって昔からある

**デフォルトの名無しさん** · 2024/06/04(火) 23:04:13.30

UTF-8は日本語だと明確に指示していないと、漢字が中国の漢字が入り込んでしまう。

**デフォルトの名無しさん** · 2024/06/04(火) 23:06:31.80

UTF-8で記号がたくさん追加定義されて、MS-IMEがめちゃくちゃだから、変な記号を使う日本人が激増した。

**デフォルトの名無しさん** · 2024/06/04(火) 23:12:43.53

変体仮名で限界

用例を見たが、それ以上の歴史的重要資料が大量にあって
デジタル化の必要性があるとは到底思えない

英字アルファベットも代表的なカリグラフィーを収めて終了
unicode標準は局所的な特定小集団のおもちゃじゃない

**デフォルトの名無しさん** · 2024/06/05(水) 07:49:52.75

>>810
従来の漢字、特に中国の簡体字等、読みの同じ部首やつくりで置き換えて文字を
作ったりとかはあるので、発想としては近いものを感じる

**デフォルトの名無しさん** · 2024/06/05(水) 09:34:19.11

UnicodeData.txtをあたらないと何を表してるのかさっぱり分からん絵文字よりは
まだその手の略字のほうが有意義な気はする

**デフォルトの名無しさん** · 2024/06/05(水) 10:21:36.77

>>808
Firefoxだと表示できない文字は□の中に16進コードが書かれた文字が表示されるから
同じようにテキストエディターでも制御文字と空白に見える文字は空白を表示する代わりに
16進のコードが表示されれば分かりやすくなるね

**デフォルトの名無しさん** · 2024/06/05(水) 13:38:49.33

>>810
標準に滑り込ませて既成事実化するよりも、
草の根で外字フォントを配るのが良いと思う

**デフォルトの名無しさん** · 2024/06/05(水) 15:08:16.04

>>818
草の根で外字フォントを配ってなんとかなることだったらわざわざ標準化する必要なくね？
外字フォントを配るぐらいにとどめておいた方がいい以上の根拠なし意見でしかないぞ。それ。

**デフォルトの名無しさん** · 2024/06/06(木) 09:50:50.05

>>818
それを全国の市町村の役所でやって既成事実化できずただただ氾濫して手に負えなくなったんよ

**デフォルトの名無しさん** · 2024/06/06(木) 10:38:50.99

役所は文系ばかりなのでとんでもないことを平気でやらかす

**デフォルトの名無しさん** · 2024/06/06(木) 10:46:53.59

>>793
98に限らず
hjklで←↓↑→替わりにしてる環境は割とある

**デフォルトの名無しさん** · 2024/06/06(木) 16:26:25.10

unicodeだと同じ文字に見えても違うコードポイントの文字が多いから
テキストエディタにもコードポイントを表示する機能と
バイナリではどう記録されているのか表示する機能が欲しい
バイナリエディタでは折り返しが16バイト毎の固定で文章入力しにくいから
折り返しを16バイト毎ではなく0x0D0Aにできるバイナリエディタのような感じかな

**デフォルトの名無しさん** · 2024/06/07(金) 00:30:00.98

絵文字とか異体字セレクタとかもあるし、とりえあえず文字（グラフィームってやつ?）の
境界を見つけるのが面倒だよね
文字境界を探すライブラリとか、今ってそこら辺もちゃんと動く感じ?

**デフォルトの名無しさん** · 2024/06/07(金) 02:08:04.46

>>823
サクラエディタにそんな機能があるな

**デフォルトの名無しさん** · 2024/06/07(金) 20:02:28.27

Ruby では、

https://qiita.com/QUANON/items/2539feed89cee2290664

couple = '👨‍👩'
p couple.length #=> 3

# \X Unicode 結合文字シーケンス (eXtended grapheme cluster) (?>\P{M}\p{M}*)
p couple.scan(/\X/).length #=> 1

# \u{0308} はウムラウト
p euml = "e\u{0308}" # "ë"。"～"で囲む
p /\X/.match(euml) #=> #<MatchData "ë"> ウムラウト有り
p $&.codepoints #=> [101, 776]

# \w 単語構成文字 [a-zA-Z0-9_]
# \W 非単語構成文字 [^a-zA-Z0-9_]
p /\w/.match(euml) #=> #<MatchData "e"> ウムラウト無し
p $&.codepoints #=> [101]

p couple.chars #=> ["👨", "‍", "👩"]
p couple.grapheme_clusters #=> ["👨‍👩"] 書記素クラスタ

# U+200D は、Zero Width Joiner (ZWJ: ゼロ幅接合子)
couple.each_char { |chr| puts(format('U+%04X', chr.ord)) }
# U+1F468, U+200D, U+1F469

(euml + couple).each_grapheme_cluster { |chr| puts(format('U+%04X', chr.ord)) }
# U+0065, U+1F468
# つまり先頭文字である、'e👨' だけになる

**デフォルトの名無しさん** · 2024/06/07(金) 21:53:54.62

Macなんて日本語でも英語のUTF-8と決めつけるから、SJISですらうまく打てない。

**デフォルトの名無しさん** · 2024/06/07(金) 22:04:15.54

>>810
その記事は時代に逆行している変な人間の記事だな

手書き文字を登録しろと言い出すと無限に定義するはめになり、見た目の区別もつかなくなる。

**デフォルトの名無しさん** · 2024/06/07(金) 22:06:42.14

JavaScriptの識別子に中黒が使えるようになった
https://nanto.asablo.jp/blog/2024/06/07/9690975

JavaScriptの識別子(変数名、関数名、プロパティ名など)の2文字目以降に中黒「・」(U+30FB KATAKANA MIDDLE DOT)が使えるようになりました。以下のコードはChrome 124では構文エラーになりますが、Chrome 125では問題なく実行できます。

const シン・ゴジラ = 2016;

中黒が使えるようになったのは、JavaScript(ECMAScript)の仕様が変わったからではありません。変わったのはUnicodeの仕様のほうです。Unicode 15.1.0(2023年9月)においてOther_ID_Continueプロパティ(を持つ文字の集まり)に中黒が追加されました。

**デフォルトの名無しさん** · 2024/06/07(金) 22:34:26.74

>>829
表記の揺れの原因になりやすい記号

**デフォルトの名無しさん** · 2024/06/07(金) 23:59:44.50

>>828
異体字はこんな風に生まれたんだろうけど
髙と高みたいに両方ともUnicodeで基底文字として扱われてる文字と
異体字として扱われる文字の違いは何なんだろうな

**デフォルトの名無しさん** · 2024/06/08(土) 01:05:00.06

>>831
中国人／台湾人の辞書や文字コード表に記載されているかどうか。はしご高は台湾漢字由来だったか
日本の異字体はIVS使うことにしたので最近は登録申請すらほとんどしてないけど、中華人民共和国は今もがんがん本体に追加要請してる

**デフォルトの名無しさん** · 2024/06/08(土) 01:39:00.68

>>832
「異体字」を「異字体」と間違っている時点で説得力なしw

**デフォルトの名無しさん** · 2024/06/08(土) 10:12:44.74

>>833
この場合は「異－字体」であってるんだよ。「異体－字」は個々の文字を指す。

**デフォルトの名無しさん** · 2024/06/08(土) 13:27:19.23

そういえば、斉藤なんかの「さい」の異体字はすごい数あるな
もともと難しい字で、戸籍登録の際の書き間違いが原因らしいけど

**デフォルトの名無しさん** · 2024/06/08(土) 21:42:22.14

異体字と異字体
https://www.ytv.co.jp/announce/kotoba/back/2001-2100/2036.html#:~:text=%E3%81%AE%E8%A9%B12038%E3%80%8C-,%E7%95%B0%E4%BD%93%E5%AD%97%E3%81%A8%E7%95%B0%E5%AD%97%E4%BD%93,-%E3%80%8D%0A%0A%E6%96%B0%E8%81%9E%E7%94%A8%E8%AA%9E

**デフォルトの名無しさん** · 2024/06/15(土) 21:59:47.39

すげーのを引っ張りだしたなw

**デフォルトの名無しさん** · 2024/06/17(月) 09:21:34.95

CJK統合漢字拡張もいつの間にかI（アイ）まで来てるのかあ
どこまで行くんでしょう

**デフォルトの名無しさん** · 2024/06/17(月) 18:15:03.85

>>838
中国さんが飽きるまで
とはいえ中国さんは、日式異体字とか辞書に載せて、辞書に載ってるから申請とか、留まるところを知らない

**デフォルトの名無しさん** · 2024/06/17(月) 23:07:05.19

>>834
それさ、同じ漢字と、字体違いの漢字を同一だと思っているでしょ？

同じ意味の漢字と、見た目違いの同じ意味の漢字は別物だよ

**デフォルトの名無しさん** · 2024/06/18(火) 00:34:22.90

>>840
異体字≡異体文字
異字体≡異体
この2つは当然べつもの

**デフォルトの名無しさん** · 2024/06/18(火) 02:46:10.52

>>841
漢字の話をしているだぞ？
漢字は意味が違ったけど同じになったもの、新しい漢字を作るときに位置が違ったもの、わざと創作した存在しない漢字などがあり、字体違いだけでなく書体違いもあり、あなたのこだわりは漢字そのものをわかっていない。

**デフォルトの名無しさん** · 2024/06/18(火) 02:47:11.32

>>841
「異字体」というのは中国語

**デフォルトの名無しさん** · 2024/06/18(火) 03:01:03.27

「漢字Aと漢字Bは〇〇の関係にある」
この〇〇には異体や異字体は入るが、異体字や異体文字は入らない。異体字は字体の関係性ではなく個々の文字を指す用語。
「異なる字体」と言いたい場合は「異体／異字体」を使用する。
「字体」とは文字の骨格となる構成を言う。「字形」や「書体」とは違う概念

**デフォルトの名無しさん** · 2024/06/18(火) 05:09:10.23

○
〇

**デフォルトの名無しさん** · 2024/06/18(火) 05:09:59.04

>>844
漢数字のゼロを丸印だと思っている方に言われたくない

**デフォルトの名無しさん** · 2024/06/18(火) 07:20:08.45

>>846
すまん。アンドロイドで「まるまる」で変換しただけで思ってるとか無関係。

**デフォルトの名無しさん** · 2024/06/18(火) 07:55:46.38

Google日本語入力を使った方がいい

**デフォルトの名無しさん** · 2024/06/18(火) 09:14:05.74

>>848
俺の使ってる google 日本語入力だと「まるまる」の候補は〇〇、丸々、丸丸、円円（カナやローマ字以外だと）4つだけだな。
この謎の漢数字の〇〇って「ひとふたまるまる」とかの軍隊時間呼称とか用なんだろうか？でも「人蓋〇〇」とかになるな

**デフォルトの名無しさん** · 2024/06/18(火) 10:39:53.14

中国が日本語を担当しているせいで、日本人が「まる」と入力したときに零だと勘違いしているだけだ。

大日本帝国の末期の用語みたいになっている。

**デフォルトの名無しさん** · 2024/06/18(火) 10:41:16.55

変換候補に出てくる文字の説明がちゃんと出てくるものを使わないと

**デフォルトの名無しさん** · 2024/06/18(火) 15:04:55.87

梵

**デフォルトの名無しさん** · 2024/06/18(火) 16:01:02.14

悩

**デフォルトの名無しさん** · 2024/06/23(日) 18:00:29.64

異体字セレクタって、無闇に使うと問題あったりしますか?
例えば対応してないシステムやアプリ上で使うと何か問題が発生するとか

**デフォルトの名無しさん** · 2024/06/23(日) 19:08:28.54

検索する時にはまりそう

**デフォルトの名無しさん** · 2024/06/23(日) 19:53:42.52

>>855
規格にちゃんと従っていれば検索時には無視してくれるので大丈夫
現時点で規格をちゃんと実装してないやつの方が多いってのは棚に上げておく

**デフォルトの名無しさん** · 2024/06/27(木) 04:51:42.68

見た目が似ている横棒がUTF-8でたくさん定義されてしまって面倒なことになった。

**デフォルトの名無しさん** · 2024/06/27(木) 09:53:57.06

あいつら漢数字の一まで一緒にする気マンマンだったんだぜ

**デフォルトの名無しさん** · 2024/06/27(木) 14:19:43.19

>>857
データベースないのかな?
0221以外のJISにない文字も含めた奴

**デフォルトの名無しさん** · 2024/06/27(木) 20:01:38.35

1(いち)とI(大文字アイ)は、フオントによっては、
見分けは、サッパリなぐらい、そっくり
ていうか、住所全角入力でハイフンの全角が
スマホからダメだった。仕方ないからパソコンで
入力したら上手くいった。
住所全角入力させるシステムってシステムのバグなのかな❓

**デフォルトの名無しさん** · 2024/06/27(木) 21:05:10.39

それよりサンセリフの I と l の区別がつかん
欧米人は大雑把でいけない
昔のタイプライターでは Il1を同じ文字、O0を同じ文字で代用していたらしいので伝統文化なのかもしれない

**デフォルトの名無しさん** · 2024/06/28(金) 16:48:54.85

youtubeのキーは判りにくい

**デフォルトの名無しさん** · 2024/06/29(土) 14:26:47.39

>>860
画面はUTF-8なんだろうけど、うしろにメインフレームのシステムがあるんだろう。
一文字に3バイト使う日本語でないとキャラクタセット変換が面倒なんだろうな。

**デフォルトの名無しさん** · 2024/06/29(土) 23:34:00.90

記号類は見た目が似ているからといって入力しやすい文字で代用しないで
Unicode Code Chartsに書かれている意味を調べて本来の意味の文字を選んだ方がいいよね
だからこそ入力する時に変換候補に文字の意味も出てほしいし
テキストエディターでも文字のコードポイントを表示する機能がほしい

**デフォルトの名無しさん** · 2024/06/30(日) 03:09:55.21

キーパンチャーの頃は単に部品減らしたいから代用したんでしょ

**デフォルトの名無しさん** · 2024/07/02(火) 09:17:58.60

いわゆる漢字検定ってありますよね
あれで「標準字体」とか「許容字体」とかあるけど、どういう基準で決められているか
どなたかご存知ですか?

**デフォルトの名無しさん** · 2024/07/02(火) 11:09:41.17

>>866
検定協会が勝手に決めてて知りたければ協会の出してる本を読めということになってる
いちおう総務省や国語審議会などの文献を参考にしている建前になってるけど詳細は独自基準

**デフォルトの名無しさん** · 2024/07/03(水) 20:09:14.26

>>867
なるほど。単純な字形のデザインとしてはあまり統一感のない部分があったりして
少なくともそういう方針ではないんだろうなあと思いました。

**デフォルトの名無しさん** · 2024/07/05(金) 12:08:03.46

記号の意味と言えばWAVE DASH / FULLWIDTH TILDE問題で
日本語で使うのはWAVE DASHの方が正しい意味なのに
FULLWIDTH TILDEの方が普及してしまっているのがあるね
Windowsで[Shift+へ]を押した時に波ダッシュが入力されるように
キーアサインを変える方法はないのかな

**デフォルトの名無しさん** · 2024/07/05(金) 14:03:59.79

～を使えという話でしょ？

**デフォルトの名無しさん** · 2024/07/05(金) 20:15:21.12

https://i.imgur.com/56sHvt0.jpg
すぐ2500P+2500P手に入ります。

**デフォルトの名無しさん** · 2024/07/05(金) 20:44:07.34

>>871
コスパは特に良いよな

**デフォルトの名無しさん** · 2024/07/06(土) 22:57:15.51

記号の意味にこだわる、ですか
例えば歌とかで音を伸ばす記号はWAVE DASHじゃなくて別途なんちゃらSOUND MARK
みたいなのが必要、ということになるのかね

そういえば"-"はハイフンなんかマイナスなんかどっちやねん
同じく"/"もソリダスなのかスラッシュなのか
というわけでそもそもASCIIの時点でグダグダという説は

**デフォルトの名無しさん** · 2024/07/06(土) 23:42:34.68

ちんこ文字

**デフォルトの名無しさん** · 2024/07/08(月) 05:39:56.31

てゆぅうか、
小文字のエル(l)と、大文字のアイ(I)
見た目、ソックリぢゃーーーん。
てゆぅか、dataURLとdataURI って違う❓
てゆぅか、dataURLとdataURI って同じ❓
てゆぅか、プログラミング言語の
PL1は、PLIらしいけどマジなの❓
てゆぅか、「水」と「木」って似てるぅ。
てゆぅか、UTF-8っていいねー
dataURIてゆうか、dataURLてゆぅか
Base64の文字列は、UTF-8に変換しても
Base64の文字列のままだろう。
容量が増えない。よな❓　違う❓合ってる❓

てゆぅかさ、UTF-8は廃止してさ、
地球人は、1byte文字は、ASCiiとし、
漢字・🇨🇳語・漢語は、廃止してさ、
絵文字💙🖤🟨🤡🥳🧊を2byteにする
超UTF-4 UTF-4 超UTF-4 を策定しなさーーい

てゆうか、ハンドルネームは絵文字対応してないの❓

↑ · 2024/07/08(月) 05:50:54.64

えー、875アタマ変ですよ。てか自分だった(⁠･⁠o⁠･⁠;⁠)
❌　超UTF-4 ◎　新UTF-16 だろ、ま、新UTF-8でもよいが
ま、ASCiiが8bitで格納されりゃ、何でもUTF8でよいのぢゃ
てゆうか、顔文字(⁠･⁠o⁠･⁠;⁠)とかってアロゲート文字だよな❓
複数の文字で一文字だし、四文字熟語もアロゲート文字❓
てゆうかさ、文字を接着させたのがアロゲート文字ポぃし
アロンアルファ文字って改名しなさーーい
てゆうか、アロンアルファは商標なのかな❓

**876** · 2024/07/08(月) 05:58:39.48

あっえけねぇーーー
アロゲート文字ぢゃなくて
サロゲート文字だった。誤字ってしまった
てゆうか、アとサって同じ字体に
しなさーーーい。テへペロッ👅👅👅

**デフォルトの名無しさん** · 2024/07/09(火) 06:03:06.92

ISO-10846-1　と　Unicode　と UTF16
全部違くアル❓ってゆぅか違くナイ❓
どっちも正しくナイ❓　って優香、
地球の解説書の文章、
プログラミング言語よりイミフ by 🥳

タブン、ゼッタイ、ソレラワ、オナジ
by 👤ジシヨウ∧ウチユウジン

**デフォルトの名無しさん** · 2024/07/10(水) 09:52:29.65

javascriptの関数てか、オブジェクトてかメソッドてか
String.fromCharCode()　なんだけど、引数は
UTF-16 らしい。
で、ですが、今から、引数にUNICODEてかUCS2を指定
してString.fromCharCode()により生成の文字が
化けるか試験、只今実施中
とにかく、地球人の言語イミフだけど
UNICODEとUCS2とUTF16 同じだよな。❓
因みに、引数にSHIFT JISコード指定したら
文字化けちゃったーーーーテヘ👅　BY 🥳

**デフォルトの名無しさん** · 2024/07/10(水) 10:24:38.13

　　　　🟦🟦
ポクは、🟦🟦ミクロソフト星人　です。
なに、Javascriptのその引数がUTF16っていうルールなのかな？
てかさ、ミクロソフト星人語にUTF16を翻訳すると
単に「コードポイント」もしくは、
単に「UNICODE」だもんねぇーーー
ちなみに、ポクの子孫のエクセル星人は、
EXCEL関数にUNICODE関数があって
それの逆関数だけど、EXCELはJAVASCRIPTじゃないしーー
て、ゆぅか、SHIFT JIS関数なんてのは
存在しないぽぃぞ。んーーー
ANSIとか、今どうなっちゃったの❓
地球から消えてるぞーーー。関数がない。

でも、手元のデータは、SHIFT JISダラケだ。
因みに、JIS X 0208とかいうJISコードの
関数は、今でも存在する。
UNICODE関数ぢゃなくて、単にCODE関数。
てか、SHIFT JISとかUTF8とかグダグダな仕様なのに
なんで、そんな文字が地球のファイルに
沢山有るんだろ。へんなの

BY 🟦🟦🟦🟦 初登場かものミクロ星人でした--ー

**デフォルトの名無しさん** · 2024/07/10(水) 14:33:40.87

バイナリファイルがShiftJIS なんだけど、普通のJavascriptでそれ表示ダメぢゃーーーん
仕方ないから　ShiftJISをUTF16に変換するJAVASCRIPT作るハメになった
ShiftJISからUTF16への変換って規則性がヤバイってyouか
規則性がナイようだ。
ま、第２〜４水準までやるのは面倒なので、
英数字と第１水準とついでにやる程度にサポートを絞り込み
ShiftJISからUTF16への変換するのを作るハメになった
てか、javascri◯tって使えねー
てか、ShiftJISが使えないんだよな。　日本語終わった-ーの❓

**デフォルトの名無しさん** · 2024/07/10(水) 16:22:45.34

javascriptはオワコン

**デフォルトの名無しさん** · 2024/07/10(水) 20:27:52.97

お前がオワコン

**デフォルトの名無しさん** · 2024/07/10(水) 21:16:54.00

バイナリファイルがShiftJISってどういう意味よ
そもそも日本人が書いてるかすら怪しいが

**デフォルトの名無しさん** · 2024/07/11(木) 15:15:53.35

🤡チミは地球人だろ
👤オレハ、ウチュ〰ジン
🥳地球人ぢゃないのー❓
👤オレハ、チキュジンだから、オレハ、ウチュ〰ジン
🤡んー、ヒトは動物だけど、チミは❓動物❓
👤ウチュ〰ジンハ、ショクブツデハ、ナイアル
🤡ま、あのファイルのオフセット0〜253byteは、
あのファイルの元となったファイル名で、
ファイル名はテキストだから、それはバイナリとゆうか
テキストで、簡単には、shift jisだ。
👤てか、テキストファイルを暗号化したら、
テキストファイルではなくバイナリファイルだろ
地球人、ニホンゴヘンある。
🥳てか、地球人は言語力は能力は無アルねぇ！
👤ま、あのオフセット0〜253byteㇵ、
1byte文字つまり半角は、0x00を付加して2byteとし、
2byte文字つまり全角は、とにかくansiだな。
それで、全ての文字を2byte/文字としたunicodeだ
uni uni uniコードだ
🥳ウチュ〰ジン、イミフ明。すごいー。
🤡てか、あれ、FAT32 WIN98SE OFFICE97頃に
作成されたファイルだ。
今風に翻訳すると、SHIFT JIS + UTF16 ポぃ感じ
ま、第１水準漢字と半角英数字+α程度しか
使ってないないので、解読は、割と楽勝
🥳絵文字は❓
🤡そもそも、そんなの当時は存在しない

**デフォルトの名無しさん** · 2024/07/11(木) 21:53:13.04

>>832
これって、どうなっちゃってるの?
「異体字には別のコードポイントを与えない」っていうからIVSを作ったのでは
でも結局それを真面目に守っているのは日本だけってこと? 中国は許されてる?

**414** · 2024/07/11(木) 22:38:44.84

もうそろそろ、Windowsのテキストファイルの文字コードは
BOM無しUTF-8ということに決定してもよろしいか？

**デフォルトの名無しさん** · 2024/07/11(木) 23:06:16.39

>>886
中国政府様が載せてくれないなら別の文字コード作って中国国内ではそっちを使うことを強制にするがよろしいか？
という強行姿勢を暗に匂わしたので折れて中国は好きなだけ漢字を申請できる方向になった
さらに一面まるまる使って漢字とは別に甲骨文字登録する方向で検討中

**デフォルトの名無しさん** · 2024/07/11(木) 23:08:05.64

>>887
Microsoft はとうにその方向に決定している
今は過渡期で古いのが混在している状態

**885** · 2024/07/13(土) 06:39:23.34

あれは、なんとか.caption内の文字を
Asc関数でコード化してファイルに格納。
結果、Shift Jisとなった。ようだ　by 👤
よく思い出せたな by 🤡

**デフォルトの名無しさん** · 2024/07/13(土) 15:57:55.69

>>889
さんくす

**デフォルトの名無しさん** · 2024/07/14(日) 06:38:37.28

ちぇっ、あのユニコードが、嫌いなのは、
3byte/文字　というのは、準建て前で
ホントの(嫌いな)理由は、
文字数が決まってもbyte数が変動するから。

て、ゆぅか、UTF8は、可変長だからUNICODE
ですなんて、デマは修正しようよ
てか、SHIFT JISも、半角と全角で
BYTE長が変わるから、UNICODEぢゃないけど
ま、1BYTE文字と2BYTE文字だけだから許してアゲル
て、ゆうか、UTF16のサロゲート、あれ何よ
１文字＝2BYTE という機能を喪失してるぢゃーーん。
て、ゆうか、メモ帳UTF8やめて、UTF16かつサロゲートなし
にしてさ、そうだ、第二〜第四水準漢字は、
絵文字を割り当てる、超最新UTF16を策定してよーー

ま、UTF32も惡くないけど、4byte/文字は
容量がデカい。ま、CPU的に今日は、64bitアドレスが
常識な今日おいて、UTF32、UTF64もアリと
言いたいとこだが、ファイル容量的なことを
考慮すれば、UTF32は惡だっちゅーーの
てゆぅか、UTF8にするぐらいなら
メモ帳は、ASCii 7bitだけサポートして
UTF7 にしなよーーー。
サクサク、動くかな。てか現状でも
メモ帳はサクサクだし、変更反対
てか、サロゲートなしUTF16でいいぢゃーん
絵文字は、第二〜第四水準を喪失させて
それに割り当てる。
なんて、なんちゃら真偽会は決断するわけないけどさーー

**デフォルトの名無しさん** · 2024/07/14(日) 09:14:35.59

>UTF8は、可変長だからUNICODE

こんなこと言ってる馬鹿は診たことが無い

**デフォルトの名無しさん** · 2024/07/15(月) 06:09:48.96

number(Asc("８８７"))って🇨🇳人ぽぃ
訛の文章だから、ヨイ在る。てyouか、

Windowsのテキストのファイルの
文字のコードのUTF8のBOMの有無は、
無でヨイ、在る

Windowsのテキストのファイルの
文字コードのAnsiのBOMの有無も、
無でヨイ、在る

でも、何でも、BOM無しでも、ヨイ有る

by 🇨🇳チコゴクセジン　　アル　アル

**デフォルトの名無しさん** · 2024/07/15(月) 22:11:52.14

U+3316㌖のような単位を1文字にしている組み文字は
新聞で紙面を節約するためにあるのかな

**デフォルトの名無しさん** · 2024/07/16(火) 15:07:23.43

>>895
K-JISというやつですか
UnicodeのライブラリでNKFCやNKFDするとちゃんと「キロメートル」になるねえ
そういえば例の「ﷺ」はUTF-8で33バイトにもなった
「キロメートル」は18バイトだからまだまだかわいいものか

**デフォルトの名無しさん** · 2024/07/16(火) 20:56:36.72

容量の単位が㎇までしかないのが時代を感じる

**デフォルトの名無しさん** · 2024/07/16(火) 21:05:36.26

合字を用意する意味がない

**デフォルトの名無しさん** · 2024/07/17(水) 09:30:17.34

BOM無しUTF-8がデファクトになってすげえ大迷惑
SJUSと混在で使ってるとVSCodeが文字化けしまくりだし誤って上書き保存すると二度と元に戻せなくなるし

**デフォルトの名無しさん** · 2024/07/17(水) 13:01:23.25

>>899
では、どういう状況になれば大迷惑でなくなるのか？

**デフォルトの名無しさん** · 2024/07/17(水) 13:11:18.27

そりゃその話の流れだとbomありutf8でしょ
ま広まらないと思うけど悪くはない
utf8にbomは不要という原理主義は頭固い

**デフォルトの名無しさん** · 2024/07/17(水) 17:18:07.90

SJISを無くす努力をしよう

**デフォルトの名無しさん** · 2024/07/17(水) 19:46:49.14

>>901
EUCを壊滅させたLinuxや、Appleから「もうSJISなんて面倒見んからな」と念を押した
MacがBOM付UTF-8を採用しなくて、その流れのままマルチOS対応ソースが一般的に
なってWindowsにも降ってきたから諦めろというしか。
　MSはやることやったが、10年以上かけてもGitHubとか使わない大半のユーザが
UTF-8どころかBOM付UTF-8にもそっぽ向いてSJIS使い続けたのが悪い。

**デフォルトの名無しさん** · 2024/07/17(水) 20:36:38.73

github とか関係無くて
internet は UTF-8 (BOMなし) で国際化するのが当然という風潮が10年くらい前からできてる
サーバーまわりが Linux に占拠され、クライアントも主流の android や iOS が UTF-8 以外まともにサポートしてないのが大きい
孤立した世界なら良いが他と通信する前提なら他と文字コードを揃えておくのが楽
Windows はもうマイナー環境だということを自覚するべき

**414** · 2024/07/18(木) 07:11:14.05

少し盛り上がって参りましたｗ

**デフォルトの名無しさん** · 2024/07/18(木) 19:11:06.46

>>903
日本語と中国語が混ざる現象が新しい問題

**デフォルトの名無しさん** · 2024/07/18(木) 19:13:00.64

>>904
それは元がマルチバイト文字圏でなかった地域が主導しているからだよ

英語圏ではUTF-8かどうかすら意識せずに文字が書ける