文字コード総合スレ part14

**デフォルトの名無しさん** · 2023/03/03(金) 15:46:58.08

Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/
文字コード総合スレ Part12 https://mevius.5ch.net/test/read.cgi/tech/1544931495/
文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/

**デフォルトの名無しさん** · 2023/05/19(金) 16:15:02.50

ネタとして楽しむためには正しい知識がいる、という

**デフォルトの名無しさん** · 2023/05/20(土) 00:06:13.39

文字コード奥深過ぎだなアニメ化して欲しい

**デフォルトの名無しさん** · 2023/05/20(土) 13:16:12.40

IVSなめんな

**デフォルトの名無しさん** · 2023/05/20(土) 13:31:47.35

ペロッ...これは、0xE0100で修飾された異体字!!

**デフォルトの名無しさん** · 2023/05/20(土) 13:52:04.98

文字コードソムリエですね

**デフォルトの名無しさん** · 2023/05/21(日) 20:48:13.44

\ソムリエ

**デフォルトの名無しさん** · 2023/05/23(火) 23:24:40.51

漢字構成記述文字 IDSは何処かで有効活用されているのですか？

今の字体の見た目の直感と違うのですが
黒 →⿱里灬ダメ？

https://kanji-database.sourceforge.net/ids/ids-analysis.html
>解字ＩＤＳデータは、UCS漢字を、字の成り立ちからIDS化する作業を行っています。

U+09ED1 黑 ⿱𡆧炎會意 3840010
U+09ED2 黒 →黑
https://github.com/cjkvi/cjkvi-ids/blob/86b4d16159f0079437870408f0ca186e529015db/ids-analysis.txt#L18185

**デフォルトの名無しさん** · 2023/05/24(水) 23:52:15.53

見た目じゃなくて成り立ちだから歴史的経緯からIDS化してるんじゃね

**デフォルトの名無しさん** · 2023/05/27(土) 01:16:15.20

簡体字制定時にも過度の正規化に反対する良心的な人もいたみたいだけど…結果は文化継承お構い無しむしろ断絶こそ業績みたいな御用学者に押し切られた？わけで
一旦決まったからはあの面子の国、則天文字やルイセンコ学説宜しく滅ぶまで使い続けるんだろな
という訳で今すぐ滅びろ

**デフォルトの名無しさん** · 2023/05/27(土) 06:31:36.72

二簡字ぐらいいくとかっこよくも見えてくる

**デフォルトの名無しさん** · 2023/05/27(土) 14:22:30.10

utf-8が標準だと思ってたけど昨日Excel見たらutf-8じゃなくてビックリした

**デフォルトの名無しさん** · 2023/05/27(土) 15:25:11.32

メモリ上の内部コードはしらんけど
xlsxはXMLだからUTF-8じゃない？

**デフォルトの名無しさん** · 2023/05/27(土) 19:18:50.92

文語で「じゃない」を使うおじさん

**デフォルトの名無しさん** · 2023/05/27(土) 22:18:54.32

お姉さんの可能性あるで
俺もお姉さんだし( ･`ω･´)

**デフォルトの名無しさん** · 2023/05/27(土) 22:19:28.39

>>291
他の人のExcelも今度確認してみるわ

**デフォルトの名無しさん** · 2023/05/28(日) 11:38:12.73

XML は BOMつき UTF-16 も許されてるんじゃなかったっけ？
BOM無しなら UTF-8 だったか

**デフォルトの名無しさん** · 2023/05/28(日) 21:52:09.12

excelは昔からさまざまな文字コードに対応してる
高い互換性を維持し続けてる
それがMSの強さ
こういうところはUnixとかLinuxとかOSSでは
太刀打ちできない

**デフォルトの名無しさん** · 2023/05/28(日) 22:53:12.34

>>296
emacs だってexcel 以上に多種多様な文字コードに対応してるし、linux (glibc)の対応ロケールと文字コードの数は windows より多いぞ。
無知が擁護するとMSの格が下がるのでやめとけ。

**デフォルトの名無しさん** · 2023/05/28(日) 23:26:13.89

>>291
そうだね。実際には階層的になったXMLをzipにしてあるけど

んでXMLの中をよく見るとxlsxを作成したローカルのパスが書かれていたり。キモっ
おっと文字コード関係なかったw

**デフォルトの名無しさん** · 2023/05/29(月) 01:28:07.80

Microsoft が互換性重視とか最近のブラックユーモアは笑えないなぁ
ASCII との互換性を切捨てて UTF-16 にしようとして失敗したり
5年以上前のCPUは Windows 11 ではサポートしません、買い替えてくださいとか言い出したり
その頃 linux では33年前の CPU の 80486 の互換性はそろそろ切って良いのではという議論をしてた。

**デフォルトの名無しさん** · 2023/05/29(月) 12:46:50.20

2012年頃?
Windows10 が最後の Windows バージョンです(キリっ

**デフォルトの名無しさん** · 2023/05/29(月) 13:52:34.19

MSはJIS X 0213:2012のIVSに
Wordが早く対応したりしてそれほど悪い印象はない
しかしパス名が未だにCP932系なのは何とかならんのか

**デフォルトの名無しさん** · 2023/05/29(月) 14:43:43.87

>>301
ロケール設定とアプリの問題じゃないの？

**デフォルトの名無しさん** · 2023/05/29(月) 15:27:55.29

近年のMSは、昔からの独自仕様での高い互換性よりも、オープンソース＆標準準拠を進めているのは良い

**デフォルトの名無しさん** · 2023/05/29(月) 21:29:10.05

>>302
日本ロケールだとNTFSのパス名がShift JIS

**デフォルトの名無しさん** · 2023/05/29(月) 21:38:29.70

ファイル名で使用される文字セット
https://learn.microsoft.com/ja-jp/windows/win32/intl/character-sets-used-in-file-names

＞ NTFS では、Unicode にファイル名が格納されます。

**デフォルトの名無しさん** · 2023/05/29(月) 21:41:41.73

>>304
そういうのはコンソールやアプリ側のエンコーディング設定であってな...

**デフォルトの名無しさん** · 2023/05/29(月) 21:58:43.15

UTF16はMBCSと共存しており切り捨てた訳ではない
windows11で64bit版だけになるまで16bitアプリも動かせてたわけで
そもそもソースレベルでしか互換性を保てないのがLinux
Linuxは当初はEUCだったと思うけど当時の日本語対応ソフトが今のUTF8で動くかい？

**デフォルトの名無しさん** · 2023/05/29(月) 23:12:48.07

>>307
あほ？ EUC-JPアプリって何？
２0年前にコンパイルされたアプリが一切の改変無く、EUC-JP でも、UTF-8 でも SJIS でも動くんだが？
ロケールの切り替えとか知ってる？

**デフォルトの名無しさん** · 2023/05/30(火) 07:55:17.64

>>308
Linuxで20年前にコンパイルしたバイナリが今のLinuxで動く？
冗談はやめてほしい
百歩譲ってロケール切り替えで動くとして今のUTF8前提のアプリと共存出来ないでしょ
Windowsだったら20年前のMBCSのソフトもそのまま動くよ
当然Unicodeのソフトも動く
Ubuntuが32bitCPUのサポートカーをきったのは5年くらい前だっけ
Windows11より速いですね
あとマイクロソフトがMBCS切り捨ててUTF16一本にしようとしたってのは初耳ですが根拠を出してほしい

**デフォルトの名無しさん** · 2023/05/30(火) 08:50:00.67

>>309
技術がないやつは、これだから。
お前の技術が足りないのをOSのせいにしてるだけだな
全部できるぞ。俺が実際使ってるし
Ubuntu で32ビットアプリも動いてるよ

**デフォルトの名無しさん** · 2023/05/30(火) 09:40:11.60

コンパイルしたなら文字コード関係なくそりゃ動くわな。
スクリプト言語なら知らんが。

**デフォルトの名無しさん** · 2023/05/30(火) 10:48:25.25

スクリプト言語のが文字という概念があるから
ロケールみて外部入出力ちゃんと取り持ってくれそう
昔のプログラムはバイトストリームで処理してるから問題ないだけで
ロケールなんてgettextで文言変わるくらいにしか利用してない

**デフォルトの名無しさん** · 2023/05/30(火) 12:45:01.53

>>309
冗談は辞めてほしい
君が何も知らないのはよく分かった

**デフォルトの名無しさん** · 2023/06/07(水) 04:27:17.54

タイトルに付いていたらあ、クソだなと思うもの
異世界
チート
転生
のんびり
最強
スローライフ
無双
ギルド
追放
スキル
おっさん
勇者
魔王
賢者
魔術師
錬金術
聖女
奴隷
悪役令嬢
婚約破棄

**デフォルトの名無しさん** · 2023/06/07(水) 17:58:56.39

遅くとも<title>までにはエンコードを確定できるワードが欲しいね

**デフォルトの名無しさん** · 2023/06/18(日) 09:23:53.16

どす恋！

**デフォルトの名無しさん** · 2023/06/22(木) 20:17:25.79

>>312
> 昔のプログラムはバイトストリームで処理してるから問題ないだけで
> ロケールなんてgettextで文言変わるくらいにしか利用してない

あっさり言ってくれちゃってますが
Ken Thompson大先生の大発明UTF-8以前は
みんな処理系から実行系まで
USC-2対応に書き換えるつもりだったんですよ?

凄く簡単なアイデアだけど着眼点がシャープ

それから商業UNIXのm17nは徹底的なもので
grepなんかも各言語、各文字コード対応だった

**デフォルトの名無しさん** · 2023/06/22(木) 20:30:09.06

👁－－－－－－－－→

**デフォルトの名無しさん** · 2023/06/22(木) 23:18:43.47

昔のプログラムはバイトストリームで処理してるから問題ない？
そんなわけないだろ
正規表現の.とかUTF-8の一文字に対応させんといかんから
ほとんどのプログラムに修正が必要だぞ
今も修正できてないコマンドはいくらでもある

**デフォルトの名無しさん** · 2023/06/23(金) 00:24:16.74

相手が変なこといってるなと感じたら
じぶんが拾えてない情報がないか確認するよねふつう

**デフォルトの名無しさん** · 2023/06/23(金) 00:39:25.84

ふわっとしてんな

**デフォルトの名無しさん** · 2023/06/23(金) 05:42:45.03

>>320
お前、もしかして相手が変なことを言っていると感じているのか？

**デフォルトの名無しさん** · 2023/06/23(金) 11:06:55.50

>>317
みんな突っ込まないでくれているけど
USC-2 → UCS-2

**デフォルトの名無しさん** · 2023/06/23(金) 11:12:13.58

>>323
タイポとか誤変換とかに突っ込んでたらきりがないのでわかってるぽいのはスルーで
無理に訂正する必要もないよ

**デフォルトの名無しさん** · 2023/06/23(金) 13:39:13.07

なーんだ、てっきり南カリフォルニア大学ことかと思っちゃった

**デフォルトの名無しさん** · 2023/06/23(金) 13:40:28.91

のw

**デフォルトの名無しさん** · 2023/06/23(金) 16:35:16.14

このスレに来る人はICUを集中治療室とか国際基督教大学とは思わないから安心しろ

**デフォルトの名無しさん** · 2023/06/23(金) 16:49:42.58

UTF-8がASCII互換っていうのはASCII部分のみが互換っていう意味で
ASCIIだけを使ってるなら動くってことだよ
ASCII以外の漢字部分までASCII互換になるわけがない
そもそもASCIIに漢字なんて無いんだから
漢字は別途対応、もちろん漢字だけじゃなくて絵文字とかも含むからね

**デフォルトの名無しさん** · 2023/06/24(土) 15:50:27.65

これで気兼ねなくATMの話ができます！

**デフォルトの名無しさん** · 2023/06/24(土) 15:54:00.59

>>319
正規表現とか使ってなければ問題無いだろう
ほとんどのプログラムに修正が必要は大げさ

**デフォルトの名無しさん** · 2023/06/24(土) 16:15:39.62

昔のプログラムがバイトストリームで処理してると思っているあたりが素人くさい。
MS-DOSの話してるんだろうか？

**デフォルトの名無しさん** · 2023/06/24(土) 17:49:25.13

>>330
ASCII以外の文字を扱う全てのプログラムに修正が必要

**デフォルトの名無しさん** · 2023/06/25(日) 09:29:11.85

>>331
昔も今もバイトストリームだろ
じゃなきゃバックスラッシュと円記号が同一視されるはずがない

**デフォルトの名無しさん** · 2023/06/25(日) 11:58:16.15

>>333
小学生でもそんなこと言わんぞ
「文字コード」って聞いたことあるか？

**デフォルトの名無しさん** · 2023/06/25(日) 13:42:41.66

多バイト文字の処理が念頭にあるんだろうけども
改行含めてASCIIの範囲でマッチできれば成立するプラグラムの方が大半な気がする
catやcpなんて文字コードなにそれだし

**デフォルトの名無しさん** · 2023/06/25(日) 17:28:04.26

うん。だからテキスト処理関係のフィルタコマンドだよ
grepとかsedとかawkとかtrとかcutとかsortとか
そこいらは全部修正が必要

**デフォルトの名無しさん** · 2023/06/25(日) 17:56:47.65

>>336
お前どこのツール使ってるの？
オレの sort とかのツールはちゃんとロカール対応してるけど？

**デフォルトの名無しさん** · 2023/06/25(日) 19:33:55.93

>>329
それは回線にモデルとかISBNとか使ってた頃の遺物だろww

**デフォルトの名無しさん** · 2023/06/25(日) 19:53:24.27

ぼくは雑誌コード

**デフォルトの名無しさん** · 2023/06/25(日) 19:59:23.87

>>337
だからロケールに対応する修正が入ってるから今は動くようになってるんだろ
UTF-8がASCII互換だからって、何も修正しないで動くわけじゃないって話をしてる

**デフォルトの名無しさん** · 2023/06/25(日) 20:41:53.62

>>340
Unix 系はunicodeとか発明される以前の昔からロカールあったろ？お前のは無かったの？
UTF-8 きても対応文字コードが増えた以上の変化はないぞ

**デフォルトの名無しさん** · 2023/06/25(日) 21:34:04.71

>>336
ほとんどのプログラムって言っていたのが随分と対象が減ったな

**デフォルトの名無しさん** · 2023/06/25(日) 21:49:59.79

>>341
昔にロケールなんて概念ねーよｗ
あったとしてもASCIIしか考慮してないプログラムは
ロケールに対応してない

**デフォルトの名無しさん** · 2023/06/25(日) 21:54:46.00

どうせ今の話しか知らんくせに
やってみたら動いているみたいだから
昔から対応していたみたいの思ってるんだろうけど
これとか読んだら？

GNU Coreutils - Multibyte/unicode support
https://crashcourse.housegordon.org/coreutils-multibyte-support.html

**デフォルトの名無しさん** · 2023/06/25(日) 21:56:04.00

多くの人の努力によってようやくUTF-8に対応しつつあるというのに
ASCIIのままのプログラムでUTF-8でも動くとか

あーほみたいじゃなくて、あーほ

**デフォルトの名無しさん** · 2023/06/25(日) 22:09:28.31

>>343
unicode や UTF-8 よりロカール機構の方が古いって本当に知らないの？
調べもしないの？恥ずかしくない？

**デフォルトの名無しさん** · 2023/06/25(日) 22:10:52.26

>>346
古いって知ってるがそれがなにか？
古かったら、対応しなくても動くんですか（笑）

**デフォルトの名無しさん** · 2023/06/25(日) 22:18:03.54

だいたいASCIIにしか対応してないプログラムって言ってんだから
ロケールにも対応してないに決まってるだろ
頭悪そうじゃなくて、頭悪い。

**デフォルトの名無しさん** · 2023/06/25(日) 22:22:23.09

>>345
gnu や linux は商用unixの後追いで互換ツール作ってたんだよ。商用unixは皆対応できてた。
こっちとら linux の黎明期に glibc や gnu tool の locale 実装手伝ってたりしたんだが、お前何やったの？

**デフォルトの名無しさん** · 2023/06/25(日) 22:24:10.92

>>349
話をすり替えんな
お前がやった仕事は大したことじゃないんだろ？ｗ
だってASCIIに対応していれば、そのまんま動くんだからな！

**デフォルトの名無しさん** · 2023/06/25(日) 22:25:47.25

俺が何をやったかだって？
お前よりすごいことをしていたよ
守秘義務があるから言えないけどなｗｗｗ

**デフォルトの名無しさん** · 2023/06/25(日) 22:25:52.06

>>348
336の話してるんだが、どこで言ったの？脳内？ ASCII しか対応してないって何時の時代の話？お前何か参加したの？

**デフォルトの名無しさん** · 2023/06/25(日) 22:30:06.30

> ASCII しか対応してないって何時の時代の話？
まさか全アメリカ人がUTF-8に目覚めたとでも思ってるのか？ｗ

**デフォルトの名無しさん** · 2023/06/25(日) 22:31:57.20

今もUnicode・UTF-8に非対応で、
本当は一文字なのに三文字とか間違える実装を知らんのだろうな

**デフォルトの名無しさん** · 2023/06/25(日) 22:34:23.36

漢字1文字が最大8バイト、Unicodeの「IVS」とは？
https://xtech.nikkei.com/it/article/COLUMN/20100126/343783/

**デフォルトの名無しさん** · 2023/06/25(日) 22:34:25.42

UTF-8 が来た時には既に locale があった
locale に対応していたれば同じバイナリで UTF-8 も扱えたので、UTF-8 に対応するめの改修とかする必要なかった

**デフォルトの名無しさん** · 2023/06/25(日) 22:37:12.38

個々のツールを改修する必要はなくて、OS側のライブラリを改修することで対応するという基本的な考え方が理解できてないんだろうな。

**デフォルトの名無しさん** · 2023/06/25(日) 22:40:53.01

どうやらASCIIしか考慮してないプログラムは
そのOS側のライブラリを使ってないということに
思い至らないようだｗ

それともなにか？printfをロケール対応に
仕様変更するきかね？ｗｗｗ

**デフォルトの名無しさん** · 2023/06/25(日) 22:41:32.64

>>335
wc

**デフォルトの名無しさん** · 2023/06/25(日) 22:42:37.03

UTF-8 が来た時には既に locale があった
だがlocale に対応していないプログラムがたくさんあった

**デフォルトの名無しさん** · 2023/06/25(日) 23:21:26.81

>>360
で336のうちどれの話？

**デフォルトの名無しさん** · 2023/06/26(月) 10:16:30.84

>>358
ISO/IEC 9899:1990/Amendment1:1995(C95)の7.9.6.1と7.9.6.3より
printfの仕様はロケール対応では?

%sの代わりに%lsでワイドキャラクタを扱える

**デフォルトの名無しさん** · 2023/06/26(月) 10:35:51.62

>>358
商業UNIXはlibcレベルから各文字コード対応だったんだよ

**デフォルトの名無しさん** · 2023/06/26(月) 10:39:44.57

なんかCの仕様をわかっていない人がいるような

Cのプログラムをロケールを利用した国際化対応するには冒頭でsetlocale()を
呼ぶだけでなくて、文字をcharではなくwchar_tで扱い、fgetsの代わりにfgetwsを
使うなどワイドキャラクタ対応のw系関数で文字を処理するに変更するか、printfや
scanf系関数で%sの代わりに%lsで扱う

Cのユニコード関連の仕様はISO/IEC 9899:2011(C11)で導入され、6.4の\u,\U, u'',U''と
7.27のuchar.hで定義されたchar16_t, char32_tがユニコード関連
これらはロケールやwchar_tとは別概念なはず

**デフォルトの名無しさん** · 2023/06/26(月) 11:12:59.67

>>364
順番とか歴史を理解してる？
国際化するのに locale という仕組みが提案さてて wchar_t が導入され、OS標準ツールは言語や文字コードを切り替えられるようになった
その後に多言語化のために unicode と UTF-8 が出てきて locale 対応しているプログラムは変更なく多言語化できるようになった
比較的最近になって、もう新しいプログラムは unicode だけ対応していれば十分で locale 対応いらないんじゃね？という大雑把アメリカンな考えが出てきて char32_t みたいな仕組みが作られた
国ごとに仕組み違うし、言語ごとに文字の定義とか違うんだから unicode あっても locale 無くせないんだよ。というアメリカ以外からの当然の反発もあって
今は、真面目に国際化対応が必要なやつは locale, そんなん気にしなくて良いやつは生UTF-32, Windowsと互換性が最重要なら生UTF-16みたいな棲み分けになってる

**デフォルトの名無しさん** · 2023/06/26(月) 11:45:10.68

utf-8になってもロケールは必要だよね
言語や地域ごとに処理を変えないといけないから
例えば同じ文字を使っていても辞書順が違うことがある
発音記号の取り扱いとか

それからwchar_t+Unicodeのみで処理する枠組みはうまくいかなかった
ASCII文字だけ扱いたい時
Unicode以前旧世界との互換性
を考えると
結局世界はMBCSと付き合わざるを得ない事に納得し
wchar_t+Unicodeは速いindexingが必要な内部表現だけで使うことになった

**デフォルトの名無しさん** · 2023/06/26(月) 11:51:20.62

localeに対応しているlessコマンドはsjisファイルも読めるん？

**デフォルトの名無しさん** · 2023/06/26(月) 12:04:29.17

>>367
昔の商業UNIXにlessはなくてmoreだけど
ja_JP.sjis
に設定すれば

Solarisでは2byte目\問題もなかった
もちろん内部的にはMBCS stringとして扱ってる
euc-jpだってMBCSなのだから
ちなみにSolarisの場合はこの辺の処理は
ハードコーディングではなくテーブルドリブンだった

**デフォルトの名無しさん** · 2023/06/26(月) 12:07:04.06

ただこの辺の努力は全て水泡に帰して
GNU Linux全盛期に入ったわけだ
つまり文字コード対応はutf-8をベースにして
各言語対応は車輪の再発明をしなければならなかったし
まだ当時に追いついてもいない

**デフォルトの名無しさん** · 2023/06/26(月) 12:44:13.00

>>369
再発明とかはやってないぞ
普通に gnu tool も昔から locale 対応してるし、今もそう
ただ、まだマイナーなバグや使い難い仕様が一杯残ってるねってだけ。国際化でなくて、特に多言語化のまわりが熟れてない
ユーザーにも一部の開発者にも国際化と多言語化の違いとか、機構と文字コードの違いが良くわかってないやつがいて
本来は「多言語化に問題がある」というべきところを「UTF-8の処理に問題がある」という言い方をしがち

**デフォルトの名無しさん** · 2023/06/26(月) 12:54:23.97

ここでも知らんやつもいるかもしれないので、一応書いておくと
国際化(i18n): 文字コードとか言語とかを切り替えて使えるようにする機構
多言語化(m17n): 一つのテキストの中に複数の言語の文章を含めることができるようにする機構

**デフォルトの名無しさん** · 2023/06/26(月) 13:12:12.62

unicode という規格には
(A) 純粋に文字コードを定義している部分。どの文字にどのコードを割り当て、それをどのように符号化するか。UTF-8 は符号化の名前
(B) unicode を使ってどのように多言語化(m17n)を実現するかの部分。標準的な多言語化を提案する。IVSの対応とかはこっち
の2つが含まれてる。
今いろいろやってるのは (B) 側の話。UTF-8対応やってるんじゃなくて「多言語化」対応やってる

**デフォルトの名無しさん** · 2023/06/26(月) 16:20:01.13

多言語化は国際化に含まれますか?

**デフォルトの名無しさん** · 2023/06/26(月) 17:50:33.08

>>372
それもちょっと違うね
「(A) 純粋に文字コードを定義している部分」にUTF8は全く関係ない
そこでは各文字にコード割り当て定義されていてコードは一意に定まる
一方でUTF8やUTF16などはそのコードのエンコーディングの話であり文字コード割り当てとは独立した全く別の話になるね

**デフォルトの名無しさん** · 2023/06/26(月) 18:30:16.65

>>374
エンコードはコードじゃないという主張の人なの？珍しいな

**デフォルトの名無しさん** · 2023/06/26(月) 19:03:46.54

>>375
そこは全く異なるのがユニコードの基本
例えば「あ」はコードポイントU+3042と一意に定められている
これはエンコーディング方式に関係なく一意に定まる
エンコーディング方式が増えたり廃止されたりしても影響を受けない

一方でこのコードポイントを扱う時に環境や状況に応じて様々なエンコーディング方式を取ることができる
例えばコードポイントは16bitに収まりきらないので32bitに入れるのがUTF32
「あ」はコードポイントU+3042なのでUTF32だと0x00003042となる
UTF8は8bit前半をascii互換とし8bit後半の不定長列を非asciiに割り当てる
「あ」はコードポイントU+3042なのでUTF8だと0xE3 0x81 0x82となる

このようにコードポイント割り当てとエンコーディングは全く独立した別の分野

**デフォルトの名無しさん** · 2023/06/26(月) 19:14:59.15

>>376
それはISO-2022のフレームワークとさほど大差ない
特にShift JISも含めて考えた場合は

**デフォルトの名無しさん** · 2023/06/26(月) 19:27:42.67

バイト表現と文字コード体系は別の概念

**デフォルトの名無しさん** · 2023/06/26(月) 22:19:22.18

>>376
世間では一般的に
コードポイント(符号位置)＋エンコード＝文字コード
という認識なんだけどね。言葉の定義の問題なので、ここで議論しても始まらないか

**デフォルトの名無しさん** · 2023/06/26(月) 23:14:57.66

その感覚はないな
\uXXXXや数値文字参照で指定する値という認識じゃね？
コードポイントそのもの