文字コード総合スレ part15

**デフォルトの名無しさん** · 2025/12/20(土) 20:06:56.48

>>514
> 文字コードは文字の解釈ではなく「文字」を規定している
そうだとして、これだとunicode内に矛盾を生じる。
つまりは正規化の問題だが、

が (0x304c) と
が (0x304b,0x3099)

は(人間にとっては)同じ文字だが異なる文字コード(＝unicodeでは別文字扱い)になってるだろ。
だから正規化の問題はあちこちで発生しまくってるわけだけども。
これは仕様がKISS/驚き最小の原則に反してるからバグの温床になってるのもあるが。

そもそも人間が使っている文字は表音文字(アルファベットや平仮名)か表意文字(漢字)であって、
音も意味も無関係なただの文字(unicode、或いはQRコードのようなビットパターン)ではない。
だから完全分離して綺麗にマッピングしようとしてもかなり無理があって、実際ろくでもないことになってる。
(勿論これでも頑張った方なのは認めるけども)