文字コード総合スレ Part12

**デフォルトの名無しさん** · 2018/12/17(月) 16:48:24.47

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 http://mevius.5ch.net/test/read.cgi/tech/1516629503/

◆QZaw55cn4c · 2021/05/12(水) 20:16:47.61

>>966
＞せっかくUTF-16に統一しようとしていたのに

後世の模範となる康熙字典ですら 4万7035 字が収録されているというのに、UTF-16 の 6万5536 文字のキャパシティの面では圧倒的に足りないのでは？
世の中に存在する文字、かつて存在した古代文字を全部残らず収録する、という姿勢にしては、UTF-16 は「しょぼい」としかいいようのないキャパですね…

CJK 漢字統合なんて、東洋人からみればひたすら「醜い」の一言
「UTF-16 に統一」という基本設計、あるいは基本思想の時点で既に「根本的に間違っている」と私は結論づけます

そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…

◆QZaw55cn4c · 2021/05/12(水) 20:17:23.50

>>969
wchar_t は死産でしょう‥‥

◆QZaw55cn4c · 2021/05/12(水) 20:18:07.73

>>975
×馬鹿メリカ式
◎ダメリカ

**デフォルトの名無しさん** · 2021/05/12(水) 20:22:17.19

UTF-16 の最大文字数は 6万5536を遥かに超えるんだが
基礎知識がないやつとは、話にならんかな

**デフォルトの名無しさん** · 2021/05/12(水) 20:39:17.81

昔に 65536 で十分ってアホなこと言い出したやつがいたのが、今の UTF-16 っていうヘンテコ文字コードができた原因だろ。
結果は、ごらんの有様。

**デフォルトの名無しさん** · 2021/05/12(水) 20:41:59.59

UTF-8ができたのはUTF-16の後な
最初はUTF-32と同じ文字数を表現できるようにしたが
最終的にUTF-16と同じ文字数に変更した
UTF-8とUTF-16が扱える文字数は同じ

**デフォルトの名無しさん** · 2021/05/12(水) 21:12:17.60

えっなにこの流れ
UTF16で扱える文字数とUTF32で扱える文字数が違うとか言い張ってる人がいるように見えるんだけど
そんなことがあるの？？

**デフォルトの名無しさん** · 2021/05/12(水) 21:17:37.12

https://ja.wikipedia.org/wiki/CJK%E7%B5%B1%E5%90%88%E6%BC%A2%E5%AD%97

1984年、ISOの文字コード規格委員会 (ISO/TC 97 - SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える
文字コード規格 (ISO 10646) を作成することを決定し、専門のワークグループ (WG2) を設置した。
当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。
しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し、
1989年、各国の漢字コードを統合した漢字集合HCCのアイデアを提案した。

1990年、完成したISO 10646の初版ドラフト (DIS 10646) では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。
しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、
今後の漢字コードの方針を決めるため、ワークグループはCJK-JRGと呼ばれるグループを別途設置し、そこで引き続き検討することにした。

**デフォルトの名無しさん** · 2021/05/12(水) 21:37:03.94

ごめん誰か馬鹿な俺のために
(1) UTF16で表現できるがUTF32で表現できない文字
(2) UTF32で表現できるがUTF16で表現できない文字
を具体的に例示してもらえないだろうか

サロゲートペアなんてもう20年以上前には登場してたよね？
最大65536文字とか言ってる人は頭が平成１桁時代のまま取り残されてるの？

それとも、IVSや絵文字が絡むとUTF32で表現できない文字が出てきたりするんだっけ・・・？（こっちは自分が不勉強ゆえ自信なし）

**デフォルトの名無しさん** · 2021/05/12(水) 22:41:39.87

>>961
変電・配電設備だって永遠に運転できる訳じゃない。
老朽化したら修理や建て直しぐらいするから、そのタイミングで変えていけ。
一斉にやるんじゃなくて、局所的に分けて10年～15年ぐらいかけてやればいい。
その間は隣の市から電気もらうのもOK。

>>963
「円」じゃなくて基準を「金」に戻すかな。
単位に関しては世界標準無視かよ？

>>966
正直、UTF-8でもUTF-16でもUTF-32でもまったく新しい文字コードでもいいよ、統一できるなら。
何ちんたらちんたらやってんだよ？

>>967
よし、今すぐ回線切ってﾀﾋね

**デフォルトの名無しさん** · 2021/05/12(水) 22:42:55.43

>>974
βだろうがMO/MDだろうが、必要となったときに変換すりゃいいだけだろ。
少なくともその「必要となったとき」に吸い上げて変換した上で別の媒体に保存すればいい。
新しい文書は当然古い文字コードでは一切書かせてはいけない。
SJISなんぞ使った日にゃ秘密警察が見つけ出して206個ある骨をすべて砕く刑に処す。

>>975
その指摘は正しい。
ただ、一番正しい日付の表示法はヨーロッパ式で、
次に正しいのはお前が指摘しているアメリカ式で、一番馬鹿なのが日本式。

>>982
正確に数字で話せ。
で、真面目な話になるが、その中で最長の文字数を扱える文字コードはどれだ？
その最長の文字数でこの世のありとあらゆる文字は表現できるのか？
また、その最長の文字数を扱える文字コードだとデータ処理は遅くなってしまうのか？

**デフォルトの名無しさん** · 2021/05/12(水) 23:15:30.39

ISO8601よりヨーロッパ式を推すとはたまげたなあ

**デフォルトの名無しさん** · 2021/05/12(水) 23:28:53.01

場末の掲示板の場末の板でイキってるんだから可愛いよね

**デフォルトの名無しさん** · 2021/05/12(水) 23:30:48.38

>>982
>UTF-8ができたのはUTF-16の後
それ何のジョーク？
UTF−16(サロゲートペア)方式が公開されたのは UTF−8 方式の4年後なんだが。

**デフォルトの名無しさん** · 2021/05/13(木) 00:55:59.37

>>978
C++のcwcharヘッダーからもわかるとおり、wchar_tは規格の一部

**デフォルトの名無しさん** · 2021/05/13(木) 05:07:38.90

>>990
https://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt

> Looking around at some UTF-8 background, I see the same incorrect
> story being repeated over and over. The incorrect version is:
> 1. IBM designed UTF-8.
> 2. Plan 9 implemented it.
> That's not true. UTF-8 was designed, in front of my eyes, on a
> placemat in a New Jersey diner one night in September or so 1992.
>
> What happened was this. We had used the original UTF from ISO 10646
> to make Plan 9 support 16-bit characters, but we hated it.

要約 16bitのUTFを使っていたが嫌いだったからUTF-8を作った

**デフォルトの名無しさん** · 2021/05/13(木) 09:13:48.13

で、どこに 16bit の "UTF" って書いてあるの？
勝手に UTF を補完すんな。その頃は UTF-16 はまだ存在してない。

**デフォルトの名無しさん** · 2021/05/13(木) 11:09:24.10

>>988
ああ、ISO8601よりもヨーロッパ式の方が断然いい
なんだ、その理由も分からないのか？

**デフォルトの名無しさん** · 2021/05/13(木) 11:13:36.80

>>989
場末の掲示板の場末の板で呟いているお前の方がよっぽど可愛いわ
せめて俺に直接レスしたらどうだ、この臆病者がｗ

**デフォルトの名無しさん** · 2021/05/13(木) 13:46:00.24

成立順
UCS-2(かつてのUnicode)→UCS-4→UTF-8→UTF-16→UTF-32
ってことかな？訂正よろ

**デフォルトの名無しさん** · 2021/05/13(木) 13:51:48.50

>>980
そのせいで shift_jis と同じ失敗を繰り返した訳だ

**デフォルトの名無しさん** · 2021/05/13(木) 14:28:18.42

>>997
同じ失敗って何？
shift-jisみたいに2文字目の判定に時間がかかったり読み違えたりする可能性はないと思うけど

**デフォルトの名無しさん** · 2021/05/13(木) 14:49:45.53

>>996
その書き方だと UCS-4 == UTF-32 かな。
正確には UCS は符号化文字集合で UTF は符号化方式だけど。

**デフォルトの名無しさん** · 2021/05/13(木) 14:57:26.65

文字コード総合スレ part13
https://mevius.5ch.net/test/read.cgi/tech/1593777227/

**1001** · Over 1000

このスレッドは１０００を超えました。
新しいスレッドを立ててください。
life time: 877日 22時間 9分 2秒