文字コード総合スレ Part11

**デフォルトの名無しさん** · 2018/01/22(月) 22:58:23.45

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/

**デフォルトの名無しさん** · 2018/07/11(水) 22:21:59.51

大陸の人のちんこはやらかい印象がある

**デフォルトの名無しさん** · 2018/07/12(木) 02:46:54.78

ギリシャでは包茎が持て囃されたしね

**デフォルトの名無しさん** · 2018/07/12(木) 09:58:56.70

豚の膀胱が蹴鞠の材料だっけ

**デフォルトの名無しさん** · 2018/07/18(水) 22:57:34.06

新元号がUnicode12にギリ間に合わないから12.1出そうかって話が出てきたか

**デフォルトの名無しさん** · 2018/07/19(木) 01:23:42.91

この前危うく間に合いそうになってましたけどね

**デフォルトの名無しさん** · 2018/07/19(木) 06:57:15.79

えぇそんな一国の事情でUnicode様が右往左往されるのですか！？

**デフォルトの名無しさん** · 2018/07/22(日) 16:13:27.34

トルコリラの「も」みたいなやつ追加した時もほぼそれだけじゃなかったっけ？

**デフォルトの名無しさん** · 2018/07/25(水) 14:58:24.45

Adobe-Japan1-6 Is Expecting!
https://blogs.adobe.com/CCJKType/2018/07/adobe-japan1-6-is-expecting.html

えーAdobe-Japan1-7って新元号を追加するだけで終わりなのー？

**デフォルトの名無しさん** · 2018/07/25(水) 17:15:18.78

う、うん…(´・ω・｀)

**デフォルトの名無しさん** · 2018/07/25(水) 18:24:58.87

JIS X 0212 補助漢字の残りはいつになったら……(´・ω・｀)

**デフォルトの名無しさん** · 2018/07/25(水) 19:23:56.34

UTF-7の仕組みをはじめてしったが面倒くさいエンコードだった。
UTF-16と、BASE64に依存しててこれがなければ成立しないのかよ。
単体で存在するUTF-8とかと一緒かとおもってた。

**デフォルトの名無しさん** · 2018/07/25(水) 22:28:09.49

元号の組文字に先行リリースするほどの価値があるかなぁ
何にしろ早くAJ18出してよ

**デフォルトの名無しさん** · 2018/07/25(水) 22:55:41.73

元号の組文字使ってるとこあんの？

**デフォルトの名無しさん** · 2018/07/26(木) 00:34:28.84

来年の5月までまだ9ヶ月強あるのに今の時点でもうAJ1-7は2文字だけと決めてしまうなんて
候補の選定ってそんなに手間のかかるもんなのかねぇ

**デフォルトの名無しさん** · 2018/07/26(木) 20:55:22.84

どの言語圏であれ、国家が絡めば、Unicode界隈ではおおごとだよ。日本の元号だってまさにそう。
あの絵文字どうしますかね、とかそういうレベルじゃないから。

**デフォルトの名無しさん** · 2018/07/27(金) 01:59:49.37

元号も絵文字にしようよもう
覚えるの大変だよ

**デフォルトの名無しさん** · 2018/07/27(金) 02:29:56.02

そもそも漢字や象形文字は、一種の絵文字だけどね。

**デフォルトの名無しさん** · 2018/07/27(金) 02:40:46.86

そもそも論はどうでもいい

**デフォルトの名無しさん** · 2018/07/27(金) 03:15:50.87

AJ16が出て結構経つとはいえこの間JISの改訂があったわけでもないんで
意外とAJ18も数十～数百文字程度の小規模アップデートで終わるかも

**デフォルトの名無しさん** · 2018/07/27(金) 04:12:40.69

元号が絵文字になるとVSによって色黒な昭和とか女性的な明治とかが生まれるのか

**デフォルトの名無しさん** · 2018/07/27(金) 12:33:29.72

元号なんて漢字2文字並べて書けばいいからそんな急ぐ必要無いだろ。
組み文字はUnicode13以降でもいいだろ。

**デフォルトの名無しさん** · 2018/07/27(金) 17:48:33.71

大国であれ小国であれ、一国家の行政が絡んでいるという時点で、急ぐ必要があるんだよ。
なにしろ影響を受ける人の桁数が違う。

**デフォルトの名無しさん** · 2018/07/27(金) 19:18:57.24

元号組文字なんか使ってる奴いるの？

**デフォルトの名無しさん** · 2018/07/27(金) 19:32:41.17

役所やぞ

**デフォルトの名無しさん** · 2018/07/27(金) 19:45:53.97

文字の名前もグリフも未定だけどとりあえずコードポイントだけ押さえましたなんて
Unicode史に残る珍事だと思うわ

**デフォルトの名無しさん** · 2018/07/27(金) 19:56:54.08

影響を受けやすいような手段を一国家の行政が採用している無能さを棚に上げてるから駄目なんだ

**デフォルトの名無しさん** · 2018/07/27(金) 20:31:49.16

「ワシは知らん」とUnicodeが無視した場合、本来は1ベンダーにすぎないマイクロソフトがそのしわ寄せに対応することになり、
結局、マイクロソフトの独自拡張をUnicodeがしぶしぶ追認することになるので二度手間なんだよ。

**デフォルトの名無しさん** · 2018/07/27(金) 22:03:28.66

北朝鮮の将軍様専用ハングルとか数文字は国家規格に入ってるにも関わらず
未だにUnicodeに入れて貰えてないよな。

**デフォルトの名無しさん** · 2018/07/27(金) 22:09:52.68

元首の交代に伴って変更される紀年法をまだ使ってる国なんて他にあんのかね

**デフォルトの名無しさん** · 2018/07/27(金) 23:53:13.41

まず無いだろうけど、もし新元号が現時点でUnicodeに無い漢字を使うものになったら
統合漢字のURO末端に緊急追加になるだろうな。

**デフォルトの名無しさん** · 2018/07/28(土) 01:26:08.91

>>566
その前に国内のシステムがおかしくなるよ。
常用漢字から選んでくれないと。

**デフォルトの名無しさん** · 2018/07/28(土) 14:53:59.34

M明治
T対象
S昭和
H平成
A麻原

**デフォルトの名無しさん** · 2018/07/28(土) 14:57:49.43

ゆぁ～えーびぃ～すぃ～ん♪

**デフォルトの名無しさん** · 2018/07/30(月) 00:49:54.80

>>564
そういえばあれって三代目用の文字もあるのかな？

**デフォルトの名無しさん** · 2018/07/31(火) 17:52:18.88

将軍様専用ハングル以外にUnicode未収録文字は縞模様の三角とか謎の記号がいくつかあったな。
北朝鮮で使われてるRed Star OSではUnicodeが使われてるけどこれらはPUAに割り当てられてる。
因みにWindowsの北朝鮮版は無い。

>>570
2012年頃の改訂で追加されたらしい。

**デフォルトの名無しさん** · 2018/07/31(火) 23:58:28.90

新元号組み文字はJIS X0213には入れるのかな。
入れるとしたら㍻の1つ前の1面13区62点、シフトでJIS0x877D辺りか。

**デフォルトの名無しさん** · 2018/08/02(木) 01:17:44.00

専用ハングルはなんで「金」とか「日」とか重複する文字を代ごとに別々に入れてるのか謎

**デフォルトの名無しさん** · 2018/08/02(木) 01:31:21.78

>>573
謎か？

**デフォルトの名無しさん** · 2018/08/02(木) 04:36:12.48

最近の文字コードやばない？

**デフォルトの名無しさん** · 2018/08/02(木) 08:45:58.28

文字コードとしては謎だろ
担当は何をしているのか
指摘どころか質問した時点で解雇されるルールでもあるのかよってくらいに謎だわ

**デフォルトの名無しさん** · 2018/08/03(金) 00:21:52.08

やっぱおじいちゃんの金とおとうさんの正をを孫に使ったりしたら怒られるのかな。
グリフを見ただけで誰用の金なのかを見比べるスキルが必要になるんだろうな。

**デフォルトの名無しさん** · 2018/08/03(金) 20:44:28.67

nkfコマンドってなにもオプション指定しないでも文字化け直してくれるんだなw
どうやってるのか知らなくて怖いが（普段はiconv(1)を使ってる）

**デフォルトの名無しさん** · 2018/08/04(土) 01:43:06.83

美乳

**デフォルトの名無しさん** · 2018/08/04(土) 02:59:33.13

>>579
今時EUC-jpが生きてるシステムってあるの？

**デフォルトの名無しさん** · 2018/08/04(土) 04:56:17.77

文字コードの自動判別は、100% 正確じゃない

間違うこともある

**デフォルトの名無しさん** · 2018/08/04(土) 09:23:39.15

bit 順に意味があるんだろうけど
"\xC8\xFE\xC6\xFD"
なんでこれで自動検出できるかの説明が欲しい

**デフォルトの名無しさん** · 2018/08/04(土) 09:42:12.43

〠
http://www.shtml.jp/mojibake/binew.html

**デフォルトの名無しさん** · 2018/08/04(土) 16:00:30.01

UnicodeはUCS-4を基本形にして
UTF-8はUCS-4の圧縮版のような扱いでいいんじゃないか
UCS-4ならCode Chartsに書かれている値をそのまま使うから分かりやすいし
UTF-16は廃止してもいいと思う

**デフォルトの名無しさん** · 2018/08/04(土) 22:01:13.64

わざわざ廃止とかデメリットしかない

**デフォルトの名無しさん** · 2018/08/04(土) 22:35:16.02

WindowsのAPIがUTF-16ベースなのに廃止とか無理でしょ

**デフォルトの名無しさん** · 2018/08/04(土) 23:38:59.79

pcre はutf8対応が不完全。無理もない話だけど。
文字コードのライブラリを作る人からすればutf8よりも、utf16やutf32の方が便利。

**デフォルトの名無しさん** · 2018/08/04(土) 23:53:51.88

そのutf-8の問題は utf-16でもutf-32でも同じなのでは

**デフォルトの名無しさん** · 2018/08/05(日) 03:05:25.66

seekがめんどくさいのがUTF-8の問題だと思うんだけど違うの？

**デフォルトの名無しさん** · 2018/08/05(日) 03:36:24.64

UTF-16はUTF-8とUTF-32のデメリットを兼ね備えていて、
メリットが無いような気がする。

**デフォルトの名無しさん** · 2018/08/05(日) 04:33:54.11

このスレに来るような人が、どうしてutf8とutf16/32が同じと思うのか不思議。
自力で文字判定処理をやったことがないスクリプト言語プログラミング一辺倒の人？

**デフォルトの名無しさん** · 2018/08/05(日) 08:22:11.27

>>591
文字コードに習熟したプログラマしかここに来ちゃいけないのかい？
俺みたいにユニコードとUTFの違いすらよくわからない者が情報を求めて
ここに通うこともあるんだぜ

**デフォルトの名無しさん** · 2018/08/05(日) 08:42:30.75

pythonなんて内部の文字コードutf16だよ。
使う側が意識せずに済んでるってのがむしろ凄いわけで。
utf16要らないとか言ってる人は、事業仕分けでドヤ顔する民主党議員だわ。

**デフォルトの名無しさん** · 2018/08/05(日) 10:13:37.02

仕分けしたからモリカケだけで済んでるんじゃないの？

**デフォルトの名無しさん** · 2018/08/05(日) 12:03:49.97

本当だよ
無駄な予算にかけようとするこういうバカは消えてほしい

**デフォルトの名無しさん** · 2018/08/05(日) 14:46:05.09

UTF-16はいきなり廃止するのは無理でも
新規設計非推奨くらいにはしてほしいよ

**デフォルトの名無しさん** · 2018/08/05(日) 14:49:57.92

WinAPIでUTF-16使ってるから廃止は無理でしょ

**デフォルトの名無しさん** · 2018/08/05(日) 15:00:37.79

UTF-16は世界中の文字を固定長で表せるようにすることが目標だったから
16bitではそれができないと分かった以上32bitに変えるべき

**デフォルトの名無しさん** · 2018/08/05(日) 20:42:38.42

linux64bit版gccは、wchar_tやstd::wstringが既定でutf32だし、徐々に変わっていくでしょう。

**デフォルトの名無しさん** · 2018/08/06(月) 11:54:02.02

win32->win64のタイミングで変えとけばよかったのに

**デフォルトの名無しさん** · 2018/08/06(月) 12:31:26.13

もう一生UTF-16なのかな(´；ω；｀)

**デフォルトの名無しさん** · 2018/08/06(月) 15:04:26.69

>>600
ほんそれ
ついでにシステムロケールもUTF8はよ

**デフォルトの名無しさん** · 2018/08/06(月) 19:56:04.82

必要な時にUTF32を使えればいいだけなのでそんなに深刻がらなくても大丈夫でしょ。

**デフォルトの名無しさん** · 2018/08/06(月) 20:28:33.56

基本は8で臨時は32で答えが出ているよなあ
日本独自のJIS関係とかもう要らないし

**デフォルトの名無しさん** · 2018/08/06(月) 21:09:19.10

そういえば新元号合字ってJIS X 0213とかCP932とかの系統にも入るのかな？
元号合字使ってるとこはUnicodeじゃない古いとこが多そうだからここに入れないと意味半減な気がするけど

**デフォルトの名無しさん** · 2018/08/06(月) 21:18:55.92

印刷に使うワープロソフトはすべてunicode対応しているから大丈夫。

**デフォルトの名無しさん** · 2018/08/07(火) 04:59:39.09

JIS改訂汁

**デフォルトの名無しさん** · 2018/08/07(火) 17:57:38.63

日本語とか東アジア言語はバイト数の面では
UTF8よりUTF16の方が有利になるのだが。

**デフォルトの名無しさん** · 2018/08/07(火) 18:02:30.52

そうでもない

**デフォルトの名無しさん** · 2018/08/07(火) 19:58:16.46

うむ
日本語などの2バイト圏でも8やで

**デフォルトの名無しさん** · 2018/08/07(火) 21:15:40.62

お経とかならそうかも
でも普通の日本語の文書はUTF-8で１バイトになる字がわりと使われてるよね
改行もバカにならない

**デフォルトの名無しさん** · 2018/08/07(火) 21:38:24.37

中国語ならUTF-16のほうが有利？

**デフォルトの名無しさん** · 2018/08/07(火) 23:58:44.52

エディタとかUTF-32に対応してないのが多いよな。
まあ、無駄が多いからな。最上位の1バイトは必ず0x00になるから。

**デフォルトの名無しさん** · 2018/08/08(水) 00:28:20.77

UTF-16は廃止してUTF-20を策定すべき

**デフォルトの名無しさん** · 2018/08/08(水) 00:34:22.04

UTF-24じゃないの

**デフォルトの名無しさん** · 2018/08/08(水) 01:56:39.24

ランダムアクセスが一番早い文字コードはどれよ

**デフォルトの名無しさん** · 2018/08/08(水) 02:09:19.94

余ってる場所を余計なことに使う奴が絶対出てきて、
それを根絶するのに凄い辛い思いをするからヤメレ。

**デフォルトの名無しさん** · 2018/08/08(水) 04:24:19.86

もうこれ人類的に根絶できないんだろうね
一生これなんだろうね

**デフォルトの名無しさん** · 2018/08/08(水) 04:37:42.38

>>615
utf8でいいよ

**デフォルトの名無しさん** · 2018/08/08(水) 08:35:31.20

そういえば、utf9というのもあったな。３６ビットコンピュータに最適だとか。

**デフォルトの名無しさん** · 2018/08/08(水) 14:09:08.17

UTF-7と言う変態も

**デフォルトの名無しさん** · 2018/08/08(水) 16:40:51.17

Base64

**デフォルトの名無しさん** · 2018/08/08(水) 18:02:57.82

UTF-24を策定するべきだな。
全ての文字を24ビット(3バイト)で表す。
UTF-32の0x00で固定な最上位バイトを省くというので。
BMP外の文字だらけの文章には有利になるだろう。

**デフォルトの名無しさん** · 2018/08/08(水) 22:53:07.77

>>623
だな、固定長はUTF-24、可変長はUTF-8でいいだろう

**デフォルトの名無しさん** · 2018/08/08(水) 23:15:02.85

UTF16はいらないとかUTF24がよいとか、変な書き込みする人、同一人物？
CPUのレジスタは32bitまたは64bitなので、1バイトをコピーするのも4バイトをコピーするのも時間コストは同じだよ。

**デフォルトの名無しさん** · 2018/08/08(水) 23:48:28.49

1バイトと4バイトとかミクロの性能比較なんか殆ど意味無い

**デフォルトの名無しさん** · 2018/08/08(水) 23:49:21.32

固定長だなんて幻想をまだ見てるの？

**デフォルトの名無しさん** · 2018/08/08(水) 23:50:49.11

固定長の方が高速で便利ですやん

**デフォルトの名無しさん** · 2018/08/08(水) 23:57:42.55

>>626
大ありですよ。

>>627
固定長の方が条件分岐が減るので処理速度が高く、プログラミングもしやすい。

**デフォルトの名無しさん** · 2018/08/09(木) 01:13:33.46

>>626
ファイルサイズがでかくなればそれだけ処理をする回数が増えるからダイレクトに効いてくる。

**デフォルトの名無しさん** · 2018/08/09(木) 01:20:56.02

CPUひとつあたりの処理速度は10年前とあまり変わってないけど、搭載できるメモリの量は劇的に増えた。
内部実装がUTF32になって文字列リソースが2～4倍になったとしても利用できるメモリはそれ以上に激増しているのでまったく問題なし。
むしろUTF16やUTF32のほうが頭打ちのCPUにも優しい、ということがわかるはず。

**デフォルトの名無しさん** · 2018/08/09(木) 09:34:00.04

16は全然優しくない
24もアライメントを考えると優しくない

**デフォルトの名無しさん** · 2018/08/09(木) 10:29:52.60

よし128だ。

**デフォルトの名無しさん** · 2018/08/09(木) 10:44:02.84

>>625
放っとけば居なくなるのに

**デフォルトの名無しさん** · 2018/08/09(木) 11:03:48.44

>>633
合成やセレクタを撤廃できるのなら128でいいよ

**デフォルトの名無しさん** · 2018/08/09(木) 11:05:58.21

UNCODEv6

**デフォルトの名無しさん** · 2018/08/10(金) 22:27:21.22

UTF24とかメモリアクセス効率悪すぎるだろ。アライン考えろ。
情報交換用文字コードはエンディアンに依存しないUTF8。
内部用の文字コードはアクセス効率が良いUTF32。
貧乏人専用のUTF16。
それぞれ存在理由があるんだよ。