文字コード総合スレ Part12

**デフォルトの名無しさん** · 2018/12/16(日) 12:38:15.61

Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/

**デフォルトの名無しさん** · 2020/02/04(火) 21:29:49.71

絵文字ってここにどう書き込めばいいんです？
☸️
↓
☸
専ブラでは絵文字として読めるがWebブラウザー(Chrome/旧Edge/IE11@Win10)で見ても◆◆状態でうまく表示されない…

**デフォルトの名無しさん** · 2020/02/05(水) 08:47:40.80

>>842
全部あるぞ。お茶は「湯呑み」として。検索の仕方が足りない。

**デフォルトの名無しさん** · 2020/02/05(水) 10:08:51.00

🍵 you know me.

**デフォルトの名無しさん** · 2020/02/05(水) 10:23:19.19

固定フォントのターミナルのような環境である文字のフォントの幅が全幅か半幅か判別する確実な方法ってありますか？
Unicode前提です
Unicode的にアジアンなんとかというドキュメントでそれに触れられているのを見つけましたが
結局のところ使用されているフォントで決まるような気がします
となるとCLIアプリが表示する前に判別する方法はないような
表示したあとならターミナルにカーソル位置問い合わせればわかりそうだと思いましたが

**デフォルトの名無しさん** · 2020/02/05(水) 10:24:42.24

固定フォントじゃなくて等幅フォントでした

**デフォルトの名無しさん** · 2020/02/05(水) 16:23:36.59

てすと
☸

**デフォルトの名無しさん** · 2020/02/05(水) 16:24:56.28

>>844
うちのChromeはちゃんと出てる
ffでも問題なし

**デフォルトの名無しさん** · 2020/02/05(水) 16:28:36.97

>>847
前にpythonで書いたときは
unicodedata.east_asian_width()
使ったと思う
Win32APIだと表示前に文字列全体の描画幅を求める方法があったと思う

**デフォルトの名無しさん** · 2020/02/05(水) 16:30:38.68

☸ 法輪ラブ ☸

**デフォルトの名無しさん** · 2020/02/05(水) 18:34:07.02

>>847

・Unicodeでは文字幅は 0(結合文字)、1(いわゆる半角)、2(いわゆる全角)、1か2(曖昧幅) のいずれかに決まっている
・1か2になるのはαや☆などであり、東アジアの環境で2、それ以外で1

・wcwidthで調べるとその値を返すが、曖昧幅への対応がどうなっているかは分からない
・linuxのglibcは、データを自分で修正しない限り曖昧幅は1扱い(LANG=ja_JP.eucJPすれば2にはなる)

・CLIでのカーソル位置はカーネルのttyドライバが担当しており、そもそもフォン卜の情報を持っていない
・linuxカーネルでは全ての文字が(全角も)幅1扱い
・行編集もtty担当なので、catをそのまま実行して全角文字を入力後backspaceするとカーソルがずれる
・多くのシェルはwcwidthで入力/削除された文字やプロンプトに表示する文字の幅を調べ、必要に応じてカーソルを移動させる

・ターミナルはwcwidthまたは同等の独自関数(曖昧幅の設定ができることが多い)で文字幅を調べて、実際に表示させる
・等幅フォントでも曖昧幅の文字がどちらで実装されているかそれぞれ異なる上、ターミナルはフォントの文字幅情報を使わないことが多い(プロポーショナルでないことのみ確認)
・↑により、文字が重なったり変な隙間ができたりすることがある
・一部のターミナルはwcwidthの結果に従うように文字を潰したり引きのばしたりして表示する(minttyとか)

・アプリ(シェルとか)、ライブラリ(ncursesとか)、端末マルチプレクサ(tmuxとか)、端末エミュレータ、カーネル(tty)、フォント全てで想定する幅がそろっていないとうまく動かない
・日本語フォントの多くは曖昧幅2なので、linuxのCLIではαや☆がおかしくなることが多い(wcwidthが1を返すせい)

・Unicodeを作った西洋人は馬鹿だから、罫線素片の幅も曖昧で、ncursesがバグる
・絵文字は文字幅1だが、フォン卜の多くは2で実装されているのでおかしくなる

**デフォルトの名無しさん** · 2020/02/05(水) 20:43:09.91

>>853
詳しい解説サンクス

**デフォルトの名無しさん** · 2020/02/05(水) 23:12:39.17

>>853
あざす
やっぱり混沌としてるのですね
とりあえず一度ターミナルの中を追ってみようかな

**デフォルトの名無しさん** · 2020/02/06(木) 00:00:39.94

>>844うちでも見れた

**デフォルトの名無しさん** · 2020/02/07(金) 22:23:32.71

継ぎ接ぎだらけの一貫してない仕様だからな

**デフォルトの名無しさん** · 2020/02/08(土) 17:47:47.28

Unicodeの時代に今更だけど、
シフトJISの第2バイトがA0～FFでなく
40～FCにしたのは何でだろう

**デフォルトの名無しさん** · 2020/02/08(土) 17:48:29.82

訂正
×A0～FF
〇80～FF

**デフォルトの名無しさん** · 2020/02/08(土) 18:36:07.73

JISの区点は1区あたり94点
0x40開始で0x7Fを避けて2区分取ると0xFCになる

**デフォルトの名無しさん** · 2020/02/09(日) 12:59:57.61

やっぱ漢字１文字は２バイトの方がいい

**デフォルトの名無しさん** · 2020/02/09(日) 15:51:09.68

>>858
半角カナのせいで80～FFでは足りないから

**デフォルトの名無しさん** · 2020/02/09(日) 19:30:21.11

シフトJISはもう少し工夫すれば
JISコードの変換式もより簡単にでき
2バイト目もASCII領域を使わずにダメ文字も発生せず
補助漢字も全て入れられた

**デフォルトの名無しさん** · 2020/02/09(日) 19:32:13.43

補助漢字は半角カナと排他だけど

**デフォルトの名無しさん** · 2020/02/10(月) 16:27:01.61

EUCで良かったんよ

**デフォルトの名無しさん** · 2020/02/10(月) 19:14:50.21

EUCだと半角カナも補助漢字もバイト数が増えるからな．．．

◆QZaw55cn4c · 2020/02/10(月) 21:20:39.00

>>863
あのスペースの狭さでは、それは無理だったのでは？
どうするのがよかったのですか？具体的にいってみてよ

**デフォルトの名無しさん** · 2020/02/11(火) 08:36:25.76

非漢字＿：[81-98] [80-9F]
第１水準：[80-9F] [A1-FE]
第２水準：[E0-FF] [A1-FE]，[E0-EB] [80-9F]
補助漢字：[A0-DD] [A1-FE]，[A4-C1] [80-9F]
補助漢字は半角カナと排他利用

◆QZaw55cn4c · 2020/02/11(火) 17:40:51.63

>>868
それは結局半角カナを潰しただけのことでは？

**デフォルトの名無しさん** · 2020/02/11(火) 18:51:44.66

>>869
補助漢字6000字近くを使えるというメリットがあれば
半角カナをフェードアウトするには十分な機会になっただろう
補助漢字（JIS X 0212）が制定されたのは1990年だから
その翌年の1991年に発売されたMS-DOS 5.0あたりで
KANA ON／OFFコマンドを追加し、半角カナ／補助漢字の切り替えが出来れば
従来のテキストファイルの読み込みなども対応できる

◆QZaw55cn4c · 2020/02/11(火) 19:27:04.32

>>870
文字コードのマップ切り替えはコンテンツ側で指示するべきことであって、OS/アプリ側で切り替えて対応するとか、発想が変だとおもいますね

**デフォルトの名無しさん** · 2020/02/12(水) 01:19:59.31

いっその事1byte=32bitにすればサロゲートペアもBOMも要らなくなるし多バイト文字という概念もなくなる

**デフォルトの名無しさん** · 2020/02/12(水) 02:15:22.28

なくならない
合成文字はなくせない

**デフォルトの名無しさん** · 2020/02/12(水) 05:02:58.88

>>871
コンテンツ側でなくユーザー側

**デフォルトの名無しさん** · 2020/02/12(水) 10:06:52.88

1文字=64bitやろ

**デフォルトの名無しさん** · 2020/02/12(水) 13:30:20.44

>>875
イングランドの旗はUnicodeで7コードポイント必要なので64bitでは無理
128bitで

**デフォルトの名無しさん** · 2020/02/12(水) 13:32:59.34

👽 全宇宙の未知なる知的生命体の使用言語を網羅しなきゃならないのだから可変長は必須

**デフォルトの名無しさん** · 2020/02/12(水) 20:36:54.81

>>876
え、じゃあイギリスの旗はさらにそれにスコットランド分とアイルランド分が追加されるの

**デフォルトの名無しさん** · 2020/02/12(水) 21:06:37.28

>>878がおもしろいことを言った

**デフォルトの名無しさん** · 2020/02/13(木) 15:10:18.42

ウェールズ「俺は？」

**デフォルトの名無しさん** · 2020/02/13(木) 21:26:26.80

Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始
https://www.itmedia.co.jp/news/articles/2002/13/news068.html

**デフォルトの名無しさん** · 2020/02/14(金) 11:14:07.77

そんな文字要らんわ

**デフォルトの名無しさん** · 2020/02/14(金) 13:42:19.65

グーグルってしょっちゅう意味のわからんことするよな

**デフォルトの名無しさん** · 2020/02/14(金) 14:22:25.49

MSやAppleだって訳判らんことするときもある

**デフォルトの名無しさん** · 2020/02/14(金) 14:26:10.19

実行ファイルがテキストとデータで構成されるように、絵文字表現もテキストとデータを組み合わせた文法が出てきそう。

**デフォルトの名無しさん** · 2020/02/14(金) 17:14:21.07

顔文字より正規表現のためのメタ文字とかあったほうが良いのにね。
まあGoogleじゃ無理か。

**デフォルトの名無しさん** · 2020/02/14(金) 21:11:02.23

(.*_*)

**デフォルトの名無しさん** · 2020/02/14(金) 22:37:55.75

そのメタ文字にマッチしたい正規表現を書く日が来るぞ

**デフォルトの名無しさん** · 2020/02/15(土) 00:14:12.35

\��

**デフォルトの名無しさん** · 2020/02/15(土) 05:28:54.23

規格名：JIS X 0215
文字数：15000字超（非漢字：1700字超，漢字：13300字超）
区点域：0～127区，0～127点（最大16384字収納）
通　称：いちごJIS

**デフォルトの名無しさん** · 2020/02/21(金) 14:33:03.02

https://twitter.com/akinomyoga/status/1230127240806985728

修正の入った Cygwin 3.1.4 のリリースノートが来て、見てみたら @cjksingle という不穏な locale が発明されてる。
何かと思ったら「CJK文字も全て半角にすれば文字幅問題解決じゃん」という欧米人(東欧系?)の思いつきで、これは新しい悪夢なのでは…。mintty は仕事が早すぎ
https://gitlab.freedesktop.org/terminal-wg/specifications/issues/9#note_406682

因みにこの東欧人を追うともっと面白い(?)ものが。。漢字や絵文字が行末に収まらない時は左半分はその行に右半分は次の行に表示するのが合理的だと Windows Terminal に赴いて主張してる。
曰く、殆どの漢字は偏(へん)と旁(つくり)から成るので分断しても意味を失わないとか…
https://github.com/microsoft/terminal/issues/4345#issuecomment-578434025
https://twitter.com/5chan_nel (5ch newer account)

**デフォルトの名無しさん** · 2020/02/21(金) 15:07:53.93

糸
色
女
子
言
周

**デフォルトの名無しさん** · 2020/02/21(金) 20:47:45.26

半角と全角の区別付かなくなると困るから元の半角文字はさらに半分で表示したらどうかな

**デフォルトの名無しさん** · 2020/02/21(金) 22:45:17.77

まぁ、全部全角にすれば万事解決なんだけどな。

**デフォルトの名無しさん** · 2020/02/22(土) 03:15:16.13

絵文字っていわゆる全角よね

**デフォルトの名無しさん** · 2020/03/02(月) 02:11:23.28

いわゆるって何を指してる?

**デフォルトの名無しさん** · 2020/03/02(月) 16:54:16.25

公式定義ではなく現実によく目にする幅、かな

**デフォルトの名無しさん** · 2020/03/02(月) 17:38:15.13

最近は倍角とか4倍角とか聴かなくなったな

**デフォルトの名無しさん** · 2020/03/07(土) 16:24:06.57

Microsoft、Shift_JISや外字からUnicodeへの移行を呼びかけ | スラド
https://srad.jp/story/20/03/06/1237211/

Windows と日本語のテキストについて - Windows Blog for Japan
https://blogs.windows.com/japan/2020/02/20/about-windows-and-japanese-text/

**デフォルトの名無しさん** · 2020/03/07(土) 18:02:03.37

外字というと丸囲みの数字が①～⑳以外にもほしくて
21以降も外字で作ってしまっていた事務所を思い出す

何度かPCを入れ替えるうちに使わなくなり、忘れ去られ、
久々に古い文書を引っ張り出して来たら謎の文字化けで外字の存在が発覚
外字が何故か⑳から始まってたり途中に別の字が挟まってたりしてもはや解読作業

**デフォルトの名無しさん** · 2020/03/08(日) 21:08:48.53

㉑

**デフォルトの名無しさん** · 2020/03/08(日) 22:48:15.28

今は㊿まであるんだな、知らんかったわ

**デフォルトの名無しさん** · 2020/03/09(月) 05:26:10.28

(0)とか黒丸の小文字英字とか白丸のンとか黒丸の仮名とかは
Unicodeですら未だに無いんだよな．．．

**デフォルトの名無しさん** · 2020/03/09(月) 14:12:03.27

それはわいせつだからでは

**デフォルトの名無しさん** · 2020/03/09(月) 14:20:33.44

わいせつだって文字情報じゃないか!
それともなにか君は辞書から陰茎とか陰核という単語を削除せよというのか!

**デフォルトの名無しさん** · 2020/03/09(月) 16:04:20.40

��

**デフォルトの名無しさん** · 2020/03/09(月) 17:52:27.97

>>903
◎と字形が同じとかで一緒にされそう

あと将棋の駒(上下とか白黒)も欲しいとか言ってた人？

**デフォルトの名無しさん** · 2020/03/09(月) 20:31:39.39

お城マークってある？
凸の下辺がないようなやつ

**デフォルトの名無しさん** · 2020/03/09(月) 21:26:52.19

>>902
50まで作るんだったら、99まで作れば良かったのに。
できれば、100まで欲しかった。

**デフォルトの名無しさん** · 2020/03/09(月) 22:01:13.14

>>908
⛫

**デフォルトの名無しさん** · 2020/03/09(月) 23:06:46.00

ゴリッパだな

**デフォルトの名無しさん** · 2020/03/10(火) 07:55:14.17

>>900
Unicodeがまさにそんな感じだよ
符号位置なんて空いてりゃなんでも詰め込んでくる

**デフォルトの名無しさん** · 2020/03/10(火) 09:32:00.64

一方場所が足りない云々でCJK統合漢字爆誕

**デフォルトの名無しさん** · 2020/03/10(火) 12:18:50.37

アレはUNICODEが16ビットだったときの産物だからなー

囲み付き文字は合字でなんぼでも表示できるんじゃなかったのか？
黒字に白抜きはないか。

**デフォルトの名無しさん** · 2020/03/11(水) 00:27:59.48

⓿と🄌は何が違うのこれ

**デフォルトの名無しさん** · 2020/03/12(木) 14:56:02.24

Announcing The Unicode$#174; Standard, Version 13.0
https://home.unicode.org/announcing-the-unicode-standard-version-13-0/

**デフォルトの名無しさん** · 2020/03/13(金) 04:51:42.81

要らん文字ばっか増えていくな

**デフォルトの名無しさん** · 2020/03/13(金) 07:25:49.78

う、うん…

**デフォルトの名無しさん** · 2020/03/13(金) 20:00:06.77

Unicode 13.0.0
http://www.unicode.org/versions/Unicode13.0.0/
Components of Unicode 13.0.0
http://www.unicode.org/versions/components-13.0.0.html
Core Specification (PDF)
http://www.unicode.org/versions/Unicode13.0.0/UnicodeStandard-13.0.pdf
Code Charts (PDF・110 MB)
http://www.unicode.org/Public/13.0.0/charts/CodeCharts.pdf

**デフォルトの名無しさん** · 2020/03/13(金) 20:29:09.67

でっかいPDFだなあ

**デフォルトの名無しさん** · 2020/03/13(金) 22:24:02.25

あれ、もうUnicode 13.0.0出たの？
改訂するのは確か毎年6月ねって決めたんじゃ……と思ったら去年から3月だった。

**デフォルトの名無しさん** · 2020/03/14(土) 04:49:42.78

Win10は頻繁にバージョンアップしてるけど、
使ってるUnicodeは2015年に出た8.0のままなんだよな．．．

**デフォルトの名無しさん** · 2020/03/14(土) 05:08:58.28

そーそー
新しいフォント入れてもリンクが効かんという...
全部入りフォント作るにゃ16bitの壁

**デフォルトの名無しさん** · 2020/03/14(土) 16:17:25.81

え、そうなんだ
そんな罠が

**デフォルトの名無しさん** · 2020/03/18(水) 09:00:29.25

高松もキャンセルなのかな
それともISO/IECはまた別の判断か
https://www.iso.org/covid-19.html

**デフォルトの名無しさん** · 2020/04/09(木) 14:28:17.94

Unicode 14.0 Delayed for 6 Months
http://blog.unicode.org/2020/04/unicode-140-delayed-for-6-months.html

Due to COVID-19, the Unicode Consortium has decided to postpone the release of version 14.0 of the Unicode Standard by 6 months, from March to September of 2021.
This delay will also impact related specifications and data, such as new emoji characters.

This announcement does not affect the new emoji included in Unicode Standard version 13.0 announced on March 10, 2020.

**デフォルトの名無しさん** · 2020/04/09(木) 17:31:08.32

せっかくだから細菌��とは別にウイルスの絵文字つくってくれ

**デフォルトの名無しさん** · 2020/04/09(木) 23:42:25.68

コロナ菌入れるの？

**デフォルトの名無しさん** · 2020/04/10(金) 03:17:26.49

��マスク
��トイレットペーパー

**デフォルトの名無しさん** · 2020/04/10(金) 14:38:09.67

細菌の絵文字なんてあるのか
🦠

**デフォルトの名無しさん** · 2020/04/10(金) 15:29:18.32