文字コード総合スレ Part12

**デフォルトの名無しさん** · 2018/12/16(日) 12:38:15.61

Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
　（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
　（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/
文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/

**デフォルトの名無しさん** · 2019/11/22(金) 22:42:29.42

ラテン文字は筆を選ばないでも問題無いが
漢字や仮名は楷書でも筆の運びをちゃんと学んだ方が近道

**デフォルトの名無しさん** · 2019/11/22(金) 23:50:42.29

墨汁ﾄﾞﾊﾞｰ

**デフォルトの名無しさん** · 2019/11/23(土) 09:52:15.28

ん? 江戸時代から句読点はあったよ。
多分、由来は漢文の補助点で句の切れ目に「、」を打って読みやすくしたもの。文末も句点だった模様。

**デフォルトの名無しさん** · 2019/11/23(土) 10:17:05.69

>>756
一般に使われ出したのは明治でしょ

**デフォルトの名無しさん** · 2019/11/23(土) 10:53:20.31

>>749-750
今年の漢字の季節ですね

**デフォルトの名無しさん** · 2019/11/23(土) 14:16:40.50

風か水かって感じかなあ
災とかはこの前使ったよね

**デフォルトの名無しさん** · 2019/11/23(土) 14:20:31.57

金とか何回か選ばれてるのはあるな
二年連続とかは知らん

**デフォルトの名無しさん** · 2019/11/23(土) 15:30:58.21

令

**デフォルトの名無しさん** · 2019/11/23(土) 16:40:21.39

もうそろそろコンピュータの世界では
３２ビット固定長の文字コードを使うようにしても
良いのじゃないだろうか？

◆QZaw55cn4c · 2019/11/23(土) 16:48:42.87

>>762
ascii 的な世界（合衆国界隈とか）が発狂するので、utf-8 がつくられたのだと思います
まあコード内では utf-32 で統一するのがスマートですね

**デフォルトの名無しさん** · 2019/11/23(土) 17:45:30.08

C言語がASCII前提としていたので、
UTF16やUTF32では互換性を保てなかったのが理由

**デフォルトの名無しさん** · 2019/11/23(土) 18:02:19.00

32bitで足りるんか？

**デフォルトの名無しさん** · 2019/11/23(土) 18:05:22.65

今のところ32bitっつってもスカスカだろ

**デフォルトの名無しさん** · 2019/11/23(土) 18:45:44.31

文字が4億も存在するんかいな。

**デフォルトの名無しさん** · 2019/11/23(土) 18:46:53.89

じゃけん戸籍に登録されてる異字体全部収録しましょうね〜（鬼畜）

**デフォルトの名無しさん** · 2019/11/23(土) 18:51:31.87

旧字体はIPAがマップしたんじゃなかったっけ？

**デフォルトの名無しさん** · 2019/11/23(土) 20:53:37.67

固定長好きな人が定期的に出てくるのはなんでなの？

セレクタとか合成文字とか固定長に押し込むの非現実的でしょうに

**デフォルトの名無しさん** · 2019/11/23(土) 21:03:09.45

21bitもの空間与えたら要らん文字まで突っ込みまくってごみ溜めみたいになってしまったじゃないか。

**デフォルトの名無しさん** · 2019/11/23(土) 21:12:47.43

絵文字は特に漢字に馴染みが無い連中が嬉しがってるけど、象形文字の発明前に戻ったようだよ
具材がどうだとか細かなこと言ってて抽象化とは程遠いし、少なくとも色は与えるべきじゃなかった

**デフォルトの名無しさん** · 2019/11/23(土) 23:04:09.59

>769
ipaは都合約6万字ある

**デフォルトの名無しさん** · 2019/11/24(日) 00:15:00.98

16bit固定なら世界中の文字が記述できるとして始まったのがそもそものUnicodeだからな

**デフォルトの名無しさん** · 2019/11/24(日) 07:48:18.59

>>757
お前の一般が何かによる。
正式な正書法になったのは明治から。江戸時代の正書法は漢文の白文か武士の候文。
一方で庶民向けの版本や貸本では江戸期から句読点が使われてるので、本を読む層には馴染みがあった。
あと手習いの手本とかにも句読点があるので文字習う段階で知識として知ってるのでは。

**デフォルトの名無しさん** · 2019/11/24(日) 11:58:02.36

>>772
ちんちんの絵文字は
剥けちんと包茎と勃起前とか勃起後とか色々バリエーション必要ですし

◆QZaw55cn4c · 2019/11/24(日) 12:05:35.45

>>776
おもしろいと思っていってるの？

**デフォルトの名無しさん** · 2019/11/24(日) 12:07:46.48

QZさんからレスもらえるとは思わなかった

**デフォルトの名無しさん** · 2019/11/24(日) 12:30:57.16

>>777
竹島はどこの国の領土ですか？
注意：「なぜその質問をしたいと思ったのですか」みたいな
質問を質問で返すようなクズな真似はしないこと

**デフォルトの名無しさん** · 2019/11/24(日) 12:43:02.24

質問じゃなくて、馬鹿にしてるんだろ

え？それ面白くないよ？面白いと思ってんの？プークスクス
という意味

**デフォルトの名無しさん** · 2019/11/24(日) 12:53:04.27

>>780
違うと思う
QZは韓国人だから答えられないんでしょ

◆QZaw55cn4c · 2019/11/24(日) 13:04:27.62

>>779
＞「なぜその質問をしたいと思ったのですか」
いやはや、私のパターンを熟知されているようでなにより、です、ちょっとうれしくなりました

◆QZaw55cn4c · 2019/11/24(日) 13:05:00.77

>>781
なぜ韓国人だとおもったのですか？

◆QZaw55cn4c · 2019/11/24(日) 13:09:00.29

>>779
https://medaka.5ch.net/test/read.cgi/eco/1567773760/710
https://medaka.5ch.net/test/read.cgi/eco/1567773760/712
https://medaka.5ch.net/test/read.cgi/eco/1567773760/714

**デフォルトの名無しさん** · 2019/11/24(日) 13:13:33.28

憲法9条を改正するだけじゃダメなのよ。
軍の統帥権が天皇と征夷大将軍(内閣総理大臣)のどちらにあるのか明確にしないと。

**デフォルトの名無しさん** · 2019/11/24(日) 15:33:55.44

>>762
そのまえに格納方法をビッグエンディアンかリトルエンディアンで統一してくれ

**デフォルトの名無しさん** · 2019/11/24(日) 17:10:15.65

>>779
竹島は日本の領土で、独島は韓国の領土だよ
なぜか韓国は竹島のことを独島だと言い張ってるけど
独島は別の島ですから、残念

**デフォルトの名無しさん** · 2019/11/25(月) 15:25:07.92

>>787
おっとそれ以上言っちゃあいけない

**デフォルトの名無しさん** · 2019/11/30(土) 13:54:16.72

【びっくりサイエンス】日本古来の「くずし字」にＡＩで挑む　解読の競技大会は中国が優勝
https://special.sankei.com/a/life/article/20191130/0001.html
2019.11.30

**デフォルトの名無しさん** · 2019/11/30(土) 15:03:21.41

別に「びっくり」ではないなｗ

**デフォルトの名無しさん** · 2019/11/30(土) 21:10:49.04

それ言ったらドンキーにも延焼する

**デフォルトの名無しさん** · 2019/11/30(土) 21:25:08.69

ドンキーほうけーい

**デフォルトの名無しさん** · 2019/12/01(日) 17:02:36.55

今年の漢字は天

**デフォルトの名無しさん** · 2019/12/01(日) 17:27:44.79

いっそU+32FFと書いてほしい

**デフォルトの名無しさん** · 2019/12/03(火) 02:50:32.39

「くずし字」ＡＩが解読ラーメン判別法も応用！ | NHKニュース
2019年12月2日 19時21分
https://www3.nhk.or.jp/news/html/20191202/k10012198561000.html
「くずし字」解読は「文系」より「理系」向き！？
驚き！ラーメン判別の技を応用
ＡＩの解読能力高めるポイントは？
数億点もある難読資料高まるＡＩへの期待
歴史資料の研究者からも期待の声

**デフォルトの名無しさん** · 2019/12/03(火) 12:56:42.44

可変長の文字コードは、CPUのパイプライン処理とは相性が悪いはず。大量の文字
データのやりとりやファイルサイズが小さくなるのは理解できるけれども。
でもそれは圧縮機構を別途に設けたのではだめなのか？

**デフォルトの名無しさん** · 2019/12/03(火) 14:48:10.41

異体字セレクタとして色だけじゃなく斜体、下線、太字などのHTML的な要素も入れてみたらどうか

**デフォルトの名無しさん** · 2019/12/03(火) 15:19:10.13

倍角、四倍角も入れて

**デフォルトの名無しさん** · 2019/12/03(火) 15:35:57.78

HTMLががんばってCSSに追い出したスタイル要素を文字コードが取り込んだらかわいそうｗ

**デフォルトの名無しさん** · 2019/12/03(火) 17:26:32.29

Unicodeは文字コードじゃなくて文字シーケンスと名前を変えるべき

**デフォルトの名無しさん** · 2019/12/04(水) 16:24:48.77

黒板太字 - Wikipedia
https://ja.wikipedia.org/wiki/黒板太字

とかはかなりスタイル要素入ってると思うな。
てか数学用分野だけやけに優遇されてない？

**デフォルトの名無しさん** · 2019/12/04(水) 19:52:55.02

連続してないからあくまでも記号扱いなんだろうな。

**デフォルトの名無しさん** · 2019/12/04(水) 20:23:19.21

発音記号なんかはただの小文字aの異体字で意味が違ったりするからなあ
でもそもそもを言い出したらYとVが元は同源だったりして、「純粋な文字」を綺麗に定義するのは無理よ

**デフォルトの名無しさん** · 2019/12/05(木) 15:53:38.96

>>801
「優遇」っていうか，そういう文字を収録してた符号化文字集合と互換性を持たせるために導入したんでは。
例えば「(株)」っていう文字とかに代表される囲み文字はかなり日本語圏に偏向してるけど，
これだって日本を優遇してるんじゃなくて，日本で開発された符号化文字集合がそういう文字を含んでたから収録されている。

**デフォルトの名無しさん** · 2019/12/05(木) 16:32:04.91

IMEの辞書とかは数学とか物理とか理系用語にめちゃくちゃ弱いイメージ

**デフォルトの名無しさん** · 2019/12/06(金) 14:18:04.16

>>805
IMEってMS-IMEのこと？
それともかな漢字変換全般？

**デフォルトの名無しさん** · 2019/12/06(金) 23:32:11.23

SKK使ってるからだけどそんな印象は全く無い

**デフォルトの名無しさん** · 2019/12/10(火) 22:31:10.24

SKKは既定の辞書はすごく弱いけど語句登録がほぼ一瞬でできるのが利点よね。

**デフォルトの名無しさん** · 2020/01/01(水) 02:03:31.89

あけましておめでとう！
今年もこのスレの皆さんに多幸感がありますように！��

**デフォルトの名無しさん** · 2020/01/01(水) 11:19:22.03

字にはヒラギノ～ル♪

**デフォルトの名無しさん** · 2020/01/01(水) 22:58:15.38

あけましておめでとうございます
ISO/IEC 10646の新版は今年中に出るかな～？

**デフォルトの名無しさん** · 2020/01/03(金) 06:32:52.61

Consolasは良いフォントだとは思うのだけど、全角中黒「・」(U+30FB)が半角中黒(U+FF65)と判別しにくいところが気になる。
まぁ、文字コードの問題ではないんだが。

**デフォルトの名無しさん** · 2020/01/03(金) 10:33:29.05

特定のフォントの特定の文字だけ任意に入れ替えるパッチとかフックとか無いんだっけ

**デフォルトの名無しさん** · 2020/01/03(金) 22:33:53.11

>>813
レスありがとう。どのOSにもそういう仕組みはないと思う。
よく上げられる例として、フォントの明示的な設定なしに\マークをバックスラッシュとして表示することはできない、というのもあるし。
一文字づつ判定して適切なフォントに変えて描画する処理を個々のアプリ自身が実装する必要があるはず。

**デフォルトの名無しさん** · 2020/01/07(火) 14:48:29.36

どのアプリの絵文字が「実際に使えるはさみの絵文字」なのか？ - GIGAZINE
https://gigazine.net/news/20200106-which-emoji-scissors-close/

面白い

**デフォルトの名無しさん** · 2020/01/07(火) 15:01:40.99

左利き用のはさみも用意汁ωωω

**デフォルトの名無しさん** · 2020/01/07(火) 15:12:21.25

ちなみによく切れるはさみはここが曲線
https://bungu.plus.co.jp/product/cut/img/fcc_smart_03.jpg

**デフォルトの名無しさん** · 2020/01/07(火) 16:36:04.95

はさみディレクションセレクター

**デフォルトの名無しさん** · 2020/01/18(土) 12:49:25.00

ぷにコードに関するチラ裏

localghost👻ってかわいくね？
→今まで危険そうで敬遠してたIDNに興味をもつ
→WikipediaとRFC3492を頼りにPunycodeのアルゴリズムを調べる
→エンコーダを自前で組んでみて、idn2コマンドやPythonの'idna'エンコーディングと比べてみる
→正規化する必要のある文字がどんどんふえる
→idn2とpythonのidnaってかなり違わくね？？　<-イマココ

idn2はギリシャ文字の「語尾のシグマ」ς(U+03C2)をσにしないし、あとチェロキー文字の大文字？を小文字？にしないし、けど小文字？はSupplementなのがなんかあやしいし、でidnaとどっちが正しいのか考えるのが面倒になって投げた

**デフォルトの名無しさん** · 2020/01/24(金) 09:35:27.22

6月のWG2は高松になったのか
また国外から来にくそうな

**デフォルトの名無しさん** · 2020/01/26(日) 00:45:55.40

道後温泉に行くか

**デフォルトの名無しさん** · 2020/01/30(木) 14:46:03.72

Unicode Emoji 13.0 - Now final for 2020
http://blog.unicode.org/2020/01/unicode-emoji-130-now-final-for-2020.html

**デフォルトの名無しさん** · 2020/01/30(木) 16:08:26.17

今更ﾀﾋﾟ岡かい

**デフォルトの名無しさん** · 2020/01/31(金) 12:43:23.65

Unicodeは完全にコンソーシアムのおもちゃになってんな

**デフォルトの名無しさん** · 2020/01/31(金) 15:08:09.88

タピオカミルクティーがあるのに、将棋の駒がフルセット揃っていないのは納得できない。

◆QZaw55cn4c · 2020/01/31(金) 19:55:14.24

>>825
詰将棋用に上下逆の漢字を入れて欲しかった

**デフォルトの名無しさん** · 2020/01/31(金) 22:55:44.99

G入れるのまじやめて

**デフォルトの名無しさん** · 2020/02/01(土) 00:49:18.17

要するに新種の漢字なんだな
国ごとに生活が違うから、結局何万種必要になる

**デフォルトの名無しさん** · 2020/02/02(日) 00:50:49.11

将棋の駒は多分誰も提案書を出さないせい

**デフォルトの名無しさん** · 2020/02/02(日) 01:02:15.43

それ通ったらドンジャラ提案するわ

**デフォルトの名無しさん** · 2020/02/02(日) 01:17:07.29

漢字の扱いは本当に難しい
手書きの分析しているソフトは本当に賢いと思うわ
まああれは面倒な文字はそもそも判定せず、
主要な文字から似たものを選んでいるだけではあるが・・・

**デフォルトの名無しさん** · 2020/02/03(月) 01:41:22.43

テスト٩( 'ω' )و

**デフォルトの名無しさん** · 2020/02/03(月) 08:57:05.26

825だが、将棋の駒がダメな理由は、>>469 にある通り、
> インラインテキスト中で使われている用例が示されていないのでrejectされたらしい。
ということらしいが、なら、タピオカミルクティーにインラインテキスト中で
使われている用例があるのか、と言いたい。だから納得できない。

**デフォルトの名無しさん** · 2020/02/03(月) 11:59:58.53

解説本だと普通に使われてるよな

**デフォルトの名無しさん** · 2020/02/03(月) 13:40:49.09

タピオカが使われているのかと誤読

**デフォルトの名無しさん** · 2020/02/03(月) 13:47:35.80

読み手のリテラシーが問われます

**デフォルトの名無しさん** · 2020/02/03(月) 13:54:08.64

天使を天便と読み取ったまま放置するとか割とマジ。

**デフォルトの名無しさん** · 2020/02/03(月) 22:56:08.65

架空の文字は登録しないというポリシーもあったと思ったが、emojiに関してはやりたい放題だな。

**デフォルトの名無しさん** · 2020/02/03(月) 22:59:18.31

漢字以前の象形文字モドキの再発明だからなぁ
取捨選択もなく全然洗練されないまま数だけ増えてる

**デフォルトの名無しさん** · 2020/02/03(月) 23:33:42.55

そのうち抽象化が進んでいくのか

**デフォルトの名無しさん** · 2020/02/04(火) 13:26:51.57

政治的に正しい仏教徒としては、墓石のバリエーションの少なさには納得いかんぞ

**デフォルトの名無しさん** · 2020/02/04(火) 13:28:31.24

コーヒー、お茶、タクシー、台風もほしい

**デフォルトの名無しさん** · 2020/02/04(火) 20:12:02.43

>>841
政治的に正しい仏教徒とは何ですかね？

アホな創価学会員が言いそうな発言ですが。

**デフォルトの名無しさん** · 2020/02/04(火) 21:29:49.71

絵文字ってここにどう書き込めばいいんです？
☸️
↓
☸
専ブラでは絵文字として読めるがWebブラウザー(Chrome/旧Edge/IE11@Win10)で見ても◆◆状態でうまく表示されない…

**デフォルトの名無しさん** · 2020/02/05(水) 08:47:40.80

>>842
全部あるぞ。お茶は「湯呑み」として。検索の仕方が足りない。

**デフォルトの名無しさん** · 2020/02/05(水) 10:08:51.00

🍵 you know me.

**デフォルトの名無しさん** · 2020/02/05(水) 10:23:19.19

固定フォントのターミナルのような環境である文字のフォントの幅が全幅か半幅か判別する確実な方法ってありますか？
Unicode前提です
Unicode的にアジアンなんとかというドキュメントでそれに触れられているのを見つけましたが
結局のところ使用されているフォントで決まるような気がします
となるとCLIアプリが表示する前に判別する方法はないような
表示したあとならターミナルにカーソル位置問い合わせればわかりそうだと思いましたが

**デフォルトの名無しさん** · 2020/02/05(水) 10:24:42.24

固定フォントじゃなくて等幅フォントでした

**デフォルトの名無しさん** · 2020/02/05(水) 16:23:36.59

てすと
☸

**デフォルトの名無しさん** · 2020/02/05(水) 16:24:56.28

>>844
うちのChromeはちゃんと出てる
ffでも問題なし

**デフォルトの名無しさん** · 2020/02/05(水) 16:28:36.97

>>847
前にpythonで書いたときは
unicodedata.east_asian_width()
使ったと思う
Win32APIだと表示前に文字列全体の描画幅を求める方法があったと思う

**デフォルトの名無しさん** · 2020/02/05(水) 16:30:38.68

☸ 法輪ラブ ☸

**デフォルトの名無しさん** · 2020/02/05(水) 18:34:07.02

>>847

・Unicodeでは文字幅は 0(結合文字)、1(いわゆる半角)、2(いわゆる全角)、1か2(曖昧幅) のいずれかに決まっている
・1か2になるのはαや☆などであり、東アジアの環境で2、それ以外で1

・wcwidthで調べるとその値を返すが、曖昧幅への対応がどうなっているかは分からない
・linuxのglibcは、データを自分で修正しない限り曖昧幅は1扱い(LANG=ja_JP.eucJPすれば2にはなる)

・CLIでのカーソル位置はカーネルのttyドライバが担当しており、そもそもフォン卜の情報を持っていない
・linuxカーネルでは全ての文字が(全角も)幅1扱い
・行編集もtty担当なので、catをそのまま実行して全角文字を入力後backspaceするとカーソルがずれる
・多くのシェルはwcwidthで入力/削除された文字やプロンプトに表示する文字の幅を調べ、必要に応じてカーソルを移動させる

・ターミナルはwcwidthまたは同等の独自関数(曖昧幅の設定ができることが多い)で文字幅を調べて、実際に表示させる
・等幅フォントでも曖昧幅の文字がどちらで実装されているかそれぞれ異なる上、ターミナルはフォントの文字幅情報を使わないことが多い(プロポーショナルでないことのみ確認)
・↑により、文字が重なったり変な隙間ができたりすることがある
・一部のターミナルはwcwidthの結果に従うように文字を潰したり引きのばしたりして表示する(minttyとか)

・アプリ(シェルとか)、ライブラリ(ncursesとか)、端末マルチプレクサ(tmuxとか)、端末エミュレータ、カーネル(tty)、フォント全てで想定する幅がそろっていないとうまく動かない
・日本語フォントの多くは曖昧幅2なので、linuxのCLIではαや☆がおかしくなることが多い(wcwidthが1を返すせい)

・Unicodeを作った西洋人は馬鹿だから、罫線素片の幅も曖昧で、ncursesがバグる
・絵文字は文字幅1だが、フォン卜の多くは2で実装されているのでおかしくなる