文字コード総合スレ Part10 [転載禁止]©2ch.net

**デフォルトの名無しさん** · 2015/10/14(水) 20:29:00.08

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/

2016/07/10(日) 19:18:33.41

パートのおばちゃんが「この字が出せない」と言っていたので、コードを調べて直接入力の方法を教えた。
そしたら、「そんな難しい方法じゃないと出ない字は出しません」と拒否。
管理職もそれでいいと思っている。

2016/07/10(日) 19:28:45.85

ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは
コードの知識がなくても何とかなる。けどそういう言い方は全く通じない職場がある。
で、バカみたいにA4の紙にでかい字で「煕之」と書いてFAXで送っている。
時間と紙と通信料金の無駄。

**デフォルトの名無しさん** · 2016/07/10(日) 20:25:26.13

＞ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは

それで通じる職場ってすごくピンポイントなんじゃないか

**デフォルトの名無しさん** · 2016/07/10(日) 23:34:57.25

>>308
字の間違いが決して許されない職場では自然にそうなりそうな気もするんだが。
だいたい職場に大漢和辞典も康煕字典も無いとはもう駄目だ。

鼎という字を「何か県に似ている難しい字」などと言っている。u+9F0Eとは決して言わない。
高校時代に漢文が苦手だった俺だって「鼎の軽重を問う」という故事ぐらい知っている。
高卒以下か。

**デフォルトの名無しさん** · 2016/07/11(月) 00:15:55.13

>>290
漢ROMには第一水準しか乗ってなかった

**デフォルトの名無しさん** · 2016/07/11(月) 00:42:20.21

u+9F0Eとは決して言わない。いや言わんだろｗ

**デフォルトの名無しさん** · 2016/07/11(月) 02:04:05.71

PC-9801初代とかE、F、Mの頃だな

**デフォルトの名無しさん** · 2016/07/11(月) 02:09:47.93

いや初代はJIS第1水準ROMも別売オプションだったか

**デフォルトの名無しさん** · 2016/07/11(月) 04:11:38.97

そういう環境は区点でも出ないから今は話題にしてない

**デフォルトの名無しさん** · 2016/07/11(月) 04:53:41.27

鼎立（ていりつ）

**デフォルトの名無しさん** · 2016/07/11(月) 14:01:39.24

>>283
たしかに合ってる
http://www.ndl.go.jp/jp/data/bib_newsletter/2016_1/article_06.html

**デフォルトの名無しさん** · 2016/07/11(月) 14:48:05.83

> 　しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイト（31ビット）でエンコードする
> サロゲート・ペアと呼ばれる方法が考え出されました。このエンコード法をUTF-16（16-bit UCS Transformation Format）と呼びます。

まるでUTF-8を拡張したらUTF-16が生まれたみたいな書きっぷりなんだが。。。

**デフォルトの名無しさん** · 2016/07/11(月) 19:26:42.34

dmcがL"\uXXXX"で5桁以上に対応してなかったでござるよ

**デフォルトの名無しさん** · 2016/07/11(月) 23:35:12.52

あーあサイト閉鎖
http://www.asahi-net.or.jp/~ax2s-kmtn/

**デフォルトの名無しさん** · 2016/07/12(火) 12:50:10.21

サイト閉鎖させるとか文字コード関係者は傲慢

**デフォルトの名無しさん** · 2016/07/12(火) 14:22:38.54

そもそも不正確だろうが整合性なかろうが
その旨明記しておけば問題ないのに
断定しちゃうからダメなんだよなぁ
自分用のメモとしても訳に立たんだろうに

**デフォルトの名無しさん** · 2016/07/12(火) 16:29:11.31

>>319
知らないなら解説しないでくださいうざいだけです

**デフォルトの名無しさん** · 2016/07/12(火) 16:34:35.95

>>278
>【Unicodeのエンコーディング】※この章の内容を修正しました（2016年7月8日）

治ってたはω

**デフォルトの名無しさん** · 2016/07/12(火) 22:47:59.76

>>316のレターの著者＝>>319のサイトの作者
なの？
Cyber Librarianなら見たことあるけどサイトを見た限りでは
そんな脇の甘いっつーか、ツッコミどころ満載の文章書く人には思えなかったが。

**デフォルトの名無しさん** · 2016/07/13(水) 00:43:08.39

https://web.archive.org/web/20160331090356/http://www.asahi-net.or.jp/~ax2s-kmtn/character/uni.html
まあ同一人物でなければ盗用だろうなってかんじ

**デフォルトの名無しさん** · 2016/07/13(水) 01:00:57.82

普通に考えたら同一人物だろ
上綱　秀治（かみつな　しゅうじ） ⇒ s-kmtn

**デフォルトの名無しさん** · 2016/07/13(水) 02:15:04.74

くみたんじゃないのか。

**デフォルトの名無しさん** · 2016/07/13(水) 04:46:49.29

>>325
同一人物だね
http://web.archive.org/web/20160501170424/http://www.asahi-net.or.jp/~ax2s-kmtn/profile.html

**デフォルトの名無しさん** · 2016/07/13(水) 09:20:59.26

>>325
＞UTF-8は、ASCIIコードに当たる部分はASCIIコードと同じコードで
＞1バイトで表し、それ以外の文字を2～6バイトの可変長で表します。
＞しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。
＞そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイトでエンコードする
＞サロゲート・ペア(Surrogate Pair)と呼ばれる方法が考え出されました。

自分で書いた嘘を自分で信じ込んでしまったのか

**デフォルトの名無しさん** · 2016/07/13(水) 13:48:05.15

>>325
あー、これは(アカン)

**デフォルトの名無しさん** · 2016/07/13(水) 17:23:44.93

>>322
>>319 は解脱したんだ

**デフォルトの名無しさん** · 2016/07/13(水) 17:25:59.10

>>325
おわってんな

**デフォルトの名無しさん** · 2016/07/13(水) 21:14:40.56

くみたん大人気

**デフォルトの名無しさん** · 2016/07/13(水) 23:46:02.63

>>305
そうやって親切に説明しても理解しようとしない奴が多い。
自分の努力不足を棚に上げて。
新聞紙屋にも市役所職員にもそういう説明は通じなかった。

**デフォルトの名無しさん** · 2016/07/13(水) 23:58:49.98

天皇陛下が生前退位を望んでおられるらしいが
年号が変わったらまた組み文字のがUnicodeに登録されるんだろうか。
そしてNEC特殊文字の空き区点位置にも追加されたりするんだろうか？

**デフォルトの名無しさん** · 2016/07/14(木) 14:43:57.97

>>334
文系のばかに多いよなそういうの

**デフォルトの名無しさん** · 2016/07/14(木) 15:27:07.43

㍻㍼㍽㍾

**デフォルトの名無しさん** · 2016/07/14(木) 17:50:45.39

>>335
Unicode側が先に動くんじゃなくて国内規格が変わったら重い腰を上げる感じじゃね？

JIS X 0213に追加されたら多分入れざるを得ないだろう。

**デフォルトの名無しさん** · 2016/07/14(木) 18:58:13.31

Unicodeの組み文字はやたら多いんだよなあ
これ以上増やさないでいいと思うが
ARIBあたりは収録しそうだ

**デフォルトの名無しさん** · 2016/07/14(木) 19:04:28.88

そもそもどんな元号になるか機械学習で予想汁

**デフォルトの名無しさん** · 2016/07/15(金) 17:59:32.47

元号変わったら組み文字がJISやUnicodeに追加されるだろうか。
あれらはあくまで使用非推奨の互換用だけど平成迄あるのに
〇〇(新元号)は無いのはおかしいって文句言う人いそうだし。
そしてUnicodeに追加されるならBMP外になるのかな。

**デフォルトの名無しさん** · 2016/07/15(金) 18:35:42.95

JISは確実じゃろう

**デフォルトの名無しさん** · 2016/07/15(金) 19:47:06.41

天皇陛下はさまざまな影響を考えて、数年後とおっしゃっている。

**デフォルトの名無しさん** · 2016/07/15(金) 21:22:13.08

天皇陛下はさまざまな影響を考えて、(Unicodeへの追加は)数年後とおっしゃっている。

かと思った

**デフォルトの名無しさん** · 2016/07/15(金) 23:56:20.80

明治～平成がBMPなのに新元号がSMPなのは納得いかないって人出てくるだろう。
でもU+33xxのBMPのCJK互換文字領域は空いてない。
U+32xxの囲み文字等の領域だったら
U+32FFが空いてるけどそこは○ンの為にとっておくべきって理由で却下かも。
(ARIB外字の□デは当初そこで提案されてたがSMPに移された。)
U+321Fも空いてるけどそこはハングルの為に予約でダメかな。
2文字合わせて1字の漢字扱いでCJK統合漢字無印の末端部分に追加とかするかも。

**デフォルトの名無しさん** · 2016/07/16(土) 00:01:26.24

>>344
陛下はIT業界のことまで考えてくださっているんだぞ。

**デフォルトの名無しさん** · 2016/07/16(土) 00:14:15.53

>>345
＞2文字合わせて1字の漢字扱い

面白いけど縦書きしたときに組み変わる漢字ってありなのかなあ…

**デフォルトの名無しさん** · 2016/07/16(土) 00:24:24.28

明治を廃止して新元号をそこに追加

**デフォルトの名無しさん** · 2016/07/16(土) 01:19:59.61

ケチ臭いこと言わず大化から全部実現できるよう結合文字でやれ

**デフォルトの名無しさん** · 2016/07/16(土) 02:08:19.62

>>348
それはない

**デフォルトの名無しさん** · 2016/07/16(土) 02:30:42.97

書類上は明治生まれもまだいっぱい生き残って年金もらってるんだろう？

**デフォルトの名無しさん** · 2016/07/16(土) 06:16:44.45

明治生まれって１０５歳くらいでそろそろ長寿ギネスを争う位置やで
ゴーストは知らんけど例の事件以降対策は取ってるはず

**デフォルトの名無しさん** · 2016/07/16(土) 14:40:44.25

>>335
生前退位は間違い
正しくは譲位

**デフォルトの名無しさん** · 2016/07/16(土) 14:43:32.66

>>349
それな+1

**デフォルトの名無しさん** · 2016/07/16(土) 17:16:57.05

>>353
譲位もいまの日本の法律では規定されていない言葉。

**デフォルトの名無しさん** · 2016/07/16(土) 20:48:48.31

譲位だと本人の意思が入るから、憲法との関係上無理だろうな。

**デフォルトの名無しさん** · 2016/07/16(土) 22:09:26.27

間を取って、新元号を「譲位」にするのだ。

**デフォルトの名無しさん** · 2016/07/16(土) 23:20:32.22

Macの機種依存文字でUnicodeにない組み文字とかは
PUAのうち何個かのコードポイントを後続の複数文字を組み文字とみなすとかの制御文字にして
変換時はそれらを使ったシーケンスにしてるけど
それらを正式なUnicodeポイントに追加すればいいんじゃないかな。
BMPの末端部の特殊用途文字の領域空いてるよな。多くなったら14面使えばいいし。

**デフォルトの名無しさん** · 2016/07/17(日) 07:52:07.09

ゼロレングス結合何とかでいいだろ
年号

**デフォルトの名無しさん** · 2016/07/17(日) 11:40:00.96

[組文字2字] ○ × みたいな組み合わせで組文字を出せれば、どんな元号だろうと対処できるんじゃね？

**デフォルトの名無しさん** · 2016/07/17(日) 12:03:06.58

立ちふさがる神護景雲

**デフォルトの名無しさん** · 2016/07/17(日) 19:57:53.09

絵文字だと４人くっつけて家族にしてるから余裕だろ

**デフォルトの名無しさん** · 2016/07/18(月) 13:08:10.78

天平hogehogeも忘れないであげて

**デフォルトの名無しさん** · 2016/07/18(月) 14:35:50.20

Unicode Consortium、人物を示す絵文字の大半で男女の切り替えを可能にする計画
http://it.srad.jp/story/16/07/17/1824252/

**デフォルトの名無しさん** · 2016/07/18(月) 18:20:37.53

いらん

**デフォルトの名無しさん** · 2016/07/18(月) 20:01:39.34

男のプリンセス👸みたいな

**デフォルトの名無しさん** · 2016/07/18(月) 20:49:35.27

結局タグ文字は止めてZWJでくっつけることにしたのか
まあ俺は要らんけど、Googleはやるんだろうな。

**デフォルトの名無しさん** · 2016/07/19(火) 01:10:44.77

うんこと炎をくっつけて焼きカレー

**デフォルトの名無しさん** · 2016/07/20(水) 00:14:41.29

俺なんでこんなの書いたんだろ

**デフォルトの名無しさん** · 2016/07/20(水) 16:25:57.26

元号の組み文字も平成の次からは
(1文字目) ZWJ (2文字目)
でいいだろう。元号に限らず他の組み文字もこのようなやり方で。

**デフォルトの名無しさん** · 2016/07/21(木) 22:48:02.74

L2/16-188 Revised Proposal of Hentaigana (with associated spreadsheet) Japan N.B. 2016-07-15
http://www.unicode.org/L2/L2016/16188-rev-hentaigana-rep.pdf
L2/16-189 Proposal to add a new character name alias to U+1B001 Japan N.B. 2016-07-15
http://www.unicode.org/L2/L2016/16189-n4731-alias-to-1B001.pdf

久しぶりに日本の提案書が来てた。

**デフォルトの名無しさん** · 2016/07/22(金) 00:45:15.53

HENTAIYAGANA!

同じ音価のやつどう名前つけるのかと思ってたら単純に番号振ったんか。
しっかしほぼ同じじゃないかってやつがいくつもあるな…

**デフォルトの名無しさん** · 2016/07/22(金) 15:36:11.58

＞http://www.unicode.org/L2/L2016/16189-n4731-alias-to-1B001.pdf
＞※ HENTAIGANA LETTER E-1

当然のように「※」を使っちゃうあたり紛れもなくわが国のNBだな

**デフォルトの名無しさん** · 2016/07/22(金) 18:46:03.53

海外でHENTAIって言ったらエロ漫画のことなんだろ？

**デフォルトの名無しさん** · 2016/07/22(金) 23:40:37.75

変態がな(´・ω・｀)

**デフォルトの名無しさん** · 2016/07/23(土) 19:23:17.75

HENTAIGANAじゃなくてARCHAIC KANAにした方がいいかな。

**デフォルトの名無しさん** · 2016/07/23(土) 22:48:56.85

376ができるならそうしてほしい

**237** · 2016/07/24(日) 13:36:56.67

Wikipediaにも別称として載ってるitaiganaならまだしも、一般的でない訳語を増やすのはやめてくれ

**デフォルトの名無しさん** · 2016/07/24(日) 13:38:46.61

しらんがなも追加で

**デフォルトの名無しさん** · 2016/07/24(日) 14:21:52.39

痛い(>_<)がな

**デフォルトの名無しさん** · 2016/07/24(日) 18:14:24.67

しらんがな-1
しらんがな-2
しらんがな-3

どうでもいいレベルに応じて数字が上がっていくしらんがな

**デフォルトの名無しさん** · 2016/07/25(月) 03:34:48.68

しらんがな(´・ω・｀)

**デフォルトの名無しさん** · 2016/07/27(水) 23:58:18.41

漢字なんかもUnicodeではCJK Ideograph(日中韓の表意文字)という独特な表現なんだよな。
通常はChinese character(中国の文字)とか日本で使われるもの限定ならKanjiとかだけど、
中国語だけでなく日本語でも必要不可欠なことから中立的な観点でそうしたのかな。

**デフォルトの名無しさん** · 2016/07/28(木) 00:49:49.72

>>383
それUTF-16だろ。

**デフォルトの名無しさん** · 2016/07/28(木) 01:46:29.52

ぇ?

**デフォルトの名無しさん** · 2016/07/28(木) 03:14:54.78

え？

**デフォルトの名無しさん** · 2016/07/28(木) 06:15:57.66

ゑ？

**デフォルトの名無しさん** · 2016/07/28(木) 07:33:28.43

>>383
「漢字って言語圏ごとに登録したらとんでもない量になる。出自は同じだし統合すっか」
っていう混ぜ書き全否定な仕様にしたからな
統合したんだからKanjiっていう日本語読みじゃなくて「極東の表意文字」みたいな名前つけられるのは当然の成り行き

**デフォルトの名無しさん** · 2016/07/28(木) 08:14:34.00

UCDのファイル名はUnihan(Unified-HAN)だろ
つまり韓国が起源

**デフォルトの名無しさん** · 2016/07/28(木) 09:47:39.76

繁字体の繁

**デフォルトの名無しさん** · 2016/07/28(木) 10:28:08.04

そうはいっても迷惑かけている部分もあるからな
英語だったら高々数十個のアルファベットと幾つかの記号だけで済むところを
何万種類も必要になる方が悪いだろ、どう考えても

**デフォルトの名無しさん** · 2016/07/28(木) 10:52:38.11

>どう考えても
何をどう考えたらそんなキチガイの発想に至ったのか

**デフォルトの名無しさん** · 2016/07/28(木) 13:16:07.78

英国はアヘン戦争で清を滅亡させるべきだったし、
米国は太平洋戦争で日本を滅亡させるべきだったね。

**デフォルトの名無しさん** · 2016/07/28(木) 13:20:15.08

幽霊文字が規格化される国だから反論できない

**デフォルトの名無しさん** · 2016/07/28(木) 14:16:22.55

勝手に新しい絵文字作り出してる現状なんだし気にするな
と思ったけど文字が少ない文化圏の連中はその反動なのかもしれないな

**デフォルトの名無しさん** · 2016/07/28(木) 19:12:45.37

将来再び毛沢東みたいなアホが出てきて新文字増やす可能性もないとはいえない

**デフォルトの名無しさん** · 2016/07/28(木) 23:10:34.74

>>388
でも統合しきれなくてコードポイントを無駄遣いしているのが多数。
例えば一例として説と說が別字扱いというのは納得できない。
康煕字典に47000字、大漢和辞典に50000字というのは調べれば最初から分かった筈。
相当節約すべきなのにそれを怠ったから16bitのバベルの塔は頓挫した。

>>394
そしてそれを廃止できない。負の文化遺産として今後も残るだろう。

**デフォルトの名無しさん** · 2016/07/28(木) 23:49:12.01

そういえばニホニウムの中国語表記はどうなるんだろう

**デフォルトの名無しさん** · 2016/07/29(金) 01:02:54.07

小日本素あたり？

**デフォルトの名無しさん** · 2016/07/29(金) 07:36:19.19

え？

**デフォルトの名無しさん** · 2016/07/29(金) 08:13:31.17

>>397
>説と說が別字扱いというのは納得できない
自国の文化以外を受け入れることが出来ない奴は吠えてろ。
アメリカ人が英語圏以外のことを軽視してるのと同様に
お前のその思想が世界に迷惑

**デフォルトの名無しさん** · 2016/07/29(金) 12:00:07.20

原規格分離規則が無かったら更にカオスなことになってそう

**デフォルトの名無しさん** · 2016/07/29(金) 23:13:14.93

>>401
それは逆。
漢字文化を理解しない西洋人が規格化したからそうなってしまった。
康煕字典の「正字」がどのような経緯で成立したかほんの少し勉強すれば、それらが同字だと理解できる。
ついでに日本のバカな国語審議会がどんなふうにバカな国語国字改革を行ったかも知っておくべき。

**デフォルトの名無しさん** · 2016/07/30(土) 00:36:36.04

説と說の違いなどフォントの違いに過ぎない。
これを別字だと主張するのはGaramondのAとBodoniのAは別字だと主張する様なものだ。

**デフォルトの名無しさん** · 2016/07/30(土) 01:00:50.77

IPAを食らうがよい