文字コード総合スレ Part10 [転載禁止]©2ch.net

**デフォルトの名無しさん** · 2015/10/14(水) 20:29:00.08

プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
（スレ再利用）UnicodeとUTF-8の違いは？ http://pc12.2ch.net/test/read.cgi/tech/1177930957/
（隔離スレ）UnicodeとUTF-8の違いは？　その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/

**デフォルトの名無しさん** · 2016/07/29(金) 07:36:19.19

え？

**デフォルトの名無しさん** · 2016/07/29(金) 08:13:31.17

>>397
>説と說が別字扱いというのは納得できない
自国の文化以外を受け入れることが出来ない奴は吠えてろ。
アメリカ人が英語圏以外のことを軽視してるのと同様に
お前のその思想が世界に迷惑

**デフォルトの名無しさん** · 2016/07/29(金) 12:00:07.20

原規格分離規則が無かったら更にカオスなことになってそう

**デフォルトの名無しさん** · 2016/07/29(金) 23:13:14.93

>>401
それは逆。
漢字文化を理解しない西洋人が規格化したからそうなってしまった。
康煕字典の「正字」がどのような経緯で成立したかほんの少し勉強すれば、それらが同字だと理解できる。
ついでに日本のバカな国語審議会がどんなふうにバカな国語国字改革を行ったかも知っておくべき。

**デフォルトの名無しさん** · 2016/07/30(土) 00:36:36.04

説と說の違いなどフォントの違いに過ぎない。
これを別字だと主張するのはGaramondのAとBodoniのAは別字だと主張する様なものだ。

**デフォルトの名無しさん** · 2016/07/30(土) 01:00:50.77

IPAを食らうがよい

**デフォルトの名無しさん** · 2016/07/30(土) 02:27:38.51

フォントの違い？じゃあ別字で😁
A Ａ 𐌀 𝐀 𝐴 𝑨 𝒜 𝓐 𝔄 𝔸 𝕬 𝖠 𝗔 𝘈 𝘼 𝙰

**デフォルトの名無しさん** · 2016/07/30(土) 03:37:32.39

BOMを食らうが良い。

**デフォルトの名無しさん** · 2016/07/30(土) 05:58:51.63

>>403を通訳すると
「現規格分離などどうでもいい」
「日本の漢字文化がすべて。他の国のことは知らん」
最悪だな

**デフォルトの名無しさん** · 2016/07/30(土) 06:32:16.51

× 現規格
○ 原規格

**デフォルトの名無しさん** · 2016/07/30(土) 13:16:26.02

>>404
華と华は同じ字ですか？

**デフォルトの名無しさん** · 2016/07/30(土) 13:17:35.16

>>406
Уとｙは同じ字ですか？

**デフォルトの名無しさん** · 2016/07/30(土) 21:48:28.00

ソ
ン

ツ
シ

カタカナのヘ
ひらがなのへ

**デフォルトの名無しさん** · 2016/07/30(土) 21:55:31.23

:::::::::::/　　　　　　　　　　ヽ::::::::::::
:::::::::::|　　ば　　じ　　き　　i::::::::::::
:::::::::::.ゝ　か　つ　み　ﾉ:::::::::::
:::::::::::/　だ　　に　　は　ｲ:::::::::::::
:::::　 |　　な。　　　　　　　ﾞi　　::::::
　　　＼_ 　　　　　　　 ,,-'
――--､..,ヽ__　　＿,,-''
:::::::,-‐､,‐､ヽ.　)ノ　　　　　＿,,...-
:::::_|/ ｡|｡ヽ|-i､　　　　　 ∠＿:::::::::
／. ` ' ● '　ﾆ､　　　　 ,-､ヽ|:::::::::
ニ　＿_ｌ＿_＿ノ　　　　 |・ |　|, -､::
/￣　＿　　| i　　　　　ﾟr ｰ'　　6 |::
|(￣`'　　）/ /　,..　　　 i　　　　　'-
`ー---―' / '（__ ）　　　ヽ、　　　　　>>1
====（ i）==::::／　　　　　　,/ﾆニニ
:/ 　　　ヽ:::i　　　　　　　/;;;;;;;;;;;;;;;;

**デフォルトの名無しさん** · 2016/08/01(月) 17:17:15.79

ソとンは微妙なのは判るが
ツとシは明らかに違う字だろ

**デフォルトの名無しさん** · 2016/08/01(月) 17:43:19.40

( ツ )ﾉｼ

**デフォルトの名無しさん** · 2016/08/01(月) 22:12:49.95

兌を部品として含む字は説の他にも色々ある。
脱税悦など。これらは統合されている。
説は何故か康煕字典の正字(Big5,KS)と楷書通用字体(JIS,GB)の2種類に分裂している。
固有名詞の表記で揉め事になる字でもない。何かの手違いかと。

>>414
日本人にとっては明らかに違う字だが中国人、韓国人などには区別しづらいようだ。
アジアからの輸入品ではそういう誤植はよく見かける。ショートカット→ツョートカシトなど。
レ、しの混同も多い。

**デフォルトの名無しさん** · 2016/08/01(月) 22:24:15.16

日本人にとってシンデレラとツンデレラは明らかに違う。外国人に(ry

**デフォルトの名無しさん** · 2016/08/01(月) 23:10:29.38

説と说はunicodeでは別字だった。
という事で訂正。JISは楷書通用字体、GBは簡体字。つまり3種類に分裂している。
スマンカッタ。

**デフォルトの名無しさん** · 2016/08/02(火) 02:07:22.57

>>418を通訳すると
「原規格分離などどうでもいい」

Windowsコードページ936(GBK)より
U+8AAC(説) = D568
U+8AAA(說) = D566
U+8BF4(说) = CBB5

**デフォルトの名無しさん** · 2016/08/02(火) 14:41:15.32

誰得…
https://twitter.com/Emojipedia/status/760240063397654528

**デフォルトの名無しさん** · 2016/08/02(火) 19:31:05.47

>>416
>ショートカット→ツョートカシト

日本人にもいるわ

**デフォルトの名無しさん** · 2016/08/02(火) 20:49:40.10

こうやって、タンクトップにショートパンツを貼り付けるんだお。
意味：デスクトップにショートカットを貼り付ける。

**デフォルトの名無しさん** · 2016/08/02(火) 23:35:51.72

ディスクトップのことをタンクトップというやつは見たことないな

**デフォルトの名無しさん** · 2016/08/02(火) 23:48:20.71

円盤の上に

**デフォルトの名無しさん** · 2016/08/03(水) 00:17:44.35

>>398-399
中国人は元素記号を漢字1文字で表す。こんな具合。
ttp://www.akatsukinishisu.net/kanji/genso/UTF-8.html

>>419
GBKはUnicode1.1より後に出来た。何故かUnicodeの駄目な部分をかなり含んでいる。
それを引き合いに出すのは筋違いとまでは言わなくても、慎重に考える方が良いかと。

**デフォルトの名無しさん** · 2016/08/03(水) 17:17:04.74

iOS 10では拳銃の絵文字が水鉄砲の絵文字に置き換えられる | スラドアップル
http://apple.srad.jp/story/16/08/03/0444222/

**デフォルトの名無しさん** · 2016/08/03(水) 18:29:34.34

わろた

**デフォルトの名無しさん** · 2016/08/03(水) 18:31:08.54

Aが牛刀かなんかで
JがJナイフだろ

**デフォルトの名無しさん** · 2016/08/03(水) 23:47:05.83

森鴎外と書こうと森鷗外と書こうとどちらでも良い、というのが一般人の感覚。
これはそれほど不健全とは思えない。何しろ自筆原稿に「森鴎外」と書かれているんだから。
鴎は俗字だケシカラン、というのは一部の規範意識の強い正字正かな主義のキチガイ。
鷗はダメだ鴎と書け、というのはもっと訳のわからん国語改革主義のキチガイ。
こいつらがJISの83改定を行った為にカオスに。

**デフォルトの名無しさん** · 2016/08/04(木) 08:56:22.25

>>429
使いわけがされていない字体違いの漢字はまとめてしまおうというのは文字コードの問題ではない。

**デフォルトの名無しさん** · 2016/08/04(木) 12:12:59.75

恵'
っていうのも流行ったけど
文字コードありますか？

**デフォルトの名無しさん** · 2016/08/04(木) 17:09:02.57

U+6075 U+E101

**デフォルトの名無しさん** · 2016/08/04(木) 18:54:49.83

U+FA6B
U+6075 U+E103

でもいいのよ？

**デフォルトの名無しさん** · 2016/08/04(木) 19:07:39.26

U+FA6B でいけましたありがとう

**デフォルトの名無しさん** · 2016/08/04(木) 19:32:46.16

U+6075 U+FE00
でもいいぞ

**デフォルトの名無しさん** · 2016/08/05(金) 14:48:07.96

この流れ、前にどこかで読んだ気がするなー、と思ったら
直井氏の「重複符号化四天王」だった。↓

ttp://d.hatena.ne.jp/NAOI/20130116/1358319668

**デフォルトの名無しさん** · 2016/08/05(金) 14:56:27.37

ということは祇園もあれか
祗園と書くとやられるのか

**デフォルトの名無しさん** · 2016/08/05(金) 14:58:22.57

julia> '\ufa6b'
'恵'

さすがだな

**デフォルトの名無しさん** · 2016/08/05(金) 22:00:51.73

>>436
最近更新されてないな

**デフォルトの名無しさん** · 2016/08/05(金) 22:19:20.77

>>430
いや、全く無関係ではあるまい。
鴎と鷗は使い分けがされていなかった、という点ではあなたも同意してくれるだろう。
原規格分離されていないのにUnicodeでは別字扱いになってしまった。
そもそも83改定を行ったJISと唆した国語審議会に元凶があったのだが、Unicodeにも責任の一端がある。
国語審議会は鷗を滅ぼして鴎に置き換えようとした。
本人に問い詰めて確認したわけではないが、多分そういう事だろう。
1000年以上にわたって使われ続けた字を滅ぼす事などそう簡単に出来る筈がない。
結局、国語審議会に滅ぼされる事なく生き残り、鴎と別の字になってしまった。

なお、最近見たベネッセの小学漢字辞典に鷗は載っていたが鴎は載っていなかった。

>>437
祇と祗は元々意味も読みも異なる別字。だが見た目が良く似ているので古くから混同される事が多かった。
「ぎおん」と入力して「祗園」と変換出来てしまうMS-IMEが悪い。
百歩譲ってその変換を認めるとしても、せめて「本来は誤用」ぐらいのメッセージは出してほしい。

**デフォルトの名無しさん** · 2016/08/05(金) 23:24:48.92

>>437
フォントその他がJIS X 0213:2004対応かどうかで
偏が「示」になったり「ネ」だったりには変わるな

**デフォルトの名無しさん** · 2016/08/06(土) 05:56:41.80

もう数字の「１」も漢数字の「一」と統合しろよ。
「一回」と「1回」みたいに使い分けされてないだろ。
「ひとつを 1つと書くのはけしからん」なんて言う奴はキチガイ。

**デフォルトの名無しさん** · 2016/08/06(土) 06:01:39.31

使う漢字を減らそうとして常用漢字を策定しているのにそれが気に入らないなら義務教育を否定しろよ。

**デフォルトの名無しさん** · 2016/08/06(土) 06:15:36.28

>>442
1朝1夕とか 1石2鳥とか 8百万(やおよろず) なんて書かれたら脱力ものだけど
今じゃこんなのは当たり前なんだろうか

**デフォルトの名無しさん** · 2016/08/06(土) 06:22:28.56

つまり加藤１２３９段と書けと

**デフォルトの名無しさん** · 2016/08/06(土) 09:57:23.87

>>444
見たことはないが、読みがわからん奴がそのうちやるだろう。

**デフォルトの名無しさん** · 2016/08/06(土) 15:41:55.96

4国地方
9州地方

**デフォルトの名無しさん** · 2016/08/06(土) 22:32:19.37

16進数

**デフォルトの名無しさん** · 2016/08/06(土) 22:35:24.25

>>447
4は、ヨン、シ
よみかたがどうなるのか

時代と共によみかたもかわるそうだが、だからといって、よみかたは、どうでもいいとはいえない
辞書順にならべかえた場合、探しにくい

しじゅうきょく
しじゅうきょくもーめんと
四極子（しきょくし、英: quadrupole, quadrapole）または四重極とは、モーメントが等しい双極子
Wikipedia

**デフォルトの名無しさん** · 2016/08/06(土) 23:28:50.16

8日をはちにち、17日をじゅうななにちと口頭で言うなって感じだな。

特に8日と4日は聞き間違う可能性は低い。

**デフォルトの名無しさん** · 2016/08/07(日) 13:43:44.87

もうかなり前から小学校教育では
14日はじゅうよんにちだな

**デフォルトの名無しさん** · 2016/08/07(日) 15:24:00.14

>>451
本当？

**デフォルトの名無しさん** · 2016/08/07(日) 16:16:16.92

三重県よんにちいち市

**デフォルトの名無しさん** · 2016/08/07(日) 17:19:20.29

>>451
教員が間違っていることはよくあるんだよな。

俺も子供のころ、いろんな担任が漢字の読みを間違っていたし。

**デフォルトの名無しさん** · 2016/08/07(日) 23:09:39.81

>>445
そんなのは異体字セレクターか何かで何とかしろ

**デフォルトの名無しさん** · 2016/08/07(日) 23:58:49.54

絵文字のピストル、本物っぽいデザインとおもちゃっぽいデザインのどっちがいい？ | スラド IT http://it.srad.jp/story/16/08/06/2215228/

**デフォルトの名無しさん** · 2016/08/08(月) 00:42:12.05

4様

**デフォルトの名無しさん** · 2016/08/17(水) 16:58:01.66

秀丸エディタで補助漢字入りEUC-JPのデータをいじってたら何か化ける
というか秀丸がいうEUCって普通のEUC-JPじゃなくてコードページ51932(+ JIS X 0212)なのか？

**デフォルトの名無しさん** · 2016/08/17(水) 18:00:48.77

ではまずお前の思っている「普通のEUC-JP」「51932」の定義を言ってみろ

**デフォルトの名無しさん** · 2016/08/17(水) 18:48:59.59

コードページ51932は正直よく知らないんで何ともだが
「普通のEUC-JP」はGLにASCII、GRにJIS X 0208を最初からロッキングシフトしておいて
JIS X 0212を使いたい時はSS3で一文字づつ呼び出すやつ、という説明でいいのか？

**デフォルトの名無しさん** · 2016/08/17(水) 19:48:09.26

まじかよ最悪だな禿丸
でも試しに8F B2 D1を読み込ませたらX 0212の18-49が表示されたぞ
よくわからん

**デフォルトの名無しさん** · 2016/08/17(水) 21:43:57.03

CP51932の文字セットは932そのままじゃなかったかな?丸数字とか入ってる筈。補助漢字無し
unicode?51932の変換する時中で一旦932にするので注意だったような

**デフォルトの名無しさん** · 2016/08/17(水) 23:42:13.69

Windows-31JとJIS X 0212に有ってShift_JISに無い文字(例:U+9A4E)を含むUTF-32ファイルを開いてEUC-JPで保存する時だな。
UTF-32(U+9A4E)→シフトJIS IBM拡張文字(FB FB)→シフトJIS NEC選定IBM拡張文字(EE DF)→JIS(7C 61)→CP51932(FC E1)
という経路で変換するんだろうな。
>>458が期待したのは
UTF-32(U+9A4E)→(69 51)→EUC-JP(8F E9 D1)
だったと。
JIS X 0212はよく知らんが、UTF-32とのマッピング表がobsoleteなんだから禿丸の動作は仕方なくね

**デフォルトの名無しさん** · 2016/08/17(水) 23:54:23.01

>>461
ほとんどは正常？なんだけど、
NEC特殊文字/NEC選定IBM拡張文字/IBM拡張文字に入ってる(中でその後JIS X 0212に採録された)280文字はコードページ932の区点が優先されるっぽい？

"№"はJIS X 0212に従うEUC-JPなら02区81点 8F A2 F1になるはずだが秀丸のEUCでは13区66点 AD E2になってる、
"鸙"は76区54点 8F EC D6になるはずだが秀丸のEUCでは92区77点 FC EDになってる。

>>462
文字集合を932と同じに拡張したEUC表現ってことでいいのかですかね、ありがとう。

**デフォルトの名無しさん** · 2016/08/17(水) 23:58:51.50

>>463
そうそう、そういうことです！
補助漢字の前にコードページ932のNEC特殊文字/IBM拡張文字が優先なんですね……。
まあ最初からUTF-8かUTF-16にすればいいんだけど、うーん

長々とすみませんでした。

**デフォルトの名無しさん** · 2016/08/19(金) 02:34:45.63

つーかWindowsで動くエディタで、CP932互換じゃないEUC-JPに変換するのあるの？

**デフォルトの名無しさん** · 2016/08/19(金) 08:11:13.46

932互換でも構わんがJISX0212使っといて一部はG1(X0208)とか頭おかしいだろ
シングルシフト3は無しにして別に「EUC(0212有)」みたいな文字コードを設けろって感じ

**デフォルトの名無しさん** · 2016/08/19(金) 13:01:11.35

文字コードは難しすぎますね
すべての文字列はUTF-32で統一されるべきでしたわ

**デフォルトの名無しさん** · 2016/08/19(金) 16:44:17.07

>>466
「～」でやられることは割とまじで良くあるな

**デフォルトの名無しさん** · 2016/08/21(日) 00:40:20.53

>>460の言う普通のEUC-JPって
「~」を保存するとX0212になるんけ？
シフトジスの円マークを超える爆弾やないか

**デフォルトの名無しさん** · 2016/08/21(日) 01:09:58.00

0212のTILDEはU+FF5Eにすればいいのでは

**デフォルトの名無しさん** · 2016/08/22(月) 17:49:33.33

根拠のない俺マッピングですか

**デフォルトの名無しさん** · 2016/08/22(月) 19:04:01.72

>>439
Twitter に鞍替えしちゃったからなあ

**デフォルトの名無しさん** · 2016/08/24(水) 18:34:55.31

>>468
UTF-32を勉強したけど、結合シーケンスの
正規化のあたりで難しくてついていけなくなった

**デフォルトの名無しさん** · 2016/08/31(水) 19:23:24.63

そう言えば昔、Unicodeのインディアンスレ？があったけど
スレは単発で終わったんだっけ

**デフォルトの名無しさん** · 2016/08/31(水) 20:38:55.78

>>475
👳❔

**デフォルトの名無しさん** · 2016/08/31(水) 20:39:42.33

(´･ω･`)

**デフォルトの名無しさん** · 2016/08/31(水) 21:34:59.28

>>476
👳❔

**デフォルトの名無しさん** · 2016/08/31(水) 22:07:21.28

インディアンの顔文字提案スレですね

**デフォルトの名無しさん** · 2016/08/31(水) 23:58:22.53

10人のインディアンが一人づついなくなるのか

**デフォルトの名無しさん** · 2016/09/01(木) 01:10:12.45

㍑とZWJで結合するのかな

**デフォルトの名無しさん** · 2016/09/02(金) 18:21:16.83

Unicodeｵﾜｯﾄﾙ

**デフォルトの名無しさん** · 2016/09/02(金) 23:20:06.03

NFKD正規化って存在価値あるの？
オ㍗ルをオワットルに変換できた所で
何がうれしいのかよくわからん

**デフォルトの名無しさん** · 2016/09/03(土) 00:41:07.59

NFKDを検索したら𝐍𝐅𝐊𝐃も𝑁𝐹𝐾𝐷もマッチする方が嬉しいし
1月が㋀にマッチしたり株式会社が㍿にマッチしたら嬉しいから
俺はメリットがあると思うけど

**デフォルトの名無しさん** · 2016/09/03(土) 02:21:27.68

半角ABCで検索したら全角ＡＢＣがヒットしないFirefoxさん…

**デフォルトの名無しさん** · 2016/09/04(日) 17:57:17.34

>>483
分解除外採用すべきやろな
仕様がクソすぎる

**デフォルトの名無しさん** · 2016/09/04(日) 22:08:48.81

その割に何十個もあるハイフン系は
NFKDでもまとまらないという

**デフォルトの名無しさん** · 2016/09/05(月) 08:48:36.28

>>487
それはNFKDの仕事じゃない

**デフォルトの名無しさん** · 2016/09/06(火) 20:51:36.90

>>488
似た文字を正規化すんのがKの正規化でしょ
実際にU+2011はNFKDでU+2010になるし

**デフォルトの名無しさん** · 2016/09/06(火) 21:18:50.81

そろそろポケモン来る？

**デフォルトの名無しさん** · 2016/09/07(水) 01:48:06.44

もう横棒類は全部 HYPHEN-MINUS に置き換えしとけ

**デフォルトの名無しさん** · 2016/09/07(水) 03:48:29.15

>>489
compatibilityがあるものだけ
何十個もcompatibilityのあるdash/hyphenはない
横棒っぽい文字を全部集めたら数十種類あると思うが
それを全部例えばhyphen-minusに変換したら
テキストの意味が変わってしまい
到底NORMALizationと呼べるようなものではない
勿論そういう変換が有効な応用ではそうしていい

**デフォルトの名無しさん** · 2016/09/08(木) 20:41:13.60

つまり「俺のcompatibility基準を満たしていないからダメだもん」

横棒類は全部 HYPHEN-MINUS に置き換えでいい

**デフォルトの名無しさん** · 2016/09/10(土) 02:47:21.06

グダグダ言ってるとユニコード貼るぞ
俺のユニコードでお前は瞬殺

**デフォルトの名無しさん** · 2016/09/10(土) 12:24:25.95

ユニコードは犯罪だからやめてください！

**デフォルトの名無しさん** · 2016/09/12(月) 10:27:24.50

そこはユニコ-ドでしょ

**デフォルトの名無しさん** · 2016/09/12(月) 14:27:32.13

>>493
unicode character databaseと言うものがありましてねえ

**デフォルトの名無しさん** · 2016/10/03(月) 15:40:21.15

>>497
で?

**デフォルトの名無しさん** · 2016/10/05(水) 18:49:51.38

来年は JIS X 0201/0208/0213/0213/0218 の見直し時期だけど
果たして 0208 と 0213 の大統合計画は進んでいるのかしら。