文字コード総合スレ Part10 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
2016/07/29(金) 07:36:19.19ID:Lct7OLsq
え?
2016/07/29(金) 08:13:31.17ID:GYJuIIBJ
>>397
>説と說が別字扱いというのは納得できない
自国の文化以外を受け入れることが出来ない奴は吠えてろ。
アメリカ人が英語圏以外のことを軽視してるのと同様に
お前のその思想が世界に迷惑
2016/07/29(金) 12:00:07.20ID:5X3dVFw4
原規格分離規則が無かったら更にカオスなことになってそう
403デフォルトの名無しさん
垢版 |
2016/07/29(金) 23:13:14.93ID:qPs+aDEn
>>401
それは逆。
漢字文化を理解しない西洋人が規格化したからそうなってしまった。
康煕字典の「正字」がどのような経緯で成立したかほんの少し勉強すれば、それらが同字だと理解できる。
ついでに日本のバカな国語審議会がどんなふうにバカな国語国字改革を行ったかも知っておくべき。
2016/07/30(土) 00:36:36.04ID:GBcwIM/b
説と說の違いなどフォントの違いに過ぎない。
これを別字だと主張するのはGaramondのAとBodoniのAは別字だと主張する様なものだ。
2016/07/30(土) 01:00:50.77ID:nwxv/kKT
IPAを食らうがよい
2016/07/30(土) 02:27:38.51ID:VkFDbK5O
フォントの違い?じゃあ別字で😁
A A 𐌀 𝐀 𝐴 𝑨 𝒜 𝓐 𝔄 𝔸 𝕬 𝖠 𝗔 𝘈 𝘼 𝙰
2016/07/30(土) 03:37:32.39ID:crIAC8Sk
BOMを食らうが良い。
2016/07/30(土) 05:58:51.63ID:7lrNNE5f
>>403を通訳すると
「現規格分離などどうでもいい」
「日本の漢字文化がすべて。他の国のことは知らん」
最悪だな
2016/07/30(土) 06:32:16.51ID:RG1Ilx1/
× 現規格
○ 原規格
410デフォルトの名無しさん
垢版 |
2016/07/30(土) 13:16:26.02ID:NnN7Vre0
>>404
華と华は同じ字ですか?
411デフォルトの名無しさん
垢版 |
2016/07/30(土) 13:17:35.16ID:NnN7Vre0
>>406
Уとyは同じ字ですか?
412デフォルトの名無しさん
垢版 |
2016/07/30(土) 21:48:28.00ID:dIHoRAg/






カタカナのヘ
ひらがなのへ
413デフォルトの名無しさん
垢版 |
2016/07/30(土) 21:55:31.23ID:cBq8SpsU
:::::::::::/           ヽ::::::::::::
:::::::::::|  ば  じ  き  i::::::::::::
:::::::::::.ゝ か   つ   み  ノ:::::::::::
:::::::::::/  だ  に  は イ:::::::::::::
:::::  |  な。       ゙i  ::::::
   \_         ,,-'
――--、..,ヽ__  _,,-''
:::::::,-‐、,‐、ヽ. )ノ      _,,...-
:::::_|/ 。|。ヽ|-i、      ∠_:::::::::
/. ` ' ● ' ニ 、     ,-、ヽ|:::::::::
ニ __l___ノ     |・ | |, -、::
/ ̄ _  | i     ゚r ー'  6 |::
|( ̄`'  )/ / ,..    i     '-
`ー---―' / '(__ )   ヽ 、     >>1
====( i)==::::/      ,/ニニニ
:/     ヽ:::i       /;;;;;;;;;;;;;;;;
2016/08/01(月) 17:17:15.79ID:JXVULl1x
ソとンは微妙なのは判るが
ツとシは明らかに違う字だろ
2016/08/01(月) 17:43:19.40ID:A0XjWkqP
( ツ )ノシ
2016/08/01(月) 22:12:49.95ID:AzMK4PQ3
兌を部品として含む字は説の他にも色々ある。
脱 税 悦 など。これらは統合されている。
説は何故か康煕字典の正字(Big5,KS)と楷書通用字体(JIS,GB)の2種類に分裂している。
固有名詞の表記で揉め事になる字でもない。何かの手違いかと。

>>414
日本人にとっては明らかに違う字だが中国人、韓国人などには区別しづらいようだ。
アジアからの輸入品ではそういう誤植はよく見かける。ショートカット→ツョートカシト など。
レ、し の混同も多い。
2016/08/01(月) 22:24:15.16ID:AzMK4PQ3
日本人にとってシンデレラとツンデレラは明らかに違う。外国人に(ry
2016/08/01(月) 23:10:29.38ID:AzMK4PQ3
説と说はunicodeでは別字だった。
という事で訂正。JISは楷書通用字体、GBは簡体字。つまり3種類に分裂している。
スマンカッタ。
2016/08/02(火) 02:07:22.57ID:1KCZrKLH
>>418を通訳すると
「原規格分離などどうでもいい」

Windowsコードページ936(GBK)より
U+8AAC(説) = D568
U+8AAA(說) = D566
U+8BF4(说) = CBB5
2016/08/02(火) 14:41:15.32ID:X69kNOq3
誰得…
https://twitter.com/Emojipedia/status/760240063397654528
2016/08/02(火) 19:31:05.47ID:JwtZ9iAm
>>416
>ショートカット→ツョートカシト

日本人にもいるわ
2016/08/02(火) 20:49:40.10ID:LBy6cWLg
こうやって、タンクトップにショートパンツを貼り付けるんだお。
意味:デスクトップにショートカットを貼り付ける。
2016/08/02(火) 23:35:51.72ID:zi+BVpwh
ディスクトップのことをタンクトップというやつは見たことないな
2016/08/02(火) 23:48:20.71ID:2l83Zpm1
円盤の上に
2016/08/03(水) 00:17:44.35ID:4zWXrFMO
>>398-399
中国人は元素記号を漢字1文字で表す。こんな具合。
ttp://www.akatsukinishisu.net/kanji/genso/UTF-8.html

>>419
GBKはUnicode1.1より後に出来た。何故かUnicodeの駄目な部分をかなり含んでいる。
それを引き合いに出すのは筋違いとまでは言わなくても、慎重に考える方が良いかと。
2016/08/03(水) 17:17:04.74ID:XuAWxec+
iOS 10では拳銃の絵文字が水鉄砲の絵文字に置き換えられる | スラド アップル
http://apple.srad.jp/story/16/08/03/0444222/
2016/08/03(水) 18:29:34.34ID:mbys/AN5
わろた
2016/08/03(水) 18:31:08.54ID:mbys/AN5
Aが牛刀かなんかで
JがJナイフだろ
2016/08/03(水) 23:47:05.83ID:4zWXrFMO
森鴎外と書こうと森鷗外と書こうとどちらでも良い、というのが一般人の感覚。
これはそれほど不健全とは思えない。何しろ自筆原稿に「森鴎外」と書かれているんだから。
鴎は俗字だケシカラン、というのは一部の規範意識の強い正字正かな主義のキチガイ。
鷗はダメだ鴎と書け、というのはもっと訳のわからん国語改革主義のキチガイ。
こいつらがJISの83改定を行った為にカオスに。
430デフォルトの名無しさん
垢版 |
2016/08/04(木) 08:56:22.25ID:FjB5rL2o
>>429
使いわけがされていない字体違いの漢字はまとめてしまおうというのは文字コードの問題ではない。
2016/08/04(木) 12:12:59.75ID:8anV95gh
恵'
っていうのも流行ったけど
文字コードありますか?
2016/08/04(木) 17:09:02.57ID:TBSxpqkz
U+6075 U+E101
2016/08/04(木) 18:54:49.83ID:GAy76/a3
U+FA6B
U+6075 U+E103

でもいいのよ?
2016/08/04(木) 19:07:39.26ID:8anV95gh
U+FA6B でいけましたありがとう
2016/08/04(木) 19:32:46.16ID:Ki4RLkNz
U+6075 U+FE00
でもいいぞ
2016/08/05(金) 14:48:07.96ID:nIRHSvG0
この流れ、前にどこかで読んだ気がするなー、と思ったら
直井氏の「重複符号化四天王」だった。↓

ttp://d.hatena.ne.jp/NAOI/20130116/1358319668
2016/08/05(金) 14:56:27.37ID:9LvdmO9z
ということは祇園もあれか
祗園と書くとやられるのか
2016/08/05(金) 14:58:22.57ID:LJe/qM3f
julia> '\ufa6b'
'恵'

さすがだな
2016/08/05(金) 22:00:51.73ID:49rJvUnO
>>436
最近更新されてないな
2016/08/05(金) 22:19:20.77ID:zXAznUbh
>>430
いや、全く無関係ではあるまい。
鴎と鷗は使い分けがされていなかった、という点ではあなたも同意してくれるだろう。
原規格分離されていないのにUnicodeでは別字扱いになってしまった。
そもそも83改定を行ったJISと唆した国語審議会に元凶があったのだが、Unicodeにも責任の一端がある。
国語審議会は鷗を滅ぼして鴎に置き換えようとした。
本人に問い詰めて確認したわけではないが、多分そういう事だろう。
1000年以上にわたって使われ続けた字を滅ぼす事などそう簡単に出来る筈がない。
結局、国語審議会に滅ぼされる事なく生き残り、鴎と別の字になってしまった。

なお、最近見たベネッセの小学漢字辞典に鷗は載っていたが鴎は載っていなかった。

>>437
祇と祗は元々意味も読みも異なる別字。だが見た目が良く似ているので古くから混同される事が多かった。
「ぎおん」と入力して「祗園」と変換出来てしまうMS-IMEが悪い。
百歩譲ってその変換を認めるとしても、せめて「本来は誤用」ぐらいのメッセージは出してほしい。
2016/08/05(金) 23:24:48.92ID:Ox1rQ2Fh
>>437
フォントその他がJIS X 0213:2004対応かどうかで
偏が「示」になったり「ネ」だったりには変わるな
2016/08/06(土) 05:56:41.80ID:g/BBNoMH
もう数字の「1」も漢数字の「一」と統合しろよ。
「一回」と「1回」みたいに使い分けされてないだろ。
「ひとつ を 1つ と書くのはけしからん」なんて言う奴はキチガイ。
443デフォルトの名無しさん
垢版 |
2016/08/06(土) 06:01:39.31ID:e+VUV2JF
使う漢字を減らそうとして常用漢字を策定しているのにそれが気に入らないなら義務教育を否定しろよ。
2016/08/06(土) 06:15:36.28ID:zLWUK7Cp
>>442
1朝1夕 とか 1石2鳥 とか 8百万(やおよろず) なんて書かれたら脱力ものだけど
今じゃこんなのは当たり前なんだろうか
2016/08/06(土) 06:22:28.56ID:swGxqhgp
つまり加藤1239段と書けと
2016/08/06(土) 09:57:23.87ID:G90m6v3V
>>444
見たことはないが、読みがわからん奴がそのうちやるだろう。
2016/08/06(土) 15:41:55.96ID:lXyGJ+4s
4国地方
9州地方
448デフォルトの名無しさん
垢版 |
2016/08/06(土) 22:32:19.37ID:E3d0sLCL
16進数
449デフォルトの名無しさん
垢版 |
2016/08/06(土) 22:35:24.25ID:E3d0sLCL
>>447
4は、ヨン、シ
よみかたがどうなるのか

時代と共によみかたもかわるそうだが、だからといって、よみかたは、どうでもいいとはいえない
辞書順にならべかえた場合、探しにくい

しじゅうきょく
しじゅうきょくもーめんと
四極子(しきょくし、英: quadrupole, quadrapole)または四重極とは、モーメントが等しい双極子
Wikipedia
450デフォルトの名無しさん
垢版 |
2016/08/06(土) 23:28:50.16ID:e+VUV2JF
8日をはちにち、17日をじゅうななにちと口頭で言うなって感じだな。

特に8日と4日は聞き間違う可能性は低い。
2016/08/07(日) 13:43:44.87ID:sg2m+nAp
もうかなり前から小学校教育では
14日はじゅうよんにちだな
452デフォルトの名無しさん
垢版 |
2016/08/07(日) 15:24:00.14ID:62bJhx0K
>>451
本当?
2016/08/07(日) 16:16:16.92ID:9cSo/AxT
三重県よんにちいち市
454デフォルトの名無しさん
垢版 |
2016/08/07(日) 17:19:20.29ID:49wBLG90
>>451
教員が間違っていることはよくあるんだよな。

俺も子供のころ、いろんな担任が漢字の読みを間違っていたし。
2016/08/07(日) 23:09:39.81ID:W0a9UwyT
>>445
そんなのは異体字セレクターか何かで何とかしろ
2016/08/07(日) 23:58:49.54ID:13NE3PeU
絵文字のピストル、本物っぽいデザインとおもちゃっぽいデザインのどっちがいい? | スラド IT http://it.srad.jp/story/16/08/06/2215228/
2016/08/08(月) 00:42:12.05ID:h/269Flb
4様
2016/08/17(水) 16:58:01.66ID:DacIS0G0
秀丸エディタで補助漢字入りEUC-JPのデータをいじってたら何か化ける
というか秀丸がいうEUCって普通のEUC-JPじゃなくてコードページ51932(+ JIS X 0212)なのか?
2016/08/17(水) 18:00:48.77ID:KP9VFMD+
ではまずお前の思っている「普通のEUC-JP」「51932」の定義を言ってみろ
2016/08/17(水) 18:48:59.59ID:DacIS0G0
コードページ51932は正直よく知らないんで何ともだが
「普通のEUC-JP」はGLにASCII、GRにJIS X 0208を最初からロッキングシフトしておいて
JIS X 0212を使いたい時はSS3で一文字づつ呼び出すやつ、という説明でいいのか?
2016/08/17(水) 19:48:09.26ID:rsNvN518
まじかよ最悪だな禿丸
でも試しに8F B2 D1を読み込ませたらX 0212の18-49が表示されたぞ
よくわからん
2016/08/17(水) 21:43:57.03ID:q9L8GmQf
CP51932の文字セットは932そのままじゃなかったかな?丸数字とか入ってる筈。補助漢字無し
unicode?51932の変換する時中で一旦932にするので注意だったような
2016/08/17(水) 23:42:13.69ID:rsNvN518
Windows-31JとJIS X 0212に有ってShift_JISに無い文字(例:U+9A4E)を含むUTF-32ファイルを開いてEUC-JPで保存する時だな。
UTF-32(U+9A4E)→シフトJIS IBM拡張文字(FB FB)→シフトJIS NEC選定IBM拡張文字(EE DF)→JIS(7C 61)→CP51932(FC E1)
という経路で変換するんだろうな。
>>458が期待したのは
UTF-32(U+9A4E)→(69 51)→EUC-JP(8F E9 D1)
だったと。
JIS X 0212はよく知らんが、UTF-32とのマッピング表がobsoleteなんだから禿丸の動作は仕方なくね
464デフォルトの名無しさん
垢版 |
2016/08/17(水) 23:54:23.01ID:9FJ+LbN2
>>461
ほとんどは正常?なんだけど、
NEC特殊文字/NEC選定IBM拡張文字/IBM拡張文字に入ってる(中でその後JIS X 0212に採録された)280文字はコードページ932の区点が優先されるっぽい?

""はJIS X 0212に従うEUC-JPなら02区81点 8F A2 F1になるはずだが秀丸のEUCでは13区66点 AD E2になってる、
"J"は76区54点 8F EC D6になるはずだが秀丸のEUCでは92区77点 FC EDになってる。

>>462
文字集合を932と同じに拡張したEUC表現ってことでいいのかですかね、ありがとう。
2016/08/17(水) 23:58:51.50ID:9FJ+LbN2
>>463
そうそう、そういうことです!
補助漢字の前にコードページ932のNEC特殊文字/IBM拡張文字が優先なんですね……。
まあ最初からUTF-8かUTF-16にすればいいんだけど、うーん

長々とすみませんでした。
2016/08/19(金) 02:34:45.63ID:na9GQU+3
つーかWindowsで動くエディタで、CP932互換じゃないEUC-JPに変換するのあるの?
2016/08/19(金) 08:11:13.46ID:R+gedXV1
932互換でも構わんがJISX0212使っといて一部はG1(X0208)とか頭おかしいだろ
シングルシフト3は無しにして別に「EUC(0212有)」みたいな文字コードを設けろって感じ
2016/08/19(金) 13:01:11.35ID:cXkrYKyS
文字コードは難しすぎますね
すべての文字列はUTF-32で統一されるべきでしたわ
469デフォルトの名無しさん
垢版 |
2016/08/19(金) 16:44:17.07ID:MDjzAPUc
>>466
「〜」でやられることは割とまじで良くあるな
2016/08/21(日) 00:40:20.53ID:8CSn2PR2
>>460の言う普通のEUC-JPって
「~」を保存するとX0212になるんけ?
シフトジスの円マークを超える爆弾やないか
2016/08/21(日) 01:09:58.00ID:y7QDjexr
0212のTILDEはU+FF5Eにすればいいのでは
2016/08/22(月) 17:49:33.33ID:Rx9mnEUz
根拠のない俺マッピングですか
2016/08/22(月) 19:04:01.72ID:1uqoHG7Z
>>439
Twitter に鞍替えしちゃったからなあ
2016/08/24(水) 18:34:55.31ID:LiadQQJo
>>468
UTF-32を勉強したけど、結合シーケンスの
正規化のあたりで難しくてついていけなくなった
2016/08/31(水) 19:23:24.63ID:ydwY4yt1
そう言えば昔、Unicodeのインディアンスレ?があったけど
スレは単発で終わったんだっけ
2016/08/31(水) 20:38:55.78ID:gNQCVbH8
>>475
👳❔
2016/08/31(水) 20:39:42.33ID:gNQCVbH8
(´・ω・`)
2016/08/31(水) 21:34:59.28ID:oHNJUglq
>>476
👳❔
2016/08/31(水) 22:07:21.28ID:eDoof1t5
インディアンの顔文字提案スレですね
2016/08/31(水) 23:58:22.53ID:3OVWpwKX
10人のインディアンが一人づついなくなるのか
2016/09/01(木) 01:10:12.45ID:lZ/6Z4Ol
gとZWJで結合するのかな
2016/09/02(金) 18:21:16.83ID:aYJKGs1c
Unicodeオワットル
2016/09/02(金) 23:20:06.03ID:24FH2nuP
NFKD正規化って存在価値あるの?
オhルをオワットルに変換できた所で
何がうれしいのかよくわからん
2016/09/03(土) 00:41:07.59ID:2+PqWpLf
NFKDを検索したら𝐍𝐅𝐊𝐃も𝑁𝐹𝐾𝐷もマッチする方が嬉しいし
1月が㋀にマッチしたり株式会社が㍿にマッチしたら嬉しいから
俺はメリットがあると思うけど
2016/09/03(土) 02:21:27.68ID:0X4SIQFT
半角ABCで検索したら全角ABCがヒットしないFirefoxさん…
2016/09/04(日) 17:57:17.34ID:t4IVeB0G
>>483
分解除外採用すべきやろな
仕様がクソすぎる
2016/09/04(日) 22:08:48.81ID:I3Tx/JDs
その割に何十個もあるハイフン系は
NFKDでもまとまらないという
2016/09/05(月) 08:48:36.28ID:uKd9K+Pl
>>487
それはNFKDの仕事じゃない
2016/09/06(火) 20:51:36.90ID:xwAMZRD2
>>488
似た文字を正規化すんのがKの正規化でしょ
実際にU+2011はNFKDでU+2010になるし
2016/09/06(火) 21:18:50.81ID:zD4Ev6Rw
そろそろポケモン来る?
2016/09/07(水) 01:48:06.44ID:ebFGMU7R
もう横棒類は全部 HYPHEN-MINUS に置き換えしとけ
2016/09/07(水) 03:48:29.15ID:lO0k6I5n
>>489
compatibilityがあるものだけ
何十個もcompatibilityのあるdash/hyphenはない
横棒っぽい文字を全部集めたら数十種類あると思うが
それを全部例えばhyphen-minusに変換したら
テキストの意味が変わってしまい
到底NORMALizationと呼べるようなものではない
勿論そういう変換が有効な応用ではそうしていい
2016/09/08(木) 20:41:13.60ID:vRujICD+
つまり「俺のcompatibility基準を満たしていないからダメだもん」

横棒類は全部 HYPHEN-MINUS に置き換えでいい
2016/09/10(土) 02:47:21.06ID:J+ikgNSp
グダグダ言ってるとユニコード貼るぞ
俺のユニコードでお前は瞬殺
2016/09/10(土) 12:24:25.95ID:fOA1OM1A
ユニコードは犯罪だからやめてください!
2016/09/12(月) 10:27:24.50ID:mOa6Tuog
そこはユニコ-ドでしょ
2016/09/12(月) 14:27:32.13ID:gUHt3FEA
>>493
unicode character databaseと言うものがありましてねえ
2016/10/03(月) 15:40:21.15ID:KTjG7pFJ
>>497
で?
2016/10/05(水) 18:49:51.38ID:zQFtnK8f
来年は JIS X 0201/0208/0213/0213/0218 の見直し時期だけど
果たして 0208 と 0213 の大統合計画は進んでいるのかしら。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況