文字コード総合スレ Part10 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
2016/07/13(水) 09:20:59.26ID:6cXc/1BZ
>>325
>UTF-8は、ASCIIコードに当たる部分はASCIIコードと同じコードで
>1バイトで表し、それ以外の文字を2〜6バイトの可変長で表します。
>しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。
>そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイトでエンコードする
>サロゲート・ペア(Surrogate Pair)と呼ばれる方法が考え出されました。

自分で書いた嘘を自分で信じ込んでしまったのか
2016/07/13(水) 13:48:05.15ID:5kGFdS9R
>>325
あー、これは(アカン)
2016/07/13(水) 17:23:44.93ID:Zm0ukFfg
>>322
>>319 は解脱したんだ
2016/07/13(水) 17:25:59.10ID:Zm0ukFfg
>>325
おわってんな
2016/07/13(水) 21:14:40.56ID:hX7/yWDM
くみたん大人気
2016/07/13(水) 23:46:02.63ID:g/v1wH4T
>>305
そうやって親切に説明しても理解しようとしない奴が多い。
自分の努力不足を棚に上げて。
新聞紙屋にも市役所職員にもそういう説明は通じなかった。
2016/07/13(水) 23:58:49.98ID:r/tNmXJO
天皇陛下が生前退位を望んでおられるらしいが
年号が変わったらまた組み文字のがUnicodeに登録されるんだろうか。
そしてNEC特殊文字の空き区点位置にも追加されたりするんだろうか?
2016/07/14(木) 14:43:57.97ID:QNDyLPqn
>>334
文系のばかに多いよなそういうの
2016/07/14(木) 15:27:07.43ID:9OuGPMv3
~順紫
2016/07/14(木) 17:50:45.39ID:/KqsG61x
>>335
Unicode側が先に動くんじゃなくて国内規格が変わったら重い腰を上げる感じじゃね?

JIS X 0213に追加されたら多分入れざるを得ないだろう。
2016/07/14(木) 18:58:13.31ID:FxiZTBVJ
Unicodeの組み文字はやたら多いんだよなあ
これ以上増やさないでいいと思うが
ARIBあたりは収録しそうだ
2016/07/14(木) 19:04:28.88ID:QNDyLPqn
そもそもどんな元号になるか機械学習で予想汁
341デフォルトの名無しさん
垢版 |
2016/07/15(金) 17:59:32.47ID:UYk8auDK
元号変わったら組み文字がJISやUnicodeに追加されるだろうか。
あれらはあくまで使用非推奨の互換用だけど平成迄あるのに
〇〇(新元号)は無いのはおかしいって文句言う人いそうだし。
そしてUnicodeに追加されるならBMP外になるのかな。
2016/07/15(金) 18:35:42.95ID:VjVb35Nf
JISは確実じゃろう
343デフォルトの名無しさん
垢版 |
2016/07/15(金) 19:47:06.41ID:hA/ek+uV
天皇陛下はさまざまな影響を考えて、数年後とおっしゃっている。
2016/07/15(金) 21:22:13.08ID:6VjYEGCM
天皇陛下はさまざまな影響を考えて、(Unicodeへの追加は)数年後とおっしゃっている。

かと思った
2016/07/15(金) 23:56:20.80ID:sNlxveIP
明治〜平成がBMPなのに新元号がSMPなのは納得いかないって人出てくるだろう。
でもU+33xxのBMPのCJK互換文字領域は空いてない。
U+32xxの囲み文字等の領域だったら
U+32FFが空いてるけどそこは○ンの為にとっておくべきって理由で却下かも。
(ARIB外字の□デは当初そこで提案されてたがSMPに移された。)
U+321Fも空いてるけどそこはハングルの為に予約でダメかな。
2文字合わせて1字の漢字扱いでCJK統合漢字無印の末端部分に追加とかするかも。
346デフォルトの名無しさん
垢版 |
2016/07/16(土) 00:01:26.24ID:5z5Xjrfb
>>344
陛下はIT業界のことまで考えてくださっているんだぞ。
2016/07/16(土) 00:14:15.53ID:32MvK4yp
>>345
>2文字合わせて1字の漢字扱い

面白いけど縦書きしたときに組み変わる漢字ってありなのかなあ…
2016/07/16(土) 00:24:24.28ID:gxGUgS9b
明治を廃止して新元号をそこに追加
2016/07/16(土) 01:19:59.61ID:cSN7L73p
ケチ臭いこと言わず大化から全部実現できるよう結合文字でやれ
350デフォルトの名無しさん
垢版 |
2016/07/16(土) 02:08:19.62ID:nOt6AvP3
>>348
それはない
2016/07/16(土) 02:30:42.97ID:lwkaPYM/
書類上は明治生まれもまだいっぱい生き残って年金もらってるんだろう?
2016/07/16(土) 06:16:44.45ID:G3ZPSnBi
明治生まれって105歳くらいでそろそろ長寿ギネスを争う位置やで
ゴーストは知らんけど例の事件以降対策は取ってるはず
353デフォルトの名無しさん
垢版 |
2016/07/16(土) 14:40:44.25ID:9Y22Kipm
>>335
生前退位は間違い
正しくは譲位
354デフォルトの名無しさん
垢版 |
2016/07/16(土) 14:43:32.66ID:9Y22Kipm
>>349
それな+1
355デフォルトの名無しさん
垢版 |
2016/07/16(土) 17:16:57.05ID:q/+YlM5I
>>353
譲位もいまの日本の法律では規定されていない言葉。
2016/07/16(土) 20:48:48.31ID:lwkaPYM/
譲位だと本人の意思が入るから、憲法との関係上無理だろうな。
2016/07/16(土) 22:09:26.27ID:ngMcbYeI
間を取って、新元号を「譲位」にするのだ。
2016/07/16(土) 23:20:32.22ID:DxYW1o4r
Macの機種依存文字でUnicodeにない組み文字とかは
PUAのうち何個かのコードポイントを後続の複数文字を組み文字とみなすとかの制御文字にして
変換時はそれらを使ったシーケンスにしてるけど
それらを正式なUnicodeポイントに追加すればいいんじゃないかな。
BMPの末端部の特殊用途文字の領域空いてるよな。多くなったら14面使えばいいし。
2016/07/17(日) 07:52:07.09ID:x5VmunYw
ゼロレングス結合何とかでいいだろ
年号
2016/07/17(日) 11:40:00.96ID:4VxhtWVI
[組文字2字] ○ × みたいな組み合わせで組文字を出せれば、どんな元号だろうと対処できるんじゃね?
2016/07/17(日) 12:03:06.58ID:OJhNugRE
立ちふさがる神護景雲
2016/07/17(日) 19:57:53.09ID:SZ0VR+WQ
絵文字だと4人くっつけて家族にしてるから余裕だろ
2016/07/18(月) 13:08:10.78ID:DeXLreOM
天平hogehogeも忘れないであげて
2016/07/18(月) 14:35:50.20ID:xsPahNIS
Unicode Consortium、人物を示す絵文字の大半で男女の切り替えを可能にする計画
http://it.srad.jp/story/16/07/17/1824252/
2016/07/18(月) 18:20:37.53ID:Al5nS1HD
いらん
2016/07/18(月) 20:01:39.34ID:V8MPLMCF
男のプリンセス👸みたいな
2016/07/18(月) 20:49:35.27ID:nMdxdQ2m
結局タグ文字は止めてZWJでくっつけることにしたのか
まあ俺は要らんけど、Googleはやるんだろうな。
2016/07/19(火) 01:10:44.77ID:OzJr/LCv
うんこと炎をくっつけて焼きカレー
2016/07/20(水) 00:14:41.29ID:c9Lgaa22
俺なんでこんなの書いたんだろ
2016/07/20(水) 16:25:57.26ID:uqKREUqt
元号の組み文字も平成の次からは
(1文字目) ZWJ (2文字目)
でいいだろう。元号に限らず他の組み文字もこのようなやり方で。
2016/07/21(木) 22:48:02.74ID:9yJr9MXg
L2/16-188 Revised Proposal of Hentaigana (with associated spreadsheet) Japan N.B. 2016-07-15
http://www.unicode.org/L2/L2016/16188-rev-hentaigana-rep.pdf
L2/16-189 Proposal to add a new character name alias to U+1B001 Japan N.B. 2016-07-15
http://www.unicode.org/L2/L2016/16189-n4731-alias-to-1B001.pdf

久しぶりに日本の提案書が来てた。
2016/07/22(金) 00:45:15.53ID:9PI3Dwz3
HENTAIYAGANA!

同じ音価のやつどう名前つけるのかと思ってたら単純に番号振ったんか。
しっかしほぼ同じじゃないかってやつがいくつもあるな…
2016/07/22(金) 15:36:11.58ID:mXdhJl5k
http://www.unicode.org/L2/L2016/16189-n4731-alias-to-1B001.pdf
>※ HENTAIGANA LETTER E-1


当然のように「※」を使っちゃうあたり紛れもなくわが国のNBだな
2016/07/22(金) 18:46:03.53ID:30Ur4lVX
海外でHENTAIって言ったらエロ漫画のことなんだろ?
2016/07/22(金) 23:40:37.75ID:ftmyXYU2
変態がな(´・ω・`)
2016/07/23(土) 19:23:17.75ID:23ptH+Cg
HENTAIGANAじゃなくてARCHAIC KANAにした方がいいかな。
2016/07/23(土) 22:48:56.85ID:9DZF6Yvk
376ができるならそうしてほしい
378237
垢版 |
2016/07/24(日) 13:36:56.67ID:6r1nbUWl
Wikipediaにも別称として載ってるitaiganaならまだしも、一般的でない訳語を増やすのはやめてくれ
379デフォルトの名無しさん
垢版 |
2016/07/24(日) 13:38:46.61ID:wdZTIji9
しらんがなも追加で
380デフォルトの名無しさん
垢版 |
2016/07/24(日) 14:21:52.39ID:KetOMPlM
痛い(>_<)がな
2016/07/24(日) 18:14:24.67ID:jDvbVIvk
しらんがな-1
しらんがな-2
しらんがな-3

どうでもいいレベルに応じて数字が上がっていくしらんがな
2016/07/25(月) 03:34:48.68ID:+HnBvISv
しらんがな(´・ω・`)
2016/07/27(水) 23:58:18.41ID:LlxcxPCX
漢字なんかもUnicodeではCJK Ideograph(日中韓の表意文字)という独特な表現なんだよな。
通常はChinese character(中国の文字)とか日本で使われるもの限定ならKanjiとかだけど、
中国語だけでなく日本語でも必要不可欠なことから中立的な観点でそうしたのかな。
384デフォルトの名無しさん
垢版 |
2016/07/28(木) 00:49:49.72ID:5nmTx3N/
>>383
それUTF-16だろ。
2016/07/28(木) 01:46:29.52ID:0eJShhc0
ぇ?
2016/07/28(木) 03:14:54.78ID:V4Cbn7HZ
え?
2016/07/28(木) 06:15:57.66ID:A01hQQOB
ゑ?
2016/07/28(木) 07:33:28.43ID:Gt2rQ6iY
>>383
「漢字って言語圏ごとに登録したらとんでもない量になる。出自は同じだし統合すっか」
っていう混ぜ書き全否定な仕様にしたからな
統合したんだからKanjiっていう日本語読みじゃなくて「極東の表意文字」みたいな名前つけられるのは当然の成り行き
2016/07/28(木) 08:14:34.00ID:tnN3Zull
UCDのファイル名はUnihan(Unified-HAN)だろ
つまり韓国が起源
2016/07/28(木) 09:47:39.76ID:V0F605Q9
繁字体の繁
2016/07/28(木) 10:28:08.04ID:49cPLP5e
そうはいっても迷惑かけている部分もあるからな
英語だったら高々数十個のアルファベットと幾つかの記号だけで済むところを
何万種類も必要になる方が悪いだろ、どう考えても
2016/07/28(木) 10:52:38.11ID:765MMEfE
>どう考えても
何をどう考えたらそんなキチガイの発想に至ったのか
2016/07/28(木) 13:16:07.78ID:V4Cbn7HZ
英国はアヘン戦争で清を滅亡させるべきだったし、
米国は太平洋戦争で日本を滅亡させるべきだったね。
2016/07/28(木) 13:20:15.08ID:xeepOtn0
幽霊文字が規格化される国だから反論できない
2016/07/28(木) 14:16:22.55ID:ZhRv9dtO
勝手に新しい絵文字作り出してる現状なんだし気にするな
と思ったけど文字が少ない文化圏の連中はその反動なのかもしれないな
2016/07/28(木) 19:12:45.37ID:O8Vfrh0P
将来再び毛沢東みたいなアホが出てきて新文字増やす可能性もないとはいえない
397デフォルトの名無しさん
垢版 |
2016/07/28(木) 23:10:34.74ID:+NfDBjt/
>>388
でも統合しきれなくてコードポイントを無駄遣いしているのが多数。
例えば一例として説と說が別字扱いというのは納得できない。
康煕字典に47000字、大漢和辞典に50000字というのは調べれば最初から分かった筈。
相当節約すべきなのにそれを怠ったから16bitのバベルの塔は頓挫した。

>>394
そしてそれを廃止できない。負の文化遺産として今後も残るだろう。
2016/07/28(木) 23:49:12.01ID:m+0rYuPE
そういえばニホニウムの中国語表記はどうなるんだろう
2016/07/29(金) 01:02:54.07ID:SETcyGJa
小日本素あたり?
2016/07/29(金) 07:36:19.19ID:Lct7OLsq
え?
2016/07/29(金) 08:13:31.17ID:GYJuIIBJ
>>397
>説と說が別字扱いというのは納得できない
自国の文化以外を受け入れることが出来ない奴は吠えてろ。
アメリカ人が英語圏以外のことを軽視してるのと同様に
お前のその思想が世界に迷惑
2016/07/29(金) 12:00:07.20ID:5X3dVFw4
原規格分離規則が無かったら更にカオスなことになってそう
403デフォルトの名無しさん
垢版 |
2016/07/29(金) 23:13:14.93ID:qPs+aDEn
>>401
それは逆。
漢字文化を理解しない西洋人が規格化したからそうなってしまった。
康煕字典の「正字」がどのような経緯で成立したかほんの少し勉強すれば、それらが同字だと理解できる。
ついでに日本のバカな国語審議会がどんなふうにバカな国語国字改革を行ったかも知っておくべき。
2016/07/30(土) 00:36:36.04ID:GBcwIM/b
説と說の違いなどフォントの違いに過ぎない。
これを別字だと主張するのはGaramondのAとBodoniのAは別字だと主張する様なものだ。
2016/07/30(土) 01:00:50.77ID:nwxv/kKT
IPAを食らうがよい
2016/07/30(土) 02:27:38.51ID:VkFDbK5O
フォントの違い?じゃあ別字で😁
A A 𐌀 𝐀 𝐴 𝑨 𝒜 𝓐 𝔄 𝔸 𝕬 𝖠 𝗔 𝘈 𝘼 𝙰
2016/07/30(土) 03:37:32.39ID:crIAC8Sk
BOMを食らうが良い。
2016/07/30(土) 05:58:51.63ID:7lrNNE5f
>>403を通訳すると
「現規格分離などどうでもいい」
「日本の漢字文化がすべて。他の国のことは知らん」
最悪だな
2016/07/30(土) 06:32:16.51ID:RG1Ilx1/
× 現規格
○ 原規格
410デフォルトの名無しさん
垢版 |
2016/07/30(土) 13:16:26.02ID:NnN7Vre0
>>404
華と华は同じ字ですか?
411デフォルトの名無しさん
垢版 |
2016/07/30(土) 13:17:35.16ID:NnN7Vre0
>>406
Уとyは同じ字ですか?
412デフォルトの名無しさん
垢版 |
2016/07/30(土) 21:48:28.00ID:dIHoRAg/






カタカナのヘ
ひらがなのへ
413デフォルトの名無しさん
垢版 |
2016/07/30(土) 21:55:31.23ID:cBq8SpsU
:::::::::::/           ヽ::::::::::::
:::::::::::|  ば  じ  き  i::::::::::::
:::::::::::.ゝ か   つ   み  ノ:::::::::::
:::::::::::/  だ  に  は イ:::::::::::::
:::::  |  な。       ゙i  ::::::
   \_         ,,-'
――--、..,ヽ__  _,,-''
:::::::,-‐、,‐、ヽ. )ノ      _,,...-
:::::_|/ 。|。ヽ|-i、      ∠_:::::::::
/. ` ' ● ' ニ 、     ,-、ヽ|:::::::::
ニ __l___ノ     |・ | |, -、::
/ ̄ _  | i     ゚r ー'  6 |::
|( ̄`'  )/ / ,..    i     '-
`ー---―' / '(__ )   ヽ 、     >>1
====( i)==::::/      ,/ニニニ
:/     ヽ:::i       /;;;;;;;;;;;;;;;;
2016/08/01(月) 17:17:15.79ID:JXVULl1x
ソとンは微妙なのは判るが
ツとシは明らかに違う字だろ
2016/08/01(月) 17:43:19.40ID:A0XjWkqP
( ツ )ノシ
2016/08/01(月) 22:12:49.95ID:AzMK4PQ3
兌を部品として含む字は説の他にも色々ある。
脱 税 悦 など。これらは統合されている。
説は何故か康煕字典の正字(Big5,KS)と楷書通用字体(JIS,GB)の2種類に分裂している。
固有名詞の表記で揉め事になる字でもない。何かの手違いかと。

>>414
日本人にとっては明らかに違う字だが中国人、韓国人などには区別しづらいようだ。
アジアからの輸入品ではそういう誤植はよく見かける。ショートカット→ツョートカシト など。
レ、し の混同も多い。
2016/08/01(月) 22:24:15.16ID:AzMK4PQ3
日本人にとってシンデレラとツンデレラは明らかに違う。外国人に(ry
2016/08/01(月) 23:10:29.38ID:AzMK4PQ3
説と说はunicodeでは別字だった。
という事で訂正。JISは楷書通用字体、GBは簡体字。つまり3種類に分裂している。
スマンカッタ。
2016/08/02(火) 02:07:22.57ID:1KCZrKLH
>>418を通訳すると
「原規格分離などどうでもいい」

Windowsコードページ936(GBK)より
U+8AAC(説) = D568
U+8AAA(說) = D566
U+8BF4(说) = CBB5
2016/08/02(火) 14:41:15.32ID:X69kNOq3
誰得…
https://twitter.com/Emojipedia/status/760240063397654528
2016/08/02(火) 19:31:05.47ID:JwtZ9iAm
>>416
>ショートカット→ツョートカシト

日本人にもいるわ
2016/08/02(火) 20:49:40.10ID:LBy6cWLg
こうやって、タンクトップにショートパンツを貼り付けるんだお。
意味:デスクトップにショートカットを貼り付ける。
2016/08/02(火) 23:35:51.72ID:zi+BVpwh
ディスクトップのことをタンクトップというやつは見たことないな
2016/08/02(火) 23:48:20.71ID:2l83Zpm1
円盤の上に
2016/08/03(水) 00:17:44.35ID:4zWXrFMO
>>398-399
中国人は元素記号を漢字1文字で表す。こんな具合。
ttp://www.akatsukinishisu.net/kanji/genso/UTF-8.html

>>419
GBKはUnicode1.1より後に出来た。何故かUnicodeの駄目な部分をかなり含んでいる。
それを引き合いに出すのは筋違いとまでは言わなくても、慎重に考える方が良いかと。
2016/08/03(水) 17:17:04.74ID:XuAWxec+
iOS 10では拳銃の絵文字が水鉄砲の絵文字に置き換えられる | スラド アップル
http://apple.srad.jp/story/16/08/03/0444222/
2016/08/03(水) 18:29:34.34ID:mbys/AN5
わろた
2016/08/03(水) 18:31:08.54ID:mbys/AN5
Aが牛刀かなんかで
JがJナイフだろ
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況