文字コード総合スレ Part10 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
2016/07/10(日) 19:18:33.41ID:Xe3UNHu3
パートのおばちゃんが「この字が出せない」と言っていたので、コードを調べて直接入力の方法を教えた。
そしたら、「そんな難しい方法じゃないと出ない字は出しません」と拒否。
管理職もそれでいいと思っている。
2016/07/10(日) 19:28:45.85ID:Xe3UNHu3
ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは
コードの知識がなくても何とかなる。けどそういう言い方は全く通じない職場がある。
で、バカみたいにA4の紙にでかい字で「煕之」と書いてFAXで送っている。
時間と紙と通信料金の無駄。
2016/07/10(日) 20:25:26.13ID:Vv5iaDQO
>ヒロユキのヒロは康煕字典の煕、ユキは王羲之の之、これで話が通じれは

それで通じる職場ってすごくピンポイントなんじゃないか
2016/07/10(日) 23:34:57.25ID:Xe3UNHu3
>>308
字の間違いが決して許されない職場では自然にそうなりそうな気もするんだが。
だいたい職場に大漢和辞典も康煕字典も無いとはもう駄目だ。

鼎という字を「何か県に似ている難しい字」などと言っている。u+9F0Eとは決して言わない。
高校時代に漢文が苦手だった俺だって「鼎の軽重を問う」という故事ぐらい知っている。
高卒以下か。
2016/07/11(月) 00:15:55.13ID:Oq6wujXh
>>290
漢ROMには第一水準しか乗ってなかった
2016/07/11(月) 00:42:20.21ID:TRcfwTqd
u+9F0Eとは決して言わない。いや言わんだろw
2016/07/11(月) 02:04:05.71ID:Y4y2Cs39
PC-9801初代とかE、F、Mの頃だな
313デフォルトの名無しさん
垢版 |
2016/07/11(月) 02:09:47.93ID:Y4y2Cs39
いや初代はJIS第1水準ROMも別売オプションだったか
2016/07/11(月) 04:11:38.97ID:1UixPK66
そういう環境は区点でも出ないから今は話題にしてない
315デフォルトの名無しさん
垢版 |
2016/07/11(月) 04:53:41.27ID:heaUdTdc
鼎立(ていりつ)
2016/07/11(月) 14:01:39.24ID:d9uyyk2v
>>283
たしかに合ってる
http://www.ndl.go.jp/jp/data/bib_newsletter/2016_1/article_06.html
2016/07/11(月) 14:48:05.83ID:czE7oCdB
>  しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイト(31ビット)でエンコードする
> サロゲート・ペアと呼ばれる方法が考え出されました。このエンコード法をUTF-16(16-bit UCS Transformation Format)と呼びます。

まるでUTF-8を拡張したらUTF-16が生まれたみたいな書きっぷりなんだが。。。
2016/07/11(月) 19:26:42.34ID:zdvynnCD
dmcがL"\uXXXX"で5桁以上に対応してなかったでござるよ
2016/07/11(月) 23:35:12.52ID:O+Gjjko5
あーあサイト閉鎖
http://www.asahi-net.or.jp/~ax2s-kmtn/
2016/07/12(火) 12:50:10.21ID:Z7lOs0LB
サイト閉鎖させるとか文字コード関係者は傲慢
2016/07/12(火) 14:22:38.54ID:jKILz9qy
そもそも不正確だろうが整合性なかろうが
その旨明記しておけば問題ないのに
断定しちゃうからダメなんだよなぁ
自分用のメモとしても訳に立たんだろうに
2016/07/12(火) 16:29:11.31ID:/KovKhYj
>>319
知らないなら解説しないでくださいうざいだけです
2016/07/12(火) 16:34:35.95ID:/KovKhYj
>>278
>【Unicodeのエンコーディング】※この章の内容を修正しました(2016年7月8日)

治ってたはω
2016/07/12(火) 22:47:59.76ID:iIVSUpVx
>>316のレターの著者=>>319のサイトの作者
なの?
Cyber Librarianなら見たことあるけどサイトを見た限りでは
そんな脇の甘いっつーか、ツッコミどころ満載の文章書く人には思えなかったが。
2016/07/13(水) 00:43:08.39ID:SuD222os
https://web.archive.org/web/20160331090356/http://www.asahi-net.or.jp/~ax2s-kmtn/character/uni.html
まあ同一人物でなければ盗用だろうなってかんじ
2016/07/13(水) 01:00:57.82ID:elchF/Ne
普通に考えたら同一人物だろ
上綱 秀治(かみつな しゅうじ) ⇒ s-kmtn
2016/07/13(水) 02:15:04.74ID:fhWupBlz
くみたんじゃないのか。
2016/07/13(水) 04:46:49.29ID:QAw5IbxT
>>325
同一人物だね
http://web.archive.org/web/20160501170424/http://www.asahi-net.or.jp/~ax2s-kmtn/profile.html
2016/07/13(水) 09:20:59.26ID:6cXc/1BZ
>>325
>UTF-8は、ASCIIコードに当たる部分はASCIIコードと同じコードで
>1バイトで表し、それ以外の文字を2〜6バイトの可変長で表します。
>しかし、UTF-8ではUCS-2の範囲の文字しか扱えません。
>そこで、UCS-2の範囲は2バイト、UCS-4の範囲は4バイトでエンコードする
>サロゲート・ペア(Surrogate Pair)と呼ばれる方法が考え出されました。

自分で書いた嘘を自分で信じ込んでしまったのか
2016/07/13(水) 13:48:05.15ID:5kGFdS9R
>>325
あー、これは(アカン)
2016/07/13(水) 17:23:44.93ID:Zm0ukFfg
>>322
>>319 は解脱したんだ
2016/07/13(水) 17:25:59.10ID:Zm0ukFfg
>>325
おわってんな
2016/07/13(水) 21:14:40.56ID:hX7/yWDM
くみたん大人気
2016/07/13(水) 23:46:02.63ID:g/v1wH4T
>>305
そうやって親切に説明しても理解しようとしない奴が多い。
自分の努力不足を棚に上げて。
新聞紙屋にも市役所職員にもそういう説明は通じなかった。
2016/07/13(水) 23:58:49.98ID:r/tNmXJO
天皇陛下が生前退位を望んでおられるらしいが
年号が変わったらまた組み文字のがUnicodeに登録されるんだろうか。
そしてNEC特殊文字の空き区点位置にも追加されたりするんだろうか?
2016/07/14(木) 14:43:57.97ID:QNDyLPqn
>>334
文系のばかに多いよなそういうの
2016/07/14(木) 15:27:07.43ID:9OuGPMv3
~順紫
2016/07/14(木) 17:50:45.39ID:/KqsG61x
>>335
Unicode側が先に動くんじゃなくて国内規格が変わったら重い腰を上げる感じじゃね?

JIS X 0213に追加されたら多分入れざるを得ないだろう。
2016/07/14(木) 18:58:13.31ID:FxiZTBVJ
Unicodeの組み文字はやたら多いんだよなあ
これ以上増やさないでいいと思うが
ARIBあたりは収録しそうだ
2016/07/14(木) 19:04:28.88ID:QNDyLPqn
そもそもどんな元号になるか機械学習で予想汁
341デフォルトの名無しさん
垢版 |
2016/07/15(金) 17:59:32.47ID:UYk8auDK
元号変わったら組み文字がJISやUnicodeに追加されるだろうか。
あれらはあくまで使用非推奨の互換用だけど平成迄あるのに
〇〇(新元号)は無いのはおかしいって文句言う人いそうだし。
そしてUnicodeに追加されるならBMP外になるのかな。
2016/07/15(金) 18:35:42.95ID:VjVb35Nf
JISは確実じゃろう
343デフォルトの名無しさん
垢版 |
2016/07/15(金) 19:47:06.41ID:hA/ek+uV
天皇陛下はさまざまな影響を考えて、数年後とおっしゃっている。
2016/07/15(金) 21:22:13.08ID:6VjYEGCM
天皇陛下はさまざまな影響を考えて、(Unicodeへの追加は)数年後とおっしゃっている。

かと思った
2016/07/15(金) 23:56:20.80ID:sNlxveIP
明治〜平成がBMPなのに新元号がSMPなのは納得いかないって人出てくるだろう。
でもU+33xxのBMPのCJK互換文字領域は空いてない。
U+32xxの囲み文字等の領域だったら
U+32FFが空いてるけどそこは○ンの為にとっておくべきって理由で却下かも。
(ARIB外字の□デは当初そこで提案されてたがSMPに移された。)
U+321Fも空いてるけどそこはハングルの為に予約でダメかな。
2文字合わせて1字の漢字扱いでCJK統合漢字無印の末端部分に追加とかするかも。
346デフォルトの名無しさん
垢版 |
2016/07/16(土) 00:01:26.24ID:5z5Xjrfb
>>344
陛下はIT業界のことまで考えてくださっているんだぞ。
2016/07/16(土) 00:14:15.53ID:32MvK4yp
>>345
>2文字合わせて1字の漢字扱い

面白いけど縦書きしたときに組み変わる漢字ってありなのかなあ…
2016/07/16(土) 00:24:24.28ID:gxGUgS9b
明治を廃止して新元号をそこに追加
2016/07/16(土) 01:19:59.61ID:cSN7L73p
ケチ臭いこと言わず大化から全部実現できるよう結合文字でやれ
350デフォルトの名無しさん
垢版 |
2016/07/16(土) 02:08:19.62ID:nOt6AvP3
>>348
それはない
2016/07/16(土) 02:30:42.97ID:lwkaPYM/
書類上は明治生まれもまだいっぱい生き残って年金もらってるんだろう?
2016/07/16(土) 06:16:44.45ID:G3ZPSnBi
明治生まれって105歳くらいでそろそろ長寿ギネスを争う位置やで
ゴーストは知らんけど例の事件以降対策は取ってるはず
353デフォルトの名無しさん
垢版 |
2016/07/16(土) 14:40:44.25ID:9Y22Kipm
>>335
生前退位は間違い
正しくは譲位
354デフォルトの名無しさん
垢版 |
2016/07/16(土) 14:43:32.66ID:9Y22Kipm
>>349
それな+1
355デフォルトの名無しさん
垢版 |
2016/07/16(土) 17:16:57.05ID:q/+YlM5I
>>353
譲位もいまの日本の法律では規定されていない言葉。
2016/07/16(土) 20:48:48.31ID:lwkaPYM/
譲位だと本人の意思が入るから、憲法との関係上無理だろうな。
2016/07/16(土) 22:09:26.27ID:ngMcbYeI
間を取って、新元号を「譲位」にするのだ。
2016/07/16(土) 23:20:32.22ID:DxYW1o4r
Macの機種依存文字でUnicodeにない組み文字とかは
PUAのうち何個かのコードポイントを後続の複数文字を組み文字とみなすとかの制御文字にして
変換時はそれらを使ったシーケンスにしてるけど
それらを正式なUnicodeポイントに追加すればいいんじゃないかな。
BMPの末端部の特殊用途文字の領域空いてるよな。多くなったら14面使えばいいし。
2016/07/17(日) 07:52:07.09ID:x5VmunYw
ゼロレングス結合何とかでいいだろ
年号
2016/07/17(日) 11:40:00.96ID:4VxhtWVI
[組文字2字] ○ × みたいな組み合わせで組文字を出せれば、どんな元号だろうと対処できるんじゃね?
2016/07/17(日) 12:03:06.58ID:OJhNugRE
立ちふさがる神護景雲
2016/07/17(日) 19:57:53.09ID:SZ0VR+WQ
絵文字だと4人くっつけて家族にしてるから余裕だろ
2016/07/18(月) 13:08:10.78ID:DeXLreOM
天平hogehogeも忘れないであげて
2016/07/18(月) 14:35:50.20ID:xsPahNIS
Unicode Consortium、人物を示す絵文字の大半で男女の切り替えを可能にする計画
http://it.srad.jp/story/16/07/17/1824252/
2016/07/18(月) 18:20:37.53ID:Al5nS1HD
いらん
2016/07/18(月) 20:01:39.34ID:V8MPLMCF
男のプリンセス👸みたいな
2016/07/18(月) 20:49:35.27ID:nMdxdQ2m
結局タグ文字は止めてZWJでくっつけることにしたのか
まあ俺は要らんけど、Googleはやるんだろうな。
2016/07/19(火) 01:10:44.77ID:OzJr/LCv
うんこと炎をくっつけて焼きカレー
2016/07/20(水) 00:14:41.29ID:c9Lgaa22
俺なんでこんなの書いたんだろ
2016/07/20(水) 16:25:57.26ID:uqKREUqt
元号の組み文字も平成の次からは
(1文字目) ZWJ (2文字目)
でいいだろう。元号に限らず他の組み文字もこのようなやり方で。
2016/07/21(木) 22:48:02.74ID:9yJr9MXg
L2/16-188 Revised Proposal of Hentaigana (with associated spreadsheet) Japan N.B. 2016-07-15
http://www.unicode.org/L2/L2016/16188-rev-hentaigana-rep.pdf
L2/16-189 Proposal to add a new character name alias to U+1B001 Japan N.B. 2016-07-15
http://www.unicode.org/L2/L2016/16189-n4731-alias-to-1B001.pdf

久しぶりに日本の提案書が来てた。
2016/07/22(金) 00:45:15.53ID:9PI3Dwz3
HENTAIYAGANA!

同じ音価のやつどう名前つけるのかと思ってたら単純に番号振ったんか。
しっかしほぼ同じじゃないかってやつがいくつもあるな…
2016/07/22(金) 15:36:11.58ID:mXdhJl5k
http://www.unicode.org/L2/L2016/16189-n4731-alias-to-1B001.pdf
>※ HENTAIGANA LETTER E-1


当然のように「※」を使っちゃうあたり紛れもなくわが国のNBだな
2016/07/22(金) 18:46:03.53ID:30Ur4lVX
海外でHENTAIって言ったらエロ漫画のことなんだろ?
2016/07/22(金) 23:40:37.75ID:ftmyXYU2
変態がな(´・ω・`)
2016/07/23(土) 19:23:17.75ID:23ptH+Cg
HENTAIGANAじゃなくてARCHAIC KANAにした方がいいかな。
2016/07/23(土) 22:48:56.85ID:9DZF6Yvk
376ができるならそうしてほしい
378237
垢版 |
2016/07/24(日) 13:36:56.67ID:6r1nbUWl
Wikipediaにも別称として載ってるitaiganaならまだしも、一般的でない訳語を増やすのはやめてくれ
379デフォルトの名無しさん
垢版 |
2016/07/24(日) 13:38:46.61ID:wdZTIji9
しらんがなも追加で
380デフォルトの名無しさん
垢版 |
2016/07/24(日) 14:21:52.39ID:KetOMPlM
痛い(>_<)がな
2016/07/24(日) 18:14:24.67ID:jDvbVIvk
しらんがな-1
しらんがな-2
しらんがな-3

どうでもいいレベルに応じて数字が上がっていくしらんがな
2016/07/25(月) 03:34:48.68ID:+HnBvISv
しらんがな(´・ω・`)
2016/07/27(水) 23:58:18.41ID:LlxcxPCX
漢字なんかもUnicodeではCJK Ideograph(日中韓の表意文字)という独特な表現なんだよな。
通常はChinese character(中国の文字)とか日本で使われるもの限定ならKanjiとかだけど、
中国語だけでなく日本語でも必要不可欠なことから中立的な観点でそうしたのかな。
384デフォルトの名無しさん
垢版 |
2016/07/28(木) 00:49:49.72ID:5nmTx3N/
>>383
それUTF-16だろ。
2016/07/28(木) 01:46:29.52ID:0eJShhc0
ぇ?
2016/07/28(木) 03:14:54.78ID:V4Cbn7HZ
え?
2016/07/28(木) 06:15:57.66ID:A01hQQOB
ゑ?
2016/07/28(木) 07:33:28.43ID:Gt2rQ6iY
>>383
「漢字って言語圏ごとに登録したらとんでもない量になる。出自は同じだし統合すっか」
っていう混ぜ書き全否定な仕様にしたからな
統合したんだからKanjiっていう日本語読みじゃなくて「極東の表意文字」みたいな名前つけられるのは当然の成り行き
2016/07/28(木) 08:14:34.00ID:tnN3Zull
UCDのファイル名はUnihan(Unified-HAN)だろ
つまり韓国が起源
2016/07/28(木) 09:47:39.76ID:V0F605Q9
繁字体の繁
2016/07/28(木) 10:28:08.04ID:49cPLP5e
そうはいっても迷惑かけている部分もあるからな
英語だったら高々数十個のアルファベットと幾つかの記号だけで済むところを
何万種類も必要になる方が悪いだろ、どう考えても
2016/07/28(木) 10:52:38.11ID:765MMEfE
>どう考えても
何をどう考えたらそんなキチガイの発想に至ったのか
2016/07/28(木) 13:16:07.78ID:V4Cbn7HZ
英国はアヘン戦争で清を滅亡させるべきだったし、
米国は太平洋戦争で日本を滅亡させるべきだったね。
2016/07/28(木) 13:20:15.08ID:xeepOtn0
幽霊文字が規格化される国だから反論できない
2016/07/28(木) 14:16:22.55ID:ZhRv9dtO
勝手に新しい絵文字作り出してる現状なんだし気にするな
と思ったけど文字が少ない文化圏の連中はその反動なのかもしれないな
2016/07/28(木) 19:12:45.37ID:O8Vfrh0P
将来再び毛沢東みたいなアホが出てきて新文字増やす可能性もないとはいえない
397デフォルトの名無しさん
垢版 |
2016/07/28(木) 23:10:34.74ID:+NfDBjt/
>>388
でも統合しきれなくてコードポイントを無駄遣いしているのが多数。
例えば一例として説と說が別字扱いというのは納得できない。
康煕字典に47000字、大漢和辞典に50000字というのは調べれば最初から分かった筈。
相当節約すべきなのにそれを怠ったから16bitのバベルの塔は頓挫した。

>>394
そしてそれを廃止できない。負の文化遺産として今後も残るだろう。
2016/07/28(木) 23:49:12.01ID:m+0rYuPE
そういえばニホニウムの中国語表記はどうなるんだろう
2016/07/29(金) 01:02:54.07ID:SETcyGJa
小日本素あたり?
2016/07/29(金) 07:36:19.19ID:Lct7OLsq
え?
2016/07/29(金) 08:13:31.17ID:GYJuIIBJ
>>397
>説と說が別字扱いというのは納得できない
自国の文化以外を受け入れることが出来ない奴は吠えてろ。
アメリカ人が英語圏以外のことを軽視してるのと同様に
お前のその思想が世界に迷惑
2016/07/29(金) 12:00:07.20ID:5X3dVFw4
原規格分離規則が無かったら更にカオスなことになってそう
403デフォルトの名無しさん
垢版 |
2016/07/29(金) 23:13:14.93ID:qPs+aDEn
>>401
それは逆。
漢字文化を理解しない西洋人が規格化したからそうなってしまった。
康煕字典の「正字」がどのような経緯で成立したかほんの少し勉強すれば、それらが同字だと理解できる。
ついでに日本のバカな国語審議会がどんなふうにバカな国語国字改革を行ったかも知っておくべき。
2016/07/30(土) 00:36:36.04ID:GBcwIM/b
説と說の違いなどフォントの違いに過ぎない。
これを別字だと主張するのはGaramondのAとBodoniのAは別字だと主張する様なものだ。
2016/07/30(土) 01:00:50.77ID:nwxv/kKT
IPAを食らうがよい
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況