文字コード総合スレ Part10 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
2016/09/03(土) 00:41:07.59ID:2+PqWpLf
NFKDを検索したら𝐍𝐅𝐊𝐃も𝑁𝐹𝐾𝐷もマッチする方が嬉しいし
1月が㋀にマッチしたり株式会社が㍿にマッチしたら嬉しいから
俺はメリットがあると思うけど
2016/09/03(土) 02:21:27.68ID:0X4SIQFT
半角ABCで検索したら全角ABCがヒットしないFirefoxさん…
2016/09/04(日) 17:57:17.34ID:t4IVeB0G
>>483
分解除外採用すべきやろな
仕様がクソすぎる
2016/09/04(日) 22:08:48.81ID:I3Tx/JDs
その割に何十個もあるハイフン系は
NFKDでもまとまらないという
2016/09/05(月) 08:48:36.28ID:uKd9K+Pl
>>487
それはNFKDの仕事じゃない
2016/09/06(火) 20:51:36.90ID:xwAMZRD2
>>488
似た文字を正規化すんのがKの正規化でしょ
実際にU+2011はNFKDでU+2010になるし
2016/09/06(火) 21:18:50.81ID:zD4Ev6Rw
そろそろポケモン来る?
2016/09/07(水) 01:48:06.44ID:ebFGMU7R
もう横棒類は全部 HYPHEN-MINUS に置き換えしとけ
2016/09/07(水) 03:48:29.15ID:lO0k6I5n
>>489
compatibilityがあるものだけ
何十個もcompatibilityのあるdash/hyphenはない
横棒っぽい文字を全部集めたら数十種類あると思うが
それを全部例えばhyphen-minusに変換したら
テキストの意味が変わってしまい
到底NORMALizationと呼べるようなものではない
勿論そういう変換が有効な応用ではそうしていい
2016/09/08(木) 20:41:13.60ID:vRujICD+
つまり「俺のcompatibility基準を満たしていないからダメだもん」

横棒類は全部 HYPHEN-MINUS に置き換えでいい
2016/09/10(土) 02:47:21.06ID:J+ikgNSp
グダグダ言ってるとユニコード貼るぞ
俺のユニコードでお前は瞬殺
2016/09/10(土) 12:24:25.95ID:fOA1OM1A
ユニコードは犯罪だからやめてください!
2016/09/12(月) 10:27:24.50ID:mOa6Tuog
そこはユニコ-ドでしょ
2016/09/12(月) 14:27:32.13ID:gUHt3FEA
>>493
unicode character databaseと言うものがありましてねえ
2016/10/03(月) 15:40:21.15ID:KTjG7pFJ
>>497
で?
2016/10/05(水) 18:49:51.38ID:zQFtnK8f
来年は JIS X 0201/0208/0213/0213/0218 の見直し時期だけど
果たして 0208 と 0213 の大統合計画は進んでいるのかしら。
2016/10/05(水) 20:58:30.93ID:XMn6/PJL
大統領計画に見えた
2016/10/05(水) 21:43:58.27ID:7xdnHvuf
もうJISなんて誰も読んでないから更新するだけ無駄
2016/10/06(木) 00:19:24.84ID:WcwEO0Cy
なんだかんだいろいろな場から参照されるしUnicodeの中の人も読まざるを得ないから
うんこ絵文字のバリエーション大量に紛れ込ませてUnicodeにUnko Supplementとして収録させるチャンス
2016/10/06(木) 17:53:36.88ID:UZIumrjL
ウンコはIVSの240まででお願いします
2016/10/07(金) 16:27:31.20ID:a2swqPPf
>>501
なわけないw
2016/10/08(土) 04:31:56.90ID:Mitr01Lo
ようやく変体仮名は投票に進むことになったのか
2016/10/10(月) 18:05:59.46ID:YNNS+rUA
>>501
刷りで字形変えるとか狂気の沙汰やで
2016/10/10(月) 19:30:46.05ID:cMA/MPGG
>>503
そういえば例の絵文字の肌色セレクターってうんちの健康状態セレクターにも使えそうな気がしてきた
2016/10/10(月) 22:58:01.80ID:M8ZVX+C6
うんこ色のカレーとうこん色のカレーを区別するのです

ケーキに黒っぽいVS付けたらチョコレートケーキとか
そういう汎用化は日本が提案したけど駄目だったんじゃなかったっけ?
肌の色が何とかなればいいんだってことで
2016/10/10(月) 23:51:20.73ID:Djs1tw8b
モアイに色付けたら似てる人たくさんいるよな
2016/10/11(火) 20:05:00.55ID:OtV2PYG6
カレー味のうんこ
うんこ味のカレー
の区別も必要(´・ω・`)
2016/10/11(火) 21:31:06.48ID:cObrH7jL
本来モアイじゃなくてモヤイだけどな
2016/10/11(火) 21:50:29.29ID:V1jdw+of
>>511
だが誰も気にしない
http://emojipedia.org/moyai/
拳銃についてはあれだけ議論になるのにモヤイはモアイでいいみたい
2016/10/11(火) 22:41:02.94ID:rvdgZgux
イースター島にあるのがモアイ、渋谷にあるのがモヤイだと思ってたw
2016/10/12(水) 16:00:26.26ID:YOeAxYpE
本来はそれで合ってるはずなんだけどね
2016/10/15(土) 23:01:11.77ID:D2M8VrAf
ユニコードのUAX#29(文字・単語・段落の抽出)を久しぶりに読んでみたら
Grapheme clusterの仕様が絵文字のルールに汚染されていた。
何なんだこの絵文字推しは。
2016/10/16(日) 12:53:03.20ID:OdRyVeWS
>>515
確かに追加されてる
けどemojiがある以上ルールを追加しないと仕方ないからしょうがない
合成使って性別modifierとかふざけてるけど
2016/10/16(日) 23:34:01.26ID:WgPd64pv
この性別ってライオンのたてがみとか、人間以外にも使えるんだろうか
2016/10/17(月) 16:48:56.72ID:aoY1HCI9
フィッツパトリック肌分類って6種類あるのに
何でUnicodeのEmoji Modifiersでは5つしか入れてないんだろう
"pale white skin"と"white skin"は区別しなくていいのか
2016/10/17(月) 18:02:36.80ID:Mub28dKn
フィッツパトリック肌分類に基づいた上で1と2を一つにまとめて5段階にした
と書かれているんだから区別しなくていいと判断したんだろう
根拠は不明だが
2016/10/17(月) 18:48:57.01ID:V2CfCREk
そこらへんすごく謎。まとめていいんかいと思った。
2016/10/17(月) 19:58:51.95ID:0j2VVc+B
もうめちゃくちゃだよ
2016/10/19(水) 07:22:54.68ID:2wj1sf6o
絵文字をざっくりしたシンボルじゃなくて
なまじリアルな絵で表現し始めちゃったのがそもそもの間違いなんだよな
2016/10/19(水) 18:20:20.85ID:+yhFT7Q1
コードポイントを追加するのはともかく
modifierみたいなコードポイント列の解釈についての
ルール追加はやめて欲しいものだ
2016/10/19(水) 19:21:02.82ID:z+7397V0
>>515
あいつらクズばっか
文字採用基準もただの好みだし
2016/10/27(木) 22:59:57.94ID:N8soLWiI
もうBase64か何か使って直接画像のバイナリデータ埋め込めばいいのに
Unicodeのコードポイントとして登録したがるのは何で
2016/10/28(金) 00:02:59.53ID:JyUwGqf8
>>525
画像だったら機械可読じゃないだろ。
バニーガールの性別と人種を機械的に判別できるようにすることは世界にとって有益だろ?
2016/10/28(金) 16:48:59.16ID:p0VbpbVf
DoCoMoのiモード絵文字がNew York近代美術館のコレクションに | スラド モバイル
https://mobile.srad.jp/story/16/10/28/0416246/

The Original Emoji Set Has Been Added to The Museum of Modern Art’s Collection – MoMA – Medium
https://medium.com/moma/the-original-emoji-set-has-been-added-to-the-museum-of-modern-arts-collection-c6060e141f61#.cqv1mudi0

New York’s MoMA Acquires the First Ever (Very Pixelated) Emoji | WIRED
https://www.wired.com/2016/10/new-yorks-moma-acquires-first-ever-pixelated-emoji/
2016/10/28(金) 18:45:52.85ID:TvQWNHir
スレ違いレスを無言で貼るな低能
2016/10/28(金) 20:49:51.94ID:fbqfS+Lz
絵文字がモノクロドット絵の頃は文字コード業界も平和だったのに
2016/10/28(金) 23:17:41.58ID:oHvFUXop
自分たちでも扱える文字が増えたからって外人たちがはしゃぎすぎなんだよ
2016/10/29(土) 03:01:41.79ID:V/VqPJHP
同じものを見てるとは限らないということを
ほとんどの利用者は知らずに誤解を生んでる
2016/10/29(土) 07:13:03.75ID:p4X+nISr
\100
2016/10/29(土) 10:42:34.24ID:hDIKHPTa
どう転んでも表意文字とコンピュータは相性が悪いらしいな
まさか絵文字の肌の色が問題になるとは思わんかったわ
2016/10/29(土) 10:59:34.81ID:W9gQheBG
ああいう指示は文字コードの範疇じゃないよな。
そのうちなし崩しで、ボールドにしろだのサンセリフ体にしろだのいう指示まで取り込んでしまいそうな。
2016/10/29(土) 11:11:13.16ID:SNFlkCRz
まぁ間違いなくそのうちアニメーションさせようとか言い出すだろうな

国内では文字コード濫用形式の絵文字から、単なる画像添付のデコメ絵文字に移行してたのに
なぜわざわざ国際規格で文字コード濫用形式に戻してしまったのか
2016/10/29(土) 14:02:02.47ID:QoegAjAm
日本人がいろいろ工夫したものを、当の日本人自身がガラパゴスとか
言い出してダメにしちゃうから、問題点とかがきちんと伝承されないんだよ。
2016/10/30(日) 01:29:55.53ID:X0WLh33u
EUCとかSJISとかISO2022とか揉めてる間にUTF8に持っていかれた感じ
2016/10/30(日) 09:34:26.59ID:VFHN3+TL
そこはべつにもめてない
2016/10/30(日) 10:57:24.93ID:QmnxrLM3
UTF-8とUTF-32に統一したいのに
WindowsがシフトジスとUTF-16の呪いをかけたままだから困る
もうWindowsごと滅んでもらうしか無い
2016/10/30(日) 18:49:52.12ID:K5Y8T0Gi
よくわかってない人にありがちな見当違い発言
2016/10/30(日) 18:57:43.74ID:cdJKNnsC
Windowsはメモ帳もオフィスもUTF-8ファイルに対応しているよ。
WideCharToMultiByteなどもCP_UTF8付ければ変換できる。
2016/10/30(日) 19:06:13.90ID:d4hFjYHp
反論になってないし片山はやっぱりアホだな
Windowsがある限りUTF-16も生き残る、まさに呪いだな
2016/10/30(日) 20:50:41.17ID:0D55JhhC
いつも博文がクソレスで皆様を不愉快にさせて申し訳ございません
>>540のクソレスもいつものように博文がID変えた自演です
2016/10/30(日) 20:53:09.96ID:0D55JhhC
結合文字はともかく土吉(U+20BB7)の文字列の
長さが2になるのはホント、ストレスたまるぜ
2016/10/30(日) 23:02:05.66ID:qhy1bgov
>>535
日本では絵文字は文字として運用実績があったからね
キャリアごとの独自絵文字をGmailで相互運用するために整理が必要だった
整理できてしまえばあとはUnicode.orgがどう考えるか
丸囲み合成文字辺りから考えると当然の帰結だったんじゃないか
2016/10/31(月) 04:36:11.15ID:jkUzecbb
NIHON

HINOMOTO
2016/10/31(月) 04:37:51.87ID:jkUzecbb
char * -> UTF-8
wchar_t * -> UTF-16
UTF-32 は何使うの?
2016/10/31(月) 05:24:15.03ID:OEIemcR6
char16_t : UTF-16
char32_t : UTF-32
2016/10/31(月) 05:26:59.82ID:jkUzecbb
dx
2016/10/31(月) 16:40:00.60ID:up1CNSO3
日本の3大キャリアの絵文字を収録するのはまだいいとしてもその後の毎年山盛り追加はもう何がなんだかなあ・・・
2016/10/31(月) 16:44:21.72ID:oRn+7MiJ
KOREAの陰謀としか
2016/10/31(月) 21:20:59.79ID:YB1o5gLr
以下、コレはまいったね禁止
2016/10/31(月) 21:43:52.12ID:8iOXYzaz
>>552
どういう意味?
2016/11/01(火) 08:59:37.54ID:f9g8VI31
親父ギャグ
2016/11/01(火) 18:38:34.50ID:gPz02xlo
>>550
最初の頃言ってた携帯メールの交換のためとか何だったんだろうね
2016/11/01(火) 19:26:48.90ID:fE64ynNP
携帯絵文字は絶滅の危機
博物館で保護する必要がある
2016/11/01(火) 20:47:25.98ID:E4vkOEuq
MoMAに収蔵されたから大丈夫
2016/11/01(火) 20:51:59.89ID:o060wXK0
MoMAって秘宝館レベルのものも集めてるイメージ
2016/11/01(火) 22:32:57.89ID:SkcuWYL1
ゴミみたいな絵文字が増えるのはまだいい。
JPの2文字で日本の国旗、という
クソな絵文字を持ち込んだ奴は死刑でいい。
2016/11/02(水) 01:14:19.91ID:FB0eoin4
MoMAに収蔵されたケータイ絵文字なんてほんの一部でしかないな
2016/11/02(水) 02:56:25.72ID:pCipYitj
>>556
オックスフォード辞典の「今年の言葉」の一つに選ばれてるくらい欧州でもインターネット上を絵文字が席巻してるんだぞ
2016/11/02(水) 04:10:14.34ID:6UbvFxVg
>>561
まさか Unicode Emoji と ケータイ絵文字の違いを知らない?
2016/11/02(水) 04:27:56.03ID:pCipYitj
>>562
派生関係にあるだけで同じものです
対応表もあります
2016/11/02(水) 17:23:17.15ID:foEqKcGp
>>563
560はそんな大雑把な話ではないでしょ
2016/11/03(木) 03:34:51.76ID:iYejUQc8
文字コードてすと
surströmming
566デフォルトの名無しさん
垢版 |
2016/11/03(木) 19:21:23.08ID:SywuufG2
>>319
https://www.facebook.com/koichi.yasuoka.5/posts/1109283619130554
2016/11/04(金) 15:58:47.69ID:fFiZW1of
>>559
🇸🇪🇸🇪
ってTwitterに書き込んだらスウェーデンの国旗に対応してなくて
間の二文字がスペインの国旗として認識・表示されたって話
マヌケですき
2016/11/04(金) 16:48:18.71ID:LPswLb4k
>>567
え、なんだそれ。

てっきり1文字目用と2文字目用で別のポイントになってるのか、
あるいは始点か終点を示す符号があるんだと思ってた。

単に2文字続けば国、って仕様なのか。Unicodeも悪いな。
2016/11/04(金) 22:15:07.10ID:oa5V2Sux
Unicode関係ないw
2016/11/04(金) 22:48:05.41ID:z+k+W3df
いや関係あるでしょ。
UTF-16のように1文字目と2文字目を分けておけばそんなことにはならなかった。
2016/11/04(金) 23:05:51.48ID:uRr6P/SX
TwitterがUnicodeに完全に対応してればそんなことにはならなかった。
2016/11/04(金) 23:59:11.84ID:yGjCinWT
>>571
完全に対応kwsk
国旗周りの処理の詳しい規定ってあったっけ
2016/11/05(土) 00:13:28.08ID:xEDyoPf+
前後の区別がないと、SUSE とかのときどうするのか気になる。

単純に区切ると SU | SE で

[ソ連国旗] [スウェーデン国旗]

だけど、SU の国家は現存しない。

だとすると別の可能性として S | US | E 、つまり

[S] [米国国旗] [E]

もありえそう。
2016/11/05(土) 01:01:33.47ID:gWLGUGo0
>>573
> [S] [米国国旗] [E]

普通に先頭から判別すればそうなる
少なくてもfirefoxではたぶんそう→ 🇸🇺🇸🇪
2016/11/05(土) 01:16:57.65ID:mXzE/KRi
どの2文字をペア扱いすべきかはISO国名コードの最新版に存在するかどうかを見ないと分からないってことか。ややこしいな。
2016/11/05(土) 01:20:47.71ID:mXzE/KRi
いや、最新版だけじゃだめなのか。過去のメールは送信当時のコード表を使わないと>>574みたいに半分ズレて別の国に化けるな。
2016/11/05(土) 01:57:45.33ID:fdLm2JUj
既にGB­-SCT(英国スコットランド)とか提案されてるし気にしても仕方ない
2016/11/05(土) 04:17:16.49ID:fdfHcDbP
>>572
偶数で切ることになっている

UAX#29
『Do not break within emoji flag sequences. That is, do not break between regional indicator (RI) symbols if there is an odd number of RI characters before the break』
『[^RI] (RI RI)* RI×RI』
UTS51
『A sequence of two Regional Indicator characters』
2016/11/05(土) 04:21:04.76ID:fdfHcDbP
↑の「×」はコードポイント列から一文字を抽出するときに
別の文字に切り離してはいけないという意味
2016/11/05(土) 07:07:22.79ID:r4TaQ56a
>>574
firefox ESR(45.4.0)では国旗フォントがあるかどうかで区切りが変わるいい加減さ
2016/11/05(土) 12:09:56.76ID:i7MWnHHH
>>580
いい加減というか逆にめんどくさいことをわざわざって気がする
582デフォルトの名無しさん
垢版 |
2016/11/05(土) 14:59:08.75ID:vOTzCdKc
>>577-578
GBSCTGBSCTと2つ並べるとGB SC TG BS CT に分解されそう(最後のCT以外全部あるっぽい)。
2016/11/05(土) 16:22:05.99ID:qKcyypJI
DNAの塩基配列も文字コードになったんでしたっけ?
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況