文字コード総合スレ Part10 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
2016/10/28(金) 18:45:52.85ID:TvQWNHir
スレ違いレスを無言で貼るな低能
2016/10/28(金) 20:49:51.94ID:fbqfS+Lz
絵文字がモノクロドット絵の頃は文字コード業界も平和だったのに
2016/10/28(金) 23:17:41.58ID:oHvFUXop
自分たちでも扱える文字が増えたからって外人たちがはしゃぎすぎなんだよ
2016/10/29(土) 03:01:41.79ID:V/VqPJHP
同じものを見てるとは限らないということを
ほとんどの利用者は知らずに誤解を生んでる
2016/10/29(土) 07:13:03.75ID:p4X+nISr
\100
2016/10/29(土) 10:42:34.24ID:hDIKHPTa
どう転んでも表意文字とコンピュータは相性が悪いらしいな
まさか絵文字の肌の色が問題になるとは思わんかったわ
2016/10/29(土) 10:59:34.81ID:W9gQheBG
ああいう指示は文字コードの範疇じゃないよな。
そのうちなし崩しで、ボールドにしろだのサンセリフ体にしろだのいう指示まで取り込んでしまいそうな。
2016/10/29(土) 11:11:13.16ID:SNFlkCRz
まぁ間違いなくそのうちアニメーションさせようとか言い出すだろうな

国内では文字コード濫用形式の絵文字から、単なる画像添付のデコメ絵文字に移行してたのに
なぜわざわざ国際規格で文字コード濫用形式に戻してしまったのか
2016/10/29(土) 14:02:02.47ID:QoegAjAm
日本人がいろいろ工夫したものを、当の日本人自身がガラパゴスとか
言い出してダメにしちゃうから、問題点とかがきちんと伝承されないんだよ。
2016/10/30(日) 01:29:55.53ID:X0WLh33u
EUCとかSJISとかISO2022とか揉めてる間にUTF8に持っていかれた感じ
2016/10/30(日) 09:34:26.59ID:VFHN3+TL
そこはべつにもめてない
2016/10/30(日) 10:57:24.93ID:QmnxrLM3
UTF-8とUTF-32に統一したいのに
WindowsがシフトジスとUTF-16の呪いをかけたままだから困る
もうWindowsごと滅んでもらうしか無い
2016/10/30(日) 18:49:52.12ID:K5Y8T0Gi
よくわかってない人にありがちな見当違い発言
2016/10/30(日) 18:57:43.74ID:cdJKNnsC
Windowsはメモ帳もオフィスもUTF-8ファイルに対応しているよ。
WideCharToMultiByteなどもCP_UTF8付ければ変換できる。
2016/10/30(日) 19:06:13.90ID:d4hFjYHp
反論になってないし片山はやっぱりアホだな
Windowsがある限りUTF-16も生き残る、まさに呪いだな
2016/10/30(日) 20:50:41.17ID:0D55JhhC
いつも博文がクソレスで皆様を不愉快にさせて申し訳ございません
>>540のクソレスもいつものように博文がID変えた自演です
2016/10/30(日) 20:53:09.96ID:0D55JhhC
結合文字はともかく土吉(U+20BB7)の文字列の
長さが2になるのはホント、ストレスたまるぜ
2016/10/30(日) 23:02:05.66ID:qhy1bgov
>>535
日本では絵文字は文字として運用実績があったからね
キャリアごとの独自絵文字をGmailで相互運用するために整理が必要だった
整理できてしまえばあとはUnicode.orgがどう考えるか
丸囲み合成文字辺りから考えると当然の帰結だったんじゃないか
2016/10/31(月) 04:36:11.15ID:jkUzecbb
NIHON

HINOMOTO
2016/10/31(月) 04:37:51.87ID:jkUzecbb
char * -> UTF-8
wchar_t * -> UTF-16
UTF-32 は何使うの?
2016/10/31(月) 05:24:15.03ID:OEIemcR6
char16_t : UTF-16
char32_t : UTF-32
2016/10/31(月) 05:26:59.82ID:jkUzecbb
dx
2016/10/31(月) 16:40:00.60ID:up1CNSO3
日本の3大キャリアの絵文字を収録するのはまだいいとしてもその後の毎年山盛り追加はもう何がなんだかなあ・・・
2016/10/31(月) 16:44:21.72ID:oRn+7MiJ
KOREAの陰謀としか
2016/10/31(月) 21:20:59.79ID:YB1o5gLr
以下、コレはまいったね禁止
2016/10/31(月) 21:43:52.12ID:8iOXYzaz
>>552
どういう意味?
2016/11/01(火) 08:59:37.54ID:f9g8VI31
親父ギャグ
2016/11/01(火) 18:38:34.50ID:gPz02xlo
>>550
最初の頃言ってた携帯メールの交換のためとか何だったんだろうね
2016/11/01(火) 19:26:48.90ID:fE64ynNP
携帯絵文字は絶滅の危機
博物館で保護する必要がある
2016/11/01(火) 20:47:25.98ID:E4vkOEuq
MoMAに収蔵されたから大丈夫
2016/11/01(火) 20:51:59.89ID:o060wXK0
MoMAって秘宝館レベルのものも集めてるイメージ
2016/11/01(火) 22:32:57.89ID:SkcuWYL1
ゴミみたいな絵文字が増えるのはまだいい。
JPの2文字で日本の国旗、という
クソな絵文字を持ち込んだ奴は死刑でいい。
2016/11/02(水) 01:14:19.91ID:FB0eoin4
MoMAに収蔵されたケータイ絵文字なんてほんの一部でしかないな
2016/11/02(水) 02:56:25.72ID:pCipYitj
>>556
オックスフォード辞典の「今年の言葉」の一つに選ばれてるくらい欧州でもインターネット上を絵文字が席巻してるんだぞ
2016/11/02(水) 04:10:14.34ID:6UbvFxVg
>>561
まさか Unicode Emoji と ケータイ絵文字の違いを知らない?
2016/11/02(水) 04:27:56.03ID:pCipYitj
>>562
派生関係にあるだけで同じものです
対応表もあります
2016/11/02(水) 17:23:17.15ID:foEqKcGp
>>563
560はそんな大雑把な話ではないでしょ
2016/11/03(木) 03:34:51.76ID:iYejUQc8
文字コードてすと
surströmming
566デフォルトの名無しさん
垢版 |
2016/11/03(木) 19:21:23.08ID:SywuufG2
>>319
https://www.facebook.com/koichi.yasuoka.5/posts/1109283619130554
2016/11/04(金) 15:58:47.69ID:fFiZW1of
>>559
🇸🇪🇸🇪
ってTwitterに書き込んだらスウェーデンの国旗に対応してなくて
間の二文字がスペインの国旗として認識・表示されたって話
マヌケですき
2016/11/04(金) 16:48:18.71ID:LPswLb4k
>>567
え、なんだそれ。

てっきり1文字目用と2文字目用で別のポイントになってるのか、
あるいは始点か終点を示す符号があるんだと思ってた。

単に2文字続けば国、って仕様なのか。Unicodeも悪いな。
2016/11/04(金) 22:15:07.10ID:oa5V2Sux
Unicode関係ないw
2016/11/04(金) 22:48:05.41ID:z+k+W3df
いや関係あるでしょ。
UTF-16のように1文字目と2文字目を分けておけばそんなことにはならなかった。
2016/11/04(金) 23:05:51.48ID:uRr6P/SX
TwitterがUnicodeに完全に対応してればそんなことにはならなかった。
2016/11/04(金) 23:59:11.84ID:yGjCinWT
>>571
完全に対応kwsk
国旗周りの処理の詳しい規定ってあったっけ
2016/11/05(土) 00:13:28.08ID:xEDyoPf+
前後の区別がないと、SUSE とかのときどうするのか気になる。

単純に区切ると SU | SE で

[ソ連国旗] [スウェーデン国旗]

だけど、SU の国家は現存しない。

だとすると別の可能性として S | US | E 、つまり

[S] [米国国旗] [E]

もありえそう。
2016/11/05(土) 01:01:33.47ID:gWLGUGo0
>>573
> [S] [米国国旗] [E]

普通に先頭から判別すればそうなる
少なくてもfirefoxではたぶんそう→ 🇸🇺🇸🇪
2016/11/05(土) 01:16:57.65ID:mXzE/KRi
どの2文字をペア扱いすべきかはISO国名コードの最新版に存在するかどうかを見ないと分からないってことか。ややこしいな。
2016/11/05(土) 01:20:47.71ID:mXzE/KRi
いや、最新版だけじゃだめなのか。過去のメールは送信当時のコード表を使わないと>>574みたいに半分ズレて別の国に化けるな。
2016/11/05(土) 01:57:45.33ID:fdLm2JUj
既にGB­-SCT(英国スコットランド)とか提案されてるし気にしても仕方ない
2016/11/05(土) 04:17:16.49ID:fdfHcDbP
>>572
偶数で切ることになっている

UAX#29
『Do not break within emoji flag sequences. That is, do not break between regional indicator (RI) symbols if there is an odd number of RI characters before the break』
『[^RI] (RI RI)* RI×RI』
UTS51
『A sequence of two Regional Indicator characters』
2016/11/05(土) 04:21:04.76ID:fdfHcDbP
↑の「×」はコードポイント列から一文字を抽出するときに
別の文字に切り離してはいけないという意味
2016/11/05(土) 07:07:22.79ID:r4TaQ56a
>>574
firefox ESR(45.4.0)では国旗フォントがあるかどうかで区切りが変わるいい加減さ
2016/11/05(土) 12:09:56.76ID:i7MWnHHH
>>580
いい加減というか逆にめんどくさいことをわざわざって気がする
582デフォルトの名無しさん
垢版 |
2016/11/05(土) 14:59:08.75ID:vOTzCdKc
>>577-578
GBSCTGBSCTと2つ並べるとGB SC TG BS CT に分解されそう(最後のCT以外全部あるっぽい)。
2016/11/05(土) 16:22:05.99ID:qKcyypJI
DNAの塩基配列も文字コードになったんでしたっけ?
2016/11/05(土) 16:44:27.42ID:9npC26KJ
絵とスタイルは別のフォーマットがあるんだからそっちに委ねるべきだよな
もともとそういう方針のはずだし
2016/11/05(土) 17:02:26.62ID:9y8+ngHb
>>577
GB-○○と同じ要領でJP-○○で都道府県旗も出せるようになるのかな、と思ったけど、
よく考えたらRIってアルファベットしかないから数字使うJP-○○は無理やん。欧米ずるい。
俺も神奈川県のおちんちんマーク出したい。
http://www.pref.kanagawa.jp/uploaded/image/700113.gif
2016/11/05(土) 17:54:33.18ID:Cvv2kfJC
iconvライブラリがマルチスレッド対応してない…。orz
2016/11/05(土) 18:44:59.50ID:6heu2Wv+
ICUを使ってみては
2016/11/05(土) 21:04:55.16ID:TjgsNfuE
>>585
TK=東京とかKN=神奈川みたいなのを決めりゃいいじゃん
2016/11/05(土) 21:24:55.77ID:BG7LImn0
絵文字のために3166-2:JPを更新するの?
2016/11/05(土) 22:48:27.66ID:ALhaJQoB
REGIONAL INDICATOR SYMBOLSってISO 3166-1の形式に従う必要はあったのだろうか
2016/11/05(土) 23:08:08.40ID:BG7LImn0
従うというか、ISOに外部化しないとどの旗を収録するか(→どこを国家とみなすか)で揉めてしまう。
純粋に人任せにすることで「うちは政治的判断はしてませんよ」ってそ知らぬふりができる。
2016/11/05(土) 23:31:17.53ID:Cvv2kfJC
>>587
助言ありがとう。ICU、試してみます。
593592
垢版 |
2016/11/06(日) 15:59:49.80ID:0naNG629
iconvがマルチスレッド対応していないってのは私の勘違いだった。
icuとiconv、両方ともマルチスレッド対応していた。
Win32環境での文字コード変換の速度比は以下の通りになった。
Win32API は、WideCharToMultiByte() 等を使った。

Win32API : cygwin-iconv : cygwin-icu = 1 : 3 : 2
2016/11/06(日) 16:12:34.47ID:bCh//xB2
速度比?
時間比じゃなくて?
595592
垢版 |
2016/11/06(日) 16:49:22.61ID:0naNG629
やはり波ダッシュ「〜」、「〜」が鬼門。

>>594
失礼しました。所要時間の比です。
2016/11/06(日) 18:14:05.21ID:O2/niCOA
>>586
glibcのiconvはMT-Safe
ただiconv_openの返り値(iconv_t)は排他して使わないと駄目
597592
垢版 |
2016/11/06(日) 19:53:07.52ID:0naNG629
なぜiconvがマルチスレッド対応してないと思い込んでしまったかというと、
cygwinでC++11の thread クラスで work() と join() を使ったマルチスレッドの小さい勉強用プログラムを試しに書いたんだけど、
処理の所要時間を得るために、clock()で計時したんだけど、その数値がデタラメだったことが原因。
cygwinのclock()の戻り値の信頼性がここまで低いとは知らなかった。

>>596
了解。ハンドルを複数スレッドで使いまわすつもりは最初からなかったです。
ライブラリ関数内部で排他ロックしてるのかと思い込んだ私のミス。

処理速度・将来性・プロジェクトの活発さを考えると、iconvよりicuの方が有望に思える。
2016/11/06(日) 20:21:34.70ID:t7rcT7E/
次はmingwでもテストしてくれ
599592
垢版 |
2016/11/06(日) 23:12:19.37ID:0naNG629
mingw系は、GitやStrawberry Perlに付属のMINGWのbinがPATHに入り込んでいて、無事にmakeを貫徹することさえままならないので当分報告できない。あしからず。
2016/11/06(日) 23:41:14.17ID:eMFucsGq
プログラムを組むような人なら普通はPATHなんていくらでも変更出来るけど
ままならないなら仕方ない
2016/11/07(月) 04:13:30.95ID:EaPQMBZD
>>599
インストーラーが「PATHを設定しますか?」で選択しを与えてくれてるのに
読まないでパコパコインストールしまくる馬鹿ですね
2016/11/07(月) 15:01:03.67ID:/3CQ/LxZ
これ以上片山に構わないで
2016/11/07(月) 16:58:00.20ID:zyvBBkK2
>>582
マジレスしていいのかわからんがそれはISO 3166-1じゃなくてISO 3166-2だろと
2016/11/07(月) 17:22:52.58ID:Tzo661xQ
マジレスはいいが前後も読んだほうがより良い
2016/11/07(月) 17:45:16.90ID:2+R9ECvu
なお、3166-2のやつはRI使わない方向のようなのでほとんどの問題は解決されそう。
ただそうなるとますますあの不出来なRIって何だったのかって感じに。
606592
垢版 |
2016/11/07(月) 22:27:59.51ID:6EByQkLc
mingwでiconv, icuを試した。
iconvは、MINGW Installation Managerが提供するバイナリを使用した。
icuはバイナリは提供されていないのでソースからビルドした。
icuはそのままだとlocale関連のAPIが公開されていないMINGW版がビルドができないので、
_create_locale() と _free_locale() のダミー関数をソースに追記してビルドを通した。
所要時間の比は以下の通り。
MINGWだと、iconv、icuともWin32とあまり違いがないようだ。

Win32API : mingw-iconv : mingw-icu = 1 : 1.08 : 1.11

なお、>>593 でのcygwinは、iconv、icuともにcygwin用に提供されているバイナリを利用している。
2016/11/08(火) 00:48:57.53ID:unHUC1CF
cygwin1.dllとか軽油してるから遅いんだろ
2016/11/08(火) 01:14:10.78ID:Q1ozlGt4
変換する文字列の長さが短すぎて
変換速度よりもsystem callの呼び出し速度のベンチになってない?
2016/11/08(火) 09:16:34.50ID:WBfil5Sr
生の値(時間)を書くのが普通
比率という時点で何か隠してるようにみえる
2016/11/08(火) 11:50:26.32ID:ZBAGJV1u
するどいな
611592
垢版 |
2016/11/08(火) 20:34:22.36ID:qWOFxdzf
無駄な情報を捨てて必要な情報だけ提供した善意を、悪意を持って隠したと曲解する人がいて面白い。トランプ支持者っぽい。
テストプログラムやら実行環境やらまで公開して他の人が再現できるようにでもしない限り、生の実測時間を提示する意味はない。
2016/11/08(火) 20:41:20.43ID:IHq5KhUT
トランプ流れ弾
2016/11/08(火) 22:32:50.94ID:HtqjUltN
同じ10倍でも例えばミリ秒のオーダーと秒のオーダーでは全然違う。
計測時間そのままコピペする方が楽だろうに、態々比率に直すのは、、、
パワポ資料作るお仕事の人と見た。
2016/11/10(木) 16:00:00.53ID:UEg1zsO/
JIS X 0201/0208/0213がいつの間にか

> 2016-10-20 確認

になってる。
今回は特に何もなしか(あったらまた困るけど)
というか改正来年じゃなかったのか……。
2016/11/10(木) 20:40:08.56ID:Ow2XdUNn
来年が色んな意味で楽しみだわ
2016/11/11(金) 13:37:59.96ID:8vg+pXNE
JISってそれぞれ何刷まで出てるんだっけ?
刷ごとの差分知りたい
2016/11/11(金) 15:58:27.67ID:Y1SxtmaI
0208の1978年版とか2012年版とかじゃなくて刷?

ttp://okazaki.sakuraweb.com/biboroku/78jis/78jis.html

によるとJIS C 6226-1978は少なくとも第7刷まで増刷されたらしいけど、
JSAとかJISCに問い合わせても多分当時の資料とか無いだろうな。
2016/11/12(土) 15:38:19.16ID:q7jUFepj
>>616
刷は改定ごとに一から始まるので刷ごとの差は無い
そしてJISは様々な規格があるのでJISが何刷ということは言えない
2016/11/13(日) 13:47:22.48ID:ueOqX8wJ
78JIS以外は何刷でも内容一緒でしょ正誤票の反映はあるだろうけど
2016/11/14(月) 16:40:47.78ID:nhwER5sG
Unicode 10.0の絵文字候補、人魚は男女対応可能に | スラド IT
http://it.srad.jp/story/16/11/12/191218/

まーた増えるのか、、、
2016/11/14(月) 16:57:09.25ID:YqiB904W
なんでもかんでもZWJでいくなら最初から人間+魚でよかった。

そしてうっかり順番を入れ替えて魚+人間にすると……!!
2016/11/14(月) 17:40:54.01ID:rIoU2mi1
マーパーソンwww
2016/11/14(月) 17:48:16.83ID:rIoU2mi1
俺がもっとクールな新絵文字考えたぜつって、合字でオレオレ絵文字ZWJ実装するフォントが現れだして収集つかなくなりそう
2016/11/14(月) 18:00:03.62ID:zlxXdLUF
これはひどい
2016/11/14(月) 18:50:06.09ID:YqiB904W
>>623
うわありそうで怖い。
PUAと違って意味があるぶん、
大手が流行らせた合成絵文字はそのまま追認するしかない未来が見える。

例えばTwitterとか、Android OSとかがオレオレ絵文字実装したら
一般人が違いに気付かずに使って膨大な使用例ができるよね……
2016/11/15(火) 12:41:03.82ID:r6BgB6bM
ZWJ方式は、合成されなくても意味は通じるってことでしょ
2016/11/15(火) 13:27:53.08ID:U3Mmtdzs
WhatsAppがかんがえたさいきょうのZWJ絵文字
http://emojipedia.org/olympic-rings/

なお合成されなかったら意味は通じない模様
2016/11/15(火) 21:17:34.07ID:gEiNDmpT
ちゃんと色指定も加え入れろ〜
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況