文字コード総合スレ Part10 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
2016/10/31(月) 16:44:21.72ID:oRn+7MiJ
KOREAの陰謀としか
2016/10/31(月) 21:20:59.79ID:YB1o5gLr
以下、コレはまいったね禁止
2016/10/31(月) 21:43:52.12ID:8iOXYzaz
>>552
どういう意味?
2016/11/01(火) 08:59:37.54ID:f9g8VI31
親父ギャグ
2016/11/01(火) 18:38:34.50ID:gPz02xlo
>>550
最初の頃言ってた携帯メールの交換のためとか何だったんだろうね
2016/11/01(火) 19:26:48.90ID:fE64ynNP
携帯絵文字は絶滅の危機
博物館で保護する必要がある
2016/11/01(火) 20:47:25.98ID:E4vkOEuq
MoMAに収蔵されたから大丈夫
2016/11/01(火) 20:51:59.89ID:o060wXK0
MoMAって秘宝館レベルのものも集めてるイメージ
2016/11/01(火) 22:32:57.89ID:SkcuWYL1
ゴミみたいな絵文字が増えるのはまだいい。
JPの2文字で日本の国旗、という
クソな絵文字を持ち込んだ奴は死刑でいい。
2016/11/02(水) 01:14:19.91ID:FB0eoin4
MoMAに収蔵されたケータイ絵文字なんてほんの一部でしかないな
2016/11/02(水) 02:56:25.72ID:pCipYitj
>>556
オックスフォード辞典の「今年の言葉」の一つに選ばれてるくらい欧州でもインターネット上を絵文字が席巻してるんだぞ
2016/11/02(水) 04:10:14.34ID:6UbvFxVg
>>561
まさか Unicode Emoji と ケータイ絵文字の違いを知らない?
2016/11/02(水) 04:27:56.03ID:pCipYitj
>>562
派生関係にあるだけで同じものです
対応表もあります
2016/11/02(水) 17:23:17.15ID:foEqKcGp
>>563
560はそんな大雑把な話ではないでしょ
2016/11/03(木) 03:34:51.76ID:iYejUQc8
文字コードてすと
surströmming
566デフォルトの名無しさん
垢版 |
2016/11/03(木) 19:21:23.08ID:SywuufG2
>>319
https://www.facebook.com/koichi.yasuoka.5/posts/1109283619130554
2016/11/04(金) 15:58:47.69ID:fFiZW1of
>>559
🇸🇪🇸🇪
ってTwitterに書き込んだらスウェーデンの国旗に対応してなくて
間の二文字がスペインの国旗として認識・表示されたって話
マヌケですき
2016/11/04(金) 16:48:18.71ID:LPswLb4k
>>567
え、なんだそれ。

てっきり1文字目用と2文字目用で別のポイントになってるのか、
あるいは始点か終点を示す符号があるんだと思ってた。

単に2文字続けば国、って仕様なのか。Unicodeも悪いな。
2016/11/04(金) 22:15:07.10ID:oa5V2Sux
Unicode関係ないw
2016/11/04(金) 22:48:05.41ID:z+k+W3df
いや関係あるでしょ。
UTF-16のように1文字目と2文字目を分けておけばそんなことにはならなかった。
2016/11/04(金) 23:05:51.48ID:uRr6P/SX
TwitterがUnicodeに完全に対応してればそんなことにはならなかった。
2016/11/04(金) 23:59:11.84ID:yGjCinWT
>>571
完全に対応kwsk
国旗周りの処理の詳しい規定ってあったっけ
2016/11/05(土) 00:13:28.08ID:xEDyoPf+
前後の区別がないと、SUSE とかのときどうするのか気になる。

単純に区切ると SU | SE で

[ソ連国旗] [スウェーデン国旗]

だけど、SU の国家は現存しない。

だとすると別の可能性として S | US | E 、つまり

[S] [米国国旗] [E]

もありえそう。
2016/11/05(土) 01:01:33.47ID:gWLGUGo0
>>573
> [S] [米国国旗] [E]

普通に先頭から判別すればそうなる
少なくてもfirefoxではたぶんそう→ 🇸🇺🇸🇪
2016/11/05(土) 01:16:57.65ID:mXzE/KRi
どの2文字をペア扱いすべきかはISO国名コードの最新版に存在するかどうかを見ないと分からないってことか。ややこしいな。
2016/11/05(土) 01:20:47.71ID:mXzE/KRi
いや、最新版だけじゃだめなのか。過去のメールは送信当時のコード表を使わないと>>574みたいに半分ズレて別の国に化けるな。
2016/11/05(土) 01:57:45.33ID:fdLm2JUj
既にGB­-SCT(英国スコットランド)とか提案されてるし気にしても仕方ない
2016/11/05(土) 04:17:16.49ID:fdfHcDbP
>>572
偶数で切ることになっている

UAX#29
『Do not break within emoji flag sequences. That is, do not break between regional indicator (RI) symbols if there is an odd number of RI characters before the break』
『[^RI] (RI RI)* RI×RI』
UTS51
『A sequence of two Regional Indicator characters』
2016/11/05(土) 04:21:04.76ID:fdfHcDbP
↑の「×」はコードポイント列から一文字を抽出するときに
別の文字に切り離してはいけないという意味
2016/11/05(土) 07:07:22.79ID:r4TaQ56a
>>574
firefox ESR(45.4.0)では国旗フォントがあるかどうかで区切りが変わるいい加減さ
2016/11/05(土) 12:09:56.76ID:i7MWnHHH
>>580
いい加減というか逆にめんどくさいことをわざわざって気がする
582デフォルトの名無しさん
垢版 |
2016/11/05(土) 14:59:08.75ID:vOTzCdKc
>>577-578
GBSCTGBSCTと2つ並べるとGB SC TG BS CT に分解されそう(最後のCT以外全部あるっぽい)。
2016/11/05(土) 16:22:05.99ID:qKcyypJI
DNAの塩基配列も文字コードになったんでしたっけ?
2016/11/05(土) 16:44:27.42ID:9npC26KJ
絵とスタイルは別のフォーマットがあるんだからそっちに委ねるべきだよな
もともとそういう方針のはずだし
2016/11/05(土) 17:02:26.62ID:9y8+ngHb
>>577
GB-○○と同じ要領でJP-○○で都道府県旗も出せるようになるのかな、と思ったけど、
よく考えたらRIってアルファベットしかないから数字使うJP-○○は無理やん。欧米ずるい。
俺も神奈川県のおちんちんマーク出したい。
http://www.pref.kanagawa.jp/uploaded/image/700113.gif
2016/11/05(土) 17:54:33.18ID:Cvv2kfJC
iconvライブラリがマルチスレッド対応してない…。orz
2016/11/05(土) 18:44:59.50ID:6heu2Wv+
ICUを使ってみては
2016/11/05(土) 21:04:55.16ID:TjgsNfuE
>>585
TK=東京とかKN=神奈川みたいなのを決めりゃいいじゃん
2016/11/05(土) 21:24:55.77ID:BG7LImn0
絵文字のために3166-2:JPを更新するの?
2016/11/05(土) 22:48:27.66ID:ALhaJQoB
REGIONAL INDICATOR SYMBOLSってISO 3166-1の形式に従う必要はあったのだろうか
2016/11/05(土) 23:08:08.40ID:BG7LImn0
従うというか、ISOに外部化しないとどの旗を収録するか(→どこを国家とみなすか)で揉めてしまう。
純粋に人任せにすることで「うちは政治的判断はしてませんよ」ってそ知らぬふりができる。
2016/11/05(土) 23:31:17.53ID:Cvv2kfJC
>>587
助言ありがとう。ICU、試してみます。
593592
垢版 |
2016/11/06(日) 15:59:49.80ID:0naNG629
iconvがマルチスレッド対応していないってのは私の勘違いだった。
icuとiconv、両方ともマルチスレッド対応していた。
Win32環境での文字コード変換の速度比は以下の通りになった。
Win32API は、WideCharToMultiByte() 等を使った。

Win32API : cygwin-iconv : cygwin-icu = 1 : 3 : 2
2016/11/06(日) 16:12:34.47ID:bCh//xB2
速度比?
時間比じゃなくて?
595592
垢版 |
2016/11/06(日) 16:49:22.61ID:0naNG629
やはり波ダッシュ「〜」、「〜」が鬼門。

>>594
失礼しました。所要時間の比です。
2016/11/06(日) 18:14:05.21ID:O2/niCOA
>>586
glibcのiconvはMT-Safe
ただiconv_openの返り値(iconv_t)は排他して使わないと駄目
597592
垢版 |
2016/11/06(日) 19:53:07.52ID:0naNG629
なぜiconvがマルチスレッド対応してないと思い込んでしまったかというと、
cygwinでC++11の thread クラスで work() と join() を使ったマルチスレッドの小さい勉強用プログラムを試しに書いたんだけど、
処理の所要時間を得るために、clock()で計時したんだけど、その数値がデタラメだったことが原因。
cygwinのclock()の戻り値の信頼性がここまで低いとは知らなかった。

>>596
了解。ハンドルを複数スレッドで使いまわすつもりは最初からなかったです。
ライブラリ関数内部で排他ロックしてるのかと思い込んだ私のミス。

処理速度・将来性・プロジェクトの活発さを考えると、iconvよりicuの方が有望に思える。
2016/11/06(日) 20:21:34.70ID:t7rcT7E/
次はmingwでもテストしてくれ
599592
垢版 |
2016/11/06(日) 23:12:19.37ID:0naNG629
mingw系は、GitやStrawberry Perlに付属のMINGWのbinがPATHに入り込んでいて、無事にmakeを貫徹することさえままならないので当分報告できない。あしからず。
2016/11/06(日) 23:41:14.17ID:eMFucsGq
プログラムを組むような人なら普通はPATHなんていくらでも変更出来るけど
ままならないなら仕方ない
2016/11/07(月) 04:13:30.95ID:EaPQMBZD
>>599
インストーラーが「PATHを設定しますか?」で選択しを与えてくれてるのに
読まないでパコパコインストールしまくる馬鹿ですね
2016/11/07(月) 15:01:03.67ID:/3CQ/LxZ
これ以上片山に構わないで
2016/11/07(月) 16:58:00.20ID:zyvBBkK2
>>582
マジレスしていいのかわからんがそれはISO 3166-1じゃなくてISO 3166-2だろと
2016/11/07(月) 17:22:52.58ID:Tzo661xQ
マジレスはいいが前後も読んだほうがより良い
2016/11/07(月) 17:45:16.90ID:2+R9ECvu
なお、3166-2のやつはRI使わない方向のようなのでほとんどの問題は解決されそう。
ただそうなるとますますあの不出来なRIって何だったのかって感じに。
606592
垢版 |
2016/11/07(月) 22:27:59.51ID:6EByQkLc
mingwでiconv, icuを試した。
iconvは、MINGW Installation Managerが提供するバイナリを使用した。
icuはバイナリは提供されていないのでソースからビルドした。
icuはそのままだとlocale関連のAPIが公開されていないMINGW版がビルドができないので、
_create_locale() と _free_locale() のダミー関数をソースに追記してビルドを通した。
所要時間の比は以下の通り。
MINGWだと、iconv、icuともWin32とあまり違いがないようだ。

Win32API : mingw-iconv : mingw-icu = 1 : 1.08 : 1.11

なお、>>593 でのcygwinは、iconv、icuともにcygwin用に提供されているバイナリを利用している。
2016/11/08(火) 00:48:57.53ID:unHUC1CF
cygwin1.dllとか軽油してるから遅いんだろ
2016/11/08(火) 01:14:10.78ID:Q1ozlGt4
変換する文字列の長さが短すぎて
変換速度よりもsystem callの呼び出し速度のベンチになってない?
2016/11/08(火) 09:16:34.50ID:WBfil5Sr
生の値(時間)を書くのが普通
比率という時点で何か隠してるようにみえる
2016/11/08(火) 11:50:26.32ID:ZBAGJV1u
するどいな
611592
垢版 |
2016/11/08(火) 20:34:22.36ID:qWOFxdzf
無駄な情報を捨てて必要な情報だけ提供した善意を、悪意を持って隠したと曲解する人がいて面白い。トランプ支持者っぽい。
テストプログラムやら実行環境やらまで公開して他の人が再現できるようにでもしない限り、生の実測時間を提示する意味はない。
2016/11/08(火) 20:41:20.43ID:IHq5KhUT
トランプ流れ弾
2016/11/08(火) 22:32:50.94ID:HtqjUltN
同じ10倍でも例えばミリ秒のオーダーと秒のオーダーでは全然違う。
計測時間そのままコピペする方が楽だろうに、態々比率に直すのは、、、
パワポ資料作るお仕事の人と見た。
2016/11/10(木) 16:00:00.53ID:UEg1zsO/
JIS X 0201/0208/0213がいつの間にか

> 2016-10-20 確認

になってる。
今回は特に何もなしか(あったらまた困るけど)
というか改正来年じゃなかったのか……。
2016/11/10(木) 20:40:08.56ID:Ow2XdUNn
来年が色んな意味で楽しみだわ
2016/11/11(金) 13:37:59.96ID:8vg+pXNE
JISってそれぞれ何刷まで出てるんだっけ?
刷ごとの差分知りたい
2016/11/11(金) 15:58:27.67ID:Y1SxtmaI
0208の1978年版とか2012年版とかじゃなくて刷?

ttp://okazaki.sakuraweb.com/biboroku/78jis/78jis.html

によるとJIS C 6226-1978は少なくとも第7刷まで増刷されたらしいけど、
JSAとかJISCに問い合わせても多分当時の資料とか無いだろうな。
2016/11/12(土) 15:38:19.16ID:q7jUFepj
>>616
刷は改定ごとに一から始まるので刷ごとの差は無い
そしてJISは様々な規格があるのでJISが何刷ということは言えない
2016/11/13(日) 13:47:22.48ID:ueOqX8wJ
78JIS以外は何刷でも内容一緒でしょ正誤票の反映はあるだろうけど
2016/11/14(月) 16:40:47.78ID:nhwER5sG
Unicode 10.0の絵文字候補、人魚は男女対応可能に | スラド IT
http://it.srad.jp/story/16/11/12/191218/

まーた増えるのか、、、
2016/11/14(月) 16:57:09.25ID:YqiB904W
なんでもかんでもZWJでいくなら最初から人間+魚でよかった。

そしてうっかり順番を入れ替えて魚+人間にすると……!!
2016/11/14(月) 17:40:54.01ID:rIoU2mi1
マーパーソンwww
2016/11/14(月) 17:48:16.83ID:rIoU2mi1
俺がもっとクールな新絵文字考えたぜつって、合字でオレオレ絵文字ZWJ実装するフォントが現れだして収集つかなくなりそう
2016/11/14(月) 18:00:03.62ID:zlxXdLUF
これはひどい
2016/11/14(月) 18:50:06.09ID:YqiB904W
>>623
うわありそうで怖い。
PUAと違って意味があるぶん、
大手が流行らせた合成絵文字はそのまま追認するしかない未来が見える。

例えばTwitterとか、Android OSとかがオレオレ絵文字実装したら
一般人が違いに気付かずに使って膨大な使用例ができるよね……
2016/11/15(火) 12:41:03.82ID:r6BgB6bM
ZWJ方式は、合成されなくても意味は通じるってことでしょ
2016/11/15(火) 13:27:53.08ID:U3Mmtdzs
WhatsAppがかんがえたさいきょうのZWJ絵文字
http://emojipedia.org/olympic-rings/

なお合成されなかったら意味は通じない模様
2016/11/15(火) 21:17:34.07ID:gEiNDmpT
ちゃんと色指定も加え入れろ〜
2016/11/15(火) 21:50:35.83ID:PldPJ2O3
合成するぐらいなら
文字列の途中にエンコードしたビットマップを挟み込めるようにしろ
2016/11/15(火) 21:55:34.62ID:cUgefh1P
─○○○
2016/11/16(水) 02:59:36.67ID:zr+5k25B
>>627
大きい丸自体が元をたどれば合成文字用なのが面白い
2016/11/16(水) 02:59:39.09ID:fzskfnoe
談合三本
2016/11/16(水) 03:01:10.13ID:fzskfnoe
>>629
たしかに
2016/11/16(水) 16:58:25.31ID:uL/NV7s7
むしろ合成したいなら U+20DD COMBINING ENCLOSING CIRCLE なんじゃ
2016/11/19(土) 01:04:22.83ID:/7Uc3cKm
ツ郤衙ワ
https://www.google.co.jp/#q=%EF%BE%82%E9%83%A4%E8%A1%99%EF%BE%9C
2016/11/19(土) 21:24:14.40ID:h19DOfQp
>>617
>>618
刷はある
同じ規格のはずなのに刷で例示字形に差がある時もあって、それを整理したいんだよね
2016/11/20(日) 03:55:56.72ID:pv3IyT3Y
古典の研究は資料の調査収集から始まる
2016/11/24(木) 20:15:24.01ID:V+CGDzRP
ーヲノイクゥ
イャサウクゥ
ケ篥ホクゥ
ケュナ邵ゥ
サースナクゥ
サウキチクゥ
ソキウ羣ゥ
タ鯱ユクゥ
タナイャクゥ
ツ郤衙ワ
ツ醋ャクゥ
トサシ雕ゥ
ナ郤ャクゥ
ニ猥ノクゥ
ニチナ邵ゥ
ニハフレクゥ
ノルサウクゥ
ハ。ー貂ゥ
ハ。イャクゥ
ハ。ナ邵ゥ
ハシクヒクゥ
ヒフウ、ニサ
マツイホサウクゥ
2016/11/25(金) 09:57:28.56ID:M66ENQJY
愛媛県
岡山県
高知県
広島県
三重県
山形県
新潟県
千葉県
静岡県
大阪府
大分県
鳥取県
島根県
奈良県
徳島県
栃木県
富山県
福井県
福岡県
福島県
兵庫県
北海道
和歌山県
2016/11/25(金) 12:21:36.58ID:n3LE76D7
マツイホサウ
https://www.google.co.jp/search?q=%E3%83%9E%E3%83%84%E3%82%A4%E3%83%9B%E3%82%B5%E3%82%A6
2016/12/19(月) 05:55:33.94ID:rp7MwxOA
さて
2016/12/26(月) 16:22:22.18ID:dYEGDg58
ISO/IEC 10646:2016 (5th Edition)は2017になりそうだな。
643デフォルトの名無しさん
垢版 |
2016/12/26(月) 20:13:30.11ID:TRnwbnfO
イロハコードがあるって初めて知った
http://nukalumix.hateblo.jp/entry/nenkin_iroha
https://www.taro.org/2016/12/%E3%81%84%E3%82%8D%E3%81%84%E3%82%8D%E3%82%A4%E3%83%AD%E3%83%8F%E3%81%AA%E7%9A%86%E6%A7%98%E3%81%B8.php
http://nlab.itmedia.co.jp/nl/articles/1612/12/news127.html
2016/12/28(水) 05:19:29.60ID:cqk+d7uG
コード?
2016/12/28(水) 07:28:33.43ID:XevzpVey
>>110
おいおい、ちゃんと規格読んでる?
原則、部首画数順だぞ。unihanデータベースも推奨ソートキーが部首画数順になってる。
2016/12/28(水) 07:35:34.89ID:XevzpVey
>>160
昔の区点表現でいう2区毎にまとめて突っ込んだせいだろう。
2016/12/28(水) 07:42:45.19ID:XevzpVey
>>244
いわゆるハングルの大移動ですね。
2016/12/28(水) 09:58:25.05ID:aMFxqRcr
突然遠投大会始めるのやめてもらえます
2016/12/28(水) 12:34:27.60ID:kFL7wfb2
>>644
50音カナで50進数にして管理してるんだと
2016/12/28(水) 13:11:56.04ID:hpQZCApo
カナって50個もあるの?
■ このスレッドは過去ログ倉庫に格納されています