文字コード総合スレ Part10 [転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2015/10/14(水) 20:29:00.08ID:xctG4AAd
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
2016/11/05(土) 18:44:59.50ID:6heu2Wv+
ICUを使ってみては
2016/11/05(土) 21:04:55.16ID:TjgsNfuE
>>585
TK=東京とかKN=神奈川みたいなのを決めりゃいいじゃん
2016/11/05(土) 21:24:55.77ID:BG7LImn0
絵文字のために3166-2:JPを更新するの?
2016/11/05(土) 22:48:27.66ID:ALhaJQoB
REGIONAL INDICATOR SYMBOLSってISO 3166-1の形式に従う必要はあったのだろうか
2016/11/05(土) 23:08:08.40ID:BG7LImn0
従うというか、ISOに外部化しないとどの旗を収録するか(→どこを国家とみなすか)で揉めてしまう。
純粋に人任せにすることで「うちは政治的判断はしてませんよ」ってそ知らぬふりができる。
2016/11/05(土) 23:31:17.53ID:Cvv2kfJC
>>587
助言ありがとう。ICU、試してみます。
593592
垢版 |
2016/11/06(日) 15:59:49.80ID:0naNG629
iconvがマルチスレッド対応していないってのは私の勘違いだった。
icuとiconv、両方ともマルチスレッド対応していた。
Win32環境での文字コード変換の速度比は以下の通りになった。
Win32API は、WideCharToMultiByte() 等を使った。

Win32API : cygwin-iconv : cygwin-icu = 1 : 3 : 2
2016/11/06(日) 16:12:34.47ID:bCh//xB2
速度比?
時間比じゃなくて?
595592
垢版 |
2016/11/06(日) 16:49:22.61ID:0naNG629
やはり波ダッシュ「〜」、「〜」が鬼門。

>>594
失礼しました。所要時間の比です。
2016/11/06(日) 18:14:05.21ID:O2/niCOA
>>586
glibcのiconvはMT-Safe
ただiconv_openの返り値(iconv_t)は排他して使わないと駄目
597592
垢版 |
2016/11/06(日) 19:53:07.52ID:0naNG629
なぜiconvがマルチスレッド対応してないと思い込んでしまったかというと、
cygwinでC++11の thread クラスで work() と join() を使ったマルチスレッドの小さい勉強用プログラムを試しに書いたんだけど、
処理の所要時間を得るために、clock()で計時したんだけど、その数値がデタラメだったことが原因。
cygwinのclock()の戻り値の信頼性がここまで低いとは知らなかった。

>>596
了解。ハンドルを複数スレッドで使いまわすつもりは最初からなかったです。
ライブラリ関数内部で排他ロックしてるのかと思い込んだ私のミス。

処理速度・将来性・プロジェクトの活発さを考えると、iconvよりicuの方が有望に思える。
2016/11/06(日) 20:21:34.70ID:t7rcT7E/
次はmingwでもテストしてくれ
599592
垢版 |
2016/11/06(日) 23:12:19.37ID:0naNG629
mingw系は、GitやStrawberry Perlに付属のMINGWのbinがPATHに入り込んでいて、無事にmakeを貫徹することさえままならないので当分報告できない。あしからず。
2016/11/06(日) 23:41:14.17ID:eMFucsGq
プログラムを組むような人なら普通はPATHなんていくらでも変更出来るけど
ままならないなら仕方ない
2016/11/07(月) 04:13:30.95ID:EaPQMBZD
>>599
インストーラーが「PATHを設定しますか?」で選択しを与えてくれてるのに
読まないでパコパコインストールしまくる馬鹿ですね
2016/11/07(月) 15:01:03.67ID:/3CQ/LxZ
これ以上片山に構わないで
2016/11/07(月) 16:58:00.20ID:zyvBBkK2
>>582
マジレスしていいのかわからんがそれはISO 3166-1じゃなくてISO 3166-2だろと
2016/11/07(月) 17:22:52.58ID:Tzo661xQ
マジレスはいいが前後も読んだほうがより良い
2016/11/07(月) 17:45:16.90ID:2+R9ECvu
なお、3166-2のやつはRI使わない方向のようなのでほとんどの問題は解決されそう。
ただそうなるとますますあの不出来なRIって何だったのかって感じに。
606592
垢版 |
2016/11/07(月) 22:27:59.51ID:6EByQkLc
mingwでiconv, icuを試した。
iconvは、MINGW Installation Managerが提供するバイナリを使用した。
icuはバイナリは提供されていないのでソースからビルドした。
icuはそのままだとlocale関連のAPIが公開されていないMINGW版がビルドができないので、
_create_locale() と _free_locale() のダミー関数をソースに追記してビルドを通した。
所要時間の比は以下の通り。
MINGWだと、iconv、icuともWin32とあまり違いがないようだ。

Win32API : mingw-iconv : mingw-icu = 1 : 1.08 : 1.11

なお、>>593 でのcygwinは、iconv、icuともにcygwin用に提供されているバイナリを利用している。
2016/11/08(火) 00:48:57.53ID:unHUC1CF
cygwin1.dllとか軽油してるから遅いんだろ
2016/11/08(火) 01:14:10.78ID:Q1ozlGt4
変換する文字列の長さが短すぎて
変換速度よりもsystem callの呼び出し速度のベンチになってない?
2016/11/08(火) 09:16:34.50ID:WBfil5Sr
生の値(時間)を書くのが普通
比率という時点で何か隠してるようにみえる
2016/11/08(火) 11:50:26.32ID:ZBAGJV1u
するどいな
611592
垢版 |
2016/11/08(火) 20:34:22.36ID:qWOFxdzf
無駄な情報を捨てて必要な情報だけ提供した善意を、悪意を持って隠したと曲解する人がいて面白い。トランプ支持者っぽい。
テストプログラムやら実行環境やらまで公開して他の人が再現できるようにでもしない限り、生の実測時間を提示する意味はない。
2016/11/08(火) 20:41:20.43ID:IHq5KhUT
トランプ流れ弾
2016/11/08(火) 22:32:50.94ID:HtqjUltN
同じ10倍でも例えばミリ秒のオーダーと秒のオーダーでは全然違う。
計測時間そのままコピペする方が楽だろうに、態々比率に直すのは、、、
パワポ資料作るお仕事の人と見た。
2016/11/10(木) 16:00:00.53ID:UEg1zsO/
JIS X 0201/0208/0213がいつの間にか

> 2016-10-20 確認

になってる。
今回は特に何もなしか(あったらまた困るけど)
というか改正来年じゃなかったのか……。
2016/11/10(木) 20:40:08.56ID:Ow2XdUNn
来年が色んな意味で楽しみだわ
2016/11/11(金) 13:37:59.96ID:8vg+pXNE
JISってそれぞれ何刷まで出てるんだっけ?
刷ごとの差分知りたい
2016/11/11(金) 15:58:27.67ID:Y1SxtmaI
0208の1978年版とか2012年版とかじゃなくて刷?

ttp://okazaki.sakuraweb.com/biboroku/78jis/78jis.html

によるとJIS C 6226-1978は少なくとも第7刷まで増刷されたらしいけど、
JSAとかJISCに問い合わせても多分当時の資料とか無いだろうな。
2016/11/12(土) 15:38:19.16ID:q7jUFepj
>>616
刷は改定ごとに一から始まるので刷ごとの差は無い
そしてJISは様々な規格があるのでJISが何刷ということは言えない
2016/11/13(日) 13:47:22.48ID:ueOqX8wJ
78JIS以外は何刷でも内容一緒でしょ正誤票の反映はあるだろうけど
2016/11/14(月) 16:40:47.78ID:nhwER5sG
Unicode 10.0の絵文字候補、人魚は男女対応可能に | スラド IT
http://it.srad.jp/story/16/11/12/191218/

まーた増えるのか、、、
2016/11/14(月) 16:57:09.25ID:YqiB904W
なんでもかんでもZWJでいくなら最初から人間+魚でよかった。

そしてうっかり順番を入れ替えて魚+人間にすると……!!
2016/11/14(月) 17:40:54.01ID:rIoU2mi1
マーパーソンwww
2016/11/14(月) 17:48:16.83ID:rIoU2mi1
俺がもっとクールな新絵文字考えたぜつって、合字でオレオレ絵文字ZWJ実装するフォントが現れだして収集つかなくなりそう
2016/11/14(月) 18:00:03.62ID:zlxXdLUF
これはひどい
2016/11/14(月) 18:50:06.09ID:YqiB904W
>>623
うわありそうで怖い。
PUAと違って意味があるぶん、
大手が流行らせた合成絵文字はそのまま追認するしかない未来が見える。

例えばTwitterとか、Android OSとかがオレオレ絵文字実装したら
一般人が違いに気付かずに使って膨大な使用例ができるよね……
2016/11/15(火) 12:41:03.82ID:r6BgB6bM
ZWJ方式は、合成されなくても意味は通じるってことでしょ
2016/11/15(火) 13:27:53.08ID:U3Mmtdzs
WhatsAppがかんがえたさいきょうのZWJ絵文字
http://emojipedia.org/olympic-rings/

なお合成されなかったら意味は通じない模様
2016/11/15(火) 21:17:34.07ID:gEiNDmpT
ちゃんと色指定も加え入れろ〜
2016/11/15(火) 21:50:35.83ID:PldPJ2O3
合成するぐらいなら
文字列の途中にエンコードしたビットマップを挟み込めるようにしろ
2016/11/15(火) 21:55:34.62ID:cUgefh1P
─○○○
2016/11/16(水) 02:59:36.67ID:zr+5k25B
>>627
大きい丸自体が元をたどれば合成文字用なのが面白い
2016/11/16(水) 02:59:39.09ID:fzskfnoe
談合三本
2016/11/16(水) 03:01:10.13ID:fzskfnoe
>>629
たしかに
2016/11/16(水) 16:58:25.31ID:uL/NV7s7
むしろ合成したいなら U+20DD COMBINING ENCLOSING CIRCLE なんじゃ
2016/11/19(土) 01:04:22.83ID:/7Uc3cKm
ツ郤衙ワ
https://www.google.co.jp/#q=%EF%BE%82%E9%83%A4%E8%A1%99%EF%BE%9C
2016/11/19(土) 21:24:14.40ID:h19DOfQp
>>617
>>618
刷はある
同じ規格のはずなのに刷で例示字形に差がある時もあって、それを整理したいんだよね
2016/11/20(日) 03:55:56.72ID:pv3IyT3Y
古典の研究は資料の調査収集から始まる
2016/11/24(木) 20:15:24.01ID:V+CGDzRP
ーヲノイクゥ
イャサウクゥ
ケ篥ホクゥ
ケュナ邵ゥ
サースナクゥ
サウキチクゥ
ソキウ羣ゥ
タ鯱ユクゥ
タナイャクゥ
ツ郤衙ワ
ツ醋ャクゥ
トサシ雕ゥ
ナ郤ャクゥ
ニ猥ノクゥ
ニチナ邵ゥ
ニハフレクゥ
ノルサウクゥ
ハ。ー貂ゥ
ハ。イャクゥ
ハ。ナ邵ゥ
ハシクヒクゥ
ヒフウ、ニサ
マツイホサウクゥ
2016/11/25(金) 09:57:28.56ID:M66ENQJY
愛媛県
岡山県
高知県
広島県
三重県
山形県
新潟県
千葉県
静岡県
大阪府
大分県
鳥取県
島根県
奈良県
徳島県
栃木県
富山県
福井県
福岡県
福島県
兵庫県
北海道
和歌山県
2016/11/25(金) 12:21:36.58ID:n3LE76D7
マツイホサウ
https://www.google.co.jp/search?q=%E3%83%9E%E3%83%84%E3%82%A4%E3%83%9B%E3%82%B5%E3%82%A6
2016/12/19(月) 05:55:33.94ID:rp7MwxOA
さて
2016/12/26(月) 16:22:22.18ID:dYEGDg58
ISO/IEC 10646:2016 (5th Edition)は2017になりそうだな。
643デフォルトの名無しさん
垢版 |
2016/12/26(月) 20:13:30.11ID:TRnwbnfO
イロハコードがあるって初めて知った
http://nukalumix.hateblo.jp/entry/nenkin_iroha
https://www.taro.org/2016/12/%E3%81%84%E3%82%8D%E3%81%84%E3%82%8D%E3%82%A4%E3%83%AD%E3%83%8F%E3%81%AA%E7%9A%86%E6%A7%98%E3%81%B8.php
http://nlab.itmedia.co.jp/nl/articles/1612/12/news127.html
2016/12/28(水) 05:19:29.60ID:cqk+d7uG
コード?
2016/12/28(水) 07:28:33.43ID:XevzpVey
>>110
おいおい、ちゃんと規格読んでる?
原則、部首画数順だぞ。unihanデータベースも推奨ソートキーが部首画数順になってる。
2016/12/28(水) 07:35:34.89ID:XevzpVey
>>160
昔の区点表現でいう2区毎にまとめて突っ込んだせいだろう。
2016/12/28(水) 07:42:45.19ID:XevzpVey
>>244
いわゆるハングルの大移動ですね。
2016/12/28(水) 09:58:25.05ID:aMFxqRcr
突然遠投大会始めるのやめてもらえます
2016/12/28(水) 12:34:27.60ID:kFL7wfb2
>>644
50音カナで50進数にして管理してるんだと
2016/12/28(水) 13:11:56.04ID:hpQZCApo
カナって50個もあるの?
2016/12/28(水) 13:14:02.87ID:45reyBmE
もっとある
2017/01/01(日) 20:44:48.93ID:4U7a/Vzr
明けましておめでとうございます
2017年の文字コード業界はどうなるやら
2017/01/01(日) 21:18:20.53ID:9MvoRZrQ
VCでUTF-8のBOM無し突っ込めると判ったのが2016の最大の収穫
654デフォルトの名無しさん
垢版 |
2017/01/06(金) 14:36:30.66ID:XtKi9eaG
test
2017/01/19(木) 22:54:33.86ID:xPn9j90t
testだと?
2017/01/19(木) 23:22:23.28ID:kAhgSygC
ユニコードコンソーシアムのProposed New Charactersみてたら
HIRAGANA LETTER SMALL WI、HIRAGANA LETTER SMALL WE、HIRAGANA LETTER SMALL WO、
KATAKANA LETTER SMALL WI、KATAKANA LETTER SMALL WE、KATAKANA LETTER SMALL WO、
KATAKANA LETTER SMALL N
つまり小さい「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」があった。
小さい「こ」と「コ」は以前U+1B002とU+1B003に提案されてたが
そこは変体仮名が入ることになってU+1B127、U+1B128に変わってた。
変体仮名の数が多すぎてKana Supplementブロックに入り切らなかったから
その直後のU+1B100〜U+1B12FにKana Extended-Aブロックを作るんだな。
でU+1B100〜の予定だった女書は1B170〜にずれた。
2017/01/19(木) 23:41:32.39ID:L5ppZzRV
荒らしは去れ
ここはトイレの落書きやお前の日記ではない
2017/01/19(木) 23:58:14.21ID:xPn9j90t
佳那サプリメントでかいなあと思ってたのに足りなかったのか
2017/01/20(金) 01:09:17.45ID:1c/0Zcpc
>>656
女書ってなに?
660デフォルトの名無しさん
垢版 |
2017/01/20(金) 04:21:35.39ID:SuI25zgd
美乳
2017/01/20(金) 08:06:23.41ID:B05iL6IP
↑いまだにEUC使ってる奴
2017/01/20(金) 08:57:48.31ID:TRhLZIcU
芸柏l
663デフォルトの名無しさん
垢版 |
2017/01/20(金) 13:48:47.52ID:XOQ1SR2o
平成
2017/01/20(金) 16:02:46.66ID:HZJT4SPy
UTF-8と称しつつ実際はISO/IEC 8859-1(or Windows-1252)使ってるサイト早く絶滅しないかな〜。
2017/01/20(金) 23:22:01.31ID:2XlTkpSB
うむ
2017/01/22(日) 23:54:36.79ID:I5eFmZgm
シマンテックのインストーラー「Symantec? Veritas NetBackup?をインストールします」
俺「俺は今 何をインストールしているんだぜ…?」
2017/01/23(月) 13:38:14.82ID:vFvi2mPp
マカフィー()よりまし
2017/01/25(水) 14:44:24.88ID:/N/oPPcM
©と®が化けるのはあるある
2017/01/25(水) 15:54:19.97ID:O1e4fHbH
Windows 2000あたりのセットアップ画面(ブルースクリーン)は左上に

ソソソソソソソ

みたいなのが並んでた気がするんだけどあれは何が化けていたんだろう。
670237
垢版 |
2017/01/25(水) 22:09:22.42ID:gTVlV55T
>>669
CP437?
2017/01/25(水) 23:28:05.93ID:yhKKEJSl
CP237?
2017/02/03(金) 11:13:08.06ID:qUN7oehH
>>669
頭にオがあったんじゃないかな
2017/02/03(金) 15:53:54.77ID:AImPimr2
ソじゃなくてヘだな

Windows 2000 Setup
ヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘヘ
2017/02/06(月) 16:58:49.11ID:1iv5Awq0
>>669-673
なるほど、

https://en.wikipedia.org/wiki/Code_page_437
https://ja.wikipedia.org/wiki/JIS_X_0201

最初は CP437 の 0xCD “═” だったのが
何かの拍子にシフトJISとして解釈されて
JIS X 0201 の 0xCD “ヘ” に化けたということか。
2017/02/06(月) 21:27:31.96ID:oVOmv7r6
>>674
正体は罫線か。

こういう解明ってすっきりするし面白いね。
2017/02/19(日) 22:58:26.35ID:IU+vTkdD
ISO/IEC 10646 - Information technology -- Universal Coded Character Set (UCS)
http://www.iso.org/iso/catalogue_detail.htm?csnumber=69119

ISO/IEC 10646:2017 (5th Edition) がいつの間にか published になってた。
Publicly Available Standards へ追加マダァ-? (・∀・ )っ/凵⌒☆チンチン
2017/02/20(月) 22:24:53.34ID:coRAUu9w
>いつの間にか published になってた

文盲ってどうしようもないですねホント
2017/02/20(月) 23:48:25.19ID:SiY39E3I
regional flagsって日本の都道府県旗も追加されんの?
東京の旗が銀杏か肛門かで揉めそう
2017/02/21(火) 00:45:25.29ID:nlr0ZxeU
ってか日本の都道府県旗ってJISか何かで規格化されてるんだろうか
されてないなら根拠になる個別の条例を探して判断することになるのか
2017/02/21(火) 23:08:13.81ID:YiL5XD0V
東京のマンコマークと神奈川のチンチンびろーんは世界の恥
2017/02/22(水) 03:17:26.03ID:4ggKEg2C
旗の形ではなく県章部分だけでグリフ作ってもらえたらいろいろ独創的な応用が利きそうだ。
2017/02/22(水) 18:49:19.58ID:/iBgHjnm
>>679
絵と絵文字は別物やで
2017/02/22(水) 21:52:33.48ID:h5L2bR5S
>>682


言わんとすることがわからないけど、
基準があれば>>678みたいな場合に難しい判断しなくてすむでしょ?
2017/02/22(水) 22:31:09.15ID:j43AF9m9
もう憲法とか国境の位置もJIS規格で管理しちゃえよ
685デフォルトの名無しさん
垢版 |
2017/02/23(木) 13:21:45.70ID:eG9NqkD/
>>680
知らなかった
ありがとう
2ちゃんもたまには役に勃つな
2017/02/23(木) 13:22:51.89ID:eG9NqkD/
>>681
自分でやれ
■ このスレッドは過去ログ倉庫に格納されています