プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。
■過去スレ
文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/
文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/
文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/
文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/
(スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/
(隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/
文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/
文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/
文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/
文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/
文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/
文字コード総合スレ Part10 [転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
2015/10/14(水) 20:29:00.08ID:xctG4AAd2015/12/01(火) 02:44:11.35ID:juK8PVcx
ほとんど3バイト
Japanese, Chinese and Korean characters are almost entirely (if not entirely) 3 bytes on UTF-8.
3バイトは、UTF-16をつかう理由になる。
the three-byteness of CJK characters is an often-cited reason to use UTF-16 instead of UTF-8.
http://forum.dlang.org/post/hum5gl$2hfm$1@digitalmars.com
Japanese, Chinese and Korean characters are almost entirely (if not entirely) 3 bytes on UTF-8.
3バイトは、UTF-16をつかう理由になる。
the three-byteness of CJK characters is an often-cited reason to use UTF-16 instead of UTF-8.
http://forum.dlang.org/post/hum5gl$2hfm$1@digitalmars.com
2015/12/01(火) 03:51:29.82ID:Ik5f2d1Y
>>94-95
ファイルサイズの事を書くならもっと考慮すべきだな
UTF-8に変換するとどの程度ファイルサイズが膨らむのかは文書の内容により異なる
例えばこのスレの95までのdatファイルの場合は次のようになっていて
元のファイルに対してUTF-8は約 1.25 倍、UTF-16は約 1.5 倍だった
$ wc -c 1444822140-*
26775 1444822140-cp932.dat
40234 1444822140-utf16.dat
33434 1444822140-utf8.dat
ワープロなどの独自形式の内部でUCS2を使うことは十分に意味があると思う
しかしSHIFT_JISのプレーンテキストを変換する場合は、おおよそUTF-8が最大1.5倍
なのに対してUTF-16は最大2倍になる事を忘れてはいけない
ファイルサイズの事を書くならもっと考慮すべきだな
UTF-8に変換するとどの程度ファイルサイズが膨らむのかは文書の内容により異なる
例えばこのスレの95までのdatファイルの場合は次のようになっていて
元のファイルに対してUTF-8は約 1.25 倍、UTF-16は約 1.5 倍だった
$ wc -c 1444822140-*
26775 1444822140-cp932.dat
40234 1444822140-utf16.dat
33434 1444822140-utf8.dat
ワープロなどの独自形式の内部でUCS2を使うことは十分に意味があると思う
しかしSHIFT_JISのプレーンテキストを変換する場合は、おおよそUTF-8が最大1.5倍
なのに対してUTF-16は最大2倍になる事を忘れてはいけない
2015/12/01(火) 10:01:27.63ID:2Tu3vetc
UTF-8で日本語が基本3バイト、はもう慣れたけど
ブログやらWikiで日本語使うと1文字につき9バイト必要なのはさすがにちょっと萎える
%E3%81%8B%E3%81%A3%E3%81%B1%E3%81%88%E3%81%B3%E3%81%9B%E3%82%93
とかたった数文字を表すのに長すぎだっての。
文字コードというかUTF-8をパーセントエンコーディング?する時の問題だけれど。
ブログやらWikiで日本語使うと1文字につき9バイト必要なのはさすがにちょっと萎える
%E3%81%8B%E3%81%A3%E3%81%B1%E3%81%88%E3%81%B3%E3%81%9B%E3%82%93
とかたった数文字を表すのに長すぎだっての。
文字コードというかUTF-8をパーセントエンコーディング?する時の問題だけれど。
2015/12/01(火) 19:29:51.08ID:k1p/Pdr9
パーセントエンコーディングって単語自体が長くてめんどい。
もっと短く、パンコとかで通用するようにならないかな。
もっと短く、パンコとかで通用するようにならないかな。
2015/12/01(火) 20:03:05.10ID:ampHwdqN
別に人が手作業でやってるわけじゃないのに
なにぶつぶつ言ってるんだろ
なにぶつぶつ言ってるんだろ
100デフォルトの名無しさん
2015/12/01(火) 20:18:47.62ID:cchxtPU5 >>94
そんな程度のことでutf-8を辞める訳にはいかない。
そんな程度のことでutf-8を辞める訳にはいかない。
101デフォルトの名無しさん
2015/12/01(火) 20:40:03.81ID:RA+mqEJ1102デフォルトの名無しさん
2015/12/01(火) 22:44:13.88ID:/t42lLyY URLのパーセントエンコーディングは脆弱性の宝庫になるくらいでただ使う側としてはどうでもいいけど
punycodeはまじでやめろ
punycodeはまじでやめろ
103デフォルトの名無しさん
2015/12/01(火) 23:03:02.39ID:csnzGfyE なんでやめないといけないぷに?
いいじゃないかぷに。
いいじゃないかぷに。
104デフォルトの名無しさん
2015/12/02(水) 01:31:49.86ID:3/uIxAsF 日本語のソート順くらい日本人に決めさせろや
105デフォルトの名無しさん
2015/12/02(水) 09:35:48.18ID:wYxvpGTD 人の感覚じゃなくて、機械的な感覚がないと・・・
106デフォルトの名無しさん
2015/12/02(水) 10:05:36.38ID:amR8vvu9 >>104
提案しろよ。
そもそも読みがわからんとソート出来ないのが日本語なんで、
単漢字のソート順なんて大したこだわりないだろ。
植物、人の名前なんか、音読み、訓読み、当て読みと
二種類以上あるの珍しくないからな。
提案しろよ。
そもそも読みがわからんとソート出来ないのが日本語なんで、
単漢字のソート順なんて大したこだわりないだろ。
植物、人の名前なんか、音読み、訓読み、当て読みと
二種類以上あるの珍しくないからな。
107デフォルトの名無しさん
2015/12/02(水) 10:18:22.35ID:wYxvpGTD JISコードに頼ったソートも今のコンピュータ環境じゃ、笑・・・・
脆弱性ってのは未熟もんがやるからとかでは
やりこんでる人でもバグは残ることも あ・・・
脆弱性ってのは未熟もんがやるからとかでは
やりこんでる人でもバグは残ることも あ・・・
108デフォルトの名無しさん
2015/12/02(水) 13:55:56.97ID:NJ9kFAss 日本語のソート順で思い出したが、
JIS(X 0208)が第1水準と第2水準で違う並べ方してるのも意味分からん。
代表音訓でも部首画数順でもいいから統一して欲しかった。
JIS(X 0208)が第1水準と第2水準で違う並べ方してるのも意味分からん。
代表音訓でも部首画数順でもいいから統一して欲しかった。
109デフォルトの名無しさん
2015/12/04(金) 12:30:36.89ID:ujmgtERp 最近勉強し出したのか?
ソート順は確かに面倒だけど他の仕様との絡みを知ればこうするしかないと思う。
理想は理想で持っておけばいいんじゃね?
将来、漢字表刷新するかもしれんし、シフトJIS死滅するかもしれんし。
ソート順は確かに面倒だけど他の仕様との絡みを知ればこうするしかないと思う。
理想は理想で持っておけばいいんじゃね?
将来、漢字表刷新するかもしれんし、シフトJIS死滅するかもしれんし。
110デフォルトの名無しさん
2015/12/04(金) 12:38:17.66ID:kxI+vXrK シフトJIS死滅するのは構わないが、漢字の文化的側面を理解しようともしない欧米人が適当に並べた順でソートされるのは納得いかん。
111デフォルトの名無しさん
2015/12/04(金) 12:53:33.88ID:gpSQ8UEd でもJISコードなら希望通りのソートができるわけでもないだろ
112デフォルトの名無しさん
2015/12/04(金) 14:24:16.07ID:616grxEX 何のために仮名文字があると思っているのか。
113デフォルトの名無しさん
2015/12/04(金) 18:29:07.64ID:zfbjjPeM 文字コード順でソートしてるアホ
114デフォルトの名無しさん
2015/12/04(金) 20:17:25.57ID:urrQLDlj いつまでたっても文字集合順序バカはいなくならないね。
全てのいじたいに
全てのいじたいに
115デフォルトの名無しさん
2015/12/05(土) 09:09:04.31ID:0xZl9ZTr 半角カタカナで読みもかいておく。ひとにかいてもらうとかまぁたいへんだけど…
昇順にするとき、半角カタカナで比較して行を並べ替える
昇順にするとき、半角カタカナで比較して行を並べ替える
116デフォルトの名無しさん
2015/12/05(土) 10:43:28.38ID:oE97tTMi なんでメモ蝶を保存するときに
シフトジスでなくアンジーって表示されてんの?
シフトジスでなくアンジーって表示されてんの?
117デフォルトの名無しさん
2015/12/05(土) 11:20:47.89ID:VAg3AW+y >>116
アメリカ人がバカだから
アメリカ人がバカだから
118デフォルトの名無しさん
2015/12/05(土) 19:58:46.22ID:kjmBg6FK119デフォルトの名無しさん
2015/12/05(土) 20:50:07.85ID:K2AVyHLa120デフォルトの名無しさん
2015/12/06(日) 00:47:45.72ID:ods/Bdie 英語でもWindows-1252であってANSI関係ないけどなー
後にISO/IEC 8859-1になるものが昔ANSIのドラフトとして提案されてたってのが名前の由来らしいけど
Windowsのはそれ更に独自拡張したやつだし
後にISO/IEC 8859-1になるものが昔ANSIのドラフトとして提案されてたってのが名前の由来らしいけど
Windowsのはそれ更に独自拡張したやつだし
121デフォルトの名無しさん
2015/12/06(日) 09:58:13.03ID:pIhfFp+J122デフォルトの名無しさん
2015/12/06(日) 10:48:45.84ID:snTz5MuC お前らも意味不明な文章を見たときに
「日本語でおK」って言うだろ?
それと同じ事だ
「日本語でおK」って言うだろ?
それと同じ事だ
123デフォルトの名無しさん
2015/12/06(日) 11:36:05.85ID:jSbqCg57 答えるの面倒な質問だよなw
ANSI==932じゃない
Winowsが繁体字版なら950で保存される
ANSI==932じゃない
Winowsが繁体字版なら950で保存される
124デフォルトの名無しさん
2015/12/06(日) 12:39:48.92ID:61iq3tHI >>120
8859-1だけじゃなくて8859の8bit使うコーディングシステムの変種という理解だろうね。
8859-1だけじゃなくて8859の8bit使うコーディングシステムの変種という理解だろうね。
125デフォルトの名無しさん
2015/12/07(月) 08:05:52.84ID:jRU2iLzO126デフォルトの名無しさん
2015/12/09(水) 07:55:39.86ID:jI2VmBLr というか昔はANSIが決めてISOが追認って規格がたくさんあった。
アメリカではANSIの規格名で呼び続けることもあった。
アメリカではANSIの規格名で呼び続けることもあった。
127デフォルトの名無しさん
2015/12/09(水) 08:29:25.15ID:Kwr/X5Fv ほうほう、シフトジスもANSIが決めたのですか
それは初耳です
それは初耳です
128デフォルトの名無しさん
2015/12/09(水) 09:52:29.63ID:jI2VmBLr129デフォルトの名無しさん
2015/12/09(水) 16:27:04.50ID:lqAlbDFw カメラのフィルムに書いてある数字のこと昔はASA感度って言ってたのに気が付いたらISO感度ってみんな言うようになってたなみたいな話かna
130デフォルトの名無しさん
2015/12/09(水) 22:54:10.41ID:wiCS3usg 朝感度
磯感度
磯感度
131デフォルトの名無しさん
2015/12/10(木) 08:01:54.07ID:XGY4goXY >>127
えっ!?何言ってんの⁇
えっ!?何言ってんの⁇
132デフォルトの名無しさん
2015/12/18(金) 18:25:49.47ID:HJbW+QnG133デフォルトの名無しさん
2015/12/19(土) 00:00:59.61ID:CW6jl8Ze 第一水準のなんでこの漢字訓読みなんだって漢字もそれ由来なん?
134デフォルトの名無しさん
2015/12/19(土) 09:33:24.36ID:HazuH4Vs たとえばおしえて
135デフォルトの名無しさん
2015/12/19(土) 22:28:28.39ID:dMkmHKK1 NDL-70の「扱」は「圧」と「安」の間
136デフォルトの名無しさん
2015/12/20(日) 02:41:57.27ID:YliIi6mv あっあっあん
137デフォルトの名無しさん
2015/12/20(日) 10:16:50.75ID:XCzWC+ME しごく
こく
こく
138デフォルトの名無しさん
2015/12/20(日) 10:19:07.37ID:XCzWC+ME 音読みが表外
139デフォルトの名無しさん
2016/01/01(金) 03:45:50.30ID:doWmnGIT あけまして
140デフォルトの名無しさん
2016/01/01(金) 10:51:09.09ID:w8UZcEt0 しめました
141デフォルトの名無しさん
2016/01/01(金) 23:48:50.10ID:AG0KIon8 ISO/IEC 10646のAmd.はもう無料公開されないのかしら
142デフォルトの名無しさん
2016/01/03(日) 11:09:11.17ID:dkSYzm34143デフォルトの名無しさん
2016/01/06(水) 19:04:13.23ID:JzbnS0qc 年寄りの昔話だな
144デフォルトの名無しさん
2016/01/06(水) 20:12:47.63ID:iuDSHbH+ 書き起こして記録しておくことは大切
145デフォルトの名無しさん
2016/01/06(水) 20:53:18.67ID:PPpC6D2R 確かに。
146デフォルトの名無しさん
2016/01/15(金) 16:58:58.27ID:KQq8mMFq 特定機種の話でアレだが
スマホのXperiaがZ4かZ5か知らんけどUnicodeの補助文字(BMP外の文字)表示出来るようになってたわ
俺のZ3では豆腐でがっかりだったのに、いつの間に。
スマホのXperiaがZ4かZ5か知らんけどUnicodeの補助文字(BMP外の文字)表示出来るようになってたわ
俺のZ3では豆腐でがっかりだったのに、いつの間に。
147デフォルトの名無しさん
2016/01/15(金) 18:41:54.97ID:P2RUw3PT 豆腐になるっていうのは普通に考えると
表示能力はあるけどフォントが無いだけだからフォント入れれば済む話では
表示能力はあるけどフォントが無いだけだからフォント入れれば済む話では
148デフォルトの名無しさん
2016/01/16(土) 01:02:26.88ID:JNkmPv0K 何個の豆腐かにもよるんじゃなかろうか
149デフォルトの名無しさん
2016/01/19(火) 13:39:56.61ID:dtt1X0Ve150デフォルトの名無しさん
2016/01/19(火) 20:31:34.42ID:AH+kA+fr 使ったならちゃんとそう書けって話で
使うなということではない
使うなということではない
151デフォルトの名無しさん
2016/01/22(金) 19:46:47.72ID:Eb9O6glo [要出典]
てか
てか
152デフォルトの名無しさん
2016/01/22(金) 20:00:04.23ID:QBUelO2B アホの安岡が
『「常用漢字表と人名用漢字表を元にしてテキストを作成した[1]」のが事実なら』
と鍵かっこで強調してるというのに
日本語も読めないのかこの馬鹿(>151)は
『「常用漢字表と人名用漢字表を元にしてテキストを作成した[1]」のが事実なら』
と鍵かっこで強調してるというのに
日本語も読めないのかこの馬鹿(>151)は
153デフォルトの名無しさん
2016/01/25(月) 22:08:23.80ID:hLxKxz0/ Unicodeには常用漢字表も人名用漢字表も含まれてるから、
結局のとこ、Unihanで無問題な希ガス
結局のとこ、Unihanで無問題な希ガス
154デフォルトの名無しさん
2016/01/25(月) 22:37:19.56ID:1JcfbMU3 そんな甘い考えでやっちまったんだろうなあ
155片山博文MZ ◆T6xkBnTXz7B0
2016/01/29(金) 15:58:28.60ID:BQRaRgTF 与えられたテキストがUCS16に合致するか判定するアルゴリズムってある?
156デフォルトの名無しさん
2016/01/29(金) 16:42:21.91ID:aBCIPjTo iconvはルールが厳しいから
入ロクおかしければ変換失敗する
入ロクおかしければ変換失敗する
157片山博文MZ ◆T6xkBnTXz7B0
2016/01/30(土) 22:17:33.35ID:4i/PfDlC nkfは、ライブラリとしては中途半端なんだよな。
スタティックライブラリとして利用可能にしてほしい。
スタティックライブラリとして利用可能にしてほしい。
158デフォルトの名無しさん
2016/01/31(日) 00:56:53.78ID:1gNPM3q2 nkfって厳密さより何となく動くこと重視してるし
変換も自然とは言いがたい独自なのあるから注意
変換も自然とは言いがたい独自なのあるから注意
159デフォルトの名無しさん
2016/02/01(月) 00:21:45.94ID:AuVBRc/d ほええそういうものなのか
160デフォルトの名無しさん
2016/02/03(水) 21:14:57.17ID:uf0uQxAG シフトJISを作るときに2バイト目が0x00-7Fを避けるようにはできなかったのかな?
こうすればダメ文字問題も起こらないのに。
こうすればダメ文字問題も起こらないのに。
161デフォルトの名無しさん
2016/02/03(水) 21:41:36.87ID:Fx9BpiPG162デフォルトの名無しさん
2016/02/03(水) 21:50:14.56ID:mmJ5x1I8 >>161は会話のできないあすぺ
163デフォルトの名無しさん
2016/02/03(水) 21:58:17.93ID:mmJ5x1I8 できなくはなかっただろうな
FFと1バイト目の半角カナを避けても
63×127=8001文字は使える
FFと1バイト目の半角カナを避けても
63×127=8001文字は使える
164デフォルトの名無しさん
2016/02/03(水) 23:45:43.20ID:uf0uQxAG Unicodeがあるのに今さらという感じはするけど
半角文字は1バイト全角文字は2バイトのままで
2バイト目が00-7Fにならない新文字コードがあってもいいと思う。
半角文字は1バイト全角文字は2バイトのままで
2バイト目が00-7Fにならない新文字コードがあってもいいと思う。
165デフォルトの名無しさん
2016/02/03(水) 23:58:17.15ID:FE/plTpc そして三水四水を入れる領域が足りなくなり後のMSに恨まれると。
166デフォルトの名無しさん
2016/02/04(木) 12:35:29.01ID:NB0syLHO167デフォルトの名無しさん
2016/02/04(木) 13:06:32.74ID:dTOEAfAy >>164
もう全く必要ない
もう全く必要ない
168デフォルトの名無しさん
2016/02/04(木) 14:58:00.09ID:pUsIARbq シフトJISの反省の上に?作られたのが0x00-7FをASCIIにしか使わない日本語EUC(EUC-JP)なんだから
それでいいじゃんって気がするのだけど
そんなに半角カナが大事か
>>163
ISO/IEC 2022の94*94を47*188に変換するって分かりやすさ優先でこうなったんだっけ?
それでいいじゃんって気がするのだけど
そんなに半角カナが大事か
>>163
ISO/IEC 2022の94*94を47*188に変換するって分かりやすさ優先でこうなったんだっけ?
169デフォルトの名無しさん
2016/02/04(木) 16:01:14.78ID:dTOEAfAy170デフォルトの名無しさん
2016/02/04(木) 19:20:10.85ID:EFnVMbsO171デフォルトの名無しさん
2016/02/04(木) 23:06:09.90ID:WWqaejBP >>166
もっと昔からある EUC を処理するには 8ビットクリーンなプログラムであれば事足りる。
ISO 8859 もそうだ。だからコンパイラも特別な処理などしなかった。
シフトJISもそうできなかったのかという話じゃないのか?
もっと昔からある EUC を処理するには 8ビットクリーンなプログラムであれば事足りる。
ISO 8859 もそうだ。だからコンパイラも特別な処理などしなかった。
シフトJISもそうできなかったのかという話じゃないのか?
172デフォルトの名無しさん
2016/02/04(木) 23:35:33.23ID:gW2sFWg4 むしろ解釈できない文字コードを通すことがおかしい
たまたま問題が見つからなかった、コンパイラがエラーを出さずに処理を終えたからOKとするなんてアホ
たまたま問題が見つからなかった、コンパイラがエラーを出さずに処理を終えたからOKとするなんてアホ
173デフォルトの名無しさん
2016/02/05(金) 02:34:16.13ID:EN3ElRH3 >>171
8ビットクリーンならEUC-JPを問題なく使えるかというとそうでもなくて
上位バイトと下位バイトが別れちゃう問題は発生しうる
シフトjisの「表」のあとに\を入れるみたいなバッドノウハウが目立つのでシフトJISに
問題があるように見えるのかもしれないけど、本質的には対応してないものを
勝手に使って文句言ってるだけじゃないかな
8ビットクリーンならEUC-JPを問題なく使えるかというとそうでもなくて
上位バイトと下位バイトが別れちゃう問題は発生しうる
シフトjisの「表」のあとに\を入れるみたいなバッドノウハウが目立つのでシフトJISに
問題があるように見えるのかもしれないけど、本質的には対応してないものを
勝手に使って文句言ってるだけじゃないかな
174デフォルトの名無しさん
2016/02/05(金) 02:44:24.24ID:k2yclqL8 上位バイトと下位バイトが別れる件はダメ文字とは別件だから
最初の人の要求に対しては問題にならない
最初の人の要求に対しては問題にならない
175デフォルトの名無しさん
2016/02/06(土) 14:03:11.00ID:sR9TSGCJ176デフォルトの名無しさん
2016/02/06(土) 15:14:13.70ID:zVjqWScH 自分が間違ったやり方をしていたけど問題になったのはAだけだ
→だからAが悪い
まさにこういう発想がクソ
しかも自分の知っている文字コードが全てだと勘違いしていてたちが悪い
→だからAが悪い
まさにこういう発想がクソ
しかも自分の知っている文字コードが全てだと勘違いしていてたちが悪い
177デフォルトの名無しさん
2016/02/06(土) 15:45:39.28ID:P3+owK3w178デフォルトの名無しさん
2016/02/06(土) 18:59:39.30ID:Ps0oIAyd UTF-8なら漢字やかなに00-7Fは使わないけどな
って、そういう話をしてるわけじゃないのか。
って、そういう話をしてるわけじゃないのか。
179デフォルトの名無しさん
2016/02/06(土) 19:36:29.58ID:uSRKfZgb >>176
しかしShift JISはかなり質が悪い
しかしShift JISはかなり質が悪い
180デフォルトの名無しさん
2016/02/06(土) 19:41:15.78ID:MiOvJZDJ どうしてWindowsは出来の悪い方ばっかり選択するんだろうか
cp932といいUTF-16といい…
cp932といいUTF-16といい…
181デフォルトの名無しさん
2016/02/06(土) 20:34:21.53ID:sR9TSGCJ >>178
そういう話をしてるつもりだけど、そうでない人もいるようだ。
そういう話をしてるつもりだけど、そうでない人もいるようだ。
182デフォルトの名無しさん
2016/02/07(日) 08:00:22.03ID:+iI8pPYd エスケープシーケンスよりCP932の方がまだマシだし、
CP932よりUCS-2の方が多少はマシだったからでしょ
CP932よりUCS-2の方が多少はマシだったからでしょ
183デフォルトの名無しさん
2016/02/07(日) 13:34:15.00ID:COqNuXpv >>173
今更だけど、文字が分断される可能性についても公平を期すために触れておくよ。
単純にバイト数で分割する場合等を除けば、ほとんどはパターンマッチにおける誤マッチが原因だろう。
strchr や strstr 、あるいはもっと高度なライブラリを使った結果かもしれない。
探すパターンに [\100-\176] にマッチする文字が含まれているなら EUC では誤マッチは起こらない。
シフトJISではダメ文字のせいで誤マッチが起こりうる。
実際に問題になるのはほとんどがこのケース。
grep "\]"
などとやろうものなら悲惨なことになる。
探すパターンがマルチバイト文字だけなら EUC でもシフトJISと同程度には誤マッチが起こりうる。
しかし実際にはほとんど起こらない。
もちろん起こるときは起こるし対策も出来るが対策は速度の低下と引換だ。
30 年前の CPU クロックは 10MHz 程度だったので速度も重要だった。
ほとんど起こらない上に致命的でもないなら速度を犠牲にしてまで常に対策を講じる必要は無い。
ちなみに対策だが、EUC で grep する場合なら
egrep "^([\000-\177]|\216[\240-\337]|\217[\241-\376][\241-\376]|[\241-\376][\241-\376])*$pattern"
的なことをするプログラムを grep_euc とかそういう名前で作っておけばいい。
シフトJISの場合はこれに加えてシフトJISな部分を 8 進エスケープシーケンスに置き換える必要がある。
同じやり方で iso-2022-jp も処理できる。
シフトJISしか通さない grep など技術的には邪魔なだけだよ。
今更だけど、文字が分断される可能性についても公平を期すために触れておくよ。
単純にバイト数で分割する場合等を除けば、ほとんどはパターンマッチにおける誤マッチが原因だろう。
strchr や strstr 、あるいはもっと高度なライブラリを使った結果かもしれない。
探すパターンに [\100-\176] にマッチする文字が含まれているなら EUC では誤マッチは起こらない。
シフトJISではダメ文字のせいで誤マッチが起こりうる。
実際に問題になるのはほとんどがこのケース。
grep "\]"
などとやろうものなら悲惨なことになる。
探すパターンがマルチバイト文字だけなら EUC でもシフトJISと同程度には誤マッチが起こりうる。
しかし実際にはほとんど起こらない。
もちろん起こるときは起こるし対策も出来るが対策は速度の低下と引換だ。
30 年前の CPU クロックは 10MHz 程度だったので速度も重要だった。
ほとんど起こらない上に致命的でもないなら速度を犠牲にしてまで常に対策を講じる必要は無い。
ちなみに対策だが、EUC で grep する場合なら
egrep "^([\000-\177]|\216[\240-\337]|\217[\241-\376][\241-\376]|[\241-\376][\241-\376])*$pattern"
的なことをするプログラムを grep_euc とかそういう名前で作っておけばいい。
シフトJISの場合はこれに加えてシフトJISな部分を 8 進エスケープシーケンスに置き換える必要がある。
同じやり方で iso-2022-jp も処理できる。
シフトJISしか通さない grep など技術的には邪魔なだけだよ。
184デフォルトの名無しさん
2016/02/07(日) 13:49:06.41ID:GW5WZ8T2185デフォルトの名無しさん
2016/02/07(日) 15:37:08.80ID:F/ILMG/l186デフォルトの名無しさん
2016/02/07(日) 20:14:33.59ID:lDI02uIo grepはいつutf16対応してくれるんじゃぁ
ふだんLinux使ってるんだがwinのソースコードはなぜかutf16なんでいつも困っとるんじゃぁ
nkfで変換するのめんどいんじゃあ
ふだんLinux使ってるんだがwinのソースコードはなぜかutf16なんでいつも困っとるんじゃぁ
nkfで変換するのめんどいんじゃあ
187デフォルトの名無しさん
2016/02/07(日) 21:05:14.46ID:+iI8pPYd utf16のそーすとか見たこと無いな
188デフォルトの名無しさん
2016/02/08(月) 01:36:20.73ID:0XuKQtD5 >>180
UTF-16はそのころUCS-2しかなかったんだから仕方ないやろ
個人的にWindowsはAとWはそのままでもいいから
標準CライブラリとC++ライブラリはUTF-8を使ってくれるようにしてくれれば不満ないんだけどな。
UTF-16はそのころUCS-2しかなかったんだから仕方ないやろ
個人的にWindowsはAとWはそのままでもいいから
標準CライブラリとC++ライブラリはUTF-8を使ってくれるようにしてくれれば不満ないんだけどな。
189デフォルトの名無しさん
2016/02/08(月) 05:19:47.55ID:x/5r9wp6 >>188
全然仕方なくないどころか、むしろまた先走ってやっちまったとしか
全然仕方なくないどころか、むしろまた先走ってやっちまったとしか
190デフォルトの名無しさん
2016/02/08(月) 09:34:53.73ID:AxqrebA9 UTF-16固定とか基地外沙汰
ackやagもUTF-16は華麗にスルー
ackやagもUTF-16は華麗にスルー
191デフォルトの名無しさん
2016/02/08(月) 22:30:39.07ID:ti0XuUyR EUCは目糞鼻糞だし、当時の記録媒体でUTF-8とか頭おかしいレベルなのに
一体どうしたかったのか
一体どうしたかったのか
192デフォルトの名無しさん
2016/02/08(月) 22:35:16.47ID:HMUrPVh/ ただマイクロソフトを非難したいだけのキティGUYに何を。
こういうのは誰でもいいから攻撃対象を設けてガス抜きさせてやらないといかん。
こういうのは誰でもいいから攻撃対象を設けてガス抜きさせてやらないといかん。
193デフォルトの名無しさん
2016/02/08(月) 23:02:30.93ID:sawB/DI+ SHIFT_JISよりEUC-JPの方がマシ、UTF-16よりUTF-8の方がマシってだけでしょ
マイクロソフトを非難したいだけに見えるとしたら相当なバイアス掛かってると思うよ
マイクロソフトを非難したいだけに見えるとしたら相当なバイアス掛かってると思うよ
194デフォルトの名無しさん
2016/02/09(火) 00:48:21.70ID:TCPuRlam■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 橋下徹氏 外務省幹部の訪中受け「口だけ番長」へ痛烈指摘 「喧嘩は日本の完敗…なんとかっこ悪い日本か」 [冬月記者★]
- 【外国人問題】小野田紀美担当相「不法就労や不法滞在は許さない」 [シャチ★]
- 【野球】井端監督 大谷翔平、山本由伸らのWBCへの参加 「1日も早く返事ほしい」「待っててといっても、国内組が遅くなってしまう」★3 [冬月記者★]
- 経団連会長、日中は建設的対話を 経済3団体が高市首相と初会談も日中関係は話題に登らず… [BFU★]
- 中国で「クレしん」公開延期 対日報復、エンタメに波及 [蚤の市★]
- 東京株式市場 インバウンド関連株が下落 中国政府の渡航自粛要請で [バイト歴50年★]
- 有識者「高市総理が発言を撤回したり、辞職するしかないと言っている人は、それで日中関係が今まで通りになると思ってる?」 [834922174]
- 戦争は無くならないし殺人は起きるし女はレイプされるし子供は餓死するし
- ケンモメンが思うケンモメンの生態を述べるスレ [866936191]
- 中共は台湾を自分の領土と思ってるから外国が「侵略するな」と警告しても意味ないんだよね
- ( ´・ω・` )朝ですぞー
- 日経時間外、5万円割れ 垂直落下始まる [402859164]
