>>173
今更だけど、文字が分断される可能性についても公平を期すために触れておくよ。
単純にバイト数で分割する場合等を除けば、ほとんどはパターンマッチにおける誤マッチが原因だろう。
strchr や strstr 、あるいはもっと高度なライブラリを使った結果かもしれない。
探すパターンに [\100-\176] にマッチする文字が含まれているなら EUC では誤マッチは起こらない。
シフトJISではダメ文字のせいで誤マッチが起こりうる。
実際に問題になるのはほとんどがこのケース。
grep "\]"
などとやろうものなら悲惨なことになる。
探すパターンがマルチバイト文字だけなら EUC でもシフトJISと同程度には誤マッチが起こりうる。
しかし実際にはほとんど起こらない。
もちろん起こるときは起こるし対策も出来るが対策は速度の低下と引換だ。
30 年前の CPU クロックは 10MHz 程度だったので速度も重要だった。
ほとんど起こらない上に致命的でもないなら速度を犠牲にしてまで常に対策を講じる必要は無い。
ちなみに対策だが、EUC で grep する場合なら
egrep "^([\000-\177]|\216[\240-\337]|\217[\241-\376][\241-\376]|[\241-\376][\241-\376])*$pattern"
的なことをするプログラムを grep_euc とかそういう名前で作っておけばいい。
シフトJISの場合はこれに加えてシフトJISな部分を 8 進エスケープシーケンスに置き換える必要がある。
同じやり方で iso-2022-jp も処理できる。
シフトJISしか通さない grep など技術的には邪魔なだけだよ。
文字コード総合スレ Part10 [転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
183デフォルトの名無しさん
2016/02/07(日) 13:34:15.00ID:COqNuXpv■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 中国軍機レーダー照射、トランプ氏沈黙突く 試される日本外交 ★2 [蚤の市★]
- トランプ大統領 エヌビディア製AI半導体の中国輸出許可 安全保障重視の方針転換 [蚤の市★]
- 【広島】「万引きした人を追跡」コンビニ店員の男性(46)を果物ナイフで刺したか 中国籍の少年(17)を殺人未遂容疑で現行犯逮捕 [ぐれ★]
- 【結婚の壁】結婚どころか今まで恋愛経験は一切ない人も…「年収500万の壁」を突破できない中間層の苦しい現実 [ぐれ★]
- 【地震】青森県で震度6強 長周期地震動も 津波注意報すべて解除 ★7 [ぐれ★] [ぐれ★]
- JAが"政府の備蓄米買い上げ"見越して価格下げず!?「古いコメは食用向きでないなどと理由をつけ...」専門家解説 [煮卵★]
- 【高市悲報】レーダー照射で日本が喧嘩売ってる中、アメリカ軍「我々はパールハーバーを忘れない」と日本に向けてポストへ [709039863]
- 今時手編みのマフラーとセーターと帽子と手袋のプレゼントってwww
- 先進国首脳が続々と中国訪問。なぜか近くの高市がいる日本には誰も立ち寄らず… すまんこれいじめ? [271912485]
- 【動画】ママチャリまんさん「わたし女ですけど!」シャコシャコシャコシャコ 🚴‍♀❗🚛 [329329848]
- こんぺこ!こんぺこ!こんぺこ!🐰🏡
- 【画像】岡田紗佳さんの役満ボディ
