正規表現

**正規表現** · NG

正規表現

**長いので分割。** · NG

… だそうです。

果たして↑の長い正規表現が >>178 さんの答えと同じものを表しているのかどうか
分かりませんけども。

>>179
有用な本と URL の紹介、ありがとうございました。

それにしても最初にパッと見て「この問題は有限個の状態で表せる」って思いつくかなぁ？
不思議だ。

**名無しさん＠お腹いっぱい。** · NG

>>181
> それにしても最初にパッと見て「この問題は有限個の状態で表せる」って思いつくかなぁ？
それはパッと見というよりは、冷静に分析してわかるものでしょ。
慣れれば一瞬で分析できるようになるかもしれんけど。

**名無しさん＠お腹いっぱい。** · NG

>>178,180
それは「aとbだけからなる文字列」について?

**名無しさん＠お腹いっぱい。** · NG

>>183 んなもん s/[ab]/[^ab]*&/ すりゃ良いだけじゃん

**名無しさん＠お腹いっぱい。** · NG

>>184
それって、正気表現でつか？

**名無しさん＠お腹いっぱい。** · NG

>>183 のために [^ab]* をはさみまくってたら、

「長すぎる行があります!」

っておこられたよ・・・

**名無しさん＠お腹いっぱい。** · NG

**名無しさん＠お腹いっぱい。** · NG

>>187
それで baaabaaab がまっちすんの?

**名無しさん＠お腹いっぱい。** · NG

以下のようなデータから、著者の部分（最後の括弧から括弧まで）を
取り除きたいと思います。

木立（こだち）のなかに（夏目弱石）
山の上の芋粥（いもがゆ）（芥川蛇の介）

s/（.+?）$//;

ですとうまくいきません。perl5.6で、文字コードはeucです。
webprog板のPerl初心者スレで聞いたのですが、どうも解決しないのです。
どうしたらよいか教えていただければ幸いです。

**名無しさん＠お腹いっぱい。** · NG

>>189
セイキヒョーゲンの問題ではなくパールの問題っぽいですね。
そっちのスレ行った方がよいかも。
できるなら「うまくいきません」を再現させる
できるだけシンプルなコードを添付してほしいな

**名無しさん＠お腹いっぱい。** · NG

>>189
プログラム技術板にPerlの質問スレがある。webprogに特化したこと以外はそっ
ちの方がいい。

s/（[^（）]+?）$//;

**名無しさん＠お腹いっぱい。** · NG

Perl の正規表現では ( ) は、後で \1, \2, ... にマッチさせるための
メタ表記だから、括弧そのものにマッチさせたければ  と書かなければ
ならない。(egrep や emacs とは逆)

**名無しさん＠お腹いっぱい。** · NG

>>190
では、Perlスレ行ってきます。って、unix板にはなかったんで、
プログラム板ですね。ありがとございますた。

**名無しさん＠お腹いっぱい。** · NG

あれれ板探してたら、２つもレスが。
>>191
それ、jperlなら動くんでしょうが、perl5.6ではだめでした。
>>192
いや、全角括弧なんです。

**名無しさん＠お腹いっぱい。** · NG

>>192
それは \x28 や \x29 の場合だけでしょう。
今でてきてるのは \xa1\xca と \x1a\xcb。
ちなみにperlの最短一致は
マッチの先頭位置を後ろにずらす効果がないので注意。

($b="abcabc")=~s/b.*?c$//;
print "$b\n"; # output "a"

189の要望はここで"abca"を出してほしいということで叶わない

**189** · NG

>>195
＞perlの最短一致は
＞マッチの先頭位置を後ろにずらす効果がない

なるほど。では、>>189のコードは、

木立
山の上の芋粥

を出力してもいいはずですが、何も出力しない（何にもマッチしない）んです。
どうしてですか。よろしければ教えてくらさい。

**名無しさん＠お腹いっぱい。** · NG

s/(.+)（.+）$/\1/;

**189** · NG

>>197
これだと、

木立
山の上の芋粥

になってしまいます。求めているのは、

木立（こだち）のなかに
山の上の芋粥（いもがゆ）

です。

**197** · NG

マジ？手元の Perl 5.005_03 だと求めているのになるのだが・・・

**189** · NG

>>199
すみませ～ん。
求めているものになりました。いろんなスクリプト混ざり合ってたので
混乱しました。
(.+)が最長一致するから（.+）でいいってことに気づきませんでした。

**名無しさん＠お腹いっぱい。** · NG

perlの正規表現と日本語文字列との相性の悪さを
実感する問題だったなあ

**192** · NG

本当に全角だったのか。失礼。だとすると、/（/ が EUC の 2 バイト目と
文字に一致するとは限らないので注意。全角文字の 2 バイト目と次の文字の
1 バイト目がそれぞれ \xa1 と [\xca-\xcb] にマッチする場合があるので、
文字列「検便」\b8\a1\xca\xd8 にも「（」がマッチしてしまう。

日本語 EUC の 1 文字にマッチさせたいなら、厳密には
(\x8f?[\xa1-\xfe]{2}|\x8e[\xa1-\xfe]|[\x00-\xff])
にマッチさせなくてはならない。

Perl6 の国際化された正規表現が普及して、こんな知識は不要になって
くれれば一番いいのだが…。

**192** · NG

この例の場合、最後の括弧の中は全角ひらがなしか入らないから関係ないけどね。

**名無しさん＠お腹いっぱい。** · NG

5.8ならuse utf-8; use Encode;して適切なエンコード指定でファイル読み込ませれば解決するぞ。

**名無しさん＠お腹いっぱい。** · NG

http://61.210.205.4/
これなんだろ＠＠＠

**名無しさん＠お腹いっぱい。** · NG

WebProg板の「正規表現道場@2ch Part2」はご存知？
http://pc2.2ch.net/test/read.cgi/php/1038146241/

**189** · NG

>>206
知ってます。最近、書き込み少ないので、こっちにしました。
あっちでは、以前、いろいろ答えてあげてたんですが。
実は、他のやり方ならいろいろ考え付いたのですが、
s/（.+?）$//;
がなぜだめかが知りたくて質問したのでした。
>>195だけがその質問に答えてくれました。そいえば、それも
らくだ本で読んだ覚えあったなぁと。しかし、「最短一致がマッ
チの先頭部分を後ろにずらしてくれない」という理由ですと、
なぜ、「木立（こだち）のなかに（夏目弱石）」が、「木立」
にならないか、いまだに不明です。($b="abcabc")=~s/b.*?c$//;
で$bが'a'になるんだから、そうなってもいいはずですよね。

# でも、３つのスレで「()をエスケープしろ」っていう返事をもらったのにも
# びっくり。漏れは、navi2chなので、半角と全角は一目瞭然ですが、IEで見
# てみたら、たしかに女滋養に見えますた。

**名無しさん＠お腹いっぱい。** · NG

女滋養(;´Д｀)ﾊｧﾊｧ

**名無しさん＠お腹いっぱい。** · NG

生粋のプログラマーなら日常的に半角全角の違いがすぐ分かる環境を望む。
そうじゃない人はあまり気にしないので女痔用に見えても兵器。

**名無しさん＠Ｍｅａｄｏｗ** · NG

女痔用　(´;。;△;。;)キモ!!!!!!!!!!!!!!!

**名無しさん＠Ｍｅａｄｏｗ** · NG

>>207
漏れは、navi2chでも迷ったっぞい。

**189=207** · NG

>>211
はっきり言っておくんなさい。
たすかに、fontの問題かもすれんですよ。
だかーら、記号類は半角とか全角とか注釈つけとけと…
でもって、半角カタカナなんか問題ない時代になったんだなー、と。

**名無しさん＠お腹いっぱい。** · NG

半角か全角かをいちいち説明されないと違いの分からないような
素人さんにはそもそも質問なんかされてないんですよ

**名無しさん＠お腹いっぱい。** · NG

189が意図的に使い分けてるという保証もなかったわけだが。

**名無しさん＠お腹いっぱい。** · NG

>>214
はじめから euc と断ってたし、
対象テキストデータとか試しに提示したダメコード片を良く見れば、
意図的に使い分けてることは十分想像できたと思うが。
質問の仕方や内容からも半角全角混同してるようなレベルの質問とは思えなかった。

つうか、>>207 は何をいまだにハマってるんだ？
s/（.+?）$//; なら「木立」になるから問題なかろう？

**191=214** · NG

>>215
一応そう想定して答えた。

**名無しさん＠お腹いっぱい。** · NG

>>216
釈迦に説法か。ｽﾏｿ

**189=207** · NG

>>215
いえ、それが、全行出力されちゃうんです。
ちょっと、やってみていただけませんか。(インデントはわざとしません。)
---
while(<DATA>) {
chomp;
s/（.+?）$//;
print "$_\n";
}
__DATA__
木立（こだち）のなかに（夏目弱石）
山の上の芋粥（いもがゆ）（芥川蛇の介）

**215** · NG

>>218
ん～、なんないよ (5.005_03) 。
5.6 を試す環境が無いので申し訳ないでつが、Perl のバージョンの問題？

**名無しさん＠お腹いっぱい。** · NG

>>218
5.6.0 で試したらそのまま出ますた。
これまでの経緯をちゃんと読んでないんだが、 s/（[^）]+）$//; じゃダメ？

**名無しさん＠お腹いっぱい。** · NG

>>220
それだと、 [^）] の部分は [^\xa1\xcb] なのでダメだと思われ。

>>204 の方法だとうまくいくようになるの？

**名無しさん＠お腹いっぱい。** · NG

>>218
5.8.0だと、191の式でうまくいくんだがなぁ。

while(<DATA>) {
chomp;
s/（[^（）]+）$//;
print "$_\n";
}
__DATA__
木立（こだち）のなかに（夏目弱石）
山の上の芋粥（いもがゆ）（芥川蛇の介）

木立（こだち）のなかに
山の上の芋粥（いもがゆ）

**189=207** · NG

追試どうもです。

>>219
古いマシンに5.005_03（5.005_03 built for i386-linux）もあったのでやっ
てみたら、奇妙なことに。
euc-jp-dos、shift_jis-unix → OK
euc-jp-unix、shift_jis-dos → 行全体が出てくる

v5.6.0 built for MSWin32-x86-multi-threadおよびv5.6.1 built for
cygwin-multiでは、どれでもだめです（行全体が出てくる）。文字コードutf8
にしても同じ。

>>222
こりゃもう5.8にするべきですかね。

**名無しさん＠お腹いっぱい。** · NG

>>222
いやいや、たまたまうまくいっているように見えるだけでしょ。
>>202 さんのを参考にしる。

**195** · NG

>>218
s/（.*?.）$//;
にしとけ
perlのバグだ
暇ならソースのMINMODあたり追いかけて

**189=207** · NG

>>225
ありがとん。「。」毎に改行入れようとして、s/(.+?。)//;やってみたが、こ
れすらできんかった。結局、perl5.6以上はjperlないから日本語処理を中心に
してる場合は、使えないってことかなぁ。もち、~ohzakiさんとこに書いてあ
るような注意をしたり、半角文字で置き換えたりすれば使えるげど、面どい。

**名無しさん＠お腹いっぱい。** · NG

>>226
5.8にしてEncodeつかう。

**名無しさん＠お腹いっぱい。** · NG

>>226
> 結局、perl5.6以上はjperlないから日本語処理を中心にしてる場合は、
> 使えないってことかなぁ。

違うっしょ。

**189=207** · NG

>>227
やってみまつ。
>>228
じゃ、jperlでできるs/.+?[。！？]/$1\n/g;あたり、どやってやる？
めんどいでしょ。

**189=207** · NG

あら、s/.+?[。！？]/$&\n/g;だった。

**名無しさん＠お腹いっぱい。** · NG

>>229
あぁ、そういう話か。それはその通りですね。

でも、それは 5.8 の Encode とやらを使うと解決するってことなのでは。
っつーか、漏れは 5.8 動かせる環境無いので確認しようがないんでつが、
誰一人として Encode が一体何者なのか説明しようとしないのは何故？

**名無しさん＠お腹いっぱい。** · NG

>>231
use utf-8; use Encode;
my $ENC = 'euc-jp'; # or 'cp932'
binmode STDOUT, ":encoding($ENC)"; binmode STDIN, ":encoding($ENC)";

普通に標準入出力にアクセスすればOK。スクリプト内に日本語書くときはUTF-8で。
っていうかperldoc嫁

**名無しさん＠お腹いっぱい。** · NG

>>232
perl 5.6 では不可能ということか?

**189=207** · NG

>>232
まだ、5.8を試してないんですが、>>232って、euc-jpの端末でeuc-jpのスクリ
プト書いて、perlにutf-8で処理させるってことですね。utfサポートは、5.6
からあるので、mule-ucs＋bdfフォントで、emacs上でprocess-coding-system
（inputもoutputも）もutf-8にして、やってみたけどだめですた。

私が問題にしているのは、[]（文字クラス）や+?、*?（最短一致）がマルチバ
イトに対応しているかどうかということなのですが・・・

**名無しさん＠お腹いっぱい。** · NG

>>234 5.6時代から既に対応している

**189=207** · NG

>>235
[]（文字クラス）をテストしてみたけど、だめです。
utf-8で以下のスクリプト実行して見れ。jperlではOKですが・・・
---------
while(<DATA>) {
chomp;
while (s/.+?[。!？]//) {
print "$&\n";
}
print;
}
__DATA__
utf-8で処理させて下さいね。5.6でね。utfサポートは、
5.6からあるけど、このスクリプトだめぽ！>>235は、何が
5.6時代から既に対応しているって言ってんの？変だよ。

**名無しさん＠お腹いっぱい。** · NG

>>236 use utf8; してる?

**189=207** · NG

>>237
してなかったっす。
みなさん、ごめんなさ。

**名無しさん＠お腹いっぱい。** · NG

perl 質問スレにするなよ。

**名無しさん＠お腹いっぱい。** · NG

というわけで、これにて終了。
正規表現スレはここまでです。
あれ？

**名無しさん＠お腹いっぱい。** · NG

単語に「マッチしない」のは
どうやれば？ ^\<word\>
じゃないし。

**名無しさん＠お腹いっぱい。** · NG

>>241
そりを正規表現（だけ）で実現するのは難しいのでは？

普通は、grep なら -v とか、スクリプト言語なら !~ /word/ とかするんじゃないかと。

**189=207** · NG

>>241
perlの拡張正規表現を使えば出来るよ。
/^(?!.*word)/

**あぼーん** · NG

あぼーん

**名無しさん＠お腹いっぱい。** · NG

オ来リーの者じゃありませんが・・・

『詳説正規表現　第2版』

Jeffrey E. F. Friedl　著
田和勝　訳

2003年5月発行 -- 5月27日発売
464ページ
本体価格5,400円
ISBN4-87311-130-7

テキストやデータの処理に欠かせない強力なツールとして瞬く間
に普及した「正規表現」。現在ではPerl、Java、VB.NETやC#など
数多くの言語やツールに標準で装備されています。その幅広い可
用性、柔軟性と比類ない強力さにもかかわらず、実際に正規表現
を使いこなすことは難しいです。本書は正規表現の概念を詳細に
掘り下げる一方で、数多くの言語やツールの実例を示しながら、
正規表現についての理解を深める解説書です。第2版では、豊富
な実例を使い、詳しくていねいに解説するスタイルはそのままに、
Perl5.8の新機能に加え、Javaと.NETの正規表現にもそれぞれ独
立した章を設けるなど、全編にわたって大幅に加筆がなされまし
た。正規表現の本質を読み解く決定版です。とくに正規表現を使
いこなしていると自負している人にほど読んでほしい本です。

**名無しさん＠お腹いっぱい。** · NG

あれ？今日買ってきたんだけど27日発売だったのね…

**名無しさん＠お腹いっぱい。** · NG

>>246
つーことで発売記念age

**名無しさん＠お腹いっぱい。** · NG

素数にマッチする正規表現募集。

**名無しさん＠お腹いっぱい。** · NG

>>245
第1版と比較してのレビューきぼんぬ

**名無しさん＠お腹いっぱい。** · NG

>>249
> 2003年5月発行 -- 5月27日発売
とあるからまだ無理なのでは

**名無しさん＠お腹いっぱい。** · NG

>>248
正規表現だけでなく、なんかしら言語使ってやればよい。

**名無しさん＠お腹いっぱい。** · NG

>>248
何故敢えて茨の道を行くのか？

**名無しさん＠お腹いっぱい。** · NG

>>245
これの第１版買ったのですが、いまいち難しかったです。
もっと易しい本ってないですか？

**名無しさん＠お腹いっぱい。** · NG

>>253
Ruby の初・中級者なら、「Ruby Magic―Rubyで極める正規表現」はお勧め。

**245** · NG

>>249
第1版を持ってないので比較は出来ないっす。
# 買おうと思ったら第2版が出ることを知ったので待ったのだ。

ここに特徴や目次が紹介されているので見てもらうとして
ttp://www.oreilly.co.jp/BOOK/regex2/
ttp://www.oreilly.co.jp/BOOK/regex2/contents.htm

まえがきから第1版との違いを判断すると
- Unicodeのちょっとした解説
- Perl5.003からPerl5.8対応に
- Java1.4のjava.util.regexと、その他6つの正規表現パッケージの比較
- .NET framework正規表現の特徴と問題点、M$のドキュメント(貧弱らしい)の補足
のように言語サポートが新しくなった/増えたって感じ。

最初はHTMLのサンプルを少々追加する程度の予定(3ヶ月の見込み)だったみたいだけど、
結局は2年の歳月をかけて全面的に加筆修正することになったそうだ。

難易度は第1版と変わらないのではないかな？
# 読み易くなってるのかもしれないけど。。
>>253の期待には応えられないと思う。
> とくに正規表現を使いこなしていると自負している人にほど読んでほしい本です。
という宣伝文句があるくらいだしね。

>>250
いや、24日に買えたのよ。

**名無しさん＠お腹いっぱい。** · NG

今日発売か。
昼休みに買ってくるか。

**名無しさん＠お腹いっぱい。** · NG

>>256さん、どうですた？

**249** · NG

>>255 さんのと、今日立ち読みした感じで、第2版も購入することにしますた。
そういえば、翻訳者 (監訳者) が変わってたんですね。

**名無しさん＠お腹いっぱい。** · NG

sed のタグ付き正規表現についてちょっと教えれ。たとえば、

{________I'm_dreaming_of_a_White_Christmas_}
{_Just_like_the_ones_I_used_to_know__}
{____Where_the_tree_tops_glisten_}

の前後の余計な _ のトリミングをしようと思って
sed 's/{$_*$$.*$$_*$}/{\2}/g'
とやっても意図した結果にならない。\2 をうまくマッチさせる方法は?

まぁこの例なら簡単に逃げられる - たとえば sed 's/{_*/{/;s/_*}/}/' -
わけだが、apache の log とかの簡単なパース(並び替えとかそんな程度)を
タグ付き正規表現でさくっと処理できれば楽でうれしい。よろしく。

**名無しさん＠お腹いっぱい。** · NG

二個目の*がlongest matchしようとして
3個目の*にmatchさせたいであろう_まで持っていってしまうのが原因。

sed -e 's/{_*$.*[^_]$_*}/\1/'

**名無しさん＠お腹いっぱい。** · NG

'<,'>s@^@//@

**名無しさん＠お腹いっぱい。** · NG

最少マッチって perl とか ruby にしかない?
sed, grep 等の伝統的 tool にはないの?

**名無しさん＠お腹いっぱい。** · NG

>>262
ないよ

**名無しさん＠お腹いっぱい。** · NG

>>262
grepに最小一致の機能があったとして
それの魅力はイッタイ何なのだろうか？

**あぼーん** · NG

あぼーん

**262** · NG

確かに sed では使っても grep では使わないかも。
いや、でも後方参照する時に必要なこともありえますね。

**名無しさん＠お腹いっぱい。** · NG

>>257
昼休みにいきつけの書店にいったが売ってなかったんで。
帰りに別の書店で買った。
でもまだ読んでない…
通勤時間に読むっつーてもあれを毎日持ち歩くのは
重たいしなぁ。

**名無しさん＠お腹いっぱい。** · NG

文字列中、丸括弧(全角、半角問わず)で閉じられた部分を取り出す表現を考えているけど、うまくマッチしてくれない。
(丸括弧の中に丸括弧は含まない。Perlの正規表現を使用)

$string = '（22（１）';
if($string =~ /[(（]([^()（）]*)[)）]/){
print $1;
}
else{
print "No match..";
}

この場合は"１"がマッチするのを期待しているのだけど、なぜか"22"の部分がマッチした。
ＯＳ(UNIX/WinXP)、Perlのバージョン(5.0/5.8)の異なる環境で同じことを確認したけど、結果は変わらず。
さらに、文字コード(Shift-JIS/EUC)の違いでも、結果は変わらなかった。

"１"をマッチさせる別の表現はないですかね？

＃全角"（"の中にどうも半角")"の文字が隠れてるのかなぁ？(あくまでも推測)

**名無しさん＠お腹いっぱい。** · NG

>>268
おめな、2byte文字と1byte文字が同じに扱われると思ってるらしいな。たぶん、
文系のドキュソだな。しかも、すぐ上で2byte文字コードの話出てたの見てね
えな。こいう、初心者質問は、webprogのPerl初心者スレ逝け。

**名無しさん＠お腹いっぱい。** · NG

>>268
Perl5.8.0 + UTF8 でやったら１になったよ。

**名無しさん＠お腹いっぱい。** · NG

[ ] のなかに '-' と ']' の両方を入れたい場合はどうすればいいのですか？

**名無しさん＠お腹いっぱい。** · NG

>>271
何で?

**名無しさん＠お腹いっぱい。** · NG

>>271
[]-]

**名無しさん＠お腹いっぱい。** · NG

>>271
!.-[

**名無しさん＠お腹いっぱい。** · NG

保守

**名無しさん＠お腹いっぱい。** · NG

regexp ml盛り上がってますね。読んでて楽しい。

**名無しさん＠お腹いっぱい。** · NG

このスレはいつからまともな人たちをヲチするようになったのですか？

**名無しさん＠お腹いっぱい。** · NG

すいません、テキストファイルの中の .bananaなどの単語（行頭ではなく）の先頭が
ドットがあるものだけをgrepで抜き出したいのですが、jp.appleのような単語までひっかかって
しまい上手く絞り込めません。

アドバイスをお願いします！！

**名無しさん＠お腹いっぱい。** · NG

>>278
\b?\.\w+?
で、どうじゃろ？

**名無しさん＠お腹いっぱい。** · NG

>>279
すいません、なんか上手くいかないです。
ls -laでディレクトリ内の全ファイルを表示して、grepで隠しファイルだけを抽出したかったのですが。