正規表現

■ このスレッドは過去ログ倉庫に格納されています
NGNG
正規表現
207189
垢版 |
NGNG
>>206
知ってます。最近、書き込み少ないので、こっちにしました。
あっちでは、以前、いろいろ答えてあげてたんですが。
実は、他のやり方ならいろいろ考え付いたのですが、
s/(.+?)$//;
がなぜだめかが知りたくて質問したのでした。
>>195だけがその質問に答えてくれました。そいえば、それも
らくだ本で読んだ覚えあったなぁと。しかし、「最短一致がマッ
チの先頭部分を後ろにずらしてくれない」という理由ですと、
なぜ、「木立(こだち)のなかに(夏目弱石)」が、「木立」
にならないか、いまだに不明です。($b="abcabc")=~s/b.*?c$//;
で$bが'a'になるんだから、そうなってもいいはずですよね。

# でも、3つのスレで「()をエスケープしろ」っていう返事をもらったのにも
# びっくり。漏れは、navi2chなので、半角と全角は一目瞭然ですが、IEで見
# てみたら、たしかに女滋養に見えますた。
NGNG
女滋養(;´Д`)ハァハァ
NGNG
生粋のプログラマーなら日常的に半角全角の違いがすぐ分かる環境を望む。
そうじゃない人はあまり気にしないので女痔用に見えても兵器。
NGNG
女痔用 (´;。;△;。;)キモ!!!!!!!!!!!!!!!
NGNG
>>207
漏れは、navi2chでも迷ったっぞい。

212189=207
垢版 |
NGNG
>>211
はっきり言っておくんなさい。
たすかに、fontの問題かもすれんですよ。
だかーら、記号類は半角とか全角とか注釈つけとけと…
でもって、半角カタカナなんか問題ない時代になったんだなー、と。
213名無しさん@お腹いっぱい。
垢版 |
NGNG
半角か全角かをいちいち説明されないと違いの分からないような
素人さんにはそもそも質問なんかされてないんですよ
NGNG
189が意図的に使い分けてるという保証もなかったわけだが。
NGNG
>>214
はじめから euc と断ってたし、
対象テキストデータとか試しに提示したダメコード片を良く見れば、
意図的に使い分けてることは十分想像できたと思うが。
質問の仕方や内容からも半角全角混同してるようなレベルの質問とは思えなかった。

つうか、>>207 は何をいまだにハマってるんだ?
s/(.+?)$//; なら「木立」になるから問題なかろう?
216191=214
垢版 |
NGNG
>>215
一応そう想定して答えた。
NGNG
>>216
釈迦に説法か。スマソ
218189=207
垢版 |
NGNG
>>215
いえ、それが、全行出力されちゃうんです。
ちょっと、やってみていただけませんか。(インデントはわざとしません。)
---
while(<DATA>) {
chomp;
s/(.+?)$//;
print "$_\n";
}
__DATA__
木立(こだち)のなかに(夏目弱石)
山の上の芋粥(いもがゆ)(芥川蛇の介)
219215
垢版 |
NGNG
>>218
ん〜、なんないよ (5.005_03) 。
5.6 を試す環境が無いので申し訳ないでつが、Perl のバージョンの問題?
NGNG
>>218
5.6.0 で試したらそのまま出ますた。
これまでの経緯をちゃんと読んでないんだが、 s/([^)]+)$//; じゃダメ?
NGNG
>>220
それだと、 [^)] の部分は [^\xa1\xcb] なのでダメだと思われ。

>>204 の方法だとうまくいくようになるの?
NGNG
>>218
5.8.0だと、191の式でうまくいくんだがなぁ。

while(<DATA>) {
chomp;
s/([^()]+)$//;
print "$_\n";
}
__DATA__
木立(こだち)のなかに(夏目弱石)
山の上の芋粥(いもがゆ)(芥川蛇の介)


木立(こだち)のなかに
山の上の芋粥(いもがゆ)
223189=207
垢版 |
NGNG
追試どうもです。

>>219
古いマシンに5.005_03(5.005_03 built for i386-linux)もあったのでやっ
てみたら、奇妙なことに。
euc-jp-dos、shift_jis-unix → OK
euc-jp-unix、shift_jis-dos → 行全体が出てくる

v5.6.0 built for MSWin32-x86-multi-threadおよびv5.6.1 built for
cygwin-multiでは、どれでもだめです(行全体が出てくる)。文字コードutf8
にしても同じ。

>>222
こりゃもう5.8にするべきですかね。


NGNG
>>222
いやいや、たまたまうまくいっているように見えるだけでしょ。
>>202 さんのを参考にしる。
225195
垢版 |
NGNG
>>218
s/(.*?.)$//;
にしとけ
perlのバグだ
暇ならソースのMINMODあたり追いかけて
226189=207
垢版 |
NGNG
>>225
ありがとん。「。」毎に改行入れようとして、s/(.+?。)//;やってみたが、こ
れすらできんかった。結局、perl5.6以上はjperlないから日本語処理を中心に
してる場合は、使えないってことかなぁ。もち、~ohzakiさんとこに書いてあ
るような注意をしたり、半角文字で置き換えたりすれば使えるげど、面どい。

NGNG
>>226
5.8にしてEncodeつかう。
NGNG
>>226
> 結局、perl5.6以上はjperlないから日本語処理を中心にしてる場合は、
> 使えないってことかなぁ。

違うっしょ。
229189=207
垢版 |
NGNG
>>227
やってみまつ。
>>228
じゃ、jperlでできるs/.+?[。!?]/$1\n/g;あたり、どやってやる?
めんどいでしょ。


230189=207
垢版 |
NGNG
あら、s/.+?[。!?]/$&\n/g;だった。
NGNG
>>229
あぁ、そういう話か。それはその通りですね。

でも、それは 5.8 の Encode とやらを使うと解決するってことなのでは。
っつーか、漏れは 5.8 動かせる環境無いので確認しようがないんでつが、
誰一人として Encode が一体何者なのか説明しようとしないのは何故?
NGNG
>>231
use utf-8; use Encode;
my $ENC = 'euc-jp'; # or 'cp932'
binmode STDOUT, ":encoding($ENC)"; binmode STDIN, ":encoding($ENC)";

普通に標準入出力にアクセスすればOK。スクリプト内に日本語書くときはUTF-8で。
っていうかperldoc嫁
233名無しさん@お腹いっぱい。
垢版 |
NGNG
>>232
perl 5.6 では不可能ということか?
234189=207
垢版 |
NGNG
>>232
まだ、5.8を試してないんですが、>>232って、euc-jpの端末でeuc-jpのスクリ
プト書いて、perlにutf-8で処理させるってことですね。utfサポートは、5.6
からあるので、mule-ucs+bdfフォントで、emacs上でprocess-coding-system
(inputもoutputも)もutf-8にして、やってみたけどだめですた。

私が問題にしているのは、[](文字クラス)や+?、*?(最短一致)がマルチバ
イトに対応しているかどうかということなのですが・・・
NGNG
>>234 5.6時代から既に対応している
236189=207
垢版 |
NGNG
>>235
[](文字クラス)をテストしてみたけど、だめです。
utf-8で以下のスクリプト実行して見れ。jperlではOKですが・・・
---------
while(<DATA>) {
chomp;
while (s/.+?[。!?]//) {
print "$&\n";
}
print;
}
__DATA__
utf-8で処理させて下さいね。5.6でね。utfサポートは、
5.6からあるけど、このスクリプトだめぽ!>>235は、何が
5.6時代から既に対応しているって言ってんの?変だよ。
NGNG
>>236 use utf8; してる?
238189=207
垢版 |
NGNG
>>237
してなかったっす。
みなさん、ごめんなさ。
NGNG
perl 質問スレにするなよ。
NGNG
というわけで、これにて終了。
正規表現スレはここまでです。
あれ?
NGNG
単語に「マッチしない」のは
どうやれば? ^\<word\>
じゃないし。
NGNG
>>241
そりを正規表現(だけ)で実現するのは難しいのでは?

普通は、grep なら -v とか、スクリプト言語なら !~ /word/ とかするんじゃないかと。
243189=207
垢版 |
NGNG
>>241
perlの拡張正規表現を使えば出来るよ。
/^(?!.*word)/

244あぼーん
垢版 |
NGNG
あぼーん
NGNG
オ来リーの者じゃありませんが・・・

『詳説 正規表現 第2版』

Jeffrey E. F. Friedl 著
田和 勝 訳

2003年5月発行 -- 5月27日発売
464ページ
本体価格5,400円
ISBN4-87311-130-7

テキストやデータの処理に欠かせない強力なツールとして瞬く間
に普及した「正規表現」。現在ではPerl、Java、VB.NETやC#など
数多くの言語やツールに標準で装備されています。その幅広い可
用性、柔軟性と比類ない強力さにもかかわらず、実際に正規表現
を使いこなすことは難しいです。本書は正規表現の概念を詳細に
掘り下げる一方で、数多くの言語やツールの実例を示しながら、
正規表現についての理解を深める解説書です。第2版では、豊富
な実例を使い、詳しくていねいに解説するスタイルはそのままに、
Perl5.8の新機能に加え、Javaと.NETの正規表現にもそれぞれ独
立した章を設けるなど、全編にわたって大幅に加筆がなされまし
た。正規表現の本質を読み解く決定版です。とくに正規表現を使
いこなしていると自負している人にほど読んでほしい本です。
NGNG
あれ?今日買ってきたんだけど27日発売だったのね…
NGNG
>>246
つーことで発売記念age
NGNG
素数にマッチする正規表現募集。
NGNG
>>245
第1版と比較してのレビューきぼんぬ
NGNG
>>249
> 2003年5月発行 -- 5月27日発売
とあるからまだ無理なのでは
NGNG
>>248
正規表現だけでなく、なんかしら言語使ってやればよい。
NGNG
>>248
何故敢えて茨の道を行くのか?
253名無しさん@お腹いっぱい。
垢版 |
NGNG
>>245
これの第1版買ったのですが、いまいち難しかったです。
もっと易しい本ってないですか?
NGNG
>>253
Ruby の初・中級者なら、「Ruby Magic―Rubyで極める正規表現」はお勧め。
255245
垢版 |
NGNG
>>249
第1版を持ってないので比較は出来ないっす。
# 買おうと思ったら第2版が出ることを知ったので待ったのだ。

ここに特徴や目次が紹介されているので見てもらうとして
  ttp://www.oreilly.co.jp/BOOK/regex2/
  ttp://www.oreilly.co.jp/BOOK/regex2/contents.htm

まえがきから第1版との違いを判断すると
  - Unicodeのちょっとした解説
  - Perl5.003からPerl5.8対応に
  - Java1.4のjava.util.regexと、その他6つの正規表現パッケージの比較
  - .NET framework正規表現の特徴と問題点、M$のドキュメント(貧弱らしい)の補足
のように言語サポートが新しくなった/増えたって感じ。

最初はHTMLのサンプルを少々追加する程度の予定(3ヶ月の見込み)だったみたいだけど、
結局は2年の歳月をかけて全面的に加筆修正することになったそうだ。

難易度は第1版と変わらないのではないかな?
# 読み易くなってるのかもしれないけど。。
>>253の期待には応えられないと思う。
> とくに正規表現を使いこなしていると自負している人にほど読んでほしい本です。
という宣伝文句があるくらいだしね。

>>250
いや、24日に買えたのよ。
NGNG
今日発売か。
昼休みに買ってくるか。
NGNG
>>256さん、どうですた?
258249
垢版 |
NGNG
>>255 さんのと、今日立ち読みした感じで、第2版も購入することにしますた。
そういえば、翻訳者 (監訳者) が変わってたんですね。
NGNG
sed のタグ付き正規表現についてちょっと教えれ。たとえば、

{________I'm_dreaming_of_a_White_Christmas_}
{_Just_like_the_ones_I_used_to_know__}
{____Where_the_tree_tops_glisten_}

の前後の余計な _ のトリミングをしようと思って
sed 's/{\(_*\)\(.*\)\(_*\)}/{\2}/g'
とやっても意図した結果にならない。\2 をうまくマッチさせる方法は?

まぁこの例なら簡単に逃げられる - たとえば sed 's/{_*/{/;s/_*}/}/' -
わけだが、apache の log とかの簡単なパース(並び替えとかそんな程度)を
タグ付き正規表現でさくっと処理できれば楽でうれしい。よろしく。
NGNG
二個目の*がlongest matchしようとして
3個目の*にmatchさせたいであろう_まで持っていってしまうのが原因。

sed -e 's/{_*\(.*[^_]\)_*}/\1/'
NGNG
'<,'>s@^@//@
NGNG
最少マッチって perl とか ruby にしかない?
sed, grep 等の伝統的 tool にはないの?
NGNG
>>262
ないよ
264名無しさん@お腹いっぱい。
垢版 |
NGNG
>>262
grepに最小一致の機能があったとして
それの魅力はイッタイ何なのだろうか?
265あぼーん
垢版 |
NGNG
あぼーん
266262
垢版 |
NGNG
確かに sed では使っても grep では使わないかも。
いや、でも後方参照する時に必要なこともありえますね。
NGNG
>>257
昼休みにいきつけの書店にいったが売ってなかったんで。
帰りに別の書店で買った。
でもまだ読んでない…
通勤時間に読むっつーてもあれを毎日持ち歩くのは
重たいしなぁ。
268名無しさん@お腹いっぱい。
垢版 |
NGNG
文字列中、丸括弧(全角、半角問わず)で閉じられた部分を取り出す表現を考えているけど、うまくマッチしてくれない。
(丸括弧の中に丸括弧は含まない。Perlの正規表現を使用)

$string = '(22(1)';
if($string =~ /[((]([^()()]*)[))]/){
print $1;
}
else{
print "No match..";
}

この場合は"1"がマッチするのを期待しているのだけど、なぜか"22"の部分がマッチした。
OS(UNIX/WinXP)、Perlのバージョン(5.0/5.8)の異なる環境で同じことを確認したけど、結果は変わらず。
さらに、文字コード(Shift-JIS/EUC)の違いでも、結果は変わらなかった。

"1"をマッチさせる別の表現はないですかね?

# 全角"("の中にどうも半角")"の文字が隠れてるのかなぁ?(あくまでも推測)

NGNG
>>268
おめな、2byte文字と1byte文字が同じに扱われると思ってるらしいな。たぶん、
文系のドキュソだな。しかも、すぐ上で2byte文字コードの話出てたの見てね
えな。こいう、初心者質問は、webprogのPerl初心者スレ逝け。

NGNG
>>268
Perl5.8.0 + UTF8 でやったら 1 になったよ。
NGNG
[ ] のなかに '-' と ']' の両方を入れたい場合はどうすればいいのですか?
NGNG
>>271
何で?
NGNG
>>271
[]-]
NGNG
>>271
!.-[
NGNG
保守
NGNG
regexp ml盛り上がってますね。読んでて楽しい。
NGNG
このスレはいつからまともな人たちをヲチするようになったのですか?
NGNG
すいません、テキストファイルの中の .bananaなどの単語(行頭ではなく)の先頭が
ドットがあるものだけをgrepで抜き出したいのですが、jp.appleのような単語までひっかかって
しまい上手く絞り込めません。

アドバイスをお願いします!!
NGNG
>>278
\b?\.\w+?
で、どうじゃろ?
NGNG
>>279
すいません、なんか上手くいかないです。
ls -laでディレクトリ内の全ファイルを表示して、grepで隠しファイルだけを抽出したかったのですが。
NGNG
ls -la | grep ' \.'
ではあかんの?
NGNG
>>281
行のどこかに"."があれるとヒットしてしまうんです
NGNG
ls -la | grep '^\.'
こういうこと?
NGNG
>>282
とはいえ、"."って、ファイル名にしかでてこないよね?
>>281 をよーくみる。
285283
垢版 |
NGNG
間違えた。

ls -1a | grep '^\.'
これか
ls -la | grep ' \.'
これだな。下は余計なものを拾う可能性もあるが。
NGNG
ls -d .*
なんてね。
NGNG
あ、正規表現スレだった。すまん。
NGNG
ヤハリココハオモッテタトオリバカバッカリダッタナ(プ
NGNG
ls -la | awk '$9 ~ /^\./{print $0}' はどうよ。
290名無しさん@お腹いっぱい。
垢版 |
NGNG
>>280 ふつーそういうときは ls つかわず findつかえ。
find ./ -type f -name "\.*" -print
NGNG
(())
NGNG
>>290 ふつーそういうときは >> つかわず >> つかえ。
NGNG
backreferenceを前方参照と訳したのはなぜですか?
NGNG
後方参照としている訳もあるよ。
まぁ、現在の位置よりも前を参照するという意味では
日本語的には前方参照であってると思う。
ようするに「今いる位置より戻って参照」って意味になるんだから。

んでも、意味を考えて訳すなら「戻って参照」とか、どう?
NGNG
>>294
ちょっと前にCスレで話題になったんだけど、Cで「前方参照」といった場合の前方って、
ファイルの終端方向を指す。「ひどい訳語だ」ってことで話は終わったんだけど、
正規表現でも混乱が見られるしなんかいい言葉ないもんかねえ。

日本語では時間を表す文脈で「前」にまるで正反対の意味があるからよくないのだと思う。
「以前」だと過去だし「前進」だと未来だし。

あとこれはすれ違いか? そうだよね。すまん。
NGNG
>>279 >>281 >>283 >>284 >>285 >>286 >>287 >>289 >>290

みなさま、ありがとうございます。

シングルクォーテーションに空白が使えたり、
アッパーチルダとハット(キャレット?)の区別を知ったりと、
正規表現の難しさを知りました。

今、「テキストデータ料理学」っていう古い本を読んでいるのですが、
オライリーの正規表現本は買ったほうがいいですか?

(もう2〜3週間前にオライリーのサイトでカタログを注文したのに、
まだ来ない…)
NGNG
おれは初版も新しいのも持ってるけど、自分の知識に自信がないうちは
お薦めしない。もちろんあったらあったで便利だけど。

やっぱり、「俺、正規表現バリバリだぜーYAH」状態で買って読んで
目からうろこ落ちまくり感を堪能するのがいいんではないかと。
298名無しさん@お腹いっぱい。
垢版 |
NGNG
>294
するってえと、正規表現的には日本語で前方参照あるいは後方参照と書いてあったら
どっちもbackreferenceと思えってわけだぁね。
>295
計算機分野だと「前方」という言葉はforwardの訳語というのがあたりめえだと思ってたから、
正規表現関係だと、「前方参照」がbackreferenceのことだっていうのがわかんなくて
難儀したってわけよ。
NGNG
>>297
>>296は学ぶ意欲を持っているから、今のうちに買っておいて損はないと思う。
むしろ薦める。
オイラリーはハズレが少ないからな。
NGNG
>>298
俺はperlから入ったから後方参照が当たり前かと思ってた。
他言語使うようになってから吃驚したってわけよ。
301298
垢版 |
NGNG
perl5の日本語マニュアルで、「前方参照」を "lookahead assertion"の訳語として
使っているやつがあった。

(?=regexp) 長さの無い、前方参照位置指定子。
(?!regexp) 長さの無い、前方参照否定位置指定子。

英語だと

(?=pattern) A zero-width positive lookahead assertion.
(?!pattern) A zero-width negative lookahead assertion.

わけわかんねぇな(w
302298
垢版 |
NGNG
ありゃりゃ?

(?<=pattern) A zero-width positive lookbehind assertion.
(?<!pattern) A zero-width negative lookbehind assertion.

"lookbehind assertion" の訳語って何だ?
NGNG
「俺の背後に立つな」
デューク東郷の格言だろ。
NGNG
lookahead 見越し
lookbehind 見返り
NGNG
前後不覚だな。
NGNG
>>296
>オライリーの正規表現本は買ったほうがいいですか?

持ってなくても覚えられるし、
エディタのサーチとか grep とかで実験しながら
感覚的に慣れるのも悪くないんじゃない?

ただし emacs で覚え始めるのはすすめない。
backslash で混乱する。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況