正規表現

**正規表現** · NG

正規表現

**名無しさん＠お腹いっぱい。** · 2008/09/18(木) 18:37:47

>>722
プログラミングperlの正規表現の解説部分を
読んでもなんとかなるかも(´・ω・`)

**名無しさん＠お腹いっぱい。** · 2008/09/28(日) 20:34:23

>>722
詳説正規表現は文字通り「詳説」。
正規表現を使うことが目的の人にはヘビーすぎる。

**わいきむら** · 2008/10/20(月) 09:09:22

空の文字クラス'[]'はどういう意味になりますでしょうか？
あと'-'が文字クラスの最後にある場合もダッシュとマッチせよ
という意味になるのでしょうか？

**わいきむら** · 2008/10/20(月) 09:12:46

すみませんダッシュじゃなくてハイフンですか

**船木康博** · 2008/10/20(月) 09:14:08

さーてと、
パソコンに於ける衛生面についてカキコして、
とりあえずここらでアクティブソナーにQSYするかなー♪

・VDT症候群に注意。
・腱鞘炎に注意。
・大音量による聴覚障害に注意。

マウスは玉の有り無しで、オスとメスがあるでよ。
光にも種類があるし、トラックボールもあるし。たまには玉の辺りの掃除でもしてやってくれ。
ボタンも林檎の1個や米窓の2個じゃなくて、SUNあたりなら3個あったんじゃねぇかなぁ。
最近じゃあ、ホイールも回転方向以外に左右に振れるのもあるでよ。

最後は、鍵盤だ。雑菌が繁殖して、便所より汚いモノもあるでなぁ。
病気移しちゃあいけねぇで、触らせる相手は自分で判断して制限しろよ。
おいもかはまぐり触った手かもしれねぇし、汁がとんでるかもしれねぇからな。

**名無しさん＠お腹いっぱい。** · 2008/10/21(火) 02:39:30

>>726

中身が空の [] はわからんが、末尾のハイフンはその通り。
範囲指定じゃなくてハイフンそのものとして解釈される。

**名無しさん＠お腹いっぱい。** · 2008/10/22(水) 17:48:58

質問させてください。

Fortranのコードから、「subroutine abc()」「 subroutine abs()」のような
サブルーチンの開始行だけをgrepで抽出したくて
grep ^\s*subroutine ./*.f90
と書いたのですが、「 subroutine」で始まる行がマッチしていないようです。
どのようにしたらこれをマッチさせられるか教えてください。

ちなみに、コード内には
「! subroutine abc()」「!subroutine abc()」なども含まれています。

**730** · 2008/10/22(水) 19:23:26

>>730どなたか、ほんとお願いします！！

**ｳｻﾁｬｿ** ◆/0IEZmXnQ6 · 2008/10/22(水) 21:00:29

>>730
' とか " で括ってないとか？

話逸れるけど、grep は egrep が一番速いらしいよ。
egrep は「（・∀・）ｲｲ!! 」grep！
なんっつってｗ

はぁ～…

**730** · 2008/10/22(水) 21:25:28

>>732そのとおりでした。

grep "^\s*subroutine" ./*.f90
としたらうまくいきました、ありがとうございます。

.....なんでこんなことに.....orz orz orz

**名無しさん＠お腹いっぱい。** · 2008/10/23(木) 03:40:28

「（・∀・）ｲｲ!! 」grep！

**名無しさん＠お腹いっぱい。** · 2008/11/08(土) 14:16:27

ムズいなこれ

http://codezine.jp/article/detail/3039
http://codezine.jp/article/detail/2676

**名無しさん＠お腹いっぱい。** · 2008/11/15(土) 20:26:45

機能的にegrepのが遅そうな気がするけど

**名無しさん＠お腹いっぱい。** · 2008/11/19(水) 14:37:34

>>735
正規文法(正規言語)には定義があるけど
正規表現に「数学的に厳密な定義」は存在しないと思うんだけどねー
まあ>>51でがいしゅつだったからどうでもいいや

**名無しさん＠お腹いっぱい。** · 2009/04/26(日) 16:15:06

教えていただけますでしょうか。

1（文字列A）文字列B

というものを
（文字列A）文字列B

にするのはどう書けばよいのでしょうか。
文字列A、文字列Bとも長さは不規則です。

**名無しさん＠お腹いっぱい。** · 2009/04/30(木) 17:32:03

sed 's/^.//'

**名無しさん＠お腹いっぱい。** · 2009/04/30(木) 17:38:33

すみませんが詳しい方のみ回答をお願いします

**名無しさん＠お腹いっぱい。** · 2009/04/30(木) 18:41:27

日本語や英語など特定の文字列をgoogle検索のリンクにしたいです。
例えば、「正規表現」という文字列をgoogleのリンクにしたい場合だと、

正規表現（せいきひょうげん、regular expression）とは、
文字列の集合を一つの文字列で表現する方法の一つである。
↓　↓　↓　↓　↓　↓　↓　↓　↓　↓　↓
<a href="http://www.google.co.jp/search?q=%90%B3%8BK%95\%8C%BB">正規表現</a>
（せいきひょうげん、regular expression）とは、
文字列の集合を一つの文字列で表現する方法の一つである。

としたいです。ただし
・繰り返し１語１語適用することで複数の単語をリンク化する
　または一発で複数の単語をリンク化する方法でもいい
・すでにリンクされているものを二重にリンクしない
・タグ内の文字列はリンク化しない
・英語は文章内の単語が完全一致すればリンク化し、
　日本語は部分一致したらリンク化する
・英語の連語には対応しなくていい。
・リンク化したい文字列が「正規」「正規言語」などのように
　「正規」⊂「正規言語」という関係のものは想定しない
使う言語はAWK、Sed、Perlのいづれかとする。

お願いします。

**名無しさん＠お腹いっぱい。** · 2009/04/30(木) 19:14:08

その質問は正規表現スレで扱う範囲を越えてます。

**名無しさん＠お腹いっぱい。** · 2009/05/18(月) 22:21:54

8桁の10進数を文字列とみなしたとき、
下2桁が"00"でない文字列をヒットしたい。如何すればよいか？

**名無しさん＠お腹いっぱい。** · 2009/05/18(月) 22:33:28

[0-9]{6}[1-9]{2}

**名無しさん＠お腹いっぱい。** · 2009/05/19(火) 08:56:24

[1-9][0-9]{5}([0-9][1-9]|[1-9][0-9])

**名無しさん＠お腹いっぱい。** · 2009/06/03(水) 22:23:08

正規表現でアルファベット6文字というのはどう書けばいいでしょう？

[A-z][A-z][A-z][A-z][A-z][A-z]

これじゃださいですよね？

**名無しさん＠お腹いっぱい。** · 2009/06/04(木) 09:42:14

[A-z]{6}

**名無しさん＠お腹いっぱい。** · 2009/06/04(木) 09:57:06

[A-z]だと[\]~_`を含むよ。[A-Za-z]{6}にしなはれ

**名無しさん＠お腹いっぱい。** · 2009/06/04(木) 10:22:05

POSIX 正規表現が使えるなら [[:alpha:]]{6} とか。

**名無しさん＠お腹いっぱい。** · 2009/06/04(木) 10:29:36

POSIX文字クラスはロケール依存の罠があるから避けた方が無難と思う

**名無しさん＠お腹いっぱい。** · 2009/06/05(金) 02:21:52

POSIX 文字クラスって [[:isalpha:]] みたいのを言うんじゃなかったっけ?

**名無しさん＠お腹いっぱい。** · 2009/06/05(金) 02:23:34

おっとなんか馬鹿なこと書いてしまった。

[a-z] も　locale でどうマッチするかかわったりするよ?

**名無しさん＠お腹いっぱい。** · 2009/06/13(土) 13:28:45

ホント？ \w とかなら変わると思うけど、
[a-z] は locale に依らず ASCII コードの範囲になるのでは？

**名無しさん＠お腹いっぱい。** · 2009/06/17(水) 02:14:08

書き込み禁止されてた。

>>753
どのUNIXでもそうなるとは断言できないけど、locale が en_us.UTF-8 とかのときに
a-z が aAbB….yYz な集合になるものもあるよ。

POSIX的にはコード順だと定義はしてはいなかったはず。

**名無しさん＠お腹いっぱい。** · 2009/06/17(水) 08:44:18

文字列の範囲はロケールに依存する。例えば、エストニア語のアルファベット
では、s の後に z があり、その後は t、u、v、w、x、y と続くので、[a-z] で
はすべての小文字のアルファベットにマッチしない

**名無しさん＠お腹いっぱい。** · 2009/06/22(月) 05:54:23

うふふ

**名無しさん＠お腹いっぱい。** · 2009/06/25(木) 21:28:07

>>754
それはlocaleの問題でもOSの問題でもないだろ
例えばlgrepはデフォルトがcase insensitiveだし

**名無しさん＠お腹いっぱい。** · 2009/06/26(金) 17:56:44

>>757
問題が理解できてないようだな。君は話に加わらなくて良いよ。

**名無しさん＠お腹いっぱい。** · 2009/06/26(金) 18:09:55

それだけだとかわいそうなので補足すると、
>>754 が言ってるのは case sensitivity の問題じゃないよ。

>>754 のレスの「aAbB….yYz」をよーく目をこらしてみてごらん。
ロケールによってはこういう不思議現象が起こるのよという話。

**名無しさん＠お腹いっぱい。** · 2009/07/13(月) 21:38:46

ジオ落ちててonigurumaのソースが落とせん。
だれかミラー的なもの知らない？

**名無しさん＠お腹いっぱい。** · 2009/07/13(月) 21:50:51

いや、あったは、ミラー。<mirrorservice.orgとか

**名無しさん＠お腹いっぱい。** · 2009/09/19(土) 19:50:17

（）内の、で区切られたものを
１（あああ、１） → １（１、あああ）
２（ううう、３） → ２（３、ううう）
３（えええ、１） → ３（１、えええ）
のように入れ替えたいです。
条件は
・括弧は半角全角どちらでも対応。出力はどちらかに統一する。
・（あああ、いいい、ううう）のように３つ以上あるのは無視する

それと、こうやってもうまくいかないのは何故でしょうか？
sed -e 's/（/$/g' -e 's/）/$/g' -e 's/、/,/g' test.txt |
sed 's/$([^,)]*),([^,)]*)$/（\\2、\\1）/g'

**名無しさん＠お腹いっぱい。** · 2009/09/19(土) 19:51:30

こうやれば望みどおりの結果は出たのですが、
汎用性が低いのでもっとちゃんとしたのを作るにはどうしたらいいですか？

#!/bin/awk -f
BEGIN { FS="(（|）|\$|\$|、|　| +)" }
{
{print $1"（"$3"、"$2$4"）";}
}

**名無しさん＠お腹いっぱい。** · 2009/12/05(土) 13:45:25

あ

**名無しさん＠お腹いっぱい。** · 2010/06/02(水) 05:32:30

ほ

**名無しさん＠お腹いっぱい。** · 2010/06/02(水) 17:20:06

http://arrow3.way-nifty.com/shige/images_pc/RegExp.png
http://www.codezine.jp/static/images/article/1655/config.jpg
http://mckyblog.img.jugem.jp/20090724_436625.png
http://www19.atpages.jp/imagelinkget/get.php?t=v&u=makotowatana.ld.infoseek.co.jp/VBScriptRegularExpressions.png
http://makotowatana.ld.infoseek.co.jp/text.gif

**名無しさん＠お腹いっぱい。** · 2010/09/23(木) 21:58:59

行頭にある>以外の>を置換したいのですが、どのように記述できるでしょうか？

**名無しさん＠お腹いっぱい。** · 2010/09/24(金) 11:09:22

>>767
ヘタレな処理ですみません。動けば正義。
echo '>1>2>3>4>5>' | perl -ne '/^(.)(.*)/; ($a,$b)=($1,$2); $b=~s/>/*/g; print "$a$b\n";'

**名無しさん＠お腹いっぱい。** · 2010/10/03(日) 22:07:49

>>767
行頭にもし「>」が複数有れば二ツ目以降を削除する処理と
「>」以外が一文字以上続いてから「>」が一文字以上出現する文字列を
「>」以外が一文字以上続いている部分に置換する。
以上。

**名無しさん＠お腹いっぱい。** · 2010/10/10(日) 09:52:22

>>769
性器表現で書けよニダ

**名無しさん＠お腹いっぱい。** · 2010/10/11(月) 21:58:34

>>770

^>>+とか[^>]+とか
あえて書くことに意味は無いし、
削除や置換は正規表現では書けない。

文章の表面ではなく、コンテキストを嫁。

**名無しさん＠お腹いっぱい。** · 2010/12/12(日) 10:48:21

/RegEx/ - 便利な正規表現、みんなで共有
http://regex.gkbr.me/

**名無しさん＠お腹いっぱい。** · 2011/01/11(火) 08:29:20

EmacsとpTeXを使っています。
pTeXでは日本語の括弧はいわゆる全角で書かないときれいに出ないみたいなので、
「(日本語)」のような表現を一発で「（日本語）」のように変換したいたと思うのですが、
これはどう書けばいいのでしょうか。

(日本語abc)や(Abc日本語)や(Abc日[改行コード]本語)のようなものにも
対応しなければならないような気がします。(abc)のようなのはそのままにしておきたいです。
てことは、「両端が()で、()のなかにmultibyte文字が1文字でも入っているもの、複数行にも
マッチする」という条件でよさそうなのですが、どうでしょうか。

"([[:multibyte:]]+)"で(日本語)の形のやつまではわかったのですが、
その先に進めません。PerlのスクリプトでもOKですので教えてもらえないでしょうか。

**名無しさん＠お腹いっぱい。** · 2011/01/11(火) 15:02:53

>>773
入れ子になった括弧には未対応。
(replace-regexp "(\$[^\\(]*[[:multibyte:]][^\$]*\\))" "（\\1）")

# pLaTex で otf 使えば大丈夫だったような？

**名無しさん＠お腹いっぱい。** · 2011/01/11(火) 17:55:06

ありがとうございます。うまく動くようです。

OTFパッケージの方は実験してみましたがやっぱり()と（）は区別しているような・・・

**名無しさん＠お腹いっぱい。** · 2011/03/12(土) 12:19:28.18

apacheのmod_rewriteでURLを書き換えたいと思っています。
以下が.htaccessのコードになります。
-------------------------------------------------------------------------
RewriteEngine On
RewriteRule ^([a-z0-9_-]+).htm$ execute.php?id=$1
-------------------------------------------------------------------------

例えば、”http://moge/test.htm”にアクセスすると”http://moge/execute.php?id=test”と同じようになるというものです。
ディレクトリにはexecute.phpの他にindex.htmを置きたいと思っているのですが、上のhtaccessを設置すると、”http://moge/execute.php?id=index”に飛ばされてしまいます。そこで、正規表現で特定の単語（index）を除外するにはどうすればいいのでしょうか？
ご回答お願いします。

**名無しさん＠お腹いっぱい。** · 2011/03/12(土) 14:53:45.34

Rewriteが　htmなら

index.html　ファイルにする

**776** · 2011/03/12(土) 15:37:35.48

>>777
あ、なるほど
確かにそれでもいけますね
さんくすです

ちなみに正規表現で特定の単語だけ除外っていうのはできないのでしょうか？？

**名無しさん＠お腹いっぱい。** · 2011/03/16(水) 20:14:08.75

否定先読みでおｋ
あとマルチ乙

**名無しさん＠お腹いっぱい。** · 2011/03/29(火) 11:43:28.27

すっごく基本的なことで申し訳ないんだけど
aaaを含んでいてbbbを含まない行
ってのはどう書くんですか。

**名無しさん＠お腹いっぱい。** · 2011/03/29(火) 12:00:15.87

それは正規表現だけでやらなきゃだめなのかい？

**名無しさん＠お腹いっぱい。** · 2011/03/29(火) 12:06:43.95

grepでログの特定行を抽出したくて

**名無しさん＠お腹いっぱい。** · 2011/03/29(火) 12:20:13.45

grep -v

**名無しさん＠お腹いっぱい。** · 2011/03/29(火) 12:29:14.56

>>782
GNU grep で grep aaa logfile | grep -v bbb ってのじゃだめ?

**784** · 2011/03/29(火) 12:30:38.86

かぶったか

**名無しさん＠お腹いっぱい。** · 2011/03/29(火) 12:47:45.98

ああ、そっか。-v
ありがと

**名無しさん＠お腹いっぱい。** · 2011/04/08(金) 01:34:57.59

vimの置換で以下のようなデータを置換したいです
hoge（半角空白*****)\tsage\t
↓
hoge\tsage\t

:%s/ //g だとhogeが　ho ge だったりもするので
半角空白が続く\tを\tにしたいです。
どなたかご教示お願いします

**名無しさん＠お腹いっぱい。** · 2011/04/08(金) 02:09:54.62

>>787
:%s/ \+\t/\t/g
とか？

本当にやりたいのは gg=G とか Align じゃないの

忍法帖【Lv=11,xxxPT】 · 2011/06/22(水) 16:55:34.67

aからz、かつAからZ、かつ0から9、かつその他記号（!"#$...）を含ませたいです。
[a-z&&A-Z&&0-9&&[^a-z^A-Z^0-9]]
とやってみたのですがうまく行きません。(´；ω；｀)
どう表現すればいいでしょう。

**名無しさん＠お腹いっぱい。** · 2011/06/22(水) 17:10:25.90

**名無しさん＠お腹いっぱい。** · 2011/06/22(水) 17:38:34.78

>>789
むしろ含みたくない文字を列挙したほうが早いんじゃね？

**名無しさん＠お腹いっぱい。** · 2011/06/23(木) 00:03:09.64

>>789
それは印字可能な文字から空白を除いたものなんじゃあないのかい

**名無しさん＠お腹いっぱい。** · 2011/07/08(金) 22:03:29.79

肯定条件と否定条件、常にペアで考えたいところです

**名無しさん＠お腹いっぱい。** · 2011/08/03(水) 03:28:35.00

>>787

:%s/\（半角空白\**\)//g

・・・ではなくて、Excelでいう所のtrim関数みたいな動作か？

**名無しさん＠お腹いっぱい。** · 2012/03/07(水) 21:00:09.49

gsedをターミナルで実行したとき、
丸数字の1～20が[\x{2460}-\x{2473}]でマッチせず
「無効な範囲の終端」というエラーメッセージが出ます。
何を間違えているのでしょうか。

**名無しさん＠お腹いっぱい。** · 2012/03/07(水) 22:36:48.15

>>794
> :%s/ //g
当人がチャレンジした結果がこれだから、タブ区切りの各値をtrimしたいんだろうと思うよ。

> 半角空白が続く\tを\tにしたい
ってことだから>>788でいいと思う。でも>>788の後半は違うと思う。

**名無しさん＠お腹いっぱい。** · 2012/03/07(水) 22:41:28.98

このスレ最近見てたと思ってたのに、8月だと…

**名無しさん＠お腹いっぱい。** · 2012/03/08(木) 05:24:46.29

>>795の自己レス
よく解らないのだけど、コードでなくそのまんま①から⑳（文字化けしていたらごめんなさい）
まで、１行ずつの置換行を書き並べたらうまくいきました。
コードだと１行ずつ書いてもダメでした。エラーは出なかったからコード間違えたかな。

**名無しさん＠お腹いっぱい。** · 2012/05/27(日) 23:08:25.45

linuxのgrepでgreenとつく単語を検索したいのですが、どういう正規表現を使えばよいのでしょうか

**名無しさん＠お腹いっぱい。** · 2012/05/28(月) 08:03:03.12

>>799
くだらねえ質問はここに書き込め！ Part 200
http://engawa.2ch.net/test/read.cgi/linux/1335349596/

**名無しさん＠お腹いっぱい。** · 2012/11/13(火) 18:47:33.56

リンゴ　1個
ミカン　2個
イチゴ　1個
スイカ　1個
スイカ　3個
ナシ
トマト
トマト
トマト
パイナップル

**アップミス失礼しました** · 2012/11/13(火) 18:51:10.04

リンゴ　1個
ミカン　2個
スイカ　1個
スイカ　3個
イチゴ　2個
トマト　1個
トマト　3個
トマト　5個
を
リンゴ　1個
ミカン　2個
スイカ　1個　3個
イチゴ　2個
トマト　1個　3個　5個
のように整理したいとき、正規表現で実現可能ですか？

**名無しさん＠お腹いっぱい。** · 2012/11/13(火) 21:24:23.96

何言ってんだ。

**名無しさん＠お腹いっぱい。** · 2012/11/14(水) 02:50:13.58

>>802
例えば
sed
http://toro.2ch.net/test/read.cgi/unix/1085730992/l50

**名無しさん＠お腹いっぱい。** · 2012/11/16(金) 20:13:34.67

リンゴ　1個
スイカ　1個
ミカン　2個
スイカ　3個
イチゴ　2個

元データがこうなってない前提ならできるかもしれない

**名無しさん＠お腹いっぱい。** · 2012/11/16(金) 21:56:43.28

なってても出来ないことはないと思える

**名無しさん＠お腹いっぱい。** · 2012/11/17(土) 00:18:53.21

いや、正規表現どうこうって話じゃないだろ

**名無しさん＠お腹いっぱい。** · 2012/11/17(土) 03:31:10.85

まあ、そうだね

**名無しさん＠お腹いっぱい。** · 2012/11/17(土) 15:01:28.93

出発点になるテキストが規則的であればあるほど作業が楽になる。

**名無しさん＠お腹いっぱい。** · 2012/11/17(土) 16:45:39.64

sedスレで聞いてないね。perlやawkなど、どこか他で見た？　ってか、本人どうしたの？

**名無しさん＠お腹いっぱい。** · 2012/11/18(日) 02:35:29.83

釣りだったようだな。

**802** · 2012/11/20(火) 15:26:50.28

いろいろ研究中ですが、釣りじゃありませんw
他のスレにまで投稿すると、マルチで蹴られてしまうからです。

**名無しさん＠お腹いっぱい。** · 2012/11/20(火) 16:03:55.39

マルチは同じ話題が並行して進行するのが問題。
ちゃんと移動すればマルチじゃないよ。

**名無しさん＠お腹いっぱい。** · 2012/11/20(火) 18:49:22.20

以下のような文章があったとします。
～aaa～bbbaaa～bbbaaa～bbb～
（～は文字数の定まっていない文字列を表しています。）
ここから、それぞれ最初のaaa～bbbだけを抽出、真ん中のaaa～bbbだけを抽出、最後のaaa～bbbだけをで抽出したい時、どう正規表現で表せばよいのでしょうか？

**名無しさん＠お腹いっぱい。** · 2012/11/20(火) 20:13:44.36

sedじゃだめなのかよ

**名無しさん＠お腹いっぱい。** · 2012/11/21(水) 02:55:30.50

「aaa」と「bbb」を例えば「【」「】」に置き換えてみると楽かも。
【があって、】以外のものがあるかないかして、】があったとき
が検索パターンってことになるよね。ここまでが正規表現。
その後は、１回目にマッチしたときだけ吐き出す、最後にマッチしたものだけ……
は、何を使うかで変わってくる。

**名無しさん＠お腹いっぱい。** · 2012/11/21(水) 07:09:17.34

>>816
「【」「】」に置き換えるんじゃなく、「aaa」と「bbb」の例でお願いします。
「【」「】」みたいな1文字じゃなく、「aaa」「bbb」みたいな複数文字なので。
しかも、「aaa」と「bbb」の間に普通の文字としてa bもあります。

**名無しさん＠お腹いっぱい。** · 2012/11/21(水) 08:20:17.05

こいつ、何もわかってない

**名無しさん＠お腹いっぱい。** · 2012/11/21(水) 10:34:37.69

perlの正規表現使わないと無理だと思うよ。

**名無しさん＠お腹いっぱい。** · 2012/11/21(水) 11:10:04.60

こんな感じかな?
aaa[^b]*$b\{0,2\}[^b]\+$*b\{0,2\}bbb

**名無しさん＠お腹いっぱい。** · 2012/11/21(水) 11:16:22.41

>>813の直後なのにマルチ

**名無しさん＠お腹いっぱい。** · 2012/11/21(水) 11:18:53.62

移動してるからマルチじゃないだろ

**名無しさん＠お腹いっぱい。** · 2012/11/21(水) 11:27:34.16

もっとタイムリーに本人出てこないとダレるわ