Regular Expression(正規表現) Part14 [無断転載禁止]©2ch.net

**デフォルトの名無しさん** · 2017/03/15(水) 02:04:35.47

Regular Expressionスレです。

質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。

前スレ
Regular Expression(正規表現) Part13
http://echo.2ch.net/test/read.cgi/tech/1415149975/

次スレは>>980宜しく
天ぷら等2以降

**デフォルトの名無しさん** · 2017/07/08(土) 09:10:13.00

>>232
後読みの部分にはマッチしない

つまり>>229で後読み使った場合には
123456789
にマッチするがそうでない場合は
def：123456789
にマッチする

**デフォルトの名無しさん** · 2017/07/08(土) 19:51:13.74

後読みの説明はそうなんだけど、>>230 について訊いてるんでしょ？

俺も>>230の意図はよくわからん。行単位の処理を希望してるのにm付けてるし

**デフォルトの名無しさん** · 2017/07/10(月) 01:20:40.78

>>231
日本語の記事
http://gigazine.net/news/20170707-regular-expression-puzzle/

**デフォルトの名無しさん** · 2017/07/15(土) 10:24:03.66

>>231
新しいなコレ！

面白いんでエクセルで入力できるフォーマットを作ってみた
http://www.dotup.org/uploda/www.dotup.org1307951.xls

(拡張子でうちのエクセルが激古なのがバレる…)

**デフォルトの名無しさん** · 2017/07/15(土) 12:03:12.72

少しやって時間の問題だなと思って途中で切り上げて答見たけど
数文字しか合ってなかった
最後までやらなくてよかった

**デフォルトの名無しさん** · 2017/07/25(火) 08:57:23.04

●Regular Expressionの使用環境
VBA7.1

●検索か置換か？
検索

●説明
期待する数値の桁数かどうか。拡張子はあっても無くても良い。

●対象データ
AA17-0001.xlsm
AA17-0002

●希望する結果
ifで合致しているかどうかを判定しています。
.Pattern = "^AA\d{2}-\d{4}(\.xlsm$)?"

○AA17-0001.xlsm
○AA17-0002
×AA17-00023
×AA17-00024.xlsm

最後の?を削れば、拡張仕込みであれば上手くいきますが良い方法は
ないでしょうか。

**デフォルトの名無しさん** · 2017/07/25(火) 09:09:17.24

>>239
VBAの仕様は知らんけど、これでできない？
^AA¥d{2}¥-¥d{4}(¥.xlsm)?$

**デフォルトの名無しさん** · 2017/07/25(火) 12:00:47.38

>>240
有り難うございます！ばっちりです。
$マークを足すだけで良かったんですね。助かりました。

**デフォルトの名無しさん** · 2017/07/25(火) 12:23:12.14

差し支え無ければ、 ^AA\d{2}-\d{4}(\.xlsm)? だと

ND17-00001
ND17-00001.xlsm2

等々にもマッチしてしまう理由を教えていただけないでしょうか。

**デフォルトの名無しさん** · 2017/07/25(火) 12:24:08.99

ミス。AAでした。
AA17-00001
AA17-00001.xlsm2

**デフォルトの名無しさん** · 2017/07/25(火) 12:38:31.42

>>242,243
横からだけど
AA17-0000部分にマッチしちゃうんじゃない？

**デフォルトの名無しさん** · 2017/07/25(火) 13:05:32.38

^AA\d{2}-\d{4}(\.xlsm$)?
は
"^AA\d{2}-\d{4}" と "^AA\d{2}-\d{4}\.xlsm$" という意味
AA17-00001
AA17-00001.xlsm2
の "AA17-0000" の部分に前者がマッチする
"^AA\d{2}-\d{4}$" であればマッチしない

**デフォルトの名無しさん** · 2017/07/25(火) 13:22:18.59

なるほど。分かりやすく有り難うございます！
だから>>240で期待通りになるんですね。
頭固いと理解するのが大変です。。orz

**デフォルトの名無しさん** · 2017/07/25(火) 13:29:36.02

?は「直前のパターンが 0回または 1回登場する事」なので、そのパターン中に、$「行末」を含めてしまうと、(0回登場側で)効果が消えてしまう。
1人で書いてるとよくやるミスだと思う。

**デフォルトの名無しさん** · 2017/07/25(火) 21:26:32.07

^AA\d{2}-\d{4}
は実は
^AA\d{2}-\d{4}.*$
だと考えれば理解の助けになるかも。ならないかも。

**デフォルトの名無しさん** · 2017/07/26(水) 01:05:33.15

^AA\d{2}-\d{4}(\.xlsm$)?

$?
行末の後ろに、? か。
この式は、見た瞬間に、おかしいとわかる

**デフォルトの名無しさん** · 2017/07/26(水) 11:10:37.56

>>249
文法的にも間違いでは無いだろ

**デフォルトの名無しさん** · 2017/07/26(水) 13:08:28.96

>>250
文法的には正しいけれど、式としておかしい「と感じる事ができる」と言いたいんだと思う。

**デフォルトの名無しさん** · 2017/07/26(水) 14:48:10.36

>>251
式としても正しい

**デフォルトの名無しさん** · 2017/07/26(水) 14:55:46.30

250,252みたいなのをアスペっていうんだろうな
論点は式や文法として正しいか正しくないかではないって事ぐらい一目見れば分かりそうなもんだが

**デフォルトの名無しさん** · 2017/07/26(水) 16:41:49.04

きちんと整理すると目的に合わない正規表現が直感的に分かるエスパー能力
としか言いようがないし>>249がその能力者だとしても特に羨ましくもない

**デフォルトの名無しさん** · 2017/07/26(水) 17:37:15.75

例えば、エディタの検索等で強調表示する際の式としてなら何も不思議は無いが
プログラム中での判定式ならば後者は必ず前者にマッチするので意味を成さない
つまり無駄に冗長であったり何かミスをしている可能性が高い。そういう事でしょ

**デフォルトの名無しさん** · 2017/07/26(水) 17:37:56.28

>>253
プログラマに多いタイプではある

**デフォルトの名無しさん** · 2017/07/26(水) 17:52:57.91

問題は >>249 が何の役にも立ちそうにないということじゃないかな。
何を言いたいか想像できなくもないが、単に知らないだけという可能性もまた捨てきれない。
ここはそういう場所だ。
明確に「$ は末尾にだけ書くようにすれば間違いを防げると思うよ」とでも書けばよかったのに。

**デフォルトの名無しさん** · 2017/07/26(水) 18:26:15.97

まあ読点の打ち方とかみるにアホガキか底辺土方がドヤりたかっただけだろうから
そろそろそっとしておいておやり

**デフォルトの名無しさん** · 2017/07/26(水) 19:38:32.33

臭う正規表現だと言えばいいのかな

**デフォルトの名無しさん** · 2017/07/26(水) 21:03:00.43

>>249は句読点の打ち方からも、おかしいとわかる

発端は正規表現は行を対象にマッチするものという偏見じゃないか

**デフォルトの名無しさん** · 2017/07/27(木) 08:25:22.52

>>253
もう本来の問題は解決して、間違いを防ぐという話をしているところに >>249 だ。
いかにも頭悪そうだけど何しに来たんだというのが論点じゃないのか?

**デフォルトの名無しさん** · 2017/07/27(木) 09:03:12.08

よくこんなネタでいつまでも盛り上がれるな

**デフォルトの名無しさん** · 2017/07/27(木) 10:22:50.72

うむ

**デフォルトの名無しさん** · 2017/07/27(木) 11:04:39.19

そこら辺も含めてプログラマに多いタイプって事だ
話の流れや空気を読むのが苦手なタイプ

**デフォルトの名無しさん** · 2017/07/27(木) 15:20:17.23

>>264
辛辣ワロタ

**デフォルトの名無しさん** · 2017/07/27(木) 18:27:44.41

2ch的にはまだ甘い方

**デフォルトの名無しさん** · 2017/07/27(木) 19:38:46.83

プログラマって話の流れが読めないやつ確かに多い気がするけど、何でなんだろう。
プログラムとかって、流れを理解する事が重要じゃん？

**デフォルトの名無しさん** · 2017/07/27(木) 21:11:31.82

プログラマーとひと口に言ってもピンキリ
使えないキリの方のコミュ障ボッチオタク系IT土方をバカにするネタでそういったのが多いから
そんなイメージが付いてるだけでしょ
業種に依らず底辺のゴミ共に通じるネタだったものが独り歩きしたんじゃない？

まあでも「流れや空気を読む」てのはファジーな判断能力でコミュニケーションの中で培われるから
人間関係よりも数学の方が楽って人には難しく、そういった傾向はあるのかも知れない

**デフォルトの名無しさん** · 2017/07/27(木) 22:58:53.54

>>267
君、249か253じゃあないのかよ？

**デフォルトの名無しさん** · 2017/07/28(金) 06:08:45.61

やっとスレチ終わった？

**デフォルトの名無しさん** · 2017/07/28(金) 11:26:50.45

sageも知らずに書いてる人って同一人物なんだろうけど
自分が遠回しにディスられてる事にも気付いてなくて可愛い
ある意味幸せか

**デフォルトの名無しさん** · 2017/08/12(土) 17:55:36.45

●Regular Expressionの使用環境
Java1.8

●検索か置換か？
検索

●説明
下記の部分を抽出したい
AV0bc-t3.jpg
B32bc4f.jpg

●対象データ（一部）
風景-20170503-AV0bc-t3.jpg
b5-two-mountain-B32bc4f.jpg

最初は-を区切りとして抽出できるかと思ったが
抽出対象の文字列にも-が登場することが判明して為万事休す状態です。
どうかご指導お願い致します。

**272** · 2017/08/12(土) 18:05:09.95

>>272です
すいません。これどう考えても不可能ですね。
-ファイルについては手動でやってその他は正規表現で対応します。
失礼しました。

**デフォルトの名無しさん** · 2017/08/12(土) 20:46:08.10

不可能

**デフォルトの名無しさん** · 2017/08/12(土) 21:05:50.58

>>272
誤爆前提
(?<=\-)([A-Za-z\d]+\-?[A-Za-z\d]{0,3}\.jpg)(?=(?:\n|$))

[A-Za-z\d]{0,3}部の構成次第か？
まあ全部手でやるよりかはマシになるような気がする

**272** · 2017/08/12(土) 22:50:49.75

>>275
ありがとうございます！！
まじで神です！相談して良かったです。
こういう人がお金をもらえる世の中になってほしいです。
本当に感謝します。あなたは誰よりも優しいです。
無償で人の為にがんばる人は本当に尊敬します！！
ありがとうございました！！

**デフォルトの名無しさん** · 2017/08/12(土) 23:11:24.65

該当文字列長の幅が決まっているなら{6,8}の数字を調整すればこれでいけるはず
(?<=-)[-A-Za-z\d]{6,8}\.jpg

**デフォルトの名無しさん** · 2017/08/13(日) 03:23:49.05

ファイル名には、半角英数字の他、「- _ .」と半角空白も、考慮しろ

こういうファイル名もある

a.txt.zip

**デフォルトの名無しさん** · 2017/08/13(日) 04:21:48.64

.tar.gzとかで良かったのでは

**デフォルトの名無しさん** · 2017/08/13(日) 19:47:39.02

2chのNGで、「URLが含まれる文章を除いた行が5つ以上あるレスをNG」という表記を作ることは可能ですか？

**デフォルトの名無しさん** · 2017/08/13(日) 21:08:22.43

>>280
日本語を(´・ω・`)

**デフォルトの名無しさん** · 2017/08/13(日) 23:08:53.31

gopher:とかmailto:とかか

**デフォルトの名無しさん** · 2017/08/14(月) 03:10:00.43

>>281
前提
①正規表現を使い、2chのNG設定を行いたい
②専門板での長文荒らしをNGしたい
③URLが貼られたレスは長文であってもNGにしたくない
以上から、「URLが含まれる文章を除いた行が5つ以上あるレスをNG」をしたいです
この表記を作ることは可能ですか？

**デフォルトの名無しさん** · 2017/08/14(月) 03:17:09.39

URLの定義を以下のようにしました
://([a-zA-Z0-9_/:;%#\$&\?~\.=\+\-])*
(://の後に英数字とURLに使われる記号が続く文字列)
これを[^]で括って否定にした後、任意の行数以上含まれるレスのNGをするという方向性で考えています

**デフォルトの名無しさん** · 2017/08/14(月) 16:30:05.91

^が否定と先頭の2つの意味を持っていて
$ が末尾と $1 $2 などのインデックスの意味を持っているとか
メタ文字の効果が重複しているのが混乱します。
どうすればいいですか？

**デフォルトの名無しさん** · 2017/08/14(月) 16:37:59.81

>>285
たぶん[^]で括って否定には出来ないと思うよ。

**デフォルトの名無しさん** · 2017/08/14(月) 18:31:02.14

Jane StyleでIDなしのレスだけ抽出するにはどうしたらよろしいでしょうか？
IDなしをNGにする方法はいくらでも出てくるのですが・・・

**デフォルトの名無しさん** · 2017/08/14(月) 19:13:15.73

>>287
IDの有無が混在しているスレ教えて

**デフォルトの名無しさん** · 2017/08/14(月) 20:33:03.02

>>288
浪人あればID消せるんじゃなかったっけ？
ID表示スレでも？

たまに見かけるんだけど、
じゃあ、どのスレ？と聞かれてもなかなか見つからない。

すいません、見つかるまでお待ち下さい・・・

**デフォルトの名無しさん** · 2017/08/14(月) 20:34:12.87

半角文字列板でたまに見かけたような気が・・・

**デフォルトの名無しさん** · 2017/08/14(月) 20:39:37.25

もしくは
IDなしをNGにして、あぼーんのみ表示するとか

**デフォルトの名無しさん** · 2017/08/14(月) 20:59:49.60

>>291
すみません。今のところ該当スレが見つかりません。

目的としては、
優良エロ画像スレでたまにIDなしでグロ画像を貼る輩がいて、
IDなしのレスがほぼグロ画像ならIDなしをNGにするし、
IDなしでも優良エロ画像を貼ってくれてるならIDなしでもNGしないし・・・

という恥ずかしい理由なんです

**デフォルトの名無しさん** · 2017/08/14(月) 21:00:54.22

>>291

>IDなしをNGにして、あぼーんのみ表示するとか
これってどうやればいいんでしょうか？

**デフォルトの名無しさん** · 2017/08/14(月) 21:04:32.71

>>292-293
ここ正規表現スレだからJane質問スレに来て

**デフォルトの名無しさん** · 2017/08/21(月) 19:05:01.74

よろしければアドバイスください

●Regular Expressionの使用環境
正規表現で検索できるテキストエディタ

●検索か置換か？
検索

●説明
アンド検索で一つ目にマッチした文字列からn行以内にある二つ目の文字列までを抽出したい

●対象データ
林檎みかんバナナ
みかん林檎バナナ
林檎キウイみかん
バナナ林檎みかん
メロン林檎バナナ
メロンみかん林檎
みかんバナナ林檎
林檎みかんキウイ
林檎バナナみかん

●希望する結果
みかんバナナ
みかん林檎バナナ
林檎キウイ

**295** · 2017/08/21(月) 19:05:58.56

>>295の質問のつづきです

●自分で試したこと
今回は三行以内に「みかん」と「キウイ」の二つの文字列を含む部分　だけ　を抽出したい
記述は以下のように書いてみたが、四行以上にまたがってマッチした部分まで抽出されてしまった

みかん([¥s¥S]*?)キウイ

●自分で試した検索ワード
「正規表現　複数行　文字列　検索　-秀丸」の組み合わせをいくつか試した
検索結果からプログラマーの質問回答サイトに飛んで似たように検索するも欲しい回答は見つからず

**デフォルトの名無しさん** · 2017/08/21(月) 21:48:45.68

n行なら可能だけどn行以内ってのは無理だと思う
つまり
1行の式|2行の式|…|n行の式
と書くしかないんじゃないかな

**295** · 2017/08/21(月) 22:44:09.38

そうですか
やはり　([¥s¥S]*?)　を使うのが間違ってますよね？

レスありがとうございます

**デフォルトの名無しさん** · 2017/08/21(月) 23:09:35.41

/みかん¥S*?¥n??¥S*?¥n??¥S*?キウイ/g
とか
/みかん(?:¥S*¥n?){0,2}¥S*キウイ/g
とかかな

1~3行目と6~8行目のみかん～キウイがマッチする

**デフォルトの名無しさん** · 2017/08/23(水) 21:18:57.34

>>296

秀丸の正規表現はしらないので一般的な正規表現で考えてみた。
試していないので間違っているかもしれないが。

みかん(.*¥n){1,3}?.*キウイ

**デフォルトの名無しさん** · 2017/08/23(水) 23:01:36.58

>>300
試すといいよ
https://regex101.com/

**デフォルトの名無しさん** · 2017/08/23(水) 23:56:43.55

できないね
秀丸はマイナス検索では？

**デフォルトの名無しさん** · 2017/08/24(木) 22:00:31.43

できたよ

コピペしたときバックスラッシュが別の文字に変わっていたので、
そこだけ入力し直したけど

**デフォルトの名無しさん** · 2017/10/02(月) 15:17:50.91

二文字以上連続していない場合のみヒットする正規表現はどう書けばいいですか？
aを探すとして
"abc"のaはヒットする
"aabc"のaaは連続しているのでヒットしない
ということをしたいです

**デフォルトの名無しさん** · 2017/10/02(月) 15:33:07.99

(?<!a)a(?!a)

**デフォルトの名無しさん** · 2017/10/02(月) 15:50:22.85

aで固定って訳じゃなくて
bだけとかcだけとかも探したいのでは？

**デフォルトの名無しさん** · 2017/10/02(月) 16:29:10.05

冷静なつっこみに受けた

**デフォルトの名無しさん** · 2017/10/02(月) 17:40:05.25

単に見つけるだけなら
/(.)(?!\1)(.)(?!\2)/
で出来なくもない。
しかし、見つかったときは2文字マッチするパターンなので
全部見つけたい場合はそこを考慮する必要がある。
先頭の文字は見つけられないから別途
/^(.)(?!\1)/
のようにする必要があるだろう。
言語によってはもっとうまくできるかもしれない。
でも、for 文とかで探す方がいいと思うよ。

**デフォルトの名無しさん** · 2017/10/02(月) 18:33:11.59

/(.)(\1)*/
でマッチした長さが 1 だったらという考え方も出来るけど、どう?

**デフォルトの名無しさん** · 2017/10/03(火) 03:04:28.76

/^(?!.*(.)\1).*/

**デフォルトの名無しさん** · 2017/10/11(水) 15:02:29.43

ユニコード文字プロパティから
特定の文字のみを除外した文字の集合を
簡単に書く方法はあるでしょうか？

例えば \p{C} からタブ(\t)と改行コード(\n|\r)のみ除外したもの

**デフォルトの名無しさん** · 2017/10/12(木) 22:03:36.05

>>311
(?![\n\r])\p{C}

**デフォルトの名無しさん** · 2017/10/14(土) 07:42:21.07

「"」以外の文字にマッチするが「\"」ならそれにもマッチする
ってどう書けばいいですか？

**デフォルトの名無しさん** · 2017/10/14(土) 08:04:06.86

>>313
([^"]|(?<=\\)")

**デフォルトの名無しさん** · 2017/10/14(土) 08:38:00.26

ありがとうございます
知らない記号があるので勉強します

**デフォルトの名無しさん** · 2017/10/14(土) 12:04:18.44

正規表現を再利用したくて調べたんだができないんだな
itemcode:=/(S|T|U)\d{3}-\d{4}/
/^\s*\{itemcode}\s*$/
こういう仕様あっても全然いいと思うんだが仕様策定団体がサボったのか

**デフォルトの名無しさん** · 2017/10/14(土) 12:19:47.01

言語やエディタの機能で補完すれば？
変数に正規表現リテラルを格納して後で使えるようにするのは正規表現の枠をこえてる

**デフォルトの名無しさん** · 2017/10/14(土) 13:45:15.89

>>316
そもそも正規表現の規格の枠外やん
Perlなら

my $itemcode = q/(S|T|U)\d{3}-\d{4}/;
my $regex = qq/^\s*{$itemcode}\s*$/;

$target =~ /$regex/;

とか出来たと思うが, $itemcodeも$regexも単に文字列だしな

**デフォルトの名無しさん** · 2017/10/14(土) 20:25:03.69

>>316
環境によるが、pcreを使っているプログラムなら、
(?(DEFINE)(?<name>pattern)...)で定義して(?&name)で使える。つまり、
/(?(DEFINE)(?<itemcode>(S|T|U)\d{3}-\d{4}))^\s*(?&itemcode)\s*$/

**デフォルトの名無しさん** · 2017/10/15(日) 12:04:10.87

正規表現技術入門って本買ったら初心者の入門書じゃなかった…

**デフォルトの名無しさん** · 2017/10/15(日) 23:07:27.13

後方参照っどこが後方やねん、後方で参照してるってことか？
と思っていたのですが、
左から右へと文字列を舐めていくカーソルの立場から見て後ろ、
という意味ですね？

**デフォルトの名無しさん** · 2017/10/16(月) 07:55:53.10

んだんだ

**デフォルトの名無しさん** · 2017/10/16(月) 10:07:29.75

上から下

**デフォルトの名無しさん** · 2017/10/16(月) 16:17:56.84

PCRE_EXTENDEDの説明に
この修飾子を設定すると、エスケープするか文字クラスの内部を除き、
パターンの空白文字は完全に無視されます。
とありますが、
これはどういう時に使うのでしょうか？
空白文字を無視したいなら
最初からパターンに含めなければいいだけのような気がするのですが・・

**デフォルトの名無しさん** · 2017/10/16(月) 17:17:54.69

>>324
改行したりして可読性を高めたい時とか

**デフォルトの名無しさん** · 2017/10/16(月) 17:31:22.40

>>325
可読性を上げるためのオプションですね
ありがとうございます

**デフォルトの名無しさん** · 2017/10/18(水) 00:44:52.51

[$]

こういう文字クラスがあった場合、これは終端と解釈されますか？
それとも文字列の$と解釈されますか？

また、[\$] だった場合は挙動が変化しますか？

**デフォルトの名無しさん** · 2017/10/18(水) 01:19:34.59

試せば？
https://regex101.com/r/jvUFhB/2

**デフォルトの名無しさん** · 2017/10/18(水) 01:39:24.99

ありがとうございます
やはり文字列なんですね

**デフォルトの名無しさん** · 2017/10/20(金) 00:50:10.62

過去にAutohotkeyスレで正規表現自体の質問は正規表現スレに行けとあったのでこちらで質問させて下さい(巻き添えアク禁でソフトウェア板に書き込めません)。宜しくお願いします。

●Regular Expressionの使用環境
wikiより引用
>AutoHotkeyで用意されている正規表現は、Perl 5に搭載されているものと概ね互換のPCRE(Perl Compatible Regular Expressions)である

●検索か置換か？
検索

●説明
順不同の単語群のすべてを含む文字列の最長を検索し取り出したいです

●対象データ
var := "クリスマス任意の文字列お盆任意の文字列正月任意の文字列"
pos := RegExMatch(var, "s)^(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)", $)
MsgBox, pos=%pos% $=%$%
s)の意味はシングルラインモード
posはマッチした位置
$にはマッチした全体が入ります

これですと先頭の"位置"にマッチ(pos=1になります)するのでマッチした全体$は空になってしまいます

●希望する結果
$=クリスマス任意の文字列お盆任意の文字列正月
実際は長文の一部で単語群がもっと多いです
どの文字が先頭でどの文字が最後か不明のとき、これらの単語群がすべて含まれる文字列全体を取り出すにはどのように書いたら良いでしょうか

(クリスマス|お盆|正月).+(?1)
これですと正月という単語が含まれなくてもマッチしてしまいます

**デフォルトの名無しさん** · 2017/10/20(金) 02:08:00.45

>>330
>これらの単語群がすべて含まれる文字列全体を取り出すには

これらの単語群って、クリスマス・お盆・正月の3単語を指してるのかな？
それならダサいけど(クリスマス|お盆|正月)を3回繰り返せば？
https://regex101.com/r/yRw8ob/1

**デフォルトの名無しさん** · 2017/10/20(金) 02:42:11.40

>>330
その2を組み合わせればいいじゃん
/(?=.*クリスマス)(?=.*お?盆)(?=.*正月)(?:クリスマス|お?盆|正月).*(?:クリスマス|お?盆|正月)/

**デフォルトの名無しさん** · 2017/10/20(金) 19:27:41.06

２ｃｈ → ５ｃｈになったタイミングでアク禁って全解除されたと思うけど、また規制され始めたのかな？

**デフォルトの名無しさん** · 2017/10/20(金) 19:58:25.65

は？