Regular Expression(正規表現) Part15

**デフォルトの名無しさん** · 2019/09/16(月) 22:25:11.87

Regular Expressionスレです。

質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。

前スレ
Regular Expression(正規表現) Part14
https://mevius.5ch.net/test/read.cgi/tech/1489511075/

次スレは>>980宜しく
天ぷら等>>2以降

**デフォルトの名無しさん** · 2021/07/02(金) 16:56:02.25

>>731
| の左右どちらに一致した場合でも \1 に置換している
ただし片方にしか \1 に対応する括弧がない——というのがミソ

左側 (<[0-9]+>) に一致したときの \1 は一致した全体なので結果として何も変わらない
右側 [<>] に一致したときの \1 は空なので削除される

**デフォルトの名無しさん** · 2021/07/02(金) 17:12:17.66

<><abc><value<123<x>>/value><>
こういうパターンはあるのか？

**デフォルトの名無しさん** · 2021/07/02(金) 17:17:38.07

> ●説明
> <数字>以外の<>を外したい

**デフォルトの名無しさん** · 2021/07/02(金) 17:22:56.52

>>732
あーなるほど
すごいなあ

**デフォルトの名無しさん** · 2021/07/02(金) 17:26:47.31

>>734
だからもしこういうのがあるのなら、上の回答じゃダメじゃん
<abc>は消えないぞ

**デフォルトの名無しさん** · 2021/07/02(金) 17:29:30.28

こいつ無能そう

**デフォルトの名無しさん** · 2021/07/02(金) 17:49:16.07

size = 4
s1 = entry.get()
s2 = re.sub(r'(<\d+>)|[<>]|[\\/:*?"|]+', r'\1', s1)
ss = [re.sub(r'<(\d+)>', lambda m: f'{{:0{len(m[1])}}}'.format(int(m[1])+i), s2) for i in range(size)]

簡単な範囲リネームソフト作ってて､windowsで使えない文字外して<数字>はカウントアップがしたかったのでこれで大丈夫のようです.たぶん
入力(スタート値) dir<001>のときリネーム範囲が2ならdir001,dir002を生成するみたいな

**デフォルトの名無しさん** · 2021/07/02(金) 18:45:34.59

でもさー
結局のところ自分の理解できる範囲で対処できないとブラックボックスでしかないから保守できないよな

**デフォルトの名無しさん** · 2021/07/02(金) 19:31:10.32

掲示板で説明できることには限界があるからな

**デフォルトの名無しさん** · 2021/07/02(金) 20:03:30.56

>>736
なんの環境だと消えないんだろう

**デフォルトの名無しさん** · 2021/07/02(金) 21:23:02.60

ネストがある構造物は、パーサーを使わないと保守できない。
Ruby のNokogiri みたいな、XML/HTML パーサー

正規表現でバグると、他人が手を出せないので、
結局、パーサーで作り直しになる

アンチパターンの常識

モジュール・デザインパターンの知識が無いから、
何にでも正規表現を使う、香具師と言われている

**デフォルトの名無しさん** · 2021/07/02(金) 21:48:40.11

ネストがある構造はRDBで管理するという方法もあるな

**デフォルトの名無しさん** · 2021/07/02(金) 23:39:59.09

>>727 のパターンは構造を見てない
ノンマッチな><だってホイホイ喰っちまう奴なんだぜ

**デフォルトの名無しさん** · 2021/07/03(土) 03:31:09.01

manの解析させるルーチンで無制限にネスト潜るの一度だけ書いたこと思い出したわ

**デフォルトの名無しさん** · 2021/07/05(月) 13:22:47.46

1行に「半角スペースと全角スペースが3文字以上ある時」を検出するにはどうすればいいのでしょう？

**デフォルトの名無しさん** · 2021/07/05(月) 13:38:25.68

(.*\040|.*\201\100){3}
とかか

**デフォルトの名無しさん** · 2021/07/05(月) 13:43:46.12

>>747
ありがとう試してみます

**デフォルトの名無しさん** · 2021/07/05(月) 13:46:58.03

>>747
SJISだったらこうしないとだめか
(([^\201-\237\340-\357]|[\201-\237\340-\357].)*(\040|\201\100)){3}

**デフォルトの名無しさん** · 2021/07/05(月) 18:52:47.25

●Regular Expressionの使用環境
サクラエディタ

●検索か置換か？
検索（正規表現で色を付けるため）

●説明
各行の「CR」または「LF」の改行コード部分に一致（CR+LFは一致させない）

●対象データ
あ\r
い\n
う\r\n

●希望する結果
\r
\n

よろしくお願いします

**750** · 2021/07/05(月) 19:33:48.25

なんとか自分で調べて見たんですが、下の正規表現で合ってますか？
[\r\n](?!\n)$

**デフォルトの名無しさん** · 2021/07/05(月) 21:45:00.65

(\r(?!\n))|((?<!\r)\n)
でどうだろう

**デフォルトの名無しさん** · 2021/07/05(月) 22:18:11.17

\r$|[^\r]\n$
じゃダメなのかな？

**デフォルトの名無しさん** · 2021/07/09(金) 02:51:04.10

文中もしくは単独で特定の文字列がある場合を除く
ってどうやるの？

**デフォルトの名無しさん** · 2021/07/09(金) 07:34:09.88

^(?~特定の文字列)$
^(?!.*特定の文字列).*$

**デフォルトの名無しさん** · 2021/07/09(金) 09:09:31.42

わざわざ貪欲にする必要性がわからん

**デフォルトの名無しさん** · 2021/07/11(日) 13:43:32.51

>>754
鬼雲に非包含オペレータを実装した話
https://qiita.com/k-takata/items/4e45121081c83d3d5bfd

**デフォルトの名無しさん** · 2021/07/11(日) 13:46:58.01

>>754
非包含パラメータの提唱者のスライドと論文
https://staff.aist.go.jp/tanaka-akira/pub/prosym49-akr-presen.pdf
https://staff.aist.go.jp/tanaka-akira/pub/prosym49-akr-paper.pdf

**デフォルトの名無しさん** · 2021/07/11(日) 19:12:06.67

近似解のなにが近似なのかわからん

**デフォルトの名無しさん** · 2021/07/11(日) 21:26:31.70

>>758
×非包含パラメータ
○非包含オペレータ

**デフォルトの名無しさん** · 2021/07/12(月) 09:02:05.45

>>759
他の正規表現とつなげると問題が起こる。
例えばコメントの直後にbbbが来るのを \/\*.*?\*\/bbb として
/* */aaa/* */bbb
にマッチさせると /* */aaa の部分も含んで全体がマッチしてしまう。

**デフォルトの名無しさん** · 2021/07/12(月) 15:36:01.58

なるほど
ありがとうございます

**デフォルトの名無しさん** · 2021/07/12(月) 16:40:03.21

でも少なくとも解２でいいんじゃないか
表現力もたいして変わらない
数文字減るだけののシンタックスシュガーに見える

**デフォルトの名無しさん** · 2021/07/29(木) 13:50:04.06

●Regular Expressionの使用環境
cygwin grep

●検索か置換か？
検索

●説明
テキストファイルに含まれる改行コードの検索

●対象データ
\r\n(0x0d0a)と\r(0x0d)が混在しているテキストファイル

●希望する結果
それらを検出して \r\nに統一したい。

grep -n -U -P '\x0d'
で検索をかけるとヒットするが
grep -n -U -P '\x0a'
ではなぜか１行もヒットしない
バイナリで確認すると0x0d0aはちゃんと存在しています・・。

とりあえずまずは0x0aを検索にヒットさせたいです。
その後
grep -n -U -P '\x0d[^\x0a]'
のような感じで0x0dの後ろが0x0aでない行を検索して置換できれば良いかなと考えています。
よろしくおねがいします

**デフォルトの名無しさん** · 2021/07/29(木) 14:18:21.31

無駄無駄無駄～

**デフォルトの名無しさん** · 2021/07/29(木) 14:21:22.66

>>764
-aも足してgrep -nUaPでも試してみては？

**デフォルトの名無しさん** · 2021/07/29(木) 18:49:46.76

0xが邪魔だったりして

**デフォルトの名無しさん** · 2021/07/29(木) 21:48:27.13

>>764
そのテキストファイルはASCIIなの？
UTF-16だったりEBCDICだったりしない？

**デフォルトの名無しさん** · 2021/07/29(木) 21:52:11.90

>>764
なぜかマッチしないのはcygwin付属のgrepコマンドのバグかもしれないし、
cygwin本体のバージョンを書くか
ダウンロードサイトも書くべきかと

**デフォルトの名無しさん** · 2021/07/29(木) 21:56:20.74

>>764
あとは-Uオプションを外してどうなるか試してみるとか

**デフォルトの名無しさん** · 2021/07/30(金) 00:49:58.41

単純に\nがgrepに食われてるだけだと思う

オプションに-zを入れれば\0区切りになるから\nは残せそうだけど
ファイル全体が１行になるだろうからやりたい事は多分できない

\rを\r\nに統一したいなら各行の末尾以外の\rを\r\nに置換すれば良さそう
grepで検索だけして手作業で直すつもりなのかな

**デフォルトの名無しさん** · 2021/07/31(土) 20:32:32.88

>>764
解決したの？

**デフォルトの名無しさん** · 2021/07/31(土) 20:46:25.03

テキストファイルなんだよね？
だったらテキストエディタで開いて改行コードをCRLFに指定して保存するだけで
改行コードは揃うと思うけど
俺の使ってるエディタでCRLF,CR,LFの3つを混在させたファイルでやってみたけど
全部CRLFに変わってくれたよ

**デフォルトの名無しさん** · 2021/08/01(日) 06:07:28.90

grepは行単位で処理するが、行は\nで終わることになってる
>>771のいうようにgrepが\nを食ってしまうので\nは検索できない
行末にマッチさせたいなら\nではなく$を使う

が、改行コード変換したいだけならCygwinに最初から入ってるunix2dos/dos2unixでも使えばいい

**デフォルトの名無しさん** · 2021/08/01(日) 21:54:31.32

>>774
単独のCR(\r)は古いMACに見られる改行コードだから
UNIXの改行LF(\n)でもDOSの改行CRLF(\r\n)でもないよ

**デフォルトの名無しさん** · 2021/08/01(日) 23:37:51.19

>>775
dos2unix/unix2dosは旧macの改行も変換できるので問題ない

**デフォルトの名無しさん** · 2021/08/18(水) 07:15:11.84

ニュー速VIP板

(?<=ニュー速)VIP(?=板)

↑これは分かるけど

(?=ニュー速)VIP(?<=板)

↑これが分からん

**デフォルトの名無しさん** · 2021/08/18(水) 08:14:34.80

(?=ニュー速)VIP
VIP(?<=板)
これらに一致するものは有り得ない

(?=.*ニュー速)VIP
こうなら有り得る

先読み
(?=abc)
はabcの左側aの手前の「位置」に一致するもの
xabcとあればxとaの間の位置に一致

戻り読み
(?<=abc)
は先読みと反対でabcの後ろcの後の「位置」に一致するもの
abcxとあればcとxの間の位置に一致

つまり
(?=ニュー速)　は「ニュー速」の「ニ」の手前の位置に一致するものなので
(?=ニュー速)ニュー速　で無ければ絶対に一致しない条件式となる

**デフォルトの名無しさん** · 2021/08/18(水) 08:27:16.61

焦りすぎ

**デフォルトの名無しさん** · 2021/08/18(水) 09:49:36.54

>>778
ああ分かった /VIP(?<=IP)/ というのはVIPの右に(?)がある事からしてVIPのPの右の位置にマシンがカーソルを合わせて次に<という左矢印がある事からしてカーソルの左側にPがあるかどうかを探って次にその一つ左にカーソルを動かしてそのカーソルの左側にIがあるかを探るって訳か

文字にするとややこしいけどイメージはしやすいな

**デフォルトの名無しさん** · 2021/08/18(水) 10:53:19.72

> ニュー速VIP板ニュー速板

二つ目の「ニュー速」だけを対象にしたい
(?<=VIP板)ニュー速
前方に「VIP板」のある「ニュー速」

一つ目の「ニュー速」だけを対象にしたい
ニュー速(?=VIP板)
後方に「VIP板」のある「ニュー速」

**デフォルトの名無しさん** · 2021/08/18(水) 11:43:36.15

(否|肯)定(先|後)読みは、^(行頭)や$(行末)と同様に"位置"にマッチするメタ文字(「アンカー」)として機能する

**デフォルトの名無しさん** · 2021/08/20(金) 00:20:17.08

ここにある正規表現サンプルのURLを取得する正規表現ですけど
間違ってないですか？
https://www.megasoft.co.jp/mifes/seiki/s310.html

urlに'があるurlだと'の後が取得できなくなる。

**デフォルトの名無しさん** · 2021/08/20(金) 01:44:25.03

>>783
間違ってるけどメタ文字解説読めばそんなこと分かるだろ

**デフォルトの名無しさん** · 2021/08/20(金) 03:11:03.15

厳密なのはいつもの
http://www.din.or.jp/~ohzaki/perl.htm#httpURL

**デフォルトの名無しさん** · 2021/08/20(金) 10:49:36.74

これなんで5matchsなの？
https://i.imgur.com/nxnFsqo.jpg

**デフォルトの名無しさん** · 2021/08/20(金) 10:57:32.68

ピンクの線が5本表示されとるやろ

**デフォルトの名無しさん** · 2021/08/20(金) 14:58:31.43

(abc){0}(def){0}

**デフォルトの名無しさん** · 2021/08/20(金) 23:05:42.97

>>788
>>787
ああなるほど一文字ずつマッチする上に空文字もマッチするのか

でもtest stringをabcdefとして3マッチになるかと思ったら2マッチなのな

**デフォルトの名無しさん** · 2021/08/20(金) 23:47:12.81

基本的にgreedyだから

**デフォルトの名無しさん** · 2021/08/21(土) 09:01:29.88

abc(def)?|def
空文字に一致しないよう書くべき

**デフォルトの名無しさん** · 2021/08/25(水) 01:56:14.92

windowsなんですが、正規表現を使ってファイルのリネームしたいです

hofajkfjda.jpg
fasfdajl.jpg
というファイルがあった場合

new1-hofajkfjda.jpg
new2-fasfdajl.jpg
としたいです

連番を含むのですが、正規表現で可能でしょうか？
また、何のツールを使うといいでしょうか？できればlinuxとwindowsで共通で使えるものがいいんですが。

**デフォルトの名無しさん** · 2021/08/25(水) 05:11:18.76

それ正規表現の話じゃないよねスレチ
ファイル名降順(昇順)で頭に(new連番-)付加ならFlexible Renamerとか色んなリネームソフトで出来る
任意の順ならバッチやPowerShell
後は該当スレでどうぞ

**デフォルトの名無しさん** · 2021/08/25(水) 10:49:27.59

正規表現では連番は無理なのですか？

**デフォルトの名無しさん** · 2021/08/25(水) 11:00:10.58

不可能じゃないけど、近所のコンビニへ行くのに絶対にプライベートジェットで行きたいですとか言われてる感じ
もっと他に簡単で向いている方法があるでしょって話

**デフォルトの名無しさん** · 2021/08/25(水) 11:02:04.86

文字列の集合を表す記法が正規表現
連番という集合を示せるならできるかもね
自分は知らないけど

**デフォルトの名無しさん** · 2021/08/25(水) 11:08:38.01

>>792
秀丸ファイラー

ファイル選択→「F2」→「Alt+2」、で連番リネームモードになる

**デフォルトの名無しさん** · 2021/08/25(水) 11:30:25.04

>>795
了解です

>>797
flexible renamerにしました。
これより新しくて良いソフトってあるんでしょうかね。

**デフォルトの名無しさん** · 2021/08/25(水) 11:40:19.51

質問続けるならせめて礼くらい言ってからにしろ
そもそももうスレチなんだから他へ行け池沼

**デフォルトの名無しさん** · 2021/08/25(水) 12:25:51.34

>>798
>>793読んだ上でその書き込みなら流石に傲慢が過ぎる

**デフォルトの名無しさん** · 2021/08/25(水) 13:21:49.43

Ruby で作った。
fileutils のDryRun を使ったので、実際には実行されない。
結果を予測して、表示するだけ

require 'fileutils'

# 絶対パスのディレクトリ名の後ろに、* を付けること！
# . で始まる、隠し directory, file を除く

dir_path = "C:/Users/Owner/Documents/*.jpg"
target_dir = File.dirname( dir_path ) # ディレクトリパスだけを取り出す

Dir.glob( dir_path )
.select { |full_path| File.file?( full_path ) } # ファイルのみ
.each.with_index( 1 ) do |full_path, idx| # index は、1 から始まる

dest_path = target_dir + "/new#{ idx }-" + File.basename( full_path )

FileUtils::DryRun.move( full_path, dest_path )
end

出力
mv C:/Users/Owner/Documents/abc.jpg
C:/Users/Owner/Documents/new1-abc.jpg

mv C:/Users/Owner/Documents/xyz.jpg
C:/Users/Owner/Documents/new2-xyz.jpg

**デフォルトの名無しさん** · 2021/08/25(水) 18:27:43.69

複数行モード出なくても改行に一致させる事は可能ですか？

**デフォルトの名無しさん** · 2021/08/25(水) 23:49:57.87

一致と呼んでいいのか分からないけど$が改行に対応すると思う
文字セットには使えないけどab(c|$)みたいな分岐は可能

**デフォルトの名無しさん** · 2021/08/26(木) 04:30:31.47

複数行モードって何？

mオプション（マルチラインモード）のこと？
それとも逆にオプションなし通常の場合やsオプション（シングルラインモード）のこと？

これの違いは解説でも読めば分かるけど
^ $ . の動作の違いってだけだから、\n,\rはどの場合でも有効だよ

**デフォルトの名無しさん** · 2021/08/26(木) 08:14:39.00

ありがとうございます

**デフォルトの名無しさん** · 2021/08/26(木) 15:15:16.56

JavaScriptの正規表現によるmatch検索で、「10918」ピッタリの数が存在するか調べたいときのことです
「1091」でも検索に引っかかってしまいます。
どうしたらよいでしょうか

以下の条件では10918だけでなく1091でも検索に引っ掛かります
let a = 1091;
new RegExp(`(?<!\d+)${a}(?!\d+)`, "i")

**デフォルトの名無しさん** · 2021/08/26(木) 15:17:19.26

>>806に追記
データは場合によっては「数字数字数字」になっており、そこから特定の数字だけ存在するか調べたいです

**デフォルトの名無しさん** · 2021/08/26(木) 15:44:49.58

\d+ → \\d

**デフォルトの名無しさん** · 2021/08/26(木) 16:01:36.08

関係ないけどlookbehind内で正規表現が使えない言語とか多いのな

**デフォルトの名無しさん** · 2021/08/26(木) 16:10:30.57

>>808
出来たありがとう

**デフォルトの名無しさん** · 2021/08/26(木) 17:04:06.18

区切りがあるならlook aroundする必要ないよね

**デフォルトの名無しさん** · 2021/08/26(木) 19:13:53.21

>>806
正規表現である必要ないんじゃない？
後読みの必要ある？

**デフォルトの名無しさん** · 2021/08/27(金) 16:27:34.54

aa●abbbcccd□ddeee
aa□abbbcccd●ddeee

両方にヒット表現をお願いします

**デフォルトの名無しさん** · 2021/08/27(金) 16:35:14.96

**デフォルトの名無しさん** · 2021/08/27(金) 16:35:19.05

そのまんまであれば
aa[●□]abbbcccd[●□]ddeee

**デフォルトの名無しさん** · 2021/08/27(金) 16:47:10.72

あ、そうか
aa●abbbcccd●ddeee
aa□abbbcccd□ddeee
はヒットしてほしくないのです

**デフォルトの名無しさん** · 2021/08/27(金) 16:56:56.42

じゃあ
(aa●abbbcccd□ddeee|aa□abbbcccd●ddeee)

**デフォルトの名無しさん** · 2021/08/27(金) 17:06:33.96

やっぱりそれしかないですかね。実際は
(.*●.*□.*)|(.*□.*●.*)
でこうなるのです
https://i.imgur.com/4VUmVsL.jpg

**デフォルトの名無しさん** · 2021/08/27(金) 17:09:48.92

全体をマッチ対象にしたいの?

**デフォルトの名無しさん** · 2021/08/27(金) 17:45:24.98

>>816
aa([●□])abbbcccd(?!\1)[●□]ddeee

**デフォルトの名無しさん** · 2021/08/27(金) 19:46:53.21

EmEditorはしらないなー
(?m:(.*●.*□.*)|(.*□.*●.*))

**デフォルトの名無しさん** · 2021/08/28(土) 05:34:33.30

.+?([●□]).+(?!\1)[●□].+

**デフォルトの名無しさん** · 2021/08/28(土) 08:18:57.05

>>818
そのダイアログはCtrl+Cでテキストコピーできると思うからググりやすいように
コピペしてほしいな

あとEmEditorはBoost.RegexとOnigmo(鬼雲)を使い分けられるから、
オプションでどっち使ってるのかも教えて
https://jp.emeditor.com/text-editor-features/history/new-in-version-15-7/

**デフォルトの名無しさん** · 2021/08/28(土) 10:30:00.05

>>823
---------------------------
EmEditor
---------------------------
The complexity of matching the regular expression exceeded predefined bounds. Try refactoring the regular expression to make each choice made by the state machine unambiguous. This exception is thrown to prevent "eternal" matches that take an indefinite period time to locate.
---------------------------
OK
---------------------------

例示してもらった表現いずれも同様のメッセージが出てましたが、なんとOnigmoに変更したら出なくなりました。
いろいろ新しく知ることが出来ました

**デフォルトの名無しさん** · 2021/08/28(土) 10:38:46.36

(?!\1)ってどういう意味？

**デフォルトの名無しさん** · 2021/08/28(土) 11:02:34.45

>>825
「直前に"一つ目のパターン"がない位置」を指すメタ表現

**デフォルトの名無しさん** · 2021/08/28(土) 11:25:40.94

日本語的には"直後に"じゃね？
読んで行く方向、カーソルの前方だとしても直前だと意味が逆転しそう

**デフォルトの名無しさん** · 2021/08/28(土) 13:02:42.57

>>820
この(?!/1)は分かるけどその次の[●□]との繋がりが分からん
どういうこと？

**デフォルトの名無しさん** · 2021/08/28(土) 13:33:13.98

ありがとう完全に理解した
\1 は ([●□]) のことを指してて
(?!\1)[●□] で前の ([●□]) で選んだものと被らないようにしてるわけか

**デフォルトの名無しさん** · 2021/08/28(土) 15:08:17.46

>>828
(?!\1) は「1つめの括弧で一致した内容はこの位置(の直後)には現れない」という言明

([●□]) が ● に一致したなら (?!\1) は (?!●)
([●□]) が □ に一致したなら (?!\1) は (?!□)

なので最初の [●□] と二つめの [●□] では必ず互いに異なる文字が一致する、という具合

**デフォルトの名無しさん** · 2021/08/28(土) 15:43:56.56

>>830
ああなるほどありがとう！