Regular Expression(正規表現) Part15

**デフォルトの名無しさん** · 2019/09/16(月) 22:25:11.87

Regular Expressionスレです。

質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。

前スレ
Regular Expression(正規表現) Part14
https://mevius.5ch.net/test/read.cgi/tech/1489511075/

次スレは>>980宜しく
天ぷら等>>2以降

**701** · 2021/06/24(木) 22:04:31.86

>>702
超ありがとうございました！

(肯|否)定(先|後)読みがうまく使えなくて・・・

**デフォルトの名無しさん** · 2021/06/26(土) 22:47:52.84

●Regular Expressionの使用環境
Powershell

●検索か置換か？
置換

●説明
フォルダにつけている日付のフォーマットを変えたい
作業範囲はカレントフォルダだけで良いです　#下階層には行かない

●対象データ
[2020.12.20] AA案件 [作業者A]
[2021.04.02] DD案件 [作業者BB]
[2021.06.15] GGGGG案件 [作業者D]
[2021.07.07] BBB案件 [作業者A]

●希望する結果
[201220] AA案件 [作業者A]
[210402] DD案件 [作業者BB]
[210615] GGGGG案件 [作業者D]
[210707] BBB案件 [作業者A]

よろしくお願いします。

**デフォルトの名無しさん** · 2021/06/27(日) 00:07:19.19

ほぼそのままだろ
www.atmarkit.co.jp/ait/articles/1411/07/news133.html

**デフォルトの名無しさん** · 2021/06/28(月) 18:13:23.38

pythonです

.foo.xxx_var
.foo.foo.yyy_var
この二種類の形式の文字列があるとき
xxxとyyyだけほしいんですがどう書いたらいいですか？

**デフォルトの名無しさん** · 2021/06/28(月) 18:14:54.33

xxxとyyyの部分は可変長の英数記号です

**デフォルトの名無しさん** · 2021/06/28(月) 18:34:58.46

def getxy(s):
return s[s.rfind('.')+1:s.rfind('_')]

a=getxy('.foo.xxx_var')

**デフォルトの名無しさん** · 2021/06/28(月) 18:39:07.90

('.')
('_')
顔文字みたいで可愛くてﾜﾛﾀ

**デフォルトの名無しさん** · 2021/06/28(月) 19:17:22.90

>>708
rfind知りませんでした。ありがとう

不格好だけど
findall("(.+\.)?(.+)_var")[0][1]
でも取れました。正規表現てどんな順番で書いていけばいいのかわからん…

**デフォルトの名無しさん** · 2021/06/28(月) 20:24:42.57

s='.foo.xxx_var'
re.search('([^.]*)_',s).group(1)

**デフォルトの名無しさん** · 2021/06/28(月) 20:50:58.81

Ruby で作ってみた

# 最後のドットと、_ の間の文字列を抜き出す。該当なしなら、nil を返す

def slice_string( input_str )
pos_1 = input_str.rindex( "." ) # 文字列の末尾から探す
return nil unless pos_1

pos_2 = input_str.index( "_", pos_1 + 1 ) # ドットの次の文字から探す
return nil unless pos_2

return input_str.slice( pos_1 + 1 ... pos_2 )
end

input_ary = %w(.foo.xxx_var .foo.foo.yyy_var .zz zz)

p input_ary.map{ |str| slice_string( str ) }
#=> [ "xxx", "yyy", nil, nil ]

**デフォルトの名無しさん** · 2021/06/28(月) 21:04:09.77

>>712
このキチガイどこにでも湧くのなｗ

**デフォルトの名無しさん** · 2021/06/28(月) 21:44:37.04

各言語でそれぞれ書き込む事態にでもならなきゃ自分の行いがいかにウザイかを実感できない人なんだろう
まったくの場違いだと言うのにそれに気づかないもんな

**デフォルトの名無しさん** · 2021/06/28(月) 21:48:35.68

>>713-714
なんでお前ら相手するんだ？

**デフォルトの名無しさん** · 2021/06/29(火) 00:51:17.13

jien

**デフォルトの名無しさん** · 2021/06/29(火) 13:25:19.76

先頭以外の A をすべて S に置換
って一般解としてどう書くの？

AAAEAA を ASSESS にしたいとか

**デフォルトの名無しさん** · 2021/06/29(火) 13:47:51.52

(?!^)A

**デフォルトの名無しさん** · 2021/06/29(火) 13:49:05.67

(?!^)A

**デフォルトの名無しさん** · 2021/06/29(火) 15:16:43.44

>>718-719
センキューベリーmatch

**デフォルトの名無しさん** · 2021/07/02(金) 02:33:14.69

>>720
評価する

**デフォルトの名無しさん** · 2021/07/02(金) 08:13:06.57

下URLにあるPerlのRegexp::Optimizerのように、正規表現を最適化するC/C++用ライブラリはご存じないですか？
https://metacpan.org/pod/Regexp::Optimizer

**デフォルトの名無しさん** · 2021/07/02(金) 13:04:44.47

●Regular Expressionの使用環境
python3.8.5

●検索か置換か？
置換

●説明
<数字>以外の<>を外したい

●対象データ
[<< ><test<<012>>name1><> >]
●希望する結果
[ test<012>name1 ]

**デフォルトの名無しさん** · 2021/07/02(金) 14:24:45.40

可変長の否定戻り読みが使えるなら
<(?!\d+>)|(?<!<\d+)>

数字の桁が3桁固定なら
<(?!\d+>)|(?<!<\d\d\d)>

**デフォルトの名無しさん** · 2021/07/02(金) 14:35:17.70

>>724
すいません、説明が足りなくて
可変長で、可変長扱えないです(´；ω；｀)

**デフォルトの名無しさん** · 2021/07/02(金) 14:47:29.27

あれか
<(\d+)>のサイズ取得して動的にするのか…

**デフォルトの名無しさん** · 2021/07/02(金) 14:52:33.23

>>723
re.sub(r'(<[0-9]+>)|[<>]', r'\1', '[<< ><test<<012>>name1><> >]')

>>507のパターン
これ使い勝手良いね

**デフォルトの名無しさん** · 2021/07/02(金) 14:54:06.60

>>723
pythonなら正規表現だけにこだわらなきゃ<¥d+>さえ拾えばどうとでもなるだろ。

**デフォルトの名無しさん** · 2021/07/02(金) 15:02:33.69

このスレって有能な人いてステキ///

**デフォルトの名無しさん** · 2021/07/02(金) 15:14:25.77

数値がネストした構造の一番内側にあるとは限らないんじゃないの？

**デフォルトの名無しさん** · 2021/07/02(金) 16:18:03.06

>>727
すごい
これどうなってるんですか？
なんでorの前のヤツだけ置換されるの？

**デフォルトの名無しさん** · 2021/07/02(金) 16:56:02.25

>>731
| の左右どちらに一致した場合でも \1 に置換している
ただし片方にしか \1 に対応する括弧がない——というのがミソ

左側 (<[0-9]+>) に一致したときの \1 は一致した全体なので結果として何も変わらない
右側 [<>] に一致したときの \1 は空なので削除される

**デフォルトの名無しさん** · 2021/07/02(金) 17:12:17.66

<><abc><value<123<x>>/value><>
こういうパターンはあるのか？

**デフォルトの名無しさん** · 2021/07/02(金) 17:17:38.07

> ●説明
> <数字>以外の<>を外したい

**デフォルトの名無しさん** · 2021/07/02(金) 17:22:56.52

>>732
あーなるほど
すごいなあ

**デフォルトの名無しさん** · 2021/07/02(金) 17:26:47.31

>>734
だからもしこういうのがあるのなら、上の回答じゃダメじゃん
<abc>は消えないぞ

**デフォルトの名無しさん** · 2021/07/02(金) 17:29:30.28

こいつ無能そう

**デフォルトの名無しさん** · 2021/07/02(金) 17:49:16.07

size = 4
s1 = entry.get()
s2 = re.sub(r'(<\d+>)|[<>]|[\\/:*?"|]+', r'\1', s1)
ss = [re.sub(r'<(\d+)>', lambda m: f'{{:0{len(m[1])}}}'.format(int(m[1])+i), s2) for i in range(size)]

簡単な範囲リネームソフト作ってて､windowsで使えない文字外して<数字>はカウントアップがしたかったのでこれで大丈夫のようです.たぶん
入力(スタート値) dir<001>のときリネーム範囲が2ならdir001,dir002を生成するみたいな

**デフォルトの名無しさん** · 2021/07/02(金) 18:45:34.59

でもさー
結局のところ自分の理解できる範囲で対処できないとブラックボックスでしかないから保守できないよな

**デフォルトの名無しさん** · 2021/07/02(金) 19:31:10.32

掲示板で説明できることには限界があるからな

**デフォルトの名無しさん** · 2021/07/02(金) 20:03:30.56

>>736
なんの環境だと消えないんだろう

**デフォルトの名無しさん** · 2021/07/02(金) 21:23:02.60

ネストがある構造物は、パーサーを使わないと保守できない。
Ruby のNokogiri みたいな、XML/HTML パーサー

正規表現でバグると、他人が手を出せないので、
結局、パーサーで作り直しになる

アンチパターンの常識

モジュール・デザインパターンの知識が無いから、
何にでも正規表現を使う、香具師と言われている

**デフォルトの名無しさん** · 2021/07/02(金) 21:48:40.11

ネストがある構造はRDBで管理するという方法もあるな

**デフォルトの名無しさん** · 2021/07/02(金) 23:39:59.09

>>727 のパターンは構造を見てない
ノンマッチな><だってホイホイ喰っちまう奴なんだぜ

**デフォルトの名無しさん** · 2021/07/03(土) 03:31:09.01

manの解析させるルーチンで無制限にネスト潜るの一度だけ書いたこと思い出したわ

**デフォルトの名無しさん** · 2021/07/05(月) 13:22:47.46

1行に「半角スペースと全角スペースが3文字以上ある時」を検出するにはどうすればいいのでしょう？

**デフォルトの名無しさん** · 2021/07/05(月) 13:38:25.68

(.*\040|.*\201\100){3}
とかか

**デフォルトの名無しさん** · 2021/07/05(月) 13:43:46.12

>>747
ありがとう試してみます

**デフォルトの名無しさん** · 2021/07/05(月) 13:46:58.03

>>747
SJISだったらこうしないとだめか
(([^\201-\237\340-\357]|[\201-\237\340-\357].)*(\040|\201\100)){3}

**デフォルトの名無しさん** · 2021/07/05(月) 18:52:47.25

●Regular Expressionの使用環境
サクラエディタ

●検索か置換か？
検索（正規表現で色を付けるため）

●説明
各行の「CR」または「LF」の改行コード部分に一致（CR+LFは一致させない）

●対象データ
あ\r
い\n
う\r\n

●希望する結果
\r
\n

よろしくお願いします

**750** · 2021/07/05(月) 19:33:48.25

なんとか自分で調べて見たんですが、下の正規表現で合ってますか？
[\r\n](?!\n)$

**デフォルトの名無しさん** · 2021/07/05(月) 21:45:00.65

(\r(?!\n))|((?<!\r)\n)
でどうだろう

**デフォルトの名無しさん** · 2021/07/05(月) 22:18:11.17

\r$|[^\r]\n$
じゃダメなのかな？

**デフォルトの名無しさん** · 2021/07/09(金) 02:51:04.10

文中もしくは単独で特定の文字列がある場合を除く
ってどうやるの？

**デフォルトの名無しさん** · 2021/07/09(金) 07:34:09.88

^(?~特定の文字列)$
^(?!.*特定の文字列).*$

**デフォルトの名無しさん** · 2021/07/09(金) 09:09:31.42

わざわざ貪欲にする必要性がわからん

**デフォルトの名無しさん** · 2021/07/11(日) 13:43:32.51

>>754
鬼雲に非包含オペレータを実装した話
https://qiita.com/k-takata/items/4e45121081c83d3d5bfd

**デフォルトの名無しさん** · 2021/07/11(日) 13:46:58.01

>>754
非包含パラメータの提唱者のスライドと論文
https://staff.aist.go.jp/tanaka-akira/pub/prosym49-akr-presen.pdf
https://staff.aist.go.jp/tanaka-akira/pub/prosym49-akr-paper.pdf

**デフォルトの名無しさん** · 2021/07/11(日) 19:12:06.67

近似解のなにが近似なのかわからん

**デフォルトの名無しさん** · 2021/07/11(日) 21:26:31.70

>>758
×非包含パラメータ
○非包含オペレータ

**デフォルトの名無しさん** · 2021/07/12(月) 09:02:05.45

>>759
他の正規表現とつなげると問題が起こる。
例えばコメントの直後にbbbが来るのを \/\*.*?\*\/bbb として
/* */aaa/* */bbb
にマッチさせると /* */aaa の部分も含んで全体がマッチしてしまう。

**デフォルトの名無しさん** · 2021/07/12(月) 15:36:01.58

なるほど
ありがとうございます

**デフォルトの名無しさん** · 2021/07/12(月) 16:40:03.21

でも少なくとも解２でいいんじゃないか
表現力もたいして変わらない
数文字減るだけののシンタックスシュガーに見える

**デフォルトの名無しさん** · 2021/07/29(木) 13:50:04.06

●Regular Expressionの使用環境
cygwin grep

●検索か置換か？
検索

●説明
テキストファイルに含まれる改行コードの検索

●対象データ
\r\n(0x0d0a)と\r(0x0d)が混在しているテキストファイル

●希望する結果
それらを検出して \r\nに統一したい。

grep -n -U -P '\x0d'
で検索をかけるとヒットするが
grep -n -U -P '\x0a'
ではなぜか１行もヒットしない
バイナリで確認すると0x0d0aはちゃんと存在しています・・。

とりあえずまずは0x0aを検索にヒットさせたいです。
その後
grep -n -U -P '\x0d[^\x0a]'
のような感じで0x0dの後ろが0x0aでない行を検索して置換できれば良いかなと考えています。
よろしくおねがいします

**デフォルトの名無しさん** · 2021/07/29(木) 14:18:21.31

無駄無駄無駄～

**デフォルトの名無しさん** · 2021/07/29(木) 14:21:22.66

>>764
-aも足してgrep -nUaPでも試してみては？

**デフォルトの名無しさん** · 2021/07/29(木) 18:49:46.76

0xが邪魔だったりして

**デフォルトの名無しさん** · 2021/07/29(木) 21:48:27.13

>>764
そのテキストファイルはASCIIなの？
UTF-16だったりEBCDICだったりしない？

**デフォルトの名無しさん** · 2021/07/29(木) 21:52:11.90

>>764
なぜかマッチしないのはcygwin付属のgrepコマンドのバグかもしれないし、
cygwin本体のバージョンを書くか
ダウンロードサイトも書くべきかと

**デフォルトの名無しさん** · 2021/07/29(木) 21:56:20.74

>>764
あとは-Uオプションを外してどうなるか試してみるとか

**デフォルトの名無しさん** · 2021/07/30(金) 00:49:58.41

単純に\nがgrepに食われてるだけだと思う

オプションに-zを入れれば\0区切りになるから\nは残せそうだけど
ファイル全体が１行になるだろうからやりたい事は多分できない

\rを\r\nに統一したいなら各行の末尾以外の\rを\r\nに置換すれば良さそう
grepで検索だけして手作業で直すつもりなのかな

**デフォルトの名無しさん** · 2021/07/31(土) 20:32:32.88

>>764
解決したの？

**デフォルトの名無しさん** · 2021/07/31(土) 20:46:25.03

テキストファイルなんだよね？
だったらテキストエディタで開いて改行コードをCRLFに指定して保存するだけで
改行コードは揃うと思うけど
俺の使ってるエディタでCRLF,CR,LFの3つを混在させたファイルでやってみたけど
全部CRLFに変わってくれたよ

**デフォルトの名無しさん** · 2021/08/01(日) 06:07:28.90

grepは行単位で処理するが、行は\nで終わることになってる
>>771のいうようにgrepが\nを食ってしまうので\nは検索できない
行末にマッチさせたいなら\nではなく$を使う

が、改行コード変換したいだけならCygwinに最初から入ってるunix2dos/dos2unixでも使えばいい

**デフォルトの名無しさん** · 2021/08/01(日) 21:54:31.32

>>774
単独のCR(\r)は古いMACに見られる改行コードだから
UNIXの改行LF(\n)でもDOSの改行CRLF(\r\n)でもないよ

**デフォルトの名無しさん** · 2021/08/01(日) 23:37:51.19

>>775
dos2unix/unix2dosは旧macの改行も変換できるので問題ない

**デフォルトの名無しさん** · 2021/08/18(水) 07:15:11.84

ニュー速VIP板

(?<=ニュー速)VIP(?=板)

↑これは分かるけど

(?=ニュー速)VIP(?<=板)

↑これが分からん

**デフォルトの名無しさん** · 2021/08/18(水) 08:14:34.80

(?=ニュー速)VIP
VIP(?<=板)
これらに一致するものは有り得ない

(?=.*ニュー速)VIP
こうなら有り得る

先読み
(?=abc)
はabcの左側aの手前の「位置」に一致するもの
xabcとあればxとaの間の位置に一致

戻り読み
(?<=abc)
は先読みと反対でabcの後ろcの後の「位置」に一致するもの
abcxとあればcとxの間の位置に一致

つまり
(?=ニュー速)　は「ニュー速」の「ニ」の手前の位置に一致するものなので
(?=ニュー速)ニュー速　で無ければ絶対に一致しない条件式となる

**デフォルトの名無しさん** · 2021/08/18(水) 08:27:16.61

焦りすぎ

**デフォルトの名無しさん** · 2021/08/18(水) 09:49:36.54

>>778
ああ分かった /VIP(?<=IP)/ というのはVIPの右に(?)がある事からしてVIPのPの右の位置にマシンがカーソルを合わせて次に<という左矢印がある事からしてカーソルの左側にPがあるかどうかを探って次にその一つ左にカーソルを動かしてそのカーソルの左側にIがあるかを探るって訳か

文字にするとややこしいけどイメージはしやすいな

**デフォルトの名無しさん** · 2021/08/18(水) 10:53:19.72

> ニュー速VIP板ニュー速板

二つ目の「ニュー速」だけを対象にしたい
(?<=VIP板)ニュー速
前方に「VIP板」のある「ニュー速」

一つ目の「ニュー速」だけを対象にしたい
ニュー速(?=VIP板)
後方に「VIP板」のある「ニュー速」

**デフォルトの名無しさん** · 2021/08/18(水) 11:43:36.15

(否|肯)定(先|後)読みは、^(行頭)や$(行末)と同様に"位置"にマッチするメタ文字(「アンカー」)として機能する

**デフォルトの名無しさん** · 2021/08/20(金) 00:20:17.08

ここにある正規表現サンプルのURLを取得する正規表現ですけど
間違ってないですか？
https://www.megasoft.co.jp/mifes/seiki/s310.html

urlに'があるurlだと'の後が取得できなくなる。

**デフォルトの名無しさん** · 2021/08/20(金) 01:44:25.03

>>783
間違ってるけどメタ文字解説読めばそんなこと分かるだろ

**デフォルトの名無しさん** · 2021/08/20(金) 03:11:03.15

厳密なのはいつもの
http://www.din.or.jp/~ohzaki/perl.htm#httpURL

**デフォルトの名無しさん** · 2021/08/20(金) 10:49:36.74

これなんで5matchsなの？
https://i.imgur.com/nxnFsqo.jpg

**デフォルトの名無しさん** · 2021/08/20(金) 10:57:32.68

ピンクの線が5本表示されとるやろ

**デフォルトの名無しさん** · 2021/08/20(金) 14:58:31.43

(abc){0}(def){0}

**デフォルトの名無しさん** · 2021/08/20(金) 23:05:42.97

>>788
>>787
ああなるほど一文字ずつマッチする上に空文字もマッチするのか

でもtest stringをabcdefとして3マッチになるかと思ったら2マッチなのな

**デフォルトの名無しさん** · 2021/08/20(金) 23:47:12.81

基本的にgreedyだから

**デフォルトの名無しさん** · 2021/08/21(土) 09:01:29.88

abc(def)?|def
空文字に一致しないよう書くべき

**デフォルトの名無しさん** · 2021/08/25(水) 01:56:14.92

windowsなんですが、正規表現を使ってファイルのリネームしたいです

hofajkfjda.jpg
fasfdajl.jpg
というファイルがあった場合

new1-hofajkfjda.jpg
new2-fasfdajl.jpg
としたいです

連番を含むのですが、正規表現で可能でしょうか？
また、何のツールを使うといいでしょうか？できればlinuxとwindowsで共通で使えるものがいいんですが。

**デフォルトの名無しさん** · 2021/08/25(水) 05:11:18.76

それ正規表現の話じゃないよねスレチ
ファイル名降順(昇順)で頭に(new連番-)付加ならFlexible Renamerとか色んなリネームソフトで出来る
任意の順ならバッチやPowerShell
後は該当スレでどうぞ

**デフォルトの名無しさん** · 2021/08/25(水) 10:49:27.59

正規表現では連番は無理なのですか？

**デフォルトの名無しさん** · 2021/08/25(水) 11:00:10.58

不可能じゃないけど、近所のコンビニへ行くのに絶対にプライベートジェットで行きたいですとか言われてる感じ
もっと他に簡単で向いている方法があるでしょって話

**デフォルトの名無しさん** · 2021/08/25(水) 11:02:04.86

文字列の集合を表す記法が正規表現
連番という集合を示せるならできるかもね
自分は知らないけど

**デフォルトの名無しさん** · 2021/08/25(水) 11:08:38.01

>>792
秀丸ファイラー

ファイル選択→「F2」→「Alt+2」、で連番リネームモードになる

**デフォルトの名無しさん** · 2021/08/25(水) 11:30:25.04

>>795
了解です

>>797
flexible renamerにしました。
これより新しくて良いソフトってあるんでしょうかね。

**デフォルトの名無しさん** · 2021/08/25(水) 11:40:19.51

質問続けるならせめて礼くらい言ってからにしろ
そもそももうスレチなんだから他へ行け池沼

**デフォルトの名無しさん** · 2021/08/25(水) 12:25:51.34

>>798
>>793読んだ上でその書き込みなら流石に傲慢が過ぎる

**デフォルトの名無しさん** · 2021/08/25(水) 13:21:49.43

Ruby で作った。
fileutils のDryRun を使ったので、実際には実行されない。
結果を予測して、表示するだけ

require 'fileutils'

# 絶対パスのディレクトリ名の後ろに、* を付けること！
# . で始まる、隠し directory, file を除く

dir_path = "C:/Users/Owner/Documents/*.jpg"
target_dir = File.dirname( dir_path ) # ディレクトリパスだけを取り出す

Dir.glob( dir_path )
.select { |full_path| File.file?( full_path ) } # ファイルのみ
.each.with_index( 1 ) do |full_path, idx| # index は、1 から始まる

dest_path = target_dir + "/new#{ idx }-" + File.basename( full_path )

FileUtils::DryRun.move( full_path, dest_path )
end

出力
mv C:/Users/Owner/Documents/abc.jpg
C:/Users/Owner/Documents/new1-abc.jpg

mv C:/Users/Owner/Documents/xyz.jpg
C:/Users/Owner/Documents/new2-xyz.jpg

**デフォルトの名無しさん** · 2021/08/25(水) 18:27:43.69

複数行モード出なくても改行に一致させる事は可能ですか？