Regular Expression(正規表現) Part16

**デフォルトの名無しさん** · 2021/11/03(水) 19:50:01.71

Regular Expressionスレです。

質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。

前スレ
Regular Expression(正規表現) Part15
https://mevius.5ch.net/test/read.cgi/tech/1568640311/

次スレは>>980宜しく
天ぷら等>>2以降

**デフォルトの名無しさん** · 2021/11/03(水) 19:51:06.60

スルーされにくい質問のテンプレと例

●Regular Expressionの使用環境
Java1.5

●検索か置換か？
検索

●説明
各行の1番目のAまでを検索したい

●対象データ
ABCA
BCAA
CABA

●希望する結果
ABCA
^
BCAA
^^^
CABA
^^

※ ^ はアンダーラインだそうな ^^;

**デフォルトの名無しさん** · 2021/11/03(水) 19:51:26.32

◆関連サイト
正規表現メモ
http://www.kt.rim.or.jp/~kbk/regex/regex.html
Perl正規表現雑技
http://www.din.or.jp/~ohzaki/regex.htm

詳説正規表現
http://www.oreilly.co.jp/books/9784873113593/
正規表現クックブック
http://www.oreilly.co.jp/books/9784873114507/

正規表現プログラミングFAQ
http://capslockabcjp.kitunebi.com/faq.html
.NET Framework の正規表現 | Microsoft Docs
https://docs.microsoft.com/ja-jp/dotnet/standard/base-types/regular-expressions
正規表現 - JavaScript | MDN
https://developer.mozilla.org/ja/docs/Web/JavaScript/Guide/Regular_Expressions
鬼車
https://github.com/kkos/oniguruma
鬼雲
https://github.com/k-takata/Onigmo
bregonig.dll(鬼雲の正規表現をサクラエディタ等で使用するためのライブラリ)
http://k-takata.o.oo7.jp/mysoft/bregonig.html
Boost.Regex 1.45.0 (日本語訳)
http://alpha.sourceforge.jp/devel/boost.regex_ja_1_45_0.pdf

秀丸：複数行にまたがる検索について
http://homepage2.nifty.com/jr-kun/hidemaru_qa/4_regulr.html#RETURNS

サクラエディタ：改行
http://d.hatena.ne.jp/myokoym/20101219/1292779058
※ サクラエディタでは複数行に渡る検索・置換は出来ません。

**デフォルトの名無しさん** · 2021/11/03(水) 19:54:20.40

正規表現技術入門
https://gihyo.jp/book/2015/978-4-7741-7270-5

↑の著者の一人であり Onigmo(鬼雲)やbregonig.dll の作者でもあるtakata先生のツイとQiitaの記事
https://twitter.com/k_takata

鬼雲に非包含オペレータを実装した話
https://qiita.com/k-takata/items/4e45121081c83d3d5bfd
https://twitter.com/5chan_nel (5ch newer account)

**デフォルトの名無しさん** · 2021/11/03(水) 20:59:16.79

>>1
スレ立てありがとう

ところで、C++コンパイラごとにbasic_regex::replace()の置換後文字列のバックスラッシュがエスケープされたりされなかったりするのが厄介ですね

**デフォルトの名無しさん** · 2021/11/03(水) 21:43:29.56

https://troutlurefishing.jp/regex.htm
https://murashun.jp/article/programming/regular-expression.html
https://www.itmedia.co.jp/news/articles/2111/02/news174.html

**デフォルトの名無しさん** · 2021/11/04(木) 11:16:22.06

nifty の URL 死んでるな

**デフォルトの名無しさん** · 2021/11/04(木) 11:42:25.33

DeNAが個人ブログから正規表現の表丸パクりしてたのワロタ

**デフォルトの名無しさん** · 2021/11/04(木) 11:59:17.47

丸パクリならまだいい
改変もまともにできないのはヤバい

正規表現の例　マッチする例
Coo+el　　　　Coopel

https://pbs.twimg.com/media/FC7n-5zaUAETKej.jpg

**デフォルトの名無しさん** · 2021/11/04(木) 12:31:32.50

>>9
どゆこと？

**デフォルトの名無しさん** · 2021/11/04(木) 12:38:22.63

>>10
oの1回以上の繰り返しじゃ
pにマッチするわけないです

**デフォルトの名無しさん** · 2021/11/04(木) 12:48:06.96

元がgoogleを例にしてたからこうなったのかな
いずれにしてもワロタ

**デフォルトの名無しさん** · 2021/11/04(木) 12:49:09.54

>>10
https://regex101.com/r/8ri3Js/1

**デフォルトの名無しさん** · 2021/11/04(木) 14:21:26.74

>>11
ああ、勝手に.入れてた
ほんとだひどいな

**デフォルトの名無しさん** · 2021/11/04(木) 14:53:30.31

劣化コピーだから責められてて
上品だったら叩けない訳か

**デフォルトの名無しさん** · 2021/11/05(金) 08:20:43.21

本歌取りと言う言葉もありますし

**デフォルトの名無しさん** · 2021/11/05(金) 11:40:57.68

オマージュ・インスパイア→胡散臭い
本歌取り→凄そう

**デフォルトの名無しさん** · 2021/11/05(金) 12:37:40.52

本歌取りに良いイメージがあるのは、この行為が和歌の世界で伝統的に許されてきたからだ。

**デフォルトの名無しさん** · 2021/11/06(土) 20:39:20.57

祝☆ vim 3o+年

**デフォルトの名無しさん** · 2021/11/06(土) 21:18:49.31

>>19
スレ違い

**デフォルトの名無しさん** · 2021/11/07(日) 00:36:45.12

(/(>>1)/,'$1乙')

**デフォルトの名無しさん** · 2021/11/15(月) 00:01:22.12

今までに無いかつら、非包含オペレータ
https://bokete.jp/odai/533281

**デフォルトの名無しさん** · 2021/11/15(月) 10:09:56.72

vimで文字列処理ってマイナーなのか？
UIでマッチをハイライトしながらパターンを書けるし、書いたパターンと処理はperlやsedのようにコマンドライン引数で渡してシェルスクリプトに組み込める(UI無し、非インタラクティブモード)

vimはバッファするからストリーム処理には向かないくて、パイプにはperlを使うけど、バッチ処理ならvimの方が速い

あと、個人的にアサーションの記法(\@<=等)も、()が深くなりがちなperl系の(?<=等)より好みだ

**デフォルトの名無しさん** · 2021/11/15(月) 10:57:59.40

惜しむらくは、マッチ後の単純でない処理を委託するvimscriptがクソなところだと思う、regex自体は十分パワフル
perlは任意のロジックをperl式に移譲するのが楽、パターンにも書けるし、大抵インラインで済む

vim9で大幅に言語変えるっぽいけど、どうなるやら

**デフォルトの名無しさん** · 2021/11/15(月) 11:19:19.50

()が減るケースって実用的にはあまり無いんじゃないか？アサーションの修飾対象がグループなら、どうせ()が必要になるわけだし

アサーションの\@が後置なのはperl系より一貫性があって良い設計だと思う、?,+,* etcと同列の修飾子とみなせる

**デフォルトの名無しさん** · 2021/11/15(月) 21:36:14.28

非包含オペレータの提案者の方の過去ログ漁ってたらすごいの出てきた
ttp://www.a-k-r.org/pub/2013-06-02-rubyhiroba-akr.pdf

これを使えば２次元の彼女が見つかりそう

**デフォルトの名無しさん** · 2021/11/17(水) 00:30:09.97

pythonで文字列分割をする時
１：・ー└等の1文字と、半角スペース3つ以上のいずれかで文字列を分解したい
re.splitで、思いつく限りやってみましたが、うまく行きませんでした。
[・ー└]|( ){3,}
[・ー└( ){3,}]
[・ー└(( ){3,})]
試しにre.sub(〜, "", ・・・)で文字列が削除出来るかどうか試したときは半角スペース3つが消えました。
いくつかの文字もしくは特定の文字の繰り返し、で文字列を分解する書き方はありますでしょうか

**デフォルトの名無しさん** · 2021/11/17(水) 00:32:30.60

上記で、分かりにくくてすみません、
>１：・ー└等の1文字と、半角スペース3つ以上のいずれかで文字列を分解したい
この「１：」は気にしないでください。
また、re.subで上手く行ったのは、１つめに書いた [・ー└]|( ){3,} です

**デフォルトの名無しさん** · 2021/11/17(水) 01:31:56.09

[・ー└]|( ){3,}　→　合ってる
[・ー└( ){3,}]　→　間違い
[・ー└(( ){3,})] 　→　間違い

文字コードが uft-8 以外で書かれている文書を扱ってるとか？
そうなら　python 文字コード　でググって文書を uft-8 に変換してから split

**デフォルトの名無しさん** · 2021/11/17(水) 02:52:26.84

( → (?:

**デフォルトの名無しさん** · 2021/11/17(水) 04:06:28.28

>>29
そもそも単文字なんだしグループにする必要なくね？

**デフォルトの名無しさん** · 2021/11/17(水) 09:04:44.07

>>28
上でも書かれているが()は要らんよ。
import re
s='これ・はテスートなの└かテストなのです'
print(re.split('[・ー└]| {3,}',s))

**デフォルトの名無しさん** · 2021/11/17(水) 10:12:43.95

正規表現に生の半角スペース使うのは一見気づきにくくて余り好きじゃないなぁ
\x20 にしない人多いのかな

**デフォルトの名無しさん** · 2021/11/17(水) 10:36:58.04

俺は生派
\sを使う人もいるけど俺は嫌

**デフォルトの名無しさん** · 2021/11/17(水) 10:39:17.25

エディタの設定で可視化もできるしね。>半角スペース

**デフォルトの名無しさん** · 2021/11/17(水) 10:39:47.05

this is a pen
を
this\x20is\x20a\x20pen
とかも嫌

**デフォルトの名無しさん** · 2021/11/17(水) 10:56:31.05

文章になってるものまで生で使わないと言うわけじゃないけどな
ブラケットの中で使う場合なんかは生は避けたいわ
[ 　]とかよく見かけるけど、分かりづらい

なお、\sは半角スペースを含むけどそれ自体じゃないので普通は区別して使うでしょ

29 · 2021/11/17(水) 11:01:36.46

this[ ]is[ ]a[ ]pen

proxomitronのフィルタ職人をやってるときはこうやってた
今だと this\ is\ a\ pen かな？使ったことないけどｗ
\s は環境によっては全角スぺにマッチするから気を付けないとね

**デフォルトの名無しさん** · 2021/11/17(水) 11:32:27.19

>>37
エディタ上でははっきりと区別がつくけど
こんな所へ貼る場合は確かに分かり難いね
まあこの場合は目的が分かってるので分かりやすいとも言えるけど

**デフォルトの名無しさん** · 2021/11/17(水) 20:33:29.63

Jane用の正規表現を掲示板に貼るときにはタブ文字のところを【tab】って
書き換えて貼ってたなぁ、しかしJane自体が廃れて使うことが無くなった

27 · 2021/11/17(水) 23:51:26.36

27です
こんなにも早く教えてくださってとても助かりました！
()が要らなかったんですね。勉強になります！
ありがとうございました！

29 · 2021/11/19(金) 20:58:09.22

これの検証してみた

Absence operator is broken #150
https://github.com/k-takata/Onigmo/issues/150

・検証コード (ruby 3.0.2p107 (2021-07-07 revision 0db68f0233) [x64-mingw32])
p /(?~a.*[bv].*c)/.match("000a111v222c333b444c555")

・結果
#<MatchData "000a111v222c333b444">

a～v～c を含んでしまってるのでバグで確定
原因は最初にマッチした段階で検索を打ち切ってしまっていて
別のパターンを見逃している

別のパターンを見つける必要があることは非包含オペレータ提案者さんの論文で
図付きで説明されてるけどこれを見落としてしまったオチ？

直すには論文通りに実装すれば良いだけなので直せないことは無さそう
自分がプログラミング出来れば直したいけどミジンコなので手も足も出ず..
-------------------------------------------------------
>>41 おつー

29 · 2021/11/19(金) 23:35:42.78

ついでにもう１つだけ

Use of \K when the string to match after \K can be empty #152
https://github.com/k-takata/Onigmo/issues/152

これは \K を使ってゼロ幅マッチになった場合に次の検索開始位置が
予期せず1つ進んでしまう問題のようだ

gsubの仕様かなと思ったけど (?<=\w) と \w\K の2つが違う結果になるのは
違和感ある、\K でのゼロ幅マッチ後の pos を進まないようにすれば直りそう

takata先生の代わりにちゃちゃっと始末してくれるスーパーハカーさん募集

29 · 2021/11/20(土) 00:06:32.69

\K より前で文字を消費していない場合は pos は進まないようだ
/\K/　 → pos進まず
/.\K/　→ 予期せずpos進んでしまう

**デフォルトの名無しさん** · 2021/11/20(土) 13:49:08.95

>>42
イシュー150の起票者がオリジナルの鬼車作者さんやんけｗ

29 · 2021/11/20(土) 14:09:45.26

>>45 そうなんだよね、だから気になってた

-------------------------------------------------
>>42 とは別の検証をしてみた

p /(?~a.*b.*c|222)/.match("000a111b222c333")
#<MatchData "000a111b22">

これは期待通りにマッチした、これが正しく動くということは
論文の読み落としではないね、失礼しました

問題は同一posでマッチ文字数が最短になるマッチを見つけなければいけないが
それをしていないことみたいだ
この処理って結構な処理量になりそうだけど大丈夫なのかな？

オペレータ提案者さんのサンプルコードではどうなってるんだろ？
プログラムが読めないから対応出来てるのか分からない..

あまりに重いようなら量指定子を使えるようにしたほうが良いかもしれない
.*　を　.{0,1000}　に書き換えて処理量を限定させるのと同じで
(?~abc){0,1000}　みたいな指定が出来るようにすれば..

29 · 2021/11/25(木) 18:40:51.33

Onigmo のバグの原因となった個所が判明したので書いておこう

正規表現における非包含オペレータの提案
ttps://staff.aist.go.jp/tanaka-akira/pub/prosym49-akr-paper.pdf

この論文のサンプルコードに下記のメソッドがある

def try_alt(r1, r2, str, pos, &block)
try(r1, str, pos, &block)
try(r2, str, pos, &block)
end

これは正規表現で言うと r1|r2 の "|" にあたる動作をする部分のメソッドだが
このサンプルコードでは r1 のマッチが成功した後でも必ず r2 を試す仕様になっている

しかし Onigmo の検索方式では r1 がマッチした後に正規表現の最後までマッチが
成立した場合には r2 が試されない仕様になっている
これにより r2 を通る一部パターンが見落とされる結果となりバグとして出現した

論文中の非包含オペレータのメソッドである def try_absent(r, str, pos) は
上記の def try_alt を使う前提で書かれたものなのでこれをそのまま Onigmo には移植出来ない

サンプルコード方式での処理量を考えるとおそらくこれとはまったく別のアルゴリズムで動く
動作の軽いメソッドを自作しないと Onigmo には導入出来ないのではないだろうか..

29 · 2021/11/25(木) 19:06:15.35

論文3ページ目の右半分に表３がある

r1r2　　｜　　[:seq, r1, r2]

ここの :seq は r1 と r2 を連接するという意味で使われているが
サンプルコードでは :seq を使わず :cat になっている
ここで疑問なのが何故違う名前を使うことになったのか？である

(仮説１)　非包含オペレータ提案者さんは猫が好き

ごろにゃんしながらバックトラックにゃんである

(仮説２)　cat は Unix でよく使われる連結コマンドであり catenate から由来する

これもなかなかの難問である

**デフォルトの名無しさん** · 2021/11/29(月) 20:58:37.88

ある短い英単語が文章に含まれているかどうかを判定したいのですが、
他の英単語の一部に含まれているようなときは除外したいです。
例：検索単語：ap、
○：ap is short of...
○：これはapです
NG：pen pineapple apple pen
つまり、『単語の前後に文字がある場合は、それらがアルファベットでない』という条件を加えたいのですが、
これの実現方法に詰まっています。
[^a-zA-Z]ap[^a-zA-Z]
の至るところに、.*や*や+を様々なパターン試したのですがうまく行かず。。。
うまく行ったと思っても、指定単語が文頭や文末に来て、前後のどちらかに文字がないときはうまく行きません。
どなたかご教授頂けませんでしょうか。

**デフォルトの名無しさん** · 2021/11/29(月) 21:09:24.49

>>49
(?<![a-zA-Z])ap(?![a-zA-Z])
もし英文のみなら
\bap\b
でも可

**デフォルトの名無しさん** · 2021/11/29(月) 21:22:37.81

こんなに早く教えていただいてありがとうございます。
試してみたのですが、うまく行きませんでした。検証方法間違ってますでしょうか？
----------------
value="abc ap abc"
pattern = "(?<![a-zA-Z])ap(?![a-zA-Z])"
re.match(pattern, value)
※何も取得できず
----------------

**デフォルトの名無しさん** · 2021/11/29(月) 21:35:41.08

re.matchじゃなくてre.search
matchは先頭位置からしかマッチするか調べない

**デフォルトの名無しさん** · 2021/11/29(月) 21:41:33.24

ところで
ap'ｓとかap-dataとかもろもろの扱いはいいのか？

**デフォルトの名無しさん** · 2021/11/29(月) 22:02:03.30

>>52
ありがとうございます！うまく行きました！
大変初歩的な間違い、失礼いたしました。。。ご助言ありがとうございます

>>53
ご指摘ありがとうございます。そこの考慮をしていませんでした。
今回はたまたま問題ありませんでしたが、これからは考えます。
ありがとうございました。

29 · 2021/12/06(月) 21:53:22.08

rubyのコードが読めたから調子に乗って鬼車のソースからのインストールと
simple.c の実行に挑戦してみたら成功するまで10日くらいかかった

win10 パソコンで VMware を動かして中に ubuntu 20.04 を入れて
oniguruma 6.9.7 をインストした
あとは C言語で書かれたサンプルコードを解析すれば oniguruma の
色々なオプションを試せるようになる..

Unix も C言語も知らないしプログラマでもないミジンコだけどググりまくれば
意外と何とかなりそうだ、次は Onigmo を入れよう..

29 · 2021/12/07(火) 02:27:56.29

Onigmo もインスト出来たけど simple.c の実行結果がおかしい

// oniguruma の場合
match at 4
0: (4-14)
1: (5-13)

// Onigmo の場合
match at 4
0: (21474836484-55834574862)
1: (0-0)

インスト失敗か？

README_japanese に書いてある "onig-config --cflags" での構成確認は
oniguruma と Onigmo で同じコマンドだけど共通のコマンドなのかな？
両方入れたからどっちの構成を確認してるのか分からない

29 · 2021/12/07(火) 04:28:00.86

↑の構成確認の件はOnigmo の README.ja の 111 ～ 114 行目が
oniguruma の説明のままなだけだった、takata先生更新を..
.ja が付いてない英語版も同様です

github の Onigmo のトップページでは正しく
"onigmo-config --cflags" と書いてありました

29 · 2021/12/07(火) 15:13:24.06

↑ の件ですが README.ja の 61 行目の

＞以下、鬼車の README.ja:

を見落としておりました、鬼車の説明書きのコピペだったのね..orz

>>56 の Onigmo の結果がおかしかったのも↓で正常動作しました

間違い： cc sample.c -L/usr/local/lib -lonig
正しい： cc sample.c -L/usr/local/lib -lonigmo

お騒がせして申し訳ありません m(__)m

29 · 2021/12/14(火) 23:52:24.48

perl5と鬼車、鬼雲の動作を比べて遊んでたらperl5の変な挙動を発見
\d{1} の {1} を付けるか消すかで結果が変わる

---------------------------
my $str = '12';
$str =~ s/(?<name>\d{1}){0}(?&name)/<match=$&>/;
print "$str\r\n";
---------------------------
↓{0} での定義を (?(DEFINE) ... ) に変えると正常動作する
---------------------------
my $str = '12';
$str =~ s/(?(DEFINE)(?<name>\d{1}))(?&name)/<match=$&>/;
print "$str\r\n";
---------------------------
perl 5, version 32, subversion 1 (v5.32.1) built for MSWin32-x64-multi-thread

29 · 2021/12/15(水) 05:01:54.34

・ {0} での定義ではマッチせず
---------------------------
my $str = '123';
$str =~ s/(?<name>123){0}(?&name)/<match=$&>/;
print "$str\r\n";

・DEFINEを使うと正常動作する
---------------------------
my $str = '123';
$str =~ s/(?(DEFINE)(?<name>123))(?&name)/<match=$&>/;
print "$str\r\n";
---------------------------

perl5 では {0} で定義するのは想定外？

29 · 2021/12/16(木) 22:14:43.92

onigurumaの非包含オペレータの動作が論文と違う
正規表現　^(?~abc)　をテキスト　0123abcd　に対して検索して比較すると..

論文の動作　　　　：　0123ab　がマッチする
onigurumaの動作　：　0123　　がマッチする

逆に Onigmo は分岐が含まれない正規表現なら論文通りに動作するので
この場合は論文と同じ動作をする

動作的には　((?!abc).)*　と同じなので論文で指摘されているように
形式言語理論から逸脱しているし、後ろに続く正規表現によっては
マッチ出来ずに検索が終わってしまうケースが発生する　例、 ^(?~abc)c

非包含オペレータは提案から14年経ってもなお未完のままということに..

**デフォルトの名無しさん** · 2021/12/17(金) 13:32:58.43

>>61
^(?~(?<=ab)c)