Regular Expressionスレです。
質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。
前スレ
Regular Expression(正規表現) Part13
http://echo.2ch.net/test/read.cgi/tech/1415149975/
次スレは>>980宜しく
天ぷら等2以降
Regular Expression(正規表現) Part14 [無断転載禁止]©2ch.net
レス数が1000を超えています。これ以上書き込みはできません。
1デフォルトの名無しさん
2017/03/15(水) 02:04:35.47ID:e01p03UP2017/03/15(水) 02:06:40.55ID:ko4BTSP2
スルーされにくい質問のテンプレと例
●Regular Expressionの使用環境
Java1.5
●検索か置換か?
検索
●説明
各行の1番目のAまでを検索したい
●対象データ
ABCA
BCAA
CABA
●希望する結果
ABCA
^
BCAA
^^^
CABA
^^
※ ^ はアンダーラインだそうな ^^;
●Regular Expressionの使用環境
Java1.5
●検索か置換か?
検索
●説明
各行の1番目のAまでを検索したい
●対象データ
ABCA
BCAA
CABA
●希望する結果
ABCA
^
BCAA
^^^
CABA
^^
※ ^ はアンダーラインだそうな ^^;
2017/03/15(水) 02:06:57.31ID:ko4BTSP2
◆関連サイト
正規表現メモ
http://www.kt.rim.or.jp/~kbk/regex/regex.html
Perl正規表現雑技
http://www.din.or.jp/~ohzaki/regex.htm
Regular Expression(Riue ちゃんの正規表現講座)
http://www.sixnine.net/regexp/
正規表現パズル
http://www.geocities.jp/oraclesqlpuzzle/regex/
詳説 正規表現
http://www.oreilly.co.jp/books/9784873113593/
正規表現プログラミングFAQ
http://capslockabcjp.kitunebi.com/faq.html
JScript 正規表現の概説
http://msdn.microsoft.com/ja-jp/library/28hw3sce%28v=VS.80%29.aspx
.NET Framework 正規表現言語要素
http://msdn.microsoft.com/ja-jp/library/az24scfc%28v=vs.80%29.aspx
【 初心者 】 正規表現 【 入門 】 ←閉鎖
http://funcchan.blog16.fc2.com/
クックブック ←追加
鬼車、鬼雲 ←追加
正規表現メモ
http://www.kt.rim.or.jp/~kbk/regex/regex.html
Perl正規表現雑技
http://www.din.or.jp/~ohzaki/regex.htm
Regular Expression(Riue ちゃんの正規表現講座)
http://www.sixnine.net/regexp/
正規表現パズル
http://www.geocities.jp/oraclesqlpuzzle/regex/
詳説 正規表現
http://www.oreilly.co.jp/books/9784873113593/
正規表現プログラミングFAQ
http://capslockabcjp.kitunebi.com/faq.html
JScript 正規表現の概説
http://msdn.microsoft.com/ja-jp/library/28hw3sce%28v=VS.80%29.aspx
.NET Framework 正規表現言語要素
http://msdn.microsoft.com/ja-jp/library/az24scfc%28v=vs.80%29.aspx
【 初心者 】 正規表現 【 入門 】 ←閉鎖
http://funcchan.blog16.fc2.com/
クックブック ←追加
鬼車、鬼雲 ←追加
2017/03/15(水) 02:07:49.24ID:ko4BTSP2
◆関連スレ
[UNIX板] 正規表現
http://pc12.2ch.net/test/read.cgi/unix/1039165754/
[WebProg] 正規表現道場 Part2 ←板移転
http://kanae.2ch.net/test/read.cgi/php/1348048723/
◆前スレ
[1] http://pc8.2ch.net/test/read.cgi/tech/1062152374/
[2] http://pc8.2ch.net/test/read.cgi/tech/1131028296/
[3] http://pc11.2ch.net/test/read.cgi/tech/1156413899/
[4] http://pc11.2ch.net/test/read.cgi/tech/1186030400/
[5] http://pc12.2ch.net/test/read.cgi/tech/1212498448/
[6] http://pc12.2ch.net/test/read.cgi/tech/1241537764/
[7] http://hibari.2ch.net/test/read.cgi/tech/1268979408/
[8] http://hibari.2ch.net/test/read.cgi/tech/1301067486/
[9] http://toro.2ch.net/test/read.cgi/tech/1323566370/
[10] http://toro.2ch.net/test/read.cgi/tech/1340383120/
[11] http://toro.2ch.net/test/read.cgi/tech/1362913813/
[12] http://peace.2ch.net/test/read.cgi/tech/1387257592/
[13] http://peace.2ch.net/test/read.cgi/tech/1415149975/
[UNIX板] 正規表現
http://pc12.2ch.net/test/read.cgi/unix/1039165754/
[WebProg] 正規表現道場 Part2 ←板移転
http://kanae.2ch.net/test/read.cgi/php/1348048723/
◆前スレ
[1] http://pc8.2ch.net/test/read.cgi/tech/1062152374/
[2] http://pc8.2ch.net/test/read.cgi/tech/1131028296/
[3] http://pc11.2ch.net/test/read.cgi/tech/1156413899/
[4] http://pc11.2ch.net/test/read.cgi/tech/1186030400/
[5] http://pc12.2ch.net/test/read.cgi/tech/1212498448/
[6] http://pc12.2ch.net/test/read.cgi/tech/1241537764/
[7] http://hibari.2ch.net/test/read.cgi/tech/1268979408/
[8] http://hibari.2ch.net/test/read.cgi/tech/1301067486/
[9] http://toro.2ch.net/test/read.cgi/tech/1323566370/
[10] http://toro.2ch.net/test/read.cgi/tech/1340383120/
[11] http://toro.2ch.net/test/read.cgi/tech/1362913813/
[12] http://peace.2ch.net/test/read.cgi/tech/1387257592/
[13] http://peace.2ch.net/test/read.cgi/tech/1415149975/
2017/03/15(水) 02:08:13.70ID:ko4BTSP2
鬼車
http://www.geocities.jp/kosako3/oniguruma/index_ja.html
鬼雲
https://github.com/k-takata/Onigmo
Boost.Regex(日本語訳)
http://alpha.sourceforge.jp/devel/boost.regex_ja_1_45_0.pdf
秀丸: 複数行にまたがる検索について
http://homepage2.nifty.com/jr-kun/hidemaru_qa/4_regulr.html#RETURNS
サクラエディタ: 改行
http://d.hatena.ne.jp/myokoym/20101219/1292779058
※ サクラエディタでは複数行に渡る検索・置換は出来ません。
正規表現クックブック
http://www.oreilly.co.jp/books/9784873114507/
せいきなんとか
http://akiba.geocities.jp/hp20140401/
http://www.geocities.jp/kosako3/oniguruma/index_ja.html
鬼雲
https://github.com/k-takata/Onigmo
Boost.Regex(日本語訳)
http://alpha.sourceforge.jp/devel/boost.regex_ja_1_45_0.pdf
秀丸: 複数行にまたがる検索について
http://homepage2.nifty.com/jr-kun/hidemaru_qa/4_regulr.html#RETURNS
サクラエディタ: 改行
http://d.hatena.ne.jp/myokoym/20101219/1292779058
※ サクラエディタでは複数行に渡る検索・置換は出来ません。
正規表現クックブック
http://www.oreilly.co.jp/books/9784873114507/
せいきなんとか
http://akiba.geocities.jp/hp20140401/
2017/03/15(水) 02:08:24.61ID:5ViZ5KQR
387:名無し募集中。。。:2017/03/15(水) 02:01:25
以下依頼します。
よろしくお願いします(宣言してスレ立て規制に引っかかった)
【板名】 プログラム技術
【板URL】 http://echo.2ch.net/tech/
【タイトル】 Regular Expression(正規表現) Part14
【名前(省略可)】
【メール欄(省略可)】
【本文】
Regular Expressionスレです。
質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。
前スレ
Regular Expression(正規表現) Part13
http://echo.2ch.net/test/read.cgi/tech/1415149975/
次スレは>>980宜しく
天ぷら等2以降
以下依頼します。
よろしくお願いします(宣言してスレ立て規制に引っかかった)
【板名】 プログラム技術
【板URL】 http://echo.2ch.net/tech/
【タイトル】 Regular Expression(正規表現) Part14
【名前(省略可)】
【メール欄(省略可)】
【本文】
Regular Expressionスレです。
質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。
前スレ
Regular Expression(正規表現) Part13
http://echo.2ch.net/test/read.cgi/tech/1415149975/
次スレは>>980宜しく
天ぷら等2以降
2017/03/15(水) 02:09:35.98ID:ko4BTSP2
[ ある "文字列" を含まない正規表現 ]
▽ 先読みが使える環境
((?!xyz).)* または (?:(?!xyz).)*
後者はカッコによるキャプチャを無効化しています。
1文字以上の繰り返しにしたい場合は * を + に書き換えて下さい。
▽ 先読みが使えない環境
オートマトンの知識が不可欠なため初心者にはまず無理です。
解説サイトですらほとんどがデタラメな作成方法を載せています。
↓正しい作り方はこちら。
xy を含まないものにマッチする正規表現 - Perl正規表現雑技
http://www.din.or.jp/~ohzaki/regex.htm#WithoutXY
xyz を含まないものにマッチする正規表現 - Perl正規表現雑技
http://www.din.or.jp/~ohzaki/regex.htm#WithoutXYZ
↓いろいろな文字列否定
タグの中に "ある文字列" を含まない正規表現
http://akiba.geocities.jp/hp20140401/2014/002.html
▽ 先読みが使える環境
((?!xyz).)* または (?:(?!xyz).)*
後者はカッコによるキャプチャを無効化しています。
1文字以上の繰り返しにしたい場合は * を + に書き換えて下さい。
▽ 先読みが使えない環境
オートマトンの知識が不可欠なため初心者にはまず無理です。
解説サイトですらほとんどがデタラメな作成方法を載せています。
↓正しい作り方はこちら。
xy を含まないものにマッチする正規表現 - Perl正規表現雑技
http://www.din.or.jp/~ohzaki/regex.htm#WithoutXY
xyz を含まないものにマッチする正規表現 - Perl正規表現雑技
http://www.din.or.jp/~ohzaki/regex.htm#WithoutXYZ
↓いろいろな文字列否定
タグの中に "ある文字列" を含まない正規表現
http://akiba.geocities.jp/hp20140401/2014/002.html
8デフォルトの名無しさん
2017/03/15(水) 08:53:37.66ID:ZusWJMmJ >>1
乙
乙
2017/03/15(水) 11:35:18.29ID:7YWEdixI
どうでもいいけど deny は高校で習ったわ
2017/03/15(水) 15:17:17.33ID:ARIh7/3F
習う習わないっていう材料はテキストに出てくるかどうかなのか?
(と言っても俺の時代学校によって採用するテキストの種類だって何種類もあったんだけど)
それともどっかの参考書も含むのか?
(と言っても俺の時代学校によって採用するテキストの種類だって何種類もあったんだけど)
それともどっかの参考書も含むのか?
11デフォルトの名無しさん
2017/03/15(水) 15:21:02.26ID:JuWg/t11 私は中学校で習いましたよ
2017/03/15(水) 16:23:05.39ID:FiGu7lnE
Regexの発音
https://www.youtube.com/watch?v=PGZldvNL2rw
http://english.stackexchange.com/questions/94371/
https://www.quora.com/What-is-the-correct-way-to-pronounce-regex
英語圏でもhard g派とsoft g派が半々
俺は語呂がいいからsoft g派 カタカナにするとレジェックス
英語で発音するときはリージェックスのほうが近いけどね
gifをギフって読む人がいるのと同じ
https://www.youtube.com/watch?v=PGZldvNL2rw
http://english.stackexchange.com/questions/94371/
https://www.quora.com/What-is-the-correct-way-to-pronounce-regex
英語圏でもhard g派とsoft g派が半々
俺は語呂がいいからsoft g派 カタカナにするとレジェックス
英語で発音するときはリージェックスのほうが近いけどね
gifをギフって読む人がいるのと同じ
2017/03/15(水) 18:00:46.15ID:LExN6Gy2
ギットをジットと呼ぶ人もいるの?
2017/03/15(水) 19:10:20.88ID:FiGu7lnE
それは略語じゃなくて元から英単語だからね
リーナスがジットって発音してたらそれが広まっただろうけど
リーナスがジットって発音してたらそれが広まっただろうけど
2017/03/15(水) 23:15:08.29ID:GyMxol53
海外の動画見たら「SQL Server」を「シークルサーバー」って発音しててちょっと驚いた
2017/03/16(木) 01:57:00.56ID:y9TWt00W
2017/03/16(木) 23:04:01.82ID:SS9/9E5d
FAQ!
2017/03/21(火) 02:29:10.44ID:5LrJtuWs
2017/03/23(木) 06:22:49.19ID:m0GWFz0v
2017/03/24(金) 06:37:22.44ID:J6kPEUuW
SQLの話まで行くともはやスレタイ関係ないじゃん、と思ったが>>19は面白かったわ
俺はsoft g、S-Q-Lで読んでるが、相手が先に違う読み方してたらそれに合わせてる
俺はsoft g、S-Q-Lで読んでるが、相手が先に違う読み方してたらそれに合わせてる
21デフォルトの名無しさん
2017/03/29(水) 23:42:35.49ID:CyM0OTMA 質問
詳説 正規表現 第2版 持ってるんだけど、 詳説 正規表現 第3版 との違いって何かある?
第3版の方は5000円もするから大差ないなら買わないでおきたい
詳説 正規表現 第2版 持ってるんだけど、 詳説 正規表現 第3版 との違いって何かある?
第3版の方は5000円もするから大差ないなら買わないでおきたい
2017/03/30(木) 00:21:57.35ID:LEwdK5Fw
This third edition features enhanced PHP coverage in the early chapters,
plus an all new, expansive chapter devoted entirely to PHP regular expressions and how to wield them effectively.
Also new in this edition, the Java chapter has been rewritten and expanded considerably to reflect new features of Java 1.5 and Java 1.6.
って書いてるね
上に書いてる内容は目次の違い見ても分かるよ
plus an all new, expansive chapter devoted entirely to PHP regular expressions and how to wield them effectively.
Also new in this edition, the Java chapter has been rewritten and expanded considerably to reflect new features of Java 1.5 and Java 1.6.
って書いてるね
上に書いてる内容は目次の違い見ても分かるよ
2017/03/30(木) 00:39:32.58ID:Z/GqZVkW
買おうと思ったけど、後ろ半分が自分に関係なくて買うのやめた。
2017/03/30(木) 01:42:52.91ID:1DorAGfX
失礼します。質問させていただきます。
複数行からなるデータを、指定したピッチ(行)おきに消したいのですが、やり方を教えて下さい!
例えば
中1行空けてなら1,3,5,7
中2行空けてなら1,4,7,10
中3行空けてなら1,5,9,13
の行を削除していくみたいな感じです。
出だしは1行目からでなくても、これは行の調整でなんとか出来そうです。
できるだけ手順が少ないのが理想です。やり方解る方マジ教えてほしいです!
手作業でやってて疲れてしました。まだいっぱいあります・・・お願いします。
複数行からなるデータを、指定したピッチ(行)おきに消したいのですが、やり方を教えて下さい!
例えば
中1行空けてなら1,3,5,7
中2行空けてなら1,4,7,10
中3行空けてなら1,5,9,13
の行を削除していくみたいな感じです。
出だしは1行目からでなくても、これは行の調整でなんとか出来そうです。
できるだけ手順が少ないのが理想です。やり方解る方マジ教えてほしいです!
手作業でやってて疲れてしました。まだいっぱいあります・・・お願いします。
2017/03/30(木) 02:07:11.97ID:J79lEXio
それエディタのマクロでやること
2017/03/30(木) 02:20:39.52ID:7+t5IDTq
>>24
gawk
gawk
2017/03/30(木) 03:34:41.36ID:Z/GqZVkW
何かスクリプトが使えるなら簡単だけど
正規表現だけでは難しそう
いらない行だけに含まれている
決まった文字、記号があるとか、またはその逆みたいな
いらない行を判断出来る要素があれば正規表現の検索置換で可能
正規表現だけでは難しそう
いらない行だけに含まれている
決まった文字、記号があるとか、またはその逆みたいな
いらない行を判断出来る要素があれば正規表現の検索置換で可能
2017/03/30(木) 04:00:51.53ID:Z/GqZVkW
あそっか、上から3行づつとかで切っていけばいけるのか
明日試してみよっと。
明日試してみよっと。
2017/03/30(木) 04:11:47.74ID:LEwdK5Fw
中1行ずつに削除なら(.*)¥n.* を ¥1に置換
中2行ずるに削除なら(.*)¥n.*¥n.* を ¥1に置換
みたいな方法でできるけど
特別な理由が無い限りエディタのマクロ使うかスクリプト使うね
中2行ずるに削除なら(.*)¥n.*¥n.* を ¥1に置換
みたいな方法でできるけど
特別な理由が無い限りエディタのマクロ使うかスクリプト使うね
2017/03/30(木) 04:16:57.88ID:UdsMclqE
正規表現でって言うけど何使うのかな?
Perl?
Perl?
3124
2017/03/30(木) 06:57:32.87ID:1DorAGfX レスを頂い方々どうもありがとうございます。エディタのマクロでやる方がいいのですか!
これはいいことを知りました!マクロ使ったことないですがこの次に勉強してみようと思います。
>>29さん
教えて頂いた正規表現で出来ました!これでマジ助かります\(^o^)/
どうもありがとうございました。\(^o^)/
これはいいことを知りました!マクロ使ったことないですがこの次に勉強してみようと思います。
>>29さん
教えて頂いた正規表現で出来ました!これでマジ助かります\(^o^)/
どうもありがとうございました。\(^o^)/
2017/04/01(土) 03:40:09.20ID:4EJbPXqm
(?i)((\S+ ){5}|^(\S+ ){0,5}?)(\bAAA\b)(( \S+){5}|( \S+){0,5}?$)
英文からある単語AAAを検索して前後5文字づつ一緒に取得
ただし途中に改行がある場合は改行前まで
上の表現で目的は達成したのですが
疑問が湧いたので質問です
A|Bのような単純またはではなくて
ifのような条件で切り替えるような正規表現はありますか?
(各種のスクリプト言語に依存しないやり方で)
合わせて、上の表現よりもこうした方が良いとかあったら
よろしくお願いします。
英文からある単語AAAを検索して前後5文字づつ一緒に取得
ただし途中に改行がある場合は改行前まで
上の表現で目的は達成したのですが
疑問が湧いたので質問です
A|Bのような単純またはではなくて
ifのような条件で切り替えるような正規表現はありますか?
(各種のスクリプト言語に依存しないやり方で)
合わせて、上の表現よりもこうした方が良いとかあったら
よろしくお願いします。
2017/04/01(土) 03:45:05.14ID:FRLTAWk8
2017/04/01(土) 10:44:34.81ID:4EJbPXqm
>>33
ありがとうございます!
ありがとうございます!
2017/04/02(日) 20:30:31.43ID:g6KuPxH9
ファイル名の置換(linuxのrenameコマンド)で
rename パール正規表現 対象ファイルで置換が出来るみたいです。
test_20140402_1810.m4aをtest_20140402.m4aに"_1800"を削除したいのですが、
rename 's/_d{4}\.m4a$/\.m4a/' test_20170402_1810.m4a
としてもうまく行かずにエラーも出ずにファイル名も変わりません。
"_"+"数字4桁"+".m4a"にマッチするようにして".m4a"に置換すればいいかと思ったのに出来ていない。
何処が間違ってますか?
rename パール正規表現 対象ファイルで置換が出来るみたいです。
test_20140402_1810.m4aをtest_20140402.m4aに"_1800"を削除したいのですが、
rename 's/_d{4}\.m4a$/\.m4a/' test_20170402_1810.m4a
としてもうまく行かずにエラーも出ずにファイル名も変わりません。
"_"+"数字4桁"+".m4a"にマッチするようにして".m4a"に置換すればいいかと思ったのに出来ていない。
何処が間違ってますか?
2017/04/02(日) 20:41:25.41ID:TvISwdcG
2017/04/02(日) 22:31:46.58ID:g6KuPxH9
ありがと。うまく行ったよ。
2017/04/12(水) 19:00:37.87ID:QHemYrmG
正規表現で任意文字以外を消すにはどうしたらいいですか?
検索でヒットしたものだけ残したいということです。
よろしくおねがいします。
検索でヒットしたものだけ残したいということです。
よろしくおねがいします。
2017/04/12(水) 20:59:49.88ID:u8woYKAJ
2017/04/12(水) 21:00:35.18ID:ud+oociV
[^(abc)]
これでabc以外の文字が全部選択できる
でもこれってどういう時に使うんだろう?
結局残るのがabcだけなら
わざわざ検索しなくてもよさそうだけど
これでabc以外の文字が全部選択できる
でもこれってどういう時に使うんだろう?
結局残るのがabcだけなら
わざわざ検索しなくてもよさそうだけど
2017/04/12(水) 21:12:14.06ID:u8woYKAJ
2017/04/12(水) 21:52:20.74ID:ixmoPw8q
Ruby 2.4.1で使えるようになった非包含オペレータ便利
http://qiita.com/k-takata/items/4e45121081c83d3d5bfd
http://qiita.com/k-takata/items/4e45121081c83d3d5bfd
4338
2017/04/12(水) 22:16:13.87ID:QHemYrmG >>39>>40
レスをありがとうございます。
やろうとしてたのは下記例のような場合で、-で直接挟まれた文字のみ残したいというものです。
消-残-残--消 -残--消 -残-
消--残--消 -消 -残-
レスをありがとうございます。
やろうとしてたのは下記例のような場合で、-で直接挟まれた文字のみ残したいというものです。
消-残-残--消 -残--消 -残-
消--残--消 -消 -残-
44デフォルトの名無しさん
2017/04/13(木) 05:45:19.12ID:Bx+Z85rt - と - の間の文字列で空白文字が入っちゃいかんということならこんな感じ?
perl -ne 'print( /(?<=-)([^-\s]+)(?=-)/g ,"\n")'
こういうことじゃないならもう少し説明を。
perl -ne 'print( /(?<=-)([^-\s]+)(?=-)/g ,"\n")'
こういうことじゃないならもう少し説明を。
4543
2017/04/14(金) 03:41:56.00ID:8AuQ8qy9 >>44
レスをいただきありがとうございます。教えて頂いた記述はPerlということであってますよね?
Perlを導入して使ってみてからレスをお返ししようといろいろ調べていたら、大変遅れてしまい礼を欠いてしました。
いろんなサイトを見過ぎたせいか、結局導入方法が絞れないというか、よくわからなくり、
時間だけが過ぎましたので不甲斐なく申し訳ないですが兎に角お礼まで。どうもありがとうございました。
レスをいただきありがとうございます。教えて頂いた記述はPerlということであってますよね?
Perlを導入して使ってみてからレスをお返ししようといろいろ調べていたら、大変遅れてしまい礼を欠いてしました。
いろんなサイトを見過ぎたせいか、結局導入方法が絞れないというか、よくわからなくり、
時間だけが過ぎましたので不甲斐なく申し訳ないですが兎に角お礼まで。どうもありがとうございました。
2017/04/14(金) 08:15:43.14ID:mEmX7gnv
ブラウザから実行すれば、簡単
paiza.IO, codepad なら、ログインもいらない
paiza.IO, codepad なら、ログインもいらない
2017/04/14(金) 09:03:58.80ID:uldWbSLb
2017/04/14(金) 11:21:59.85ID:7lZUeeAF
置換でやるとすると、これでどうかな?
これなら適当なエディタやWSH(JScript)ででも実行できる
(先頭の.*?を[\s\S]*?に変えれば、改行コードは末尾のみになる)
ただ、もしかすると考慮抜けの場合があるかも
正規表現:/.*?-([^\s-]+)(?=-)|-*[^-]*?(\r)?$/mg
置換文字:$1$2
これなら適当なエディタやWSH(JScript)ででも実行できる
(先頭の.*?を[\s\S]*?に変えれば、改行コードは末尾のみになる)
ただ、もしかすると考慮抜けの場合があるかも
正規表現:/.*?-([^\s-]+)(?=-)|-*[^-]*?(\r)?$/mg
置換文字:$1$2
2017/04/15(土) 02:46:51.37ID:8aYCgh5m
2017/04/15(土) 09:28:31.10ID:7fUWShMv
2017/04/15(土) 10:02:24.26ID:7fUWShMv
ごめん、「間に入る」だったのか
/.*?-((?:[^-\s]| )*[^-\s])(?=-)|-*[^-]*?\r?$/mg
$1
/.*?-((?:[^-\s]| )*[^-\s])(?=-)|-*[^-]*?\r?$/mg
$1
2017/04/15(土) 10:07:27.57ID:7fUWShMv
\rもいらないか
/.*?-((?:[^-\s]| )*[^-\s])(?=-)|-*[^-]*?$/mg
/.*?-((?:[^-\s]| )*[^-\s])(?=-)|-*[^-]*?$/mg
2017/04/15(土) 10:21:57.02ID:7fUWShMv
これじゃまずい
/.*?-((?:[^\s-]| )*[^\s-])(?=-)|.*-(?:[^\s-]| )*[^\s-](?=[^-])|-*[^-]*$/mg
冗長かもしれない
/.*?-((?:[^\s-]| )*[^\s-])(?=-)|.*-(?:[^\s-]| )*[^\s-](?=[^-])|-*[^-]*$/mg
冗長かもしれない
2017/04/15(土) 10:24:14.97ID:7fUWShMv
↑でも問題ないけど
/.*?-((?:[^\s-]| )*[^\s-])(?=-)|.*-(?:[^\s-]| )*[^\s-](?!-)|-*[^-]*$/mg
/.*?-((?:[^\s-]| )*[^\s-])(?=-)|.*-(?:[^\s-]| )*[^\s-](?!-)|-*[^-]*$/mg
2017/04/15(土) 11:39:21.99ID:8aYCgh5m
>>50-54
無理を利いてくださりありがとうございます。
実は最初の質問に穴があったので別件という形で再質問させていただきました。失礼しました。
教えて頂いた記述は完璧でした本当に感謝です!
レスも何度もくださってこの度は大変お世話になりました。
無理を利いてくださりありがとうございます。
実は最初の質問に穴があったので別件という形で再質問させていただきました。失礼しました。
教えて頂いた記述は完璧でした本当に感謝です!
レスも何度もくださってこの度は大変お世話になりました。
2017/04/20(木) 21:29:57.11ID:rsUIJG5Q
●Regular Expressionの使用環境
Becky!
●検索か置換か?
検索
●説明
+0900以外に一致
●対象データ
+
-
+0
-0
+09
-09
+090
-090
+0900
-0900
+09000
-09000
+09010
-09010
Becky!
●検索か置換か?
検索
●説明
+0900以外に一致
●対象データ
+
-
+0
-0
+09
-09
+090
-090
+0900
-0900
+09000
-09000
+09010
-09010
2017/04/20(木) 21:30:53.51ID:rsUIJG5Q
+
-
+0
-0
+09
-09
+090
-090
-0900
+09000
-09000
+09010
-09010
よろしくお願いします
※"+0900を含まない"を"+0900以外"を含むで実現したいです
-
+0
-0
+09
-09
+090
-090
-0900
+09000
-09000
+09010
-09010
よろしくお願いします
※"+0900を含まない"を"+0900以外"を含むで実現したいです
2017/04/21(金) 08:10:19.34ID:P/4d/uOg
Beckyで使えるかは知らんけど
^(?!\+0900$).*
^(?!\+0900$).*
2017/04/21(金) 12:02:05.13ID:30M0P9UI
zip版をダウロードしてchmヘルプファイルを見てみたら、
正規表現は本当に基本的なものしか無かった
(?!)はおろか()とかのキャプチャ自体無い(括弧は優先順位が上になるだけ)
[abc-d]もダメ( ([ab]|[c-d])と分けて書くらしい)
だから、やるなら
^[^+]|^\+$|^\+[^0]|^\+0]$|^\+0[^9]|…と全ての場合を併記するしかないかも
正規表現は本当に基本的なものしか無かった
(?!)はおろか()とかのキャプチャ自体無い(括弧は優先順位が上になるだけ)
[abc-d]もダメ( ([ab]|[c-d])と分けて書くらしい)
だから、やるなら
^[^+]|^\+$|^\+[^0]|^\+0]$|^\+0[^9]|…と全ての場合を併記するしかないかも
2017/04/21(金) 14:10:39.59ID:P/4d/uOg
鬼車や鬼雲使わず独自実装なんだね。シェアウェアだからかな
非包含か先読みを使えなきゃ実質無理だと思う
^\+0900$ の方をどうにかする運用を考えた方が良い
Beckyの公式のメーリングリストや掲示板で正規表現じゃなく具体的にやりたい事を質問してみたら?
上手い運用方法を思い付いてくれる人が居るかも
非包含か先読みを使えなきゃ実質無理だと思う
^\+0900$ の方をどうにかする運用を考えた方が良い
Beckyの公式のメーリングリストや掲示板で正規表現じゃなく具体的にやりたい事を質問してみたら?
上手い運用方法を思い付いてくれる人が居るかも
2017/04/21(金) 16:15:06.41ID:hNfgTF//
GPLならいざ知らずPCREや鬼車, 鬼雲もBSDライセンスだからなぁ
誰か外部の高機能正規表現ライブラリを利用するプラグインとか作ってそうだけど
誰か外部の高機能正規表現ライブラリを利用するプラグインとか作ってそうだけど
2017/04/22(土) 00:09:10.84ID:R9IUk1ak
2017/04/22(土) 04:17:39.78ID:T741eTMO
ほらよ。使い物になるかは知らんが示された対象データにおいては要件を満たす
^(.{,4}|-0900|.{6,})$
量指定子の{}が使えないなら
^(.|..|...|....|-0900|......)$
Beckyの仕様が一般的なPerlの正規表現とは違うならここで聞いても分かるやつ少ないだろうし
後出しする必要が出たらBeckyの方で聞いた方がいいぞ
^(.{,4}|-0900|.{6,})$
量指定子の{}が使えないなら
^(.|..|...|....|-0900|......)$
Beckyの仕様が一般的なPerlの正規表現とは違うならここで聞いても分かるやつ少ないだろうし
後出しする必要が出たらBeckyの方で聞いた方がいいぞ
2017/04/22(土) 17:13:13.21ID:1zuuifbC
>>63
+0900のみのデータなんて普通は無いよね
こういうのはJSTとかの時刻の後ろにつくもんじゃないの?
何がしたいのかよく解からないんだが?
フィルタで使うんなら、~が「ある時」「ない時」と選択できるようだから、
「ない時」にチェックすれば君の要件どうりなら、指定は^+0900$でよいことになる(+0900のみがない時ということになるけど)
だけど、上で疑問視したように+0900の前に時刻があるならマッチしなくなるよ
+0900のみのデータなんて普通は無いよね
こういうのはJSTとかの時刻の後ろにつくもんじゃないの?
何がしたいのかよく解からないんだが?
フィルタで使うんなら、~が「ある時」「ない時」と選択できるようだから、
「ない時」にチェックすれば君の要件どうりなら、指定は^+0900$でよいことになる(+0900のみがない時ということになるけど)
だけど、上で疑問視したように+0900の前に時刻があるならマッチしなくなるよ
2017/04/22(土) 17:16:27.15ID:1zuuifbC
+のエスケープし忘れた(仕様にエスケープはあるよね?)
2017/04/22(土) 21:58:03.61ID:UjWxDTr1
2017/04/23(日) 02:31:41.68ID:hK6ntaQJ
Beckyって基本的なものとはいえ正規表現使えるのか、いいなぁ
会社で強制使用のOutlookなんか and or しかない上に
検索語を入力中に変なところで勝手にor区切りするわフォーカス外れるわでもうムチャクチャ
仕事で何年も前のメール探すのに絞り込めなくて、最終的には数百通人間grep状態しょっちゅう…
会社で強制使用のOutlookなんか and or しかない上に
検索語を入力中に変なところで勝手にor区切りするわフォーカス外れるわでもうムチャクチャ
仕事で何年も前のメール探すのに絞り込めなくて、最終的には数百通人間grep状態しょっちゅう…
2017/04/23(日) 05:21:48.35ID:DzF9wMLj
^(\+|-|-0900)(.?|..|...|([1-9].|.[0-8])..|..([1-9].|.[1-9])|.....+)$
2017/04/23(日) 05:33:24.87ID:DzF9wMLj
^(.|-0900)(.?|..|...|(([1-9]|\D).|.([0-8]|\D))..|..(([1-9]|\D).|.([1-9]|\D))|.....+)$
2017/04/23(日) 05:44:27.04ID:DzF9wMLj
^(.|-0900)(.?|..|...|([^0].|.[^9])..|..([^0].|.[^0])|.....+)$
2017/04/23(日) 05:52:59.96ID:DzF9wMLj
^(-0900|.(.?|..|...|([^0].|.[^9])..|..([^0].|.[^0])|.....+))$
2017/04/23(日) 07:11:51.07ID:2K1Rl01+
^[^+]*$|\+(|0*[0-9]|0*[1-9][0-9]|[1-9][0-9][0-9]|0([1-7][0-9][0-9]|8[0-9][0-9])|0(90[1-9]|9[1-9][0-9])|[1-9][0-9][0-9][0-9]|[0-9][0-9][0-9][0-9][0-9]+)([^0-9]|$)
●入力と結果(✓一致 ❌不一致)
✓ Sat May 24 08:05:44 2014
✓ Tue Mar 28 06:21:47 2017 +
✓ Tue, 26 Jul 2016 23:55:46 -0
✓ Wed, 05 Oct 2016 15:24:09 -0900
✓ Wed, 4 Mar 2015 08:39:08 +09000
✓ Fri, 30 Oct 2015 07:56:41 +00900
✓ Wed, 4 Mar 2015 08:39:08 0900
❌ Wed, 25 Mar 2009 14:18:41 +0900
❌ Tue, 8 Mar 2016 16:11:55 +0900 (JST)
❌ Sat, 24 Jul 2004 03:48:21 +0900<br>
●入力と結果(✓一致 ❌不一致)
✓ Sat May 24 08:05:44 2014
✓ Tue Mar 28 06:21:47 2017 +
✓ Tue, 26 Jul 2016 23:55:46 -0
✓ Wed, 05 Oct 2016 15:24:09 -0900
✓ Wed, 4 Mar 2015 08:39:08 +09000
✓ Fri, 30 Oct 2015 07:56:41 +00900
✓ Wed, 4 Mar 2015 08:39:08 0900
❌ Wed, 25 Mar 2009 14:18:41 +0900
❌ Tue, 8 Mar 2016 16:11:55 +0900 (JST)
❌ Sat, 24 Jul 2004 03:48:21 +0900<br>
2017/04/23(日) 14:27:49.79ID:fsvPYIZO
>>68
wanderlust使ってて十分だがmaildirでファイル保存してるのでなんでもありだ
wanderlust使ってて十分だがmaildirでファイル保存してるのでなんでもありだ
2017/04/23(日) 22:57:55.33ID:/2AcrhSu
2017/04/28(金) 19:19:48.10ID:VBxbz7un
正規表現を勉強し始めた者です
>>73の正規表現について2つ質問させて下さい
展開すると以下のようになりますよね
^[^+]*$ 「+」が無い行に一致。残りは「+」が在る行
(
「+」に数字が続く場合の0~3桁とその先頭に0が続くパターン ※Q1
\+
\+0*[0-9]
\+0*[1-9][0-9] [1-9]なのは0*0[0-9]は0*[0-9]に含まれているから
\+[1-9][0-9][0-9] 3桁目で0*とすると0900にマッチしてしまう
4桁で「0900以外」のパターン ※Q2
\+0[1-7][0-9][0-9]
\+08[0-9][0-9]
\+090[1-9]
\+09[1-9][0-9]
\+[1-9][0-9][0-9][0-9]
\+[0-9][0-9][0-9][0-9][0-9]+ 5桁以上
)
([^0-9]|$) 続く文字が数字以外もしくは行末。これが無いと+0900に3桁以下の式でマッチしてしまう
Q1
3桁までの表現に0*としてるのはなぜなのでしょうか?
素人考えには
[0-9]?
[0-9][0-9]
[0-9][0-9][0-9]
で良いのでは?と思うのです。 [0-9]?|[0-9][0-9][0-9]? これでも0~1桁と2~3桁になりますよね?
「0*」という書き方の方が処理が速くなったりとか何か理由があるのでしょうか?
>>73の正規表現について2つ質問させて下さい
展開すると以下のようになりますよね
^[^+]*$ 「+」が無い行に一致。残りは「+」が在る行
(
「+」に数字が続く場合の0~3桁とその先頭に0が続くパターン ※Q1
\+
\+0*[0-9]
\+0*[1-9][0-9] [1-9]なのは0*0[0-9]は0*[0-9]に含まれているから
\+[1-9][0-9][0-9] 3桁目で0*とすると0900にマッチしてしまう
4桁で「0900以外」のパターン ※Q2
\+0[1-7][0-9][0-9]
\+08[0-9][0-9]
\+090[1-9]
\+09[1-9][0-9]
\+[1-9][0-9][0-9][0-9]
\+[0-9][0-9][0-9][0-9][0-9]+ 5桁以上
)
([^0-9]|$) 続く文字が数字以外もしくは行末。これが無いと+0900に3桁以下の式でマッチしてしまう
Q1
3桁までの表現に0*としてるのはなぜなのでしょうか?
素人考えには
[0-9]?
[0-9][0-9]
[0-9][0-9][0-9]
で良いのでは?と思うのです。 [0-9]?|[0-9][0-9][0-9]? これでも0~1桁と2~3桁になりますよね?
「0*」という書き方の方が処理が速くなったりとか何か理由があるのでしょうか?
7776
2017/04/28(金) 19:24:12.30ID:VBxbz7un Q2
\+0[1-7][0-9][0-9]
\+08[0-9][0-9]
[1-7]なのは00の場合1~3桁の式と被るから1からなのだと思うのですが
この2つは合わせて \+0[1-8][0-9][0-9] としてはダメなのでしょうか?
「0900以外」の4桁の数字のパターンは以下のようになるかと思います
[1-9][0-9][0-9][0-9] 0xxx
[0-9][0-8][0-9][0-9] x9xx
[0-9][0-9][1-9][0-9] xx0x
[0-9][0-9][0-9][1-9] xxx0
被っているところを数値に置き換え
[1-9][0-9][0-9][0-9]
0 [0-8][0-9][0-9]
0 9 [1-9][0-9]
0 9 0 [1-9]
一応Q1と合わせ疑問に思ったところを書き換えて>>73さんのサンプルと+0~+10000と+0000~+9999をテキストに書き出して
テストしてみたところ問題無さそうなのを確認したのですがそれでも確信が持てず質問させて頂きました
試した式は以下になります
^[^+]*$|\+([0-9]?|[0-9][0-9]|[0-9][0-9][0-9]|[1-9][0-9][0-9][0-9]|0[0-8][0-9][0-9]|09[1-9][0-9]|090[1-9]|[0-9][0-9][0-9][0-9][0-9]+)([^0-9]|$)
^[^+]*$|\+((|[0-9][0-9])[0-9]?|([1-9][0-9]|0[0-8])[0-9][0-9]|09([1-9][0-9]|0[1-9])|[0-9][0-9][0-9][0-9][0-9]+)([^0-9]|$)
^[^+]*$|\+(|090[1-9]|((([0-9][0-9]+|(|[1-9]))[0-9]|(|0[0-8]))[0-9]|(|09[1-9]))[0-9])([^0-9]|$)
身近に聞ける人が居ないので自分の解釈が間違っていたり何か見落としているのではないか?と悶々としております
どなたか分かる方が居られましたら2つの疑問点の回答をお願いしたいです
また解釈を間違えている箇所がありましたらそちらも指摘下さい。よろしくお願いします
\+0[1-7][0-9][0-9]
\+08[0-9][0-9]
[1-7]なのは00の場合1~3桁の式と被るから1からなのだと思うのですが
この2つは合わせて \+0[1-8][0-9][0-9] としてはダメなのでしょうか?
「0900以外」の4桁の数字のパターンは以下のようになるかと思います
[1-9][0-9][0-9][0-9] 0xxx
[0-9][0-8][0-9][0-9] x9xx
[0-9][0-9][1-9][0-9] xx0x
[0-9][0-9][0-9][1-9] xxx0
被っているところを数値に置き換え
[1-9][0-9][0-9][0-9]
0 [0-8][0-9][0-9]
0 9 [1-9][0-9]
0 9 0 [1-9]
一応Q1と合わせ疑問に思ったところを書き換えて>>73さんのサンプルと+0~+10000と+0000~+9999をテキストに書き出して
テストしてみたところ問題無さそうなのを確認したのですがそれでも確信が持てず質問させて頂きました
試した式は以下になります
^[^+]*$|\+([0-9]?|[0-9][0-9]|[0-9][0-9][0-9]|[1-9][0-9][0-9][0-9]|0[0-8][0-9][0-9]|09[1-9][0-9]|090[1-9]|[0-9][0-9][0-9][0-9][0-9]+)([^0-9]|$)
^[^+]*$|\+((|[0-9][0-9])[0-9]?|([1-9][0-9]|0[0-8])[0-9][0-9]|09([1-9][0-9]|0[1-9])|[0-9][0-9][0-9][0-9][0-9]+)([^0-9]|$)
^[^+]*$|\+(|090[1-9]|((([0-9][0-9]+|(|[1-9]))[0-9]|(|0[0-8]))[0-9]|(|09[1-9]))[0-9])([^0-9]|$)
身近に聞ける人が居ないので自分の解釈が間違っていたり何か見落としているのではないか?と悶々としております
どなたか分かる方が居られましたら2つの疑問点の回答をお願いしたいです
また解釈を間違えている箇所がありましたらそちらも指摘下さい。よろしくお願いします
2017/04/29(土) 18:45:01.61ID:0PD6E3oz
>>76-77
どちらも深い意味はないよ
行き当たりばったりで何とかテストに通るようにしただけだから
> 3桁までの表現に0*としてるのはなぜなのでしょうか?
コメント付けてくれた通りまさしく「0~3桁とその先頭に0が続くパターン」
という順序で考えてたから結果的にそうなったのだと思う
まず0から999に一致するパターンを書いて、それに 0 が先行する場合 0* を足して
でも 0900 には一致しないように… とかそんな感じ
> この2つは合わせて \+0[1-8][0-9][0-9] としてはダメなのでしょうか?
ダメじゃない
その辺りはこのジェネレーターで生成した正規表現をもとにしてる
Regex Numeric Range Generator
http://gamon.webfactional.com/regexnumericrangegenerator/
100–899 ⇒ ([1-7][0-9]{2}|8[0-8][0-9]|89[0-9])
たまたま 8[0-8][0-9] と 89[0-9] がまとめられると気がついたのでそこは直したけど
全部まとめられるとは気づいてなかっただけ
どちらも深い意味はないよ
行き当たりばったりで何とかテストに通るようにしただけだから
> 3桁までの表現に0*としてるのはなぜなのでしょうか?
コメント付けてくれた通りまさしく「0~3桁とその先頭に0が続くパターン」
という順序で考えてたから結果的にそうなったのだと思う
まず0から999に一致するパターンを書いて、それに 0 が先行する場合 0* を足して
でも 0900 には一致しないように… とかそんな感じ
> この2つは合わせて \+0[1-8][0-9][0-9] としてはダメなのでしょうか?
ダメじゃない
その辺りはこのジェネレーターで生成した正規表現をもとにしてる
Regex Numeric Range Generator
http://gamon.webfactional.com/regexnumericrangegenerator/
100–899 ⇒ ([1-7][0-9]{2}|8[0-8][0-9]|89[0-9])
たまたま 8[0-8][0-9] と 89[0-9] がまとめられると気がついたのでそこは直したけど
全部まとめられるとは気づいてなかっただけ
2017/04/30(日) 00:11:00.00ID:PxU3UZJt
2017/04/30(日) 03:04:48.91ID:sTLetcQY
慇懃無礼でうぜえ
81デフォルトの名無しさん
2017/04/30(日) 04:34:43.13ID:smayr5dM >>80
確かに邪魔だけど、おこるほどじゃない
確かに邪魔だけど、おこるほどじゃない
2017/04/30(日) 07:25:58.21ID:PxU3UZJt
2017/04/30(日) 07:50:01.45ID:BxxkE9Fv
2017/04/30(日) 08:21:18.33ID:PxU3UZJt
>>83
自分を非難している相手を擁護するのは変な感じだが
バカかどうかはあの一文からは分からないでしょ
それに自分も慇懃無礼にあたらないかとは危惧していたし的外れとは言えないと思う
何でも度が過ぎるのは良くない
だが齟齬を生じさせないようにする為にはこういったスレで長文になるのは仕方なくないか?
身の丈に合わない質問して「この解釈で合ってる?」みたいな聞き方した自分にも非があるとは思うが
バカ丁寧禁止より長文禁止の方が厳しいと思うわ
自分を非難している相手を擁護するのは変な感じだが
バカかどうかはあの一文からは分からないでしょ
それに自分も慇懃無礼にあたらないかとは危惧していたし的外れとは言えないと思う
何でも度が過ぎるのは良くない
だが齟齬を生じさせないようにする為にはこういったスレで長文になるのは仕方なくないか?
身の丈に合わない質問して「この解釈で合ってる?」みたいな聞き方した自分にも非があるとは思うが
バカ丁寧禁止より長文禁止の方が厳しいと思うわ
2017/04/30(日) 09:47:52.98ID:Dc5Ny+RF
正規表現で数字は、[0-9] または、\d
[0-9][0-9] なら、\d{2} と同じ
[0-9][0-9] なら、\d{2} と同じ
2017/04/30(日) 12:18:27.09ID:VPr4LyhY
丁寧なことが必ずしも良いとは限らない
質問するときは相手のことも考えて無駄を省くことが大事
質問を整理している間に自分で気付くこともある
質問するときは相手のことも考えて無駄を省くことが大事
質問を整理している間に自分で気付くこともある
2017/04/30(日) 15:52:39.90ID:3TcYedTF
2017/04/30(日) 20:35:41.23ID:IjVGB2EF
お前ら仲良くしろ
2017/05/01(月) 09:32:05.11ID:lsW6qson
長文NGしてれば見なくて済むのにわざわざ見てウゼェ言ってる奴って
マゾなの?やり方分かんないバカなの?ウゼェ言ってる俺カッケーな池沼?
マゾなの?やり方分かんないバカなの?ウゼェ言ってる俺カッケーな池沼?
2017/05/01(月) 11:29:31.86ID:hzoMRY/L
3行でまとめろ
91デフォルトの名無しさん
2017/05/01(月) 18:42:02.68ID:Ypd7EE7u ダ・ヴィンチ曰く「単純であることは究極の洗練だ」
今回の例にどれほど当てはまるかはわからんが、目指すのはそこだ。
今回の例にどれほど当てはまるかはわからんが、目指すのはそこだ。
2017/05/03(水) 15:46:12.05ID:/wkwyrKC
検索置換を教えて下さい。
行末の半角数字(桁数はまちまち)を行頭に移動したいです。
──────────────
■置換前■
abc1
東44
4-123
あいうえお02
──────────────
■置換後■
1abc
44東
1234-
02あいうえお
──────────────
使ってるエディタはgpadです。サクラエディタもあります。宜しくお願い致します。
行末の半角数字(桁数はまちまち)を行頭に移動したいです。
──────────────
■置換前■
abc1
東44
4-123
あいうえお02
──────────────
■置換後■
1abc
44東
1234-
02あいうえお
──────────────
使ってるエディタはgpadです。サクラエディタもあります。宜しくお願い致します。
2017/05/03(水) 16:08:53.89ID:KtRh/Jcn
>>92
gpadやサクラエディタは知らんけどJSならこんな感じ
replace(/(.*?)([0-9]*)¥n/g, "$2$1¥n")
最後の行にも改行がある前提
なければ入力の最後を示す$をOR条件として指定する
gpadやサクラエディタは知らんけどJSならこんな感じ
replace(/(.*?)([0-9]*)¥n/g, "$2$1¥n")
最後の行にも改行がある前提
なければ入力の最後を示す$をOR条件として指定する
2017/05/03(水) 17:09:36.61ID:/wkwyrKC
2017/05/03(水) 17:53:10.90ID:tt/7nJiL
2017/05/03(水) 18:09:12.54ID:/wkwyrKC
>>95
すごいできます!即レスありがとうございました!感謝です!
すごいできます!即レスありがとうございました!感謝です!
2017/05/04(木) 02:53:36.15ID:P+e+GY0n
●Regular Expressionの使用環境
Bash on Ubuntu on Windows での sed
●検索か置換か?
置換
●説明
[ と ] で括られた最初の文言以外を削除したい
●対象データ
aaa[bbb]ccc
[ddd]eee
fff[ggg]hhh[iii]jjj
kkk
●希望する結果
bbb
ddd
ggg
空行、もしくは、そのまま(上記だとkkk)
cat hoge.txt | sed -e 's/.*\(\[.*]\)/\1/g'
で行けそうな気がしたんですが、結果は
[bbb]ccc
[ddd]eee
[iii]jjj
kkk
この有様。誰か助けてください。
Bash on Ubuntu on Windows での sed
●検索か置換か?
置換
●説明
[ と ] で括られた最初の文言以外を削除したい
●対象データ
aaa[bbb]ccc
[ddd]eee
fff[ggg]hhh[iii]jjj
kkk
●希望する結果
bbb
ddd
ggg
空行、もしくは、そのまま(上記だとkkk)
cat hoge.txt | sed -e 's/.*\(\[.*]\)/\1/g'
で行けそうな気がしたんですが、結果は
[bbb]ccc
[ddd]eee
[iii]jjj
kkk
この有様。誰か助けてください。
2017/05/04(木) 03:21:35.65ID:1Mi5Sic1
>>97
s/\].*\|.*\[//g
s/\].*\|.*\[//g
2017/05/04(木) 03:22:48.12ID:7TNYL3q7
cat test.txt | sed -E 's/[^\[]*(\[[^\[]*\]).*/\1/g'
sedはnon-greedyサポートしてないので[^\[]*で
"["以外の文字にマッチするように指定する
sedはnon-greedyサポートしてないので[^\[]*で
"["以外の文字にマッチするように指定する
100デフォルトの名無しさん
2017/05/04(木) 10:29:51.92ID:P+e+GY0n101デフォルトの名無しさん
2017/05/05(金) 08:29:26.53ID:bm+deAdf 「Regular Expression」ってことは
RegularじゃないExpressionもあるのかな?
RegularじゃないExpressionもあるのかな?
102デフォルトの名無しさん
2017/05/05(金) 11:21:47.47ID:Ll1Ek2oh >>101
https://www.google.co.jp/search?q=irregular+expression&;ie=UTF-8&oe=UTF-8&hl=ja-jp&client=safari
https://www.google.co.jp/search?q=irregular+expression&;ie=UTF-8&oe=UTF-8&hl=ja-jp&client=safari
103デフォルトの名無しさん
2017/05/05(金) 13:41:26.64ID:Xc50Qjgk >「irregular expression」に関連するキーワード
>
>保守速報
ワロタ
>
>保守速報
ワロタ
104デフォルトの名無しさん
2017/05/07(日) 03:23:46.82ID:bf3ZF7DF >>101
正規表現で表される集合の標本それぞれが正規でない表現じゃないの
正規表現で表される集合の標本それぞれが正規でない表現じゃないの
105デフォルトの名無しさん
2017/05/07(日) 07:31:07.21ID:fOF53fEF そもそも誤訳だし
107デフォルトの名無しさん
2017/05/13(土) 23:19:52.64ID:4xoUv3bU 書き込めない?
108デフォルトの名無しさん
2017/05/14(日) 17:21:45.80ID:IUk17Lsy ●Regular Expressionの使用環境
サクラエディタ
●検索か置換か?
検索
●説明
「ABC」の英大文字と小文字を区別せずに検索したいのですが
書き方はあるのでしょうか?
今は『abc|Abc|ABC』という正規表現を使っていますが
書くのがめんどうだし、aBcやabCにもヒットさせたいので
もっと簡潔な書き方があれば教えて下さい。
サクラエディタ
●検索か置換か?
検索
●説明
「ABC」の英大文字と小文字を区別せずに検索したいのですが
書き方はあるのでしょうか?
今は『abc|Abc|ABC』という正規表現を使っていますが
書くのがめんどうだし、aBcやabCにもヒットさせたいので
もっと簡潔な書き方があれば教えて下さい。
109デフォルトの名無しさん
2017/05/14(日) 18:29:13.61ID:YzpdvDlp110デフォルトの名無しさん
2017/05/14(日) 18:30:36.34ID:qjlEaygK そのものズバリのチェックボックスがあるのに釣りかメクラか
111デフォルトの名無しさん
2017/05/14(日) 20:19:12.83ID:IUk17Lsy112デフォルトの名無しさん
2017/05/27(土) 19:51:02.34ID:gdXMy//z ●Regular Expressionの使用環境
テキストエディタMeryでの強調文字列指定について質問です
http://www.haijin-boys.com/
Onigmo (Oniguruma-mod) (regular expression library) 5.15.0
https://github.com/k-takata/Onigmo
●検索か置換か?
検索?
●対象データ
"D:\PATH\HOGE",1,307,,0,"15/01/01 00:00:00","12/12/31 00:00:00",1,1,,,,"著者X",,,,,"タイトルA",,,2,,,,,1,1101,1101
"D:\PATH\FUGA",,,,,,"15/02/01 00:00:00",1,1,,,,,,,,,"名前B",4,,0
"E:\FOLDER\PIYO",20,197,91,0,"16/03/01 00:00:00","15/04/01 00:00:00",1,1,,,,"著者Y,Z","出版社",,,,"題名C"
●希望する結果
上のようなテキスト各行の最後に出現するダブルクォーテーション囲いの文字列
"タイトルA"
"名前B"
"題名C"
を取得して強調表示したいのですがどのような正規表現で記述すればよいのでしょうか?
あるいはダブルクォーテーションを含まない状態(タイトルA、名前B、題名C)でも差し支えありません
●説明?
・各行でカンマや "" 囲いの数はまちまちで、"" 囲いの中にカンマがある場合もあります
・"" 囲いの中のカンマを無視した場合、17番目のカンマの直後の "" 囲い部分です
・"タイトルA"、"名前B"、"題名C"のあとに続く文字列の長さ、形式は不定です
・対照データはマンガミーヤのブックリストです
よろしくお願いします
テキストエディタMeryでの強調文字列指定について質問です
http://www.haijin-boys.com/
Onigmo (Oniguruma-mod) (regular expression library) 5.15.0
https://github.com/k-takata/Onigmo
●検索か置換か?
検索?
●対象データ
"D:\PATH\HOGE",1,307,,0,"15/01/01 00:00:00","12/12/31 00:00:00",1,1,,,,"著者X",,,,,"タイトルA",,,2,,,,,1,1101,1101
"D:\PATH\FUGA",,,,,,"15/02/01 00:00:00",1,1,,,,,,,,,"名前B",4,,0
"E:\FOLDER\PIYO",20,197,91,0,"16/03/01 00:00:00","15/04/01 00:00:00",1,1,,,,"著者Y,Z","出版社",,,,"題名C"
●希望する結果
上のようなテキスト各行の最後に出現するダブルクォーテーション囲いの文字列
"タイトルA"
"名前B"
"題名C"
を取得して強調表示したいのですがどのような正規表現で記述すればよいのでしょうか?
あるいはダブルクォーテーションを含まない状態(タイトルA、名前B、題名C)でも差し支えありません
●説明?
・各行でカンマや "" 囲いの数はまちまちで、"" 囲いの中にカンマがある場合もあります
・"" 囲いの中のカンマを無視した場合、17番目のカンマの直後の "" 囲い部分です
・"タイトルA"、"名前B"、"題名C"のあとに続く文字列の長さ、形式は不定です
・対照データはマンガミーヤのブックリストです
よろしくお願いします
113デフォルトの名無しさん
2017/05/28(日) 06:04:53.01ID:PkY5eGnw "[^"]*"(?=[^"]*$)
(?<=")[^"]*(?="[^"]*$)
(?<=")[^"]*(?="[^"]*$)
114112
2017/05/28(日) 07:52:06.42ID:5aByZaI0 >>113
両方のパターンを教えていただきまして、ありがとうございます
"フォルダパス" の "[A-Z]:\\.+?" と "年/月/日 時:分:秒 "の "../.+?"
タイトルフィールドだけは全/半スペースで字下げして "[ ]+.+?" というパターンまでは作れましたが
字下げなしで強調表示できるようになり、一層見分けやすく、編集しやすくなりました
なぜこれらが最後の "タイトル" 部分にマッチするのか、まだ理解できてはいないのですが
読み解けるように頑張ってみます
両方のパターンを教えていただきまして、ありがとうございます
"フォルダパス" の "[A-Z]:\\.+?" と "年/月/日 時:分:秒 "の "../.+?"
タイトルフィールドだけは全/半スペースで字下げして "[ ]+.+?" というパターンまでは作れましたが
字下げなしで強調表示できるようになり、一層見分けやすく、編集しやすくなりました
なぜこれらが最後の "タイトル" 部分にマッチするのか、まだ理解できてはいないのですが
読み解けるように頑張ってみます
115112
2017/05/28(日) 11:31:39.10ID:5aByZaI0 先読みと後読みの使い方をなんとなく理解できるようになったかも?という感じで、自分で同じ表現をすぐに導き出せるかとなるとまだまだ難しそうです
調子にのって後読みで12番目のカンマの後ろの "著者" にマッチさせようとやってみましたが、繰り返し表現をふくむ後読みはダメだとか…
^".+?"([^,]*,){12}".+?" で「行頭から"著者"まで」はできても ^(?<=".+?"([^,]*,){12})".+?" では機能しないんですね
あれこれ弄り回して "タイトル" からカンマ5つ戻るかたちで先読みにして "[^"]*"(?=(,[^,]*){5}"[^"]*"(?=[^"]*$)) にしたら "著者" に
同様に {4} で "出版社" にマッチしました
おかげさまで色々と勉強になり、あらためてありがとうございました
調子にのって後読みで12番目のカンマの後ろの "著者" にマッチさせようとやってみましたが、繰り返し表現をふくむ後読みはダメだとか…
^".+?"([^,]*,){12}".+?" で「行頭から"著者"まで」はできても ^(?<=".+?"([^,]*,){12})".+?" では機能しないんですね
あれこれ弄り回して "タイトル" からカンマ5つ戻るかたちで先読みにして "[^"]*"(?=(,[^,]*){5}"[^"]*"(?=[^"]*$)) にしたら "著者" に
同様に {4} で "出版社" にマッチしました
おかげさまで色々と勉強になり、あらためてありがとうございました
116デフォルトの名無しさん
2017/05/28(日) 12:13:46.77ID:IsUf2Pl+ こんな古代呪文みたいなの、実際に仕事とかで使ってないとなかなか覚えないし
覚えてもすぐ忘れてしまうよなw
全てのパターンを記憶して空で完全詠唱できる人なんているんだろうか?
覚えてもすぐ忘れてしまうよなw
全てのパターンを記憶して空で完全詠唱できる人なんているんだろうか?
117デフォルトの名無しさん
2017/05/28(日) 13:15:52.74ID:QUomuFPF 暗唱できる必要性があるのか?
使うときにそういうのがあったなあって思う出すだけでいいだろ
あとは詳細を見て使えばいいだけ
使うときにそういうのがあったなあって思う出すだけでいいだろ
あとは詳細を見て使えばいいだけ
118デフォルトの名無しさん
2017/05/28(日) 13:26:02.06ID:35oU3ReV 仕事じゃなく趣味で覚えたけど
間違いなく覚えた方が便利
どっかに正規表現化してるだけでお金貰える仕事ないかな
間違いなく覚えた方が便利
どっかに正規表現化してるだけでお金貰える仕事ないかな
119デフォルトの名無しさん
2017/05/28(日) 15:27:00.29ID:dHcH/mRb >>116
わたしレベルになると詠唱破棄すら可能w
わたしレベルになると詠唱破棄すら可能w
120デフォルトの名無しさん
2017/05/28(日) 16:06:45.06ID:MqtJ47ff 言語環境ごとに使える使えない、エスケープ必要不必要を間違えたりする
サポートしてない環境の多い先読みとかは他の手段使っちゃったりするからなかなか使いこなせない
サポートしてない環境の多い先読みとかは他の手段使っちゃったりするからなかなか使いこなせない
121デフォルトの名無しさん
2017/05/28(日) 16:10:29.49ID:W53JMrzP $1 と \1 を間違えて泣きをみて以来、むしろ記憶しないようにしている……・
122デフォルトの名無しさん
2017/05/28(日) 16:18:27.70ID:mQ0E20+1 perlから初めるとカタワになるな
123デフォルトの名無しさん
2017/05/29(月) 08:14:03.69ID:XV2pt9yI えっ!?
124デフォルトの名無しさん
2017/05/29(月) 11:05:33.03ID:sPbSPx8D コマンドプロンプトのfindstrコマンドで使えるやつより貧弱な正規表現環境なんてないよね?
125デフォルトの名無しさん
2017/05/29(月) 11:21:53.73ID:sPbSPx8D126デフォルトの名無しさん
2017/05/29(月) 11:24:10.17ID:sPbSPx8D127デフォルトの名無しさん
2017/05/29(月) 21:58:39.79ID:YdL4iPz3 >>124
おれの彼女の胸
おれの彼女の胸
128デフォルトの名無しさん
2017/05/30(火) 13:16:32.07ID:V9BCWx6K >>118
とある地方の区画整理の際、住所表記が変わるので
住所を正規化するために正規表現と簡単なDB処理とを組み合わせた
単純な処理を行うだけの1日仕事で、
そこらのリーマンの3ヶ月分ぐらいお金になった事とかあったな
仕事柄色んな会社を訪問するけど
テキストの簡単な置換すらできない(まずテキスト置換という概念を知らない)人って
事務程度でしかパソコン使わない人にはめちゃくちゃ多いんだよね
そんなに人達に (.+)abcd\n みたいな初歩的な正規表現を教えると
物凄く驚かれる
見下すようだけど世の中そんなもん
とある地方の区画整理の際、住所表記が変わるので
住所を正規化するために正規表現と簡単なDB処理とを組み合わせた
単純な処理を行うだけの1日仕事で、
そこらのリーマンの3ヶ月分ぐらいお金になった事とかあったな
仕事柄色んな会社を訪問するけど
テキストの簡単な置換すらできない(まずテキスト置換という概念を知らない)人って
事務程度でしかパソコン使わない人にはめちゃくちゃ多いんだよね
そんなに人達に (.+)abcd\n みたいな初歩的な正規表現を教えると
物凄く驚かれる
見下すようだけど世の中そんなもん
129デフォルトの名無しさん
2017/05/30(火) 17:50:42.66ID:bhgaCfDA >>128
まぁハードル高いよね、低くないと言うべきか
知らなきゃ「正規表現」というチェックボックスがあっても、それが何をするものなのか
言葉から具体的イメージが全く湧かないし
ヘルプ見てはじめて何をするものなのかわかるという、といっても具体例が
無ければヘルプ見たところで「難しそう>便利そう」になりがち
一目で「難しそう<便利そう」になるならとっくに正規表現を使ってる層だろうし
ファイルの検索 や excel や word や メモ帳 、IE、Edge あたりに正規表現が
最初っからあれば話は違ってくるんだろうなと
Mac触った事ないからアレだけど、Macなら充実してるのかしら?
まぁハードル高いよね、低くないと言うべきか
知らなきゃ「正規表現」というチェックボックスがあっても、それが何をするものなのか
言葉から具体的イメージが全く湧かないし
ヘルプ見てはじめて何をするものなのかわかるという、といっても具体例が
無ければヘルプ見たところで「難しそう>便利そう」になりがち
一目で「難しそう<便利そう」になるならとっくに正規表現を使ってる層だろうし
ファイルの検索 や excel や word や メモ帳 、IE、Edge あたりに正規表現が
最初っからあれば話は違ってくるんだろうなと
Mac触った事ないからアレだけど、Macなら充実してるのかしら?
130デフォルトの名無しさん
2017/05/30(火) 22:14:32.37ID:wMq9WrJJ131デフォルトの名無しさん
2017/05/30(火) 22:28:36.41ID:RvF0nsOU132デフォルトの名無しさん
2017/05/31(水) 02:32:02.26ID:6BoaVWxP システム屋とかシステム会社って何のシステム?
133デフォルトの名無しさん
2017/05/31(水) 05:29:32.86ID:hSyYnyRA 使い捨てコードといったらPerlで書いてた世代は正規表現に抵抗無さそう
134デフォルトの名無しさん
2017/05/31(水) 05:30:03.72ID:sJHTybMt135デフォルトの名無しさん
2017/05/31(水) 08:06:38.95ID:rBoo2fCo 小さな会社だと他より少しPC関連に詳しいってだけでIT部長とか言われこき使われる
勿論そんな役職なんて無い
正規表現なんて言葉を発したらセクハラだの変態だの言われかねん
勿論そんな役職なんて無い
正規表現なんて言葉を発したらセクハラだの変態だの言われかねん
136デフォルトの名無しさん
2017/05/31(水) 11:16:23.49ID:u9qpXxTe137デフォルトの名無しさん
2017/05/31(水) 11:27:09.17ID:u9qpXxTe138デフォルトの名無しさん
2017/05/31(水) 11:46:52.88ID:AV1cHHAT CSV は、" などのエスケープについて、様々な方言があるから、正規表現では無理。
CSV の方言・規格を確定させてから、Ruby を使うべき
バグのほとんどが設計段階・仕様で生じる。
方言さえ確定していれば、バグらない
CSV の方言・規格を確定させてから、Ruby を使うべき
バグのほとんどが設計段階・仕様で生じる。
方言さえ確定していれば、バグらない
139デフォルトの名無しさん
2017/05/31(水) 11:53:36.36ID:L1juUrGR >>135
会社の忘年会では正規表現やりますって言ってパンツ脱ぐのか?
会社の忘年会では正規表現やりますって言ってパンツ脱ぐのか?
140デフォルトの名無しさん
2017/05/31(水) 12:15:57.63ID:u9qpXxTe >>138
仕事内容にもよるけどそんな事はない
なんせ世の中にはExcelのデータが糞ほどあるので
「Excelルールのcsvを正規表現で処理する+α」の仕事だけでも
たぶんそこらのリーマンよりは稼がせてもらってきたよ
日本の企業の大半は中小企業なわけだけど
ほんと信じられないほど無駄な事やってる会社がたくさんあるからね
こんな時間に2chなんてやってられるのも、そのお陰ですわ
仕事内容にもよるけどそんな事はない
なんせ世の中にはExcelのデータが糞ほどあるので
「Excelルールのcsvを正規表現で処理する+α」の仕事だけでも
たぶんそこらのリーマンよりは稼がせてもらってきたよ
日本の企業の大半は中小企業なわけだけど
ほんと信じられないほど無駄な事やってる会社がたくさんあるからね
こんな時間に2chなんてやってられるのも、そのお陰ですわ
141デフォルトの名無しさん
2017/05/31(水) 12:35:12.54ID:MQUo5X9j 万能な処理って得てして使いにくいしな
142デフォルトの名無しさん
2017/05/31(水) 12:44:32.50ID:gy6WrZsR143デフォルトの名無しさん
2017/05/31(水) 16:04:23.05ID:jFN45aLj144デフォルトの名無しさん
2017/05/31(水) 17:04:05.88ID:MQUo5X9j なぜrubyなのかよく分からん
多少正規表現エンジンの種類やバージョンの違いはあれど
正規表現はperlでもPHPでもJavaScriptでもPythonでも使えるし
rubyの正規表現なんて昔はコールバック処理するのがくそ面倒だった筈だが
多少正規表現エンジンの種類やバージョンの違いはあれど
正規表現はperlでもPHPでもJavaScriptでもPythonでも使えるし
rubyの正規表現なんて昔はコールバック処理するのがくそ面倒だった筈だが
145デフォルトの名無しさん
2017/05/31(水) 17:10:42.06ID:BtqSGsFQ 正規表現を使わずにrubyでやれと言いたいのでは
まあ確かにrubyは標準で簡単強力なcsv処理ができるけど
ruby以外でのcsvの処理の仕方を知らない知識不足な人の戯言にしか見えない
まあ確かにrubyは標準で簡単強力なcsv処理ができるけど
ruby以外でのcsvの処理の仕方を知らない知識不足な人の戯言にしか見えない
146デフォルトの名無しさん
2017/05/31(水) 17:29:50.80ID:nyiBm3r5 excelでも正規表現使えるけどな
147デフォルトの名無しさん
2017/05/31(水) 17:55:47.82ID:b1E/NNUq >>144
たぶんrubyのような言語と言いたかったのだと推察致しまする
たぶんrubyのような言語と言いたかったのだと推察致しまする
148デフォルトの名無しさん
2017/06/01(木) 04:08:09.64ID:+TrYOuL5 >>134
VB(今時は.NET)では入力チェックとかでよく使うからお前の偏見だよ。
VB(今時は.NET)では入力チェックとかでよく使うからお前の偏見だよ。
149デフォルトの名無しさん
2017/06/01(木) 04:08:53.15ID:+TrYOuL5 >>134
いい忘れたがサクラのマクロもよく使う。
いい忘れたがサクラのマクロもよく使う。
150デフォルトの名無しさん
2017/06/01(木) 05:13:28.59ID:gHUhkzd0151デフォルトの名無しさん
2017/06/01(木) 05:24:23.62ID:gHUhkzd0 >>149
お前個人の話かよ
お前個人の話かよ
152デフォルトの名無しさん
2017/06/01(木) 05:39:57.85ID:pPoV2n06 そもそもテキスト処理じゃないと使わんよ
使う使う言う奴はプログラミングの分野が偏ってるんじゃないか?
使う使う言う奴はプログラミングの分野が偏ってるんじゃないか?
153デフォルトの名無しさん
2017/06/01(木) 06:10:29.36ID:htPbJpjE エンドユーザーに近い分野で使うというより、開発者が使うものでしょ。SQLとかと同じ。
154デフォルトの名無しさん
2017/06/01(木) 08:16:36.86ID:YbQp1MN1155デフォルトの名無しさん
2017/06/01(木) 09:37:01.51ID:OU3iOJ/C >>148
これが偏見な
これが偏見な
156デフォルトの名無しさん
2017/06/01(木) 10:35:10.56ID:Fkhc5exB エマ中尉の盾になって死んだ人?
157デフォルトの名無しさん
2017/06/01(木) 12:16:30.24ID:o/dQD8LP >>154
特殊な例を一般化するのはよくない
特殊な例を一般化するのはよくない
158デフォルトの名無しさん
2017/06/01(木) 12:52:26.55ID:YbQp1MN1159デフォルトの名無しさん
2017/06/01(木) 12:55:42.58ID:uSxzswpP 検索じゃろ
grep然りsed然りエディタの検索然り
grep然りsed然りエディタの検索然り
160デフォルトの名無しさん
2017/06/01(木) 20:45:19.78ID:YbQp1MN1 >>159
その辺りもエンドユーザー(多くは開発者だと思うけど)に近いところじゃね?
その辺りもエンドユーザー(多くは開発者だと思うけど)に近いところじゃね?
161デフォルトの名無しさん
2017/06/01(木) 21:36:20.85ID:z/dTvzRJ 一般に正規表現自体をどこで使うかの話と違うんか?
プログラマがどこで使うかって文脈に限定してるのんか?
プログラマがどこで使うかって文脈に限定してるのんか?
162デフォルトの名無しさん
2017/06/02(金) 00:26:45.39ID:ixZw1vso perlがそうであったようにログ読んだり整形したりするときにも良く使う。システム管理者。
プログラマによっては無理に正規表現使わないで正規表現を引数に取らないcontainとか複数行で書くって人もいるんじゃないか。入力チェックもそんな考えるような正規表現の出番少ないような。
perlくらい言語に組み込まれてるならともかく。
プログラマによっては無理に正規表現使わないで正規表現を引数に取らないcontainとか複数行で書くって人もいるんじゃないか。入力チェックもそんな考えるような正規表現の出番少ないような。
perlくらい言語に組み込まれてるならともかく。
163デフォルトの名無しさん
2017/06/02(金) 01:15:51.17ID:ZbzhojDH >>156
ヘンケン艦長~!
ヘンケン艦長~!
164デフォルトの名無しさん
2017/06/02(金) 14:02:59.19ID:s9L+1vWi 正規表現、難しいですね…全然わかりません
お知恵をおかし下さい
例えば
test = "//abc"; // コメント "です"
という一行があった場合、後半の
// コメント "です"
にだけマッチする正規表現はどのように書いたらいいんでしょうか?
最初は
/(?!.*(\"|\'))\/\/(.*)/
こんなカンジで否定的先読みを利用していたのですが、
コメント部にも、 シングル及びダブルクォーテーションが入る可能性が出てきたので、
この書き方では ?! で否定しているためなのかマッチ出来ません。
何か良い書き方はありますでしょうか?
やりたい事は、PHPなどで、javascriptのソースから単一行のコメントを削除したいです。
よろしくお願い致します。
お知恵をおかし下さい
例えば
test = "//abc"; // コメント "です"
という一行があった場合、後半の
// コメント "です"
にだけマッチする正規表現はどのように書いたらいいんでしょうか?
最初は
/(?!.*(\"|\'))\/\/(.*)/
こんなカンジで否定的先読みを利用していたのですが、
コメント部にも、 シングル及びダブルクォーテーションが入る可能性が出てきたので、
この書き方では ?! で否定しているためなのかマッチ出来ません。
何か良い書き方はありますでしょうか?
やりたい事は、PHPなどで、javascriptのソースから単一行のコメントを削除したいです。
よろしくお願い致します。
165デフォルトの名無しさん
2017/06/02(金) 14:24:22.46ID:zHTMhHhl //((?!//).)*?$
166デフォルトの名無しさん
2017/06/02(金) 20:31:58.40ID:KFrvDlYH PHP は知らん
$perl -ne 'm%((?:\".*?\"|/(?!/)|[^/])*)(.*)% ; printf("<$1> <$2>\n");'
test = "//abc"; // コメント "です"
<test = "//abc"; > <// コメント "です">
// コメント "です"
<> <// コメント "です">
$
$perl -ne 'm%((?:\".*?\"|/(?!/)|[^/])*)(.*)% ; printf("<$1> <$2>\n");'
test = "//abc"; // コメント "です"
<test = "//abc"; > <// コメント "です">
// コメント "です"
<> <// コメント "です">
$
167デフォルトの名無しさん
2017/06/02(金) 21:10:46.42ID:yyLeCvfJ 末尾方向から、// を探して、もしあれば、その行を選択する。
^.*\/\/(ここに、2連続以上の、/ が存在しない)$
/// 例えば、3連続でも、コメント扱いするよな?
test = "///abc"; /// コメント "です"
シングルクォーテーションは、どうするんだ?
test = '///abc'; /// コメント "です"
^.*\/\/(ここに、2連続以上の、/ が存在しない)$
/// 例えば、3連続でも、コメント扱いするよな?
test = "///abc"; /// コメント "です"
シングルクォーテーションは、どうするんだ?
test = '///abc'; /// コメント "です"
168デフォルトの名無しさん
2017/06/02(金) 23:18:34.61ID:cODXM6Ca javascriptだから、シングルダブルは同等機能
"'"とか'"'とか有だし
"\""とかのエスケープもある
"//abc"は文字列だし、"\""//abc"はコメント
"'"とか'"'とか有だし
"\""とかのエスケープもある
"//abc"は文字列だし、"\""//abc"はコメント
169デフォルトの名無しさん
2017/06/03(土) 00:22:48.22ID:02UJhjHA みなさん、ありがとう御座います!
165さんの短いのでサクっと出来ました!
なるほど、末尾から検索をかけるとう考えなんですね。
本当に奥が深くて、使いこなすのは難しいです…
いろんなパターンを作りだし、自由にマッチ出来るよう精進します
>165-167さん、ありがとう御座いました!
165さんの短いのでサクっと出来ました!
なるほど、末尾から検索をかけるとう考えなんですね。
本当に奥が深くて、使いこなすのは難しいです…
いろんなパターンを作りだし、自由にマッチ出来るよう精進します
>165-167さん、ありがとう御座いました!
170デフォルトの名無しさん
2017/06/03(土) 00:23:37.51ID:02UJhjHA >168さん抜けちゃいました(汗
ありがとう御座いました!
ありがとう御座いました!
171165
2017/06/03(土) 01:16:11.91ID:janVI+9u >>169
ツッコミか逆ギレ待ちだったんだが…
165ではコメントが無くてコード中に//がある場合にそのコードの部分にマッチする
削除だとコードを削ってしまうよ
コード中に//が無い場合、またはコード中に//がある場合にその後ろにコメント行がある場合、限定
マトモなのは「JS コメント 正規表現」とかのワードでggr
ツッコミか逆ギレ待ちだったんだが…
165ではコメントが無くてコード中に//がある場合にそのコードの部分にマッチする
削除だとコードを削ってしまうよ
コード中に//が無い場合、またはコード中に//がある場合にその後ろにコメント行がある場合、限定
マトモなのは「JS コメント 正規表現」とかのワードでggr
172デフォルトの名無しさん
2017/06/03(土) 01:49:01.34ID:VDeCcObx s#((?:"(?:\\\\|\\"|[^"])*+"|'(?:\\\\|\\'|[^'])*+'|/(?!/)|[^/])*+)(.*)#<$1>\t<$2>#
173デフォルトの名無しさん
2017/06/03(土) 02:57:17.44ID:02UJhjHA >>171
え!?
限定的なテストで、思ったとおりの動きをしたので、おお!すげー!って思ってました…
実際のスクリプトには、まだ組み込んでないので気付きませんでした
他の方が書かれてた方法も試したり、ググってみますね
え!?
限定的なテストで、思ったとおりの動きをしたので、おお!すげー!って思ってました…
実際のスクリプトには、まだ組み込んでないので気付きませんでした
他の方が書かれてた方法も試したり、ググってみますね
174デフォルトの名無しさん
2017/06/03(土) 04:51:38.86ID:ZUxfcpWv 区切り記号 ; や閉じ括弧 } のあとにスペースかタブいくつかの後に来る // から行末をコメントと見なすのが簡単?
175デフォルトの名無しさん
2017/06/03(土) 12:52:21.44ID:7vig672V コメント化は、プログラムデバッグ中にも命令を無効にするために使うこともあるし、ことはそう簡単じゃないよ
//if(hoge=="http://hoge.net";) {//コメント
//if(hoge=="http://hoge.net";) {//コメント
176デフォルトの名無しさん
2017/06/03(土) 14:13:52.35ID:ep62Y9tf これは、無限の組み合わせがあるから、正規表現じゃ無理
AST変換とか、LLVMでコンパイル後の命令木をもらって、
コメント部分を削除するとかしないと、自力じゃ無理なレベル
AST変換とか、LLVMでコンパイル後の命令木をもらって、
コメント部分を削除するとかしないと、自力じゃ無理なレベル
177デフォルトの名無しさん
2017/06/03(土) 14:17:50.88ID:sCohk93m うむ
178デフォルトの名無しさん
2017/06/03(土) 14:32:23.81ID:7vig672V こんな場合もあるからね
/* 一行コメントを外す
//*/hoge="abc";
/* 一行コメントを外す
//*/hoge="abc";
179デフォルトの名無しさん
2017/06/03(土) 14:42:13.81ID:mWYP1opd 文脈自由言語の領域か
180デフォルトの名無しさん
2017/06/03(土) 16:26:56.85ID:kz1iKZuq テキストから
06/03(
を抽出する場合、どんな表現になりますか?
06/03(
を抽出する場合、どんな表現になりますか?
181デフォルトの名無しさん
2017/06/03(土) 16:32:48.16ID:7vig672V 何それ限定なの?
06\/03\(
(スラッシュにエスケープが要らない場合もあるけど付けといてダメなことはない)
06\/03\(
(スラッシュにエスケープが要らない場合もあるけど付けといてダメなことはない)
182デフォルトの名無しさん
2017/06/03(土) 20:14:19.78ID:4NkabvDw >>181
sedのsなんかは(をエスケープすると特別な意味を持つんじゃ
sedのsなんかは(をエスケープすると特別な意味を持つんじゃ
183デフォルトの名無しさん
2017/06/03(土) 22:49:00.44ID:yEDWU2+/ 正規表現って本当に色々なパターンでテストしないと抜けがあったりするから怖いね
184デフォルトの名無しさん
2017/06/03(土) 23:15:22.50ID:eiMrU4PF185デフォルトの名無しさん
2017/06/04(日) 00:01:51.87ID:caz8ZVsN 理解してないのに使う方が怖い
186デフォルトの名無しさん
2017/06/04(日) 10:21:55.88ID:ty2rLUEJ >>184
仕様を理解してたらバグがないって? w
仕様を理解してたらバグがないって? w
187デフォルトの名無しさん
2017/06/05(月) 17:11:30.09ID:oWlVC1QB 非欲張り、欲張り、強欲の違いが分からなかったんだけど
ttp://d.hatena.ne.jp/atzy/20110309/p1
これ読んでやっと分かった
こりゃエディタの検索で試してるだけじゃ理解出来なくて当然だね
誰か同じように例を交えて先読みと戻り読みのロジックを解説して欲しい
それか解説してるwebページがあるならリンク貼って下さい
ttp://d.hatena.ne.jp/atzy/20110309/p1
これ読んでやっと分かった
こりゃエディタの検索で試してるだけじゃ理解出来なくて当然だね
誰か同じように例を交えて先読みと戻り読みのロジックを解説して欲しい
それか解説してるwebページがあるならリンク貼って下さい
188デフォルトの名無しさん
2017/06/09(金) 23:50:59.51ID:fJoQB/gQ ●Regular Expressionの使用環境
秀丸 HMJRE.DLL V5.00
●検索か置換か?
置換
●説明
文章最後の文字からEOFまでの 空白(全角半角両方) タブ 改行 を消したい。
●対象データ
AAAAA
BBBBB
CCCCC
[EOF]
●希望する結果
AAAAA
BBBBB
CCCCC[EOF]
秀丸 HMJRE.DLL V5.00
●検索か置換か?
置換
●説明
文章最後の文字からEOFまでの 空白(全角半角両方) タブ 改行 を消したい。
●対象データ
AAAAA
BBBBB
CCCCC
[EOF]
●希望する結果
AAAAA
BBBBB
CCCCC[EOF]
189デフォルトの名無しさん
2017/06/10(土) 10:49:19.67ID:qGbgn0XY190デフォルトの名無しさん
2017/06/10(土) 12:37:04.98ID:6tXlKKLu [ \s]*(?!\n)$(?#maxlines:99999999)
191デフォルトの名無しさん
2017/06/12(月) 04:37:37.47ID:40WtKqR9 >>187
Qiitaなのでコメントまで必ず読むこと
正規表現の先読み/後読みを「絞り込み」と理解してみる - Qiita
http://qiita.com/blackenedgold/items/382704cc54c8e42819d0
[コラム] 正規表現の先読み/後読みは、どう考えても名前が悪いので、呼称禁止令を出してルックと気軽に呼んでみませんか。 - Qiita
http://qiita.com/mochizukikotaro/items/84f3ab2740b8efbe0dc6
後者は日本語表現のネタモノなので理解にはあまり役に立ちませんが
Qiitaなのでコメントまで必ず読むこと
正規表現の先読み/後読みを「絞り込み」と理解してみる - Qiita
http://qiita.com/blackenedgold/items/382704cc54c8e42819d0
[コラム] 正規表現の先読み/後読みは、どう考えても名前が悪いので、呼称禁止令を出してルックと気軽に呼んでみませんか。 - Qiita
http://qiita.com/mochizukikotaro/items/84f3ab2740b8efbe0dc6
後者は日本語表現のネタモノなので理解にはあまり役に立ちませんが
192デフォルトの名無しさん
2017/06/12(月) 04:43:04.94ID:3uouTe/z >>191
ありがとう。読んでみます
ありがとう。読んでみます
193デフォルトの名無しさん
2017/06/15(木) 14:44:28.61ID:p0Tdw73d そもそも「正規表現」が誤訳だし
「先読み/後読み」がどうだって驚かない
「先読み/後読み」がどうだって驚かない
194デフォルトの名無しさん
2017/06/15(木) 17:11:52.26ID:vJds0eqB 名前なのに誤訳ってなんだよ
195デフォルトの名無しさん
2017/06/15(木) 20:46:27.61ID:am9DsefU 「正規表現」が誤訳!!www
196デフォルトの名無しさん
2017/06/15(木) 21:53:29.88ID:5Ry9SVFq 前厄,翻訳,後厄
197デフォルトの名無しさん
2017/06/15(木) 23:55:29.06ID:kDv/IOKj 非正規労働者に謝れ
198デフォルトの名無しさん
2017/06/16(金) 00:00:22.35ID:AvJwaQP1199デフォルトの名無しさん
2017/06/16(金) 00:03:22.93ID:ugmLNmLC まさのりって誰よ?
200デフォルトの名無しさん
2017/06/16(金) 00:09:53.04ID:7387anCt >>198
数学用語で考えると、「正則式」
数学用語で考えると、「正則式」
201デフォルトの名無しさん
2017/06/16(金) 00:28:35.35ID:CHM/yJyC 誤訳にしたくて必死過ぎw
202デフォルトの名無しさん
2017/06/16(金) 00:34:50.74ID:PEuGYK32 確かに数学的にはregularは正則でnormalが正規だけども
正規表現が正則式だの正則表現になったからといって何が分かりやすくなるでもなし
正規表現が正則式だの正則表現になったからといって何が分かりやすくなるでもなし
203デフォルトの名無しさん
2017/06/16(金) 01:26:14.32ID:1cZCMNBu ID変わった時間に擁護
204デフォルトの名無しさん
2017/06/16(金) 03:20:09.01ID:cmFh/xD2 英語圏の人たちにとってもRegular Expressionと言われて
[ \s]* みたいなことか~て思い浮かぶわけでもなかろ
単に「それを何と呼ぶか」つまり名前付けをどうするってだけのことだよ
ただ日本では(2chだけかもしれないけど)性器表現とか茶々入れる奴がいるのが面倒くさい
[ \s]* みたいなことか~て思い浮かぶわけでもなかろ
単に「それを何と呼ぶか」つまり名前付けをどうするってだけのことだよ
ただ日本では(2chだけかもしれないけど)性器表現とか茶々入れる奴がいるのが面倒くさい
205デフォルトの名無しさん
2017/06/16(金) 06:44:35.89ID:HukDnr5k 2chに限らずゲスな一般大衆の猿共は真っ先に性器と捉える
正規よりかは正則の方が良かっただろうけど
若い女の子へのセクハラに使えるから正規も捨て難い
まあ今時「せいき」の言葉にモジモジする女子なんて希少だが居なくは無い
正規よりかは正則の方が良かっただろうけど
若い女の子へのセクハラに使えるから正規も捨て難い
まあ今時「せいき」の言葉にモジモジする女子なんて希少だが居なくは無い
206デフォルトの名無しさん
2017/06/16(金) 12:48:55.14ID:dHQ1DtF8 くっさ
207デフォルトの名無しさん
2017/06/16(金) 13:01:55.39ID:KyUpje1a 正規表現で置換
208デフォルトの名無しさん
2017/06/16(金) 16:51:35.05ID:ugmLNmLC >>207
通報した
通報した
209デフォルトの名無しさん
2017/06/16(金) 17:21:44.35ID:HukDnr5k 痴漢の際に性器表現を用いた
210デフォルトの名無しさん
2017/06/16(金) 18:35:19.21ID:1eQLQexT 成基学園ってまだあるんかね
211デフォルトの名無しさん
2017/06/19(月) 22:55:10.17ID:HM1jnBNt システム関係の仕事してるけど正規表現知ってるとホント仕事がはかどるわ
知らん奴いたら教えたくないレベルw
知らん奴いたら教えたくないレベルw
212デフォルトの名無しさん
2017/06/20(火) 00:30:35.64ID:qgvPAN/M システム関係の仕事って自宅警備員のこと?
213デフォルトの名無しさん
2017/06/20(火) 08:43:02.71ID:bMt5HDL+214デフォルトの名無しさん
2017/06/20(火) 12:36:20.94ID:5s5M5H6z 痴漢と挿入
215デフォルトの名無しさん
2017/06/20(火) 16:59:32.57ID:V+xxZfop 表現を抜いてれば完璧
216デフォルトの名無しさん
2017/06/22(木) 00:33:36.51ID:WTVST2HN 痴漢って挿入する前にするものなのか?
217デフォルトの名無しさん
2017/06/25(日) 14:01:32.44ID:cBKwT0iz 挿入したら痴漢じゃなくなるからそういうことだな
218デフォルトの名無しさん
2017/06/25(日) 14:08:45.87ID:cBKwT0iz 質問です。
ttp://hayabusa3.2ch・sc/test/read.cgi/news/1498009569/
↑ここに、「それは文科省にとってリスクか&#12441;あるわけて&#12441;すね。」っていう文章があります。
これをエディタで置換したいです。
秀丸エディタには半角化、全角化があるので、
「&#12441;」を「゛」に、「゛」とその前を半角に、「゙」とその前を全角にと言う手順で全角濁音化することができます。
しかし、段階的に置換すると、[ニダ]と言う文字が[ニダ]となります。
専ブラでなく普通のエディタでメール欄に限定せず「&#12441;」だけをちゃんと全角濁音化するにはどうしたらいいでしょうか。
ttp://hayabusa3.2ch・sc/test/read.cgi/news/1498009569/
↑ここに、「それは文科省にとってリスクか&#12441;あるわけて&#12441;すね。」っていう文章があります。
これをエディタで置換したいです。
秀丸エディタには半角化、全角化があるので、
「&#12441;」を「゛」に、「゛」とその前を半角に、「゙」とその前を全角にと言う手順で全角濁音化することができます。
しかし、段階的に置換すると、[ニダ]と言う文字が[ニダ]となります。
専ブラでなく普通のエディタでメール欄に限定せず「&#12441;」だけをちゃんと全角濁音化するにはどうしたらいいでしょうか。
219デフォルトの名無しさん
2017/06/25(日) 14:14:01.85ID:cBKwT0iz 変換関数をネストして、全角から直接全角に置換すれば大丈夫っぽいです。
スレ汚し失礼しました。
スレ汚し失礼しました。
220デフォルトの名無しさん
2017/06/25(日) 14:17:59.69ID:lrjpj5rj マクロ
221デフォルトの名無しさん
2017/06/25(日) 14:24:13.60ID:cBKwT0iz マクロを覚えるほど気力ないので。
せいぜいキーボードマクロまでですね。
メモ:
1回目「゙」→「゛」
2回目「[か-こさ-そた-と][゛]」→「\((0,ToHankaku),ToZenkakuHira)」
せいぜいキーボードマクロまでですね。
メモ:
1回目「゙」→「゛」
2回目「[か-こさ-そた-と][゛]」→「\((0,ToHankaku),ToZenkakuHira)」
222デフォルトの名無しさん
2017/06/25(日) 14:40:18.89ID:gOEYQ1GV Unicode正規化
223デフォルトの名無しさん
2017/06/25(日) 15:09:28.12ID:cBKwT0iz ID:fr6XvX0v3
DOSコマンドでいけるよ
【.cmd】 バッチファイルスクリプト %12 【.bat】
http://mevius.2ch.net/test/read.cgi/tech/1489207631/
なんかscに書けなくなった。
認証が延々と出てくる。
DOSコマンドでいけるよ
【.cmd】 バッチファイルスクリプト %12 【.bat】
http://mevius.2ch.net/test/read.cgi/tech/1489207631/
なんかscに書けなくなった。
認証が延々と出てくる。
224デフォルトの名無しさん
2017/06/25(日) 15:19:25.37ID:cBKwT0iz >>222
なるほど。
http://hide.maruo.co.jp/lib/hmconv/normalize101.html
> Unicode正規化を行ないます。
> パラメータとしてNFC、NFD、NFKC、NFKDが指定可能です。
Googlエ
> 合成形に正規化する方法を NFC(Normalization Form Composition)
なるほど。
http://hide.maruo.co.jp/lib/hmconv/normalize101.html
> Unicode正規化を行ないます。
> パラメータとしてNFC、NFD、NFKC、NFKDが指定可能です。
Googlエ
> 合成形に正規化する方法を NFC(Normalization Form Composition)
225デフォルトの名無しさん
2017/06/29(木) 16:59:45.11ID:02bfNUCV 質問します
●Meryで置換
●対象データ
wwwwwwwa,AAAAA,gawgagaw,fwaf awfaf
n,BBB,gawgagaw,fwaf awfa,fwaaw,fwaaw
rea,CCCC
ae,DD,gawgagaw,fwaf awfaf ,fwaaw
●希望する結果
カンマ2番目の
AAAAA
BBB
CCCC
DD
を
******
******
******
******
に置換
●
(?<=,).*?(?=[,\n])
までは考えましたがこれ以上力不足でわかりません よろしくお願いします
●Meryで置換
●対象データ
wwwwwwwa,AAAAA,gawgagaw,fwaf awfaf
n,BBB,gawgagaw,fwaf awfa,fwaaw,fwaaw
rea,CCCC
ae,DD,gawgagaw,fwaf awfaf ,fwaaw
●希望する結果
カンマ2番目の
AAAAA
BBB
CCCC
DD
を
******
******
******
******
に置換
●
(?<=,).*?(?=[,\n])
までは考えましたがこれ以上力不足でわかりません よろしくお願いします
226デフォルトの名無しさん
2017/06/29(木) 18:40:30.46ID:poRQnsAj (^.*?,).*?(?=[,¥n])
rea,CCCCのパターンが行末だとできないんだよなー。
rea,CCCCのパターンが行末だとできないんだよなー。
227デフォルトの名無しさん
2017/06/29(木) 18:57:06.54ID:WmvxL1Sm ^([^,]*,)[^,\r\n]+
を
$1******
に置換
"a,b",defのようなものはダメだが
を
$1******
に置換
"a,b",defのようなものはダメだが
228デフォルトの名無しさん
2017/06/30(金) 03:23:16.33ID:9+Qy2E7i229デフォルトの名無しさん
2017/07/06(木) 20:38:45.39ID:zX6kiHLz 質問です。
●Regular Expressionの使用環境
Java Script
●検索か置換か?
置換
●対象データ
abc:ABCDEFG
def:123456789
ghi:くぁwせdr
●希望する結果
上記のような複数行の文字列があったとして、
"123456789"を取り出すにはどのようにしたら良いでしょうか?
条件としては、行頭の"def"をキーにして、
「defで始まる行の、def:の次の文字から行末まで」を取り出したいです。
よろしくお願い致します。
●Regular Expressionの使用環境
Java Script
●検索か置換か?
置換
●対象データ
abc:ABCDEFG
def:123456789
ghi:くぁwせdr
●希望する結果
上記のような複数行の文字列があったとして、
"123456789"を取り出すにはどのようにしたら良いでしょうか?
条件としては、行頭の"def"をキーにして、
「defで始まる行の、def:の次の文字から行末まで」を取り出したいです。
よろしくお願い致します。
230デフォルトの名無しさん
2017/07/07(金) 08:13:19.50ID:QFC9teR0 後読みが使えないJSなら/def:(.*?$)/m
使えるなら/(?<=def:).*?$/m
使えるなら/(?<=def:).*?$/m
231デフォルトの名無しさん
2017/07/08(土) 02:10:34.01ID:OqNCkVph BBCの正規表現クイズ。たまにはこういうのも面白いね
ttp://www.bbc.co.uk/programmes/articles/5LCB3rN2dWLqsmGMy5KYtBf/puzzle-for-today
ttp://www.bbc.co.uk/programmes/articles/5LCB3rN2dWLqsmGMy5KYtBf/puzzle-for-today
232デフォルトの名無しさん
2017/07/08(土) 06:16:34.80ID:b/20QJ7+233デフォルトの名無しさん
2017/07/08(土) 06:17:08.46ID:b/20QJ7+ 訂正
後読みでした。
後読みでした。
234デフォルトの名無しさん
2017/07/08(土) 09:10:13.00ID:NOOXEVdu235デフォルトの名無しさん
2017/07/08(土) 19:51:13.74ID:utlt5XjQ236デフォルトの名無しさん
2017/07/10(月) 01:20:40.78ID:8zNQYoZi237デフォルトの名無しさん
2017/07/15(土) 10:24:03.66ID:/mu01QmD >>231
新しいなコレ!
面白いんでエクセルで入力できるフォーマットを作ってみた
http://www.dotup.org/uploda/www.dotup.org1307951.xls
(拡張子でうちのエクセルが激古なのがバレる…)
新しいなコレ!
面白いんでエクセルで入力できるフォーマットを作ってみた
http://www.dotup.org/uploda/www.dotup.org1307951.xls
(拡張子でうちのエクセルが激古なのがバレる…)
238デフォルトの名無しさん
2017/07/15(土) 12:03:12.72ID:6mzqXSAQ 少しやって時間の問題だなと思って途中で切り上げて答見たけど
数文字しか合ってなかった
最後までやらなくてよかった
数文字しか合ってなかった
最後までやらなくてよかった
239デフォルトの名無しさん
2017/07/25(火) 08:57:23.04ID:QW1aVSBc ●Regular Expressionの使用環境
VBA7.1
●検索か置換か?
検索
●説明
期待する数値の桁数かどうか。拡張子はあっても無くても良い。
●対象データ
AA17-0001.xlsm
AA17-0002
●希望する結果
ifで合致しているかどうかを判定しています。
.Pattern = "^AA\d{2}-\d{4}(\.xlsm$)?"
○AA17-0001.xlsm
○AA17-0002
×AA17-00023
×AA17-00024.xlsm
最後の?を削れば、拡張仕込みであれば上手くいきますが良い方法は
ないでしょうか。
VBA7.1
●検索か置換か?
検索
●説明
期待する数値の桁数かどうか。拡張子はあっても無くても良い。
●対象データ
AA17-0001.xlsm
AA17-0002
●希望する結果
ifで合致しているかどうかを判定しています。
.Pattern = "^AA\d{2}-\d{4}(\.xlsm$)?"
○AA17-0001.xlsm
○AA17-0002
×AA17-00023
×AA17-00024.xlsm
最後の?を削れば、拡張仕込みであれば上手くいきますが良い方法は
ないでしょうか。
240デフォルトの名無しさん
2017/07/25(火) 09:09:17.24ID:jjK7Ecmt241デフォルトの名無しさん
2017/07/25(火) 12:00:47.38ID:QW1aVSBc242デフォルトの名無しさん
2017/07/25(火) 12:23:12.14ID:QW1aVSBc 差し支え無ければ、 ^AA\d{2}-\d{4}(\.xlsm)? だと
ND17-00001
ND17-00001.xlsm2
等々にもマッチしてしまう理由を教えていただけないでしょうか。
ND17-00001
ND17-00001.xlsm2
等々にもマッチしてしまう理由を教えていただけないでしょうか。
243デフォルトの名無しさん
2017/07/25(火) 12:24:08.99ID:QW1aVSBc ミス。AAでした。
AA17-00001
AA17-00001.xlsm2
AA17-00001
AA17-00001.xlsm2
244デフォルトの名無しさん
2017/07/25(火) 12:38:31.42ID:0gI9u146245デフォルトの名無しさん
2017/07/25(火) 13:05:32.38ID:BGzbzmfB ^AA\d{2}-\d{4}(\.xlsm$)?
は
"^AA\d{2}-\d{4}" と "^AA\d{2}-\d{4}\.xlsm$" という意味
AA17-00001
AA17-00001.xlsm2
の "AA17-0000" の部分に前者がマッチする
"^AA\d{2}-\d{4}$" であればマッチしない
は
"^AA\d{2}-\d{4}" と "^AA\d{2}-\d{4}\.xlsm$" という意味
AA17-00001
AA17-00001.xlsm2
の "AA17-0000" の部分に前者がマッチする
"^AA\d{2}-\d{4}$" であればマッチしない
246デフォルトの名無しさん
2017/07/25(火) 13:22:18.59ID:QW1aVSBc247デフォルトの名無しさん
2017/07/25(火) 13:29:36.02ID:oWvKCPb4 ?は「直前のパターンが 0回または 1回登場する事」なので、そのパターン中に、$「行末」を含めてしまうと、(0回登場側で)効果が消えてしまう。
1人で書いてるとよくやるミスだと思う。
1人で書いてるとよくやるミスだと思う。
248デフォルトの名無しさん
2017/07/25(火) 21:26:32.07ID:lTcbRvTI ^AA\d{2}-\d{4}
は実は
^AA\d{2}-\d{4}.*$
だと考えれば理解の助けになるかも。ならないかも。
は実は
^AA\d{2}-\d{4}.*$
だと考えれば理解の助けになるかも。ならないかも。
249デフォルトの名無しさん
2017/07/26(水) 01:05:33.15ID:3rtPYRQF ^AA\d{2}-\d{4}(\.xlsm$)?
$?
行末の後ろに、? か。
この式は、見た瞬間に、おかしいとわかる
$?
行末の後ろに、? か。
この式は、見た瞬間に、おかしいとわかる
250デフォルトの名無しさん
2017/07/26(水) 11:10:37.56ID:Vp/yahqk >>249
文法的にも間違いでは無いだろ
文法的にも間違いでは無いだろ
251デフォルトの名無しさん
2017/07/26(水) 13:08:28.96ID:9H6h7u80 >>250
文法的には正しいけれど、式としておかしい「と感じる事ができる」と言いたいんだと思う。
文法的には正しいけれど、式としておかしい「と感じる事ができる」と言いたいんだと思う。
252デフォルトの名無しさん
2017/07/26(水) 14:48:10.36ID:Vp/yahqk >>251
式としても正しい
式としても正しい
253デフォルトの名無しさん
2017/07/26(水) 14:55:46.30ID:aH2YwDtv 250,252みたいなのをアスペっていうんだろうな
論点は式や文法として正しいか正しくないかではないって事ぐらい一目見れば分かりそうなもんだが
論点は式や文法として正しいか正しくないかではないって事ぐらい一目見れば分かりそうなもんだが
254デフォルトの名無しさん
2017/07/26(水) 16:41:49.04ID:NnPMbS6q きちんと整理すると目的に合わない正規表現が直感的に分かるエスパー能力
としか言いようがないし>>249がその能力者だとしても特に羨ましくもない
としか言いようがないし>>249がその能力者だとしても特に羨ましくもない
255デフォルトの名無しさん
2017/07/26(水) 17:37:15.75ID:UlpW8N7A 例えば、エディタの検索等で強調表示する際の式としてなら何も不思議は無いが
プログラム中での判定式ならば後者は必ず前者にマッチするので意味を成さない
つまり無駄に冗長であったり何かミスをしている可能性が高い。そういう事でしょ
プログラム中での判定式ならば後者は必ず前者にマッチするので意味を成さない
つまり無駄に冗長であったり何かミスをしている可能性が高い。そういう事でしょ
256デフォルトの名無しさん
2017/07/26(水) 17:37:56.28ID:Sop8S35W >>253
プログラマに多いタイプではある
プログラマに多いタイプではある
257デフォルトの名無しさん
2017/07/26(水) 17:52:57.91ID:Bbl5PJto 問題は >>249 が何の役にも立ちそうにないということじゃないかな。
何を言いたいか想像できなくもないが、単に知らないだけという可能性もまた捨てきれない。
ここはそういう場所だ。
明確に「$ は末尾にだけ書くようにすれば間違いを防げると思うよ」とでも書けばよかったのに。
何を言いたいか想像できなくもないが、単に知らないだけという可能性もまた捨てきれない。
ここはそういう場所だ。
明確に「$ は末尾にだけ書くようにすれば間違いを防げると思うよ」とでも書けばよかったのに。
258デフォルトの名無しさん
2017/07/26(水) 18:26:15.97ID:UlpW8N7A まあ読点の打ち方とかみるにアホガキか底辺土方がドヤりたかっただけだろうから
そろそろそっとしておいておやり
そろそろそっとしておいておやり
259デフォルトの名無しさん
2017/07/26(水) 19:38:32.33ID:VudXLbcK 臭う正規表現だと言えばいいのかな
260デフォルトの名無しさん
2017/07/26(水) 21:03:00.43ID:JJ3vg08i261デフォルトの名無しさん
2017/07/27(木) 08:25:22.52ID:JB/MQIbV262デフォルトの名無しさん
2017/07/27(木) 09:03:12.08ID:32ZlcHw6 よくこんなネタでいつまでも盛り上がれるな
263デフォルトの名無しさん
2017/07/27(木) 10:22:50.72ID:FeDFxsXm うむ
264デフォルトの名無しさん
2017/07/27(木) 11:04:39.19ID:w0VKyQmM そこら辺も含めてプログラマに多いタイプって事だ
話の流れや空気を読むのが苦手なタイプ
話の流れや空気を読むのが苦手なタイプ
265デフォルトの名無しさん
2017/07/27(木) 15:20:17.23ID:DvNlZLuV >>264
辛辣ワロタ
辛辣ワロタ
266デフォルトの名無しさん
2017/07/27(木) 18:27:44.41ID:t8Fq16Nl 2ch的にはまだ甘い方
267デフォルトの名無しさん
2017/07/27(木) 19:38:46.83ID:/VCkXAgy プログラマって話の流れが読めないやつ確かに多い気がするけど、何でなんだろう。
プログラムとかって、流れを理解する事が重要じゃん?
プログラムとかって、流れを理解する事が重要じゃん?
268デフォルトの名無しさん
2017/07/27(木) 21:11:31.82ID:oiygPPLB プログラマーとひと口に言ってもピンキリ
使えないキリの方のコミュ障ボッチオタク系IT土方をバカにするネタでそういったのが多いから
そんなイメージが付いてるだけでしょ
業種に依らず底辺のゴミ共に通じるネタだったものが独り歩きしたんじゃない?
まあでも「流れや空気を読む」てのはファジーな判断能力でコミュニケーションの中で培われるから
人間関係よりも数学の方が楽って人には難しく、そういった傾向はあるのかも知れない
使えないキリの方のコミュ障ボッチオタク系IT土方をバカにするネタでそういったのが多いから
そんなイメージが付いてるだけでしょ
業種に依らず底辺のゴミ共に通じるネタだったものが独り歩きしたんじゃない?
まあでも「流れや空気を読む」てのはファジーな判断能力でコミュニケーションの中で培われるから
人間関係よりも数学の方が楽って人には難しく、そういった傾向はあるのかも知れない
269デフォルトの名無しさん
2017/07/27(木) 22:58:53.54ID:SUaLVh4Q >>267
君、249か253じゃあないのかよ?
君、249か253じゃあないのかよ?
270デフォルトの名無しさん
2017/07/28(金) 06:08:45.61ID:Xfxcd5ys やっとスレチ終わった?
271デフォルトの名無しさん
2017/07/28(金) 11:26:50.45ID:qIgprOUf sageも知らずに書いてる人って同一人物なんだろうけど
自分が遠回しにディスられてる事にも気付いてなくて可愛い
ある意味幸せか
自分が遠回しにディスられてる事にも気付いてなくて可愛い
ある意味幸せか
272デフォルトの名無しさん
2017/08/12(土) 17:55:36.45ID:cYclCetd ●Regular Expressionの使用環境
Java1.8
●検索か置換か?
検索
●説明
下記の部分を抽出したい
AV0bc-t3.jpg
B32bc4f.jpg
●対象データ(一部)
風景-20170503-AV0bc-t3.jpg
b5-two-mountain-B32bc4f.jpg
最初は-を区切りとして抽出できるかと思ったが
抽出対象の文字列にも-が登場することが判明して為万事休す状態です。
どうかご指導お願い致します。
Java1.8
●検索か置換か?
検索
●説明
下記の部分を抽出したい
AV0bc-t3.jpg
B32bc4f.jpg
●対象データ(一部)
風景-20170503-AV0bc-t3.jpg
b5-two-mountain-B32bc4f.jpg
最初は-を区切りとして抽出できるかと思ったが
抽出対象の文字列にも-が登場することが判明して為万事休す状態です。
どうかご指導お願い致します。
273272
2017/08/12(土) 18:05:09.95ID:cYclCetd274デフォルトの名無しさん
2017/08/12(土) 20:46:08.10ID:oUGtyFlO 不可能
275デフォルトの名無しさん
2017/08/12(土) 21:05:50.58ID:wIgCsZkA >>272
誤爆前提
(?<=\-)([A-Za-z\d]+\-?[A-Za-z\d]{0,3}\.jpg)(?=(?:\n|$))
[A-Za-z\d]{0,3}部の構成次第か?
まあ全部手でやるよりかはマシになるような気がする
誤爆前提
(?<=\-)([A-Za-z\d]+\-?[A-Za-z\d]{0,3}\.jpg)(?=(?:\n|$))
[A-Za-z\d]{0,3}部の構成次第か?
まあ全部手でやるよりかはマシになるような気がする
276272
2017/08/12(土) 22:50:49.75ID:cYclCetd >>275
ありがとうございます!!
まじで神です!相談して良かったです。
こういう人がお金をもらえる世の中になってほしいです。
本当に感謝します。あなたは誰よりも優しいです。
無償で人の為にがんばる人は本当に尊敬します!!
ありがとうございました!!
ありがとうございます!!
まじで神です!相談して良かったです。
こういう人がお金をもらえる世の中になってほしいです。
本当に感謝します。あなたは誰よりも優しいです。
無償で人の為にがんばる人は本当に尊敬します!!
ありがとうございました!!
277デフォルトの名無しさん
2017/08/12(土) 23:11:24.65ID:U/tP6VJk 該当文字列長の幅が決まっているなら{6,8}の数字を調整すればこれでいけるはず
(?<=-)[-A-Za-z\d]{6,8}\.jpg
(?<=-)[-A-Za-z\d]{6,8}\.jpg
278デフォルトの名無しさん
2017/08/13(日) 03:23:49.05ID:SYaWjJhn ファイル名には、半角英数字の他、「- _ .」と半角空白も、考慮しろ
こういうファイル名もある
a.txt.zip
こういうファイル名もある
a.txt.zip
279デフォルトの名無しさん
2017/08/13(日) 04:21:48.64ID:dm/KZ1el .tar.gzとかで良かったのでは
280デフォルトの名無しさん
2017/08/13(日) 19:47:39.02ID:BX+CBZkv 2chのNGで、「URLが含まれる文章を除いた行が5つ以上あるレスをNG」という表記を作ることは可能ですか?
281デフォルトの名無しさん
2017/08/13(日) 21:08:22.43ID:lg+GT5+n >>280
日本語を(´・ω・`)
日本語を(´・ω・`)
282デフォルトの名無しさん
2017/08/13(日) 23:08:53.31ID:47VquCRx gopher:とかmailto:とかか
283デフォルトの名無しさん
2017/08/14(月) 03:10:00.43ID:FrfucSX4 >>281
前提
①正規表現を使い、2chのNG設定を行いたい
②専門板での長文荒らしをNGしたい
③URLが貼られたレスは長文であってもNGにしたくない
以上から、「URLが含まれる文章を除いた行が5つ以上あるレスをNG」をしたいです
この表記を作ることは可能ですか?
前提
①正規表現を使い、2chのNG設定を行いたい
②専門板での長文荒らしをNGしたい
③URLが貼られたレスは長文であってもNGにしたくない
以上から、「URLが含まれる文章を除いた行が5つ以上あるレスをNG」をしたいです
この表記を作ることは可能ですか?
284デフォルトの名無しさん
2017/08/14(月) 03:17:09.39ID:FrfucSX4 URLの定義を以下のようにしました
://([a-zA-Z0-9_/:;%#\$&\?\(\)~\.=\+\-])*
(://の後に英数字とURLに使われる記号が続く文字列)
これを[^]で括って否定にした後、任意の行数以上含まれるレスのNGをするという方向性で考えています
://([a-zA-Z0-9_/:;%#\$&\?\(\)~\.=\+\-])*
(://の後に英数字とURLに使われる記号が続く文字列)
これを[^]で括って否定にした後、任意の行数以上含まれるレスのNGをするという方向性で考えています
285デフォルトの名無しさん
2017/08/14(月) 16:30:05.91ID:yxoqAlkZ ^が否定と 先頭の2つの意味を持っていて
$ が 末尾と $1 $2 などのインデックスの意味を持っているとか
メタ文字の効果が重複しているのが混乱します。
どうすればいいですか?
$ が 末尾と $1 $2 などのインデックスの意味を持っているとか
メタ文字の効果が重複しているのが混乱します。
どうすればいいですか?
286デフォルトの名無しさん
2017/08/14(月) 16:37:59.81ID:IeoGyZA4 >>285
たぶん[^]で括って否定には出来ないと思うよ。
たぶん[^]で括って否定には出来ないと思うよ。
287デフォルトの名無しさん
2017/08/14(月) 18:31:02.14ID:89kehc6V Jane StyleでIDなしのレスだけ抽出するにはどうしたらよろしいでしょうか?
IDなしをNGにする方法はいくらでも出てくるのですが・・・
IDなしをNGにする方法はいくらでも出てくるのですが・・・
288デフォルトの名無しさん
2017/08/14(月) 19:13:15.73ID:j2odgQ2N >>287
IDの有無が混在しているスレ教えて
IDの有無が混在しているスレ教えて
289デフォルトの名無しさん
2017/08/14(月) 20:33:03.02ID:89kehc6V290デフォルトの名無しさん
2017/08/14(月) 20:34:12.87ID:89kehc6V 半角文字列板でたまに見かけたような気が・・・
291デフォルトの名無しさん
2017/08/14(月) 20:39:37.25ID:j2odgQ2N もしくは
IDなしをNGにして、あぼーんのみ表示するとか
IDなしをNGにして、あぼーんのみ表示するとか
292デフォルトの名無しさん
2017/08/14(月) 20:59:49.60ID:89kehc6V >>291
すみません。今のところ該当スレが見つかりません。
目的としては、
優良エロ画像スレでたまにIDなしでグロ画像を貼る輩がいて、
IDなしのレスがほぼグロ画像ならIDなしをNGにするし、
IDなしでも優良エロ画像を貼ってくれてるならIDなしでもNGしないし・・・
という恥ずかしい理由なんです
すみません。今のところ該当スレが見つかりません。
目的としては、
優良エロ画像スレでたまにIDなしでグロ画像を貼る輩がいて、
IDなしのレスがほぼグロ画像ならIDなしをNGにするし、
IDなしでも優良エロ画像を貼ってくれてるならIDなしでもNGしないし・・・
という恥ずかしい理由なんです
293デフォルトの名無しさん
2017/08/14(月) 21:00:54.22ID:89kehc6V294デフォルトの名無しさん
2017/08/14(月) 21:04:32.71ID:j2odgQ2N >>292-293
ここ正規表現スレだからJane質問スレに来て
ここ正規表現スレだからJane質問スレに来て
295デフォルトの名無しさん
2017/08/21(月) 19:05:01.74ID:ToOu4wDd よろしければアドバイスください
●Regular Expressionの使用環境
正規表現で検索できるテキストエディタ
●検索か置換か?
検索
●説明
アンド検索で一つ目にマッチした文字列からn行以内にある二つ目の文字列までを抽出したい
●対象データ
林檎みかんバナナ
みかん林檎バナナ
林檎キウイみかん
バナナ林檎みかん
メロン林檎バナナ
メロンみかん林檎
みかんバナナ林檎
林檎みかんキウイ
林檎バナナみかん
●希望する結果
みかんバナナ
みかん林檎バナナ
林檎キウイ
●Regular Expressionの使用環境
正規表現で検索できるテキストエディタ
●検索か置換か?
検索
●説明
アンド検索で一つ目にマッチした文字列からn行以内にある二つ目の文字列までを抽出したい
●対象データ
林檎みかんバナナ
みかん林檎バナナ
林檎キウイみかん
バナナ林檎みかん
メロン林檎バナナ
メロンみかん林檎
みかんバナナ林檎
林檎みかんキウイ
林檎バナナみかん
●希望する結果
みかんバナナ
みかん林檎バナナ
林檎キウイ
296295
2017/08/21(月) 19:05:58.56ID:ToOu4wDd >>295の質問のつづきです
●自分で試したこと
今回は三行以内に「みかん」と「キウイ」の二つの文字列を含む部分 だけ を抽出したい
記述は以下のように書いてみたが、四行以上にまたがってマッチした部分まで抽出されてしまった
みかん([¥s¥S]*?)キウイ
●自分で試した検索ワード
「正規表現 複数行 文字列 検索 -秀丸」の組み合わせをいくつか試した
検索結果からプログラマーの質問回答サイトに飛んで似たように検索するも欲しい回答は見つからず
●自分で試したこと
今回は三行以内に「みかん」と「キウイ」の二つの文字列を含む部分 だけ を抽出したい
記述は以下のように書いてみたが、四行以上にまたがってマッチした部分まで抽出されてしまった
みかん([¥s¥S]*?)キウイ
●自分で試した検索ワード
「正規表現 複数行 文字列 検索 -秀丸」の組み合わせをいくつか試した
検索結果からプログラマーの質問回答サイトに飛んで似たように検索するも欲しい回答は見つからず
297デフォルトの名無しさん
2017/08/21(月) 21:48:45.68ID:EQVEvxNp n行なら可能だけどn行以内ってのは無理だと思う
つまり
1行の式|2行の式|…|n行の式
と書くしかないんじゃないかな
つまり
1行の式|2行の式|…|n行の式
と書くしかないんじゃないかな
298295
2017/08/21(月) 22:44:09.38ID:ToOu4wDd そうですか
やはり ([¥s¥S]*?) を使うのが間違ってますよね?
レスありがとうございます
やはり ([¥s¥S]*?) を使うのが間違ってますよね?
レスありがとうございます
299デフォルトの名無しさん
2017/08/21(月) 23:09:35.41ID:7hohe37q /みかん¥S*?¥n??¥S*?¥n??¥S*?キウイ/g
とか
/みかん(?:¥S*¥n?){0,2}¥S*キウイ/g
とかかな
1~3行目と6~8行目のみかん~キウイがマッチする
とか
/みかん(?:¥S*¥n?){0,2}¥S*キウイ/g
とかかな
1~3行目と6~8行目のみかん~キウイがマッチする
300デフォルトの名無しさん
2017/08/23(水) 21:18:57.34ID:a8dh4txw301デフォルトの名無しさん
2017/08/23(水) 23:01:36.58ID:bHZ6/xkT302デフォルトの名無しさん
2017/08/23(水) 23:56:43.55ID:v21fsY6g できないね
秀丸はマイナス検索では?
秀丸はマイナス検索では?
303デフォルトの名無しさん
2017/08/24(木) 22:00:31.43ID:vZuGMV9A できたよ
コピペしたときバックスラッシュが別の文字に変わっていたので、
そこだけ入力し直したけど
コピペしたときバックスラッシュが別の文字に変わっていたので、
そこだけ入力し直したけど
304デフォルトの名無しさん
2017/10/02(月) 15:17:50.91ID:uet6lO9o 二文字以上連続していない場合のみヒットする正規表現はどう書けばいいですか?
aを探すとして
"abc"のaはヒットする
"aabc"のaaは連続しているのでヒットしない
ということをしたいです
aを探すとして
"abc"のaはヒットする
"aabc"のaaは連続しているのでヒットしない
ということをしたいです
305デフォルトの名無しさん
2017/10/02(月) 15:33:07.99ID:MBLNVziv (?<!a)a(?!a)
306デフォルトの名無しさん
2017/10/02(月) 15:50:22.85ID:oE42sBRL aで固定って訳じゃなくて
bだけとかcだけとかも探したいのでは?
bだけとかcだけとかも探したいのでは?
307デフォルトの名無しさん
2017/10/02(月) 16:29:10.05ID:rrE28i3s 冷静なつっこみに受けた
308デフォルトの名無しさん
2017/10/02(月) 17:40:05.25ID:G/SyJC6m 単に見つけるだけなら
/(.)(?!\1)(.)(?!\2)/
で出来なくもない。
しかし、見つかったときは2文字マッチするパターンなので
全部見つけたい場合はそこを考慮する必要がある。
先頭の文字は見つけられないから別途
/^(.)(?!\1)/
のようにする必要があるだろう。
言語によってはもっとうまくできるかもしれない。
でも、for 文とかで探す方がいいと思うよ。
/(.)(?!\1)(.)(?!\2)/
で出来なくもない。
しかし、見つかったときは2文字マッチするパターンなので
全部見つけたい場合はそこを考慮する必要がある。
先頭の文字は見つけられないから別途
/^(.)(?!\1)/
のようにする必要があるだろう。
言語によってはもっとうまくできるかもしれない。
でも、for 文とかで探す方がいいと思うよ。
309デフォルトの名無しさん
2017/10/02(月) 18:33:11.59ID:G/SyJC6m /(.)(\1)*/
でマッチした長さが 1 だったらという考え方も出来るけど、どう?
でマッチした長さが 1 だったらという考え方も出来るけど、どう?
310デフォルトの名無しさん
2017/10/03(火) 03:04:28.76ID:FFksRFs1 /^(?!.*(.)\1).*/
311デフォルトの名無しさん
2017/10/11(水) 15:02:29.43ID:PTqhQudL ユニコード文字プロパティから
特定の文字のみを除外した文字の集合を
簡単に書く方法はあるでしょうか?
例えば \p{C} からタブ(\t)と改行コード(\n|\r)のみ除外したもの
特定の文字のみを除外した文字の集合を
簡単に書く方法はあるでしょうか?
例えば \p{C} からタブ(\t)と改行コード(\n|\r)のみ除外したもの
312デフォルトの名無しさん
2017/10/12(木) 22:03:36.05ID:iUceZ3nS >>311
(?![\n\r])\p{C}
(?![\n\r])\p{C}
313デフォルトの名無しさん
2017/10/14(土) 07:42:21.07ID:sv7zl76d 「"」以外の文字にマッチするが「\"」ならそれにもマッチする
ってどう書けばいいですか?
ってどう書けばいいですか?
314デフォルトの名無しさん
2017/10/14(土) 08:04:06.86ID:Wo1S3xrN >>313
([^"]|(?<=\\)")
([^"]|(?<=\\)")
315デフォルトの名無しさん
2017/10/14(土) 08:38:00.26ID:sv7zl76d ありがとうございます
知らない記号があるので勉強します
知らない記号があるので勉強します
316デフォルトの名無しさん
2017/10/14(土) 12:04:18.44ID:SVCVJk+z 正規表現を再利用したくて調べたんだができないんだな
itemcode:=/(S|T|U)\d{3}-\d{4}/
/^\s*\{itemcode}\s*$/
こういう仕様あっても全然いいと思うんだが仕様策定団体がサボったのか
itemcode:=/(S|T|U)\d{3}-\d{4}/
/^\s*\{itemcode}\s*$/
こういう仕様あっても全然いいと思うんだが仕様策定団体がサボったのか
317デフォルトの名無しさん
2017/10/14(土) 12:19:47.01ID:2Glba8SI 言語やエディタの機能で補完すれば?
変数に正規表現リテラルを格納して後で使えるようにするのは正規表現の枠をこえてる
変数に正規表現リテラルを格納して後で使えるようにするのは正規表現の枠をこえてる
318デフォルトの名無しさん
2017/10/14(土) 13:45:15.89ID:m/q/3Rhj >>316
そもそも正規表現の規格の枠外やん
Perlなら
my $itemcode = q/(S|T|U)\d{3}-\d{4}/;
my $regex = qq/^\s*{$itemcode}\s*$/;
$target =~ /$regex/;
とか出来たと思うが, $itemcodeも$regexも単に文字列だしな
そもそも正規表現の規格の枠外やん
Perlなら
my $itemcode = q/(S|T|U)\d{3}-\d{4}/;
my $regex = qq/^\s*{$itemcode}\s*$/;
$target =~ /$regex/;
とか出来たと思うが, $itemcodeも$regexも単に文字列だしな
319デフォルトの名無しさん
2017/10/14(土) 20:25:03.69ID:nyEdEfPd >>316
環境によるが、pcreを使っているプログラムなら、
(?(DEFINE)(?<name>pattern)...)で定義して(?&name)で使える。つまり、
/(?(DEFINE)(?<itemcode>(S|T|U)\d{3}-\d{4}))^\s*(?&itemcode)\s*$/
環境によるが、pcreを使っているプログラムなら、
(?(DEFINE)(?<name>pattern)...)で定義して(?&name)で使える。つまり、
/(?(DEFINE)(?<itemcode>(S|T|U)\d{3}-\d{4}))^\s*(?&itemcode)\s*$/
320デフォルトの名無しさん
2017/10/15(日) 12:04:10.87ID:xFgouCR2 正規表現技術入門って本買ったら初心者の入門書じゃなかった…
321デフォルトの名無しさん
2017/10/15(日) 23:07:27.13ID:/4ZFGRZX 後方参照っどこが後方やねん、後方で参照してるってことか?
と思っていたのですが、
左から右へと文字列を舐めていくカーソルの立場から見て後ろ、
という意味ですね?
と思っていたのですが、
左から右へと文字列を舐めていくカーソルの立場から見て後ろ、
という意味ですね?
322デフォルトの名無しさん
2017/10/16(月) 07:55:53.10ID:hhyAWPuR んだんだ
323デフォルトの名無しさん
2017/10/16(月) 10:07:29.75ID:ZoMoe7Af 上から下
324デフォルトの名無しさん
2017/10/16(月) 16:17:56.84ID:BvwEZWNg PCRE_EXTENDEDの説明に
この修飾子を設定すると、エスケープするか 文字クラスの内部を除き、
パターンの空白文字は完全に無視されます。
とありますが、
これはどういう時に使うのでしょうか?
空白文字を無視したいなら
最初からパターンに含めなければいいだけのような気がするのですが・・
この修飾子を設定すると、エスケープするか 文字クラスの内部を除き、
パターンの空白文字は完全に無視されます。
とありますが、
これはどういう時に使うのでしょうか?
空白文字を無視したいなら
最初からパターンに含めなければいいだけのような気がするのですが・・
325デフォルトの名無しさん
2017/10/16(月) 17:17:54.69ID:VwEzpL/B >>324
改行したりして可読性を高めたい時とか
改行したりして可読性を高めたい時とか
326デフォルトの名無しさん
2017/10/16(月) 17:31:22.40ID:BvwEZWNg327デフォルトの名無しさん
2017/10/18(水) 00:44:52.51ID:HJHK1SNa [$]
こういう文字クラスがあった場合、これは終端と解釈されますか?
それとも文字列の$と解釈されますか?
また、[\$] だった場合は挙動が変化しますか?
こういう文字クラスがあった場合、これは終端と解釈されますか?
それとも文字列の$と解釈されますか?
また、[\$] だった場合は挙動が変化しますか?
328デフォルトの名無しさん
2017/10/18(水) 01:19:34.59ID:GswCLlj6329デフォルトの名無しさん
2017/10/18(水) 01:39:24.99ID:HJHK1SNa ありがとうございます
やはり文字列なんですね
やはり文字列なんですね
330デフォルトの名無しさん
2017/10/20(金) 00:50:10.62ID:hFePCOoH 過去にAutohotkeyスレで正規表現自体の質問は正規表現スレに行けとあったのでこちらで質問させて下さい(巻き添えアク禁でソフトウェア板に書き込めません)。宜しくお願いします。
●Regular Expressionの使用環境
wikiより引用
>AutoHotkeyで用意されている正規表現は、Perl 5に搭載されているものと概ね互換のPCRE(Perl Compatible Regular Expressions)である
●検索か置換か?
検索
●説明
順不同の単語群のすべてを含む文字列の最長を検索し取り出したいです
●対象データ
var := "クリスマス任意の文字列お盆任意の文字列正月任意の文字列"
pos := RegExMatch(var, "s)^(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)", $)
MsgBox, pos=%pos% $=%$%
s)の意味はシングルラインモード
posはマッチした位置
$にはマッチした全体が入ります
これですと先頭の"位置"にマッチ(pos=1になります)するのでマッチした全体$は空になってしまいます
●希望する結果
$=クリスマス任意の文字列お盆任意の文字列正月
実際は長文の一部で単語群がもっと多いです
どの文字が先頭でどの文字が最後か不明のとき、これらの単語群がすべて含まれる文字列全体を取り出すにはどのように書いたら良いでしょうか
(クリスマス|お盆|正月).+(?1)
これですと正月という単語が含まれなくてもマッチしてしまいます
●Regular Expressionの使用環境
wikiより引用
>AutoHotkeyで用意されている正規表現は、Perl 5に搭載されているものと概ね互換のPCRE(Perl Compatible Regular Expressions)である
●検索か置換か?
検索
●説明
順不同の単語群のすべてを含む文字列の最長を検索し取り出したいです
●対象データ
var := "クリスマス任意の文字列お盆任意の文字列正月任意の文字列"
pos := RegExMatch(var, "s)^(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)", $)
MsgBox, pos=%pos% $=%$%
s)の意味はシングルラインモード
posはマッチした位置
$にはマッチした全体が入ります
これですと先頭の"位置"にマッチ(pos=1になります)するのでマッチした全体$は空になってしまいます
●希望する結果
$=クリスマス任意の文字列お盆任意の文字列正月
実際は長文の一部で単語群がもっと多いです
どの文字が先頭でどの文字が最後か不明のとき、これらの単語群がすべて含まれる文字列全体を取り出すにはどのように書いたら良いでしょうか
(クリスマス|お盆|正月).+(?1)
これですと正月という単語が含まれなくてもマッチしてしまいます
331デフォルトの名無しさん
2017/10/20(金) 02:08:00.45ID:yLtxI7rs >>330
>これらの単語群がすべて含まれる文字列全体を取り出すには
これらの単語群って、クリスマス・お盆・正月の3単語を指してるのかな?
それならダサいけど(クリスマス|お盆|正月)を3回繰り返せば?
https://regex101.com/r/yRw8ob/1
>これらの単語群がすべて含まれる文字列全体を取り出すには
これらの単語群って、クリスマス・お盆・正月の3単語を指してるのかな?
それならダサいけど(クリスマス|お盆|正月)を3回繰り返せば?
https://regex101.com/r/yRw8ob/1
332デフォルトの名無しさん
2017/10/20(金) 02:42:11.40ID:GaFTw98F333デフォルトの名無しさん
2017/10/20(金) 19:27:41.06ID:P/1hvwmS 2ch → 5chになったタイミングでアク禁って全解除されたと思うけど、また規制され始めたのかな?
334デフォルトの名無しさん
2017/10/20(金) 19:58:25.65ID:S6VTZkXa は?
335デフォルトの名無しさん
2017/10/20(金) 20:01:26.36ID:GaFTw98F アク禁は知らんけど、おπ規制だけは5chでは2chのを引き継いでないってことは言われてた
336330
2017/10/20(金) 20:06:35.04ID:JiGfFRv1 >>331
すみませんでした
(クリスマス|お盆|正月)の3つの単語を全て含む文字列の最長マッチと書くべきでした
(クリスマス|お盆|正月).*?(クリスマス|お盆|正月).*?(クリスマス|お盆|正月)
では最長3単語まででお盆という単語を含まなくてもマッチしてしまいます
>>332
>その2
というのが何をさすのかすみません分かりませんでした
var := "クリスマス任意の文字列お盆任意の文字列正月任意の文字列お盆任意の文字列正月任意の文字列クリスマスzzzz盆zzzzz盆zzzzzzz盆zzzzzzzzzzzお盆"
pos := RegExMatch(var, "s)(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)(?:お?盆|クリスマス|正月).*(?:お?盆|クリスマス|正月)", $)
MsgBox,,, pos%pos% %$%, ;マッチ $=var全体
pos := RegExMatch(var, "s)^(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)(?:お?盆|クリスマス|正月).*(?:お?盆|クリスマス|正月)", $)
MsgBox,,, pos%pos% %$%, ;行頭^記号ありでもマッチしました $=var全体
これでお盆が含まなければマッチせず、全ての単語が含まれるとき期待通りになりました。有難うございました
ただ、対象文字列の1文字目が(クリスマス|お盆|正月)以外で始まるケースではマッチしませんでした
最初に書いたこれなら1文字目を問わずマッチするのですがやはり全体が拾えず……。
pos := RegExMatch(var, "s)^(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)", $)
var := RegExReplace(var, "^.*?(?=クリスマス|お?盆|正月)", "")
のように1文字目が必ず指定した単語のどれかになるように修正してから使わせていただきます
お世話になりました。
すみませんでした
(クリスマス|お盆|正月)の3つの単語を全て含む文字列の最長マッチと書くべきでした
(クリスマス|お盆|正月).*?(クリスマス|お盆|正月).*?(クリスマス|お盆|正月)
では最長3単語まででお盆という単語を含まなくてもマッチしてしまいます
>>332
>その2
というのが何をさすのかすみません分かりませんでした
var := "クリスマス任意の文字列お盆任意の文字列正月任意の文字列お盆任意の文字列正月任意の文字列クリスマスzzzz盆zzzzz盆zzzzzzz盆zzzzzzzzzzzお盆"
pos := RegExMatch(var, "s)(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)(?:お?盆|クリスマス|正月).*(?:お?盆|クリスマス|正月)", $)
MsgBox,,, pos%pos% %$%, ;マッチ $=var全体
pos := RegExMatch(var, "s)^(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)(?:お?盆|クリスマス|正月).*(?:お?盆|クリスマス|正月)", $)
MsgBox,,, pos%pos% %$%, ;行頭^記号ありでもマッチしました $=var全体
これでお盆が含まなければマッチせず、全ての単語が含まれるとき期待通りになりました。有難うございました
ただ、対象文字列の1文字目が(クリスマス|お盆|正月)以外で始まるケースではマッチしませんでした
最初に書いたこれなら1文字目を問わずマッチするのですがやはり全体が拾えず……。
pos := RegExMatch(var, "s)^(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)", $)
var := RegExReplace(var, "^.*?(?=クリスマス|お?盆|正月)", "")
のように1文字目が必ず指定した単語のどれかになるように修正してから使わせていただきます
お世話になりました。
337デフォルトの名無しさん
2017/10/20(金) 20:21:51.48ID:GaFTw98F 先頭に^を付けたらダメだろ
^は文頭の位置を表す記号なんだから
^は文頭の位置を表す記号なんだから
338デフォルトの名無しさん
2017/10/20(金) 20:23:53.34ID:JiGfFRv1 pos := RegExMatch(var, "s).*?((?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)(?:お?盆|クリスマス|正月).*(?:お?盆|クリスマス|正月))", $)
MsgBox, %$1%
すみませんこれで1文字目不問で取り出せました
長文失礼しました
MsgBox, %$1%
すみませんこれで1文字目不問で取り出せました
長文失礼しました
339デフォルトの名無しさん
2017/10/20(金) 20:27:40.74ID:GaFTw98F340デフォルトの名無しさん
2017/10/20(金) 20:41:25.29ID:JiGfFRv1 説明下手ですみません
var := "zzあzzzいzzzうzzzうzzあzzいzz"
最初に見つかる(あ|い|う)のどれかから
最後に見つかる(あ|い|う)のどれかまで
かつ(あ|い|う)すべての語が含まれる文字列を取り出したかった
アク禁じゃなくスマホ回線だからかも知れません
var := "zzあzzzいzzzうzzzうzzあzzいzz"
最初に見つかる(あ|い|う)のどれかから
最後に見つかる(あ|い|う)のどれかまで
かつ(あ|い|う)すべての語が含まれる文字列を取り出したかった
アク禁じゃなくスマホ回線だからかも知れません
341デフォルトの名無しさん
2017/10/20(金) 22:48:55.52ID:yLtxI7rs342デフォルトの名無しさん
2017/10/21(土) 00:17:18.52ID:jXM7J8Fl こういうのはどうかな
(?=.*クリスマス)(?=.*お盆)(?=.*正月)(?:クリスマス|お盆|正月).*(?:クリスマス|お盆|正月)
(?=.*クリスマス)(?=.*お盆)(?=.*正月)(?:クリスマス|お盆|正月).*(?:クリスマス|お盆|正月)
343デフォルトの名無しさん
2017/10/21(土) 00:21:45.84ID:jXM7J8Fl344デフォルトの名無しさん
2017/10/21(土) 00:33:00.59ID:ZBz0JWdz **クリスマス**クリスマス**正月**お盆**お盆**
だったら最初と最後の**を抜かして
クリスマス**クリスマス**正月**お盆**お盆
にマッチさせたいって話なの?
あとシングルラインモード使ってるから
複数行にわたってマッチさせたいんだよね?
↓こういうの
**クリスマス**
**クリスマス**正月**
**正月**お盆**
だったら最初と最後の**を抜かして
クリスマス**クリスマス**正月**お盆**お盆
にマッチさせたいって話なの?
あとシングルラインモード使ってるから
複数行にわたってマッチさせたいんだよね?
↓こういうの
**クリスマス**
**クリスマス**正月**
**正月**お盆**
345デフォルトの名無しさん
2017/10/21(土) 00:33:20.08ID:ZBz0JWdz アスタリスク見にくいな
346338
2017/10/21(土) 02:32:45.68ID:o7hEIA7f >>342,343
AutoHotkey v1.1.26.01(最新) Unicode版ですがやはり先頭が別の文字列だとマッチしません
var := "zzzクリスマス任意の文字列お盆任意の文字列正月任意の文字列お盆任意の文字列正月任意の文字列クリスマスzzzz盆zzzzz盆zzzzzzz盆zzzzzzzzzzzお盆"
pos := RegExMatch(var, "s)(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)(?:お?盆|クリスマス|正月).*(?:お?盆|クリスマス|正月)", $)
MsgBox,,, pos%pos% %$%, ;pos=0 マッチしません
>>338の正規表現ならpos=1で最初に見つかるクリスマスから最後の盆まで取り出せました
>>344
その通りです>>340より分かりやすい説明が思いつきません
AutoHotkey v1.1.26.01(最新) Unicode版ですがやはり先頭が別の文字列だとマッチしません
var := "zzzクリスマス任意の文字列お盆任意の文字列正月任意の文字列お盆任意の文字列正月任意の文字列クリスマスzzzz盆zzzzz盆zzzzzzz盆zzzzzzzzzzzお盆"
pos := RegExMatch(var, "s)(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)(?:お?盆|クリスマス|正月).*(?:お?盆|クリスマス|正月)", $)
MsgBox,,, pos%pos% %$%, ;pos=0 マッチしません
>>338の正規表現ならpos=1で最初に見つかるクリスマスから最後の盆まで取り出せました
>>344
その通りです>>340より分かりやすい説明が思いつきません
347デフォルトの名無しさん
2017/10/21(土) 12:04:21.32ID:Awu3DWjD "s)(?=((お?+盆)|(クリスマス)|(正月)))(?=.*(?2))(?=.*(?3))(?=.*(?4)).*(?1)"
>>346
気持ち悪いから試してみた
"s)(?=盆)盆"→マッチする
"s)(?=.*?盆)盆"→マッチしない←?!?!
"s).(?=.*?盆)盆"→する
"s)(?=.)(?=.*?盆)盆"→する
"s)(?:)(?=.*?盆)盆"→する
s)と(?=.*の間に何かを挿めば何故か回避できそう?
"s)(?:)(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)(?:お?盆|クリスマス|正月).*(?:お?盆|クリスマス|正月)"
>>346
気持ち悪いから試してみた
"s)(?=盆)盆"→マッチする
"s)(?=.*?盆)盆"→マッチしない←?!?!
"s).(?=.*?盆)盆"→する
"s)(?=.)(?=.*?盆)盆"→する
"s)(?:)(?=.*?盆)盆"→する
s)と(?=.*の間に何かを挿めば何故か回避できそう?
"s)(?:)(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)(?:お?盆|クリスマス|正月).*(?:お?盆|クリスマス|正月)"
348338
2017/10/21(土) 17:14:22.52ID:o7hEIA7f >>347
すごい!>>346のvar文字列に対しpos=4で最も理想的な形でとれました!
pos := RegExMatch(var, "s)(?=((お?+盆)|(クリスマス)|(正月)))(?=.*(?2))(?=.*(?3))(?=.*(?4)).*(?1)", $)
MsgBox,,, pos%pos% %$%, ;pos=4 $=最初のクリスマスから最後の盆
s)^(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)
この正規表現の出所はスマホアプリ板2chmate質問スレのテンプレにあるNGワードで
2chmateのシングルラインモードは(?s:ここに正規表現)と書くようです
その辺のやりとりが過去スレ
http://itest.5ch.net/potato/test/read.cgi/applism/1474912259/893-n
にありました
>893
>複数のワードを全て含む書き込みをNG
>(?s:^(?=.*ワード1)(?=.*ワード2)(?=.*ワード3))
>これがどうしても分からん(なぜワードの順番を入れ換えてもマッチするのか)
>
>895
>ワード1を先読みしてそれを含む^にマッチ
>ワード2を先読みしてそれを含む^(?=.*ワード1)にマッチ
>ワード3を先読みしてそれを含む^(?=.*ワード1)(?=.*ワード2)にマッチ
>
>896
>例えば「(先頭)あいうえお」という文字列に^(?=.*うえお)でサーチかける場合
>^(?=.*うえお)は「.*うえお」が続く^のみにマッチするから「うえお」を含む「(先頭)」にマッチ
>つまりこれを何度やっても^に戻ってくる
>で、先読みがどこかで失敗したらそこで成立しなくなるというカラクリ
すごい!>>346のvar文字列に対しpos=4で最も理想的な形でとれました!
pos := RegExMatch(var, "s)(?=((お?+盆)|(クリスマス)|(正月)))(?=.*(?2))(?=.*(?3))(?=.*(?4)).*(?1)", $)
MsgBox,,, pos%pos% %$%, ;pos=4 $=最初のクリスマスから最後の盆
s)^(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)
この正規表現の出所はスマホアプリ板2chmate質問スレのテンプレにあるNGワードで
2chmateのシングルラインモードは(?s:ここに正規表現)と書くようです
その辺のやりとりが過去スレ
http://itest.5ch.net/potato/test/read.cgi/applism/1474912259/893-n
にありました
>893
>複数のワードを全て含む書き込みをNG
>(?s:^(?=.*ワード1)(?=.*ワード2)(?=.*ワード3))
>これがどうしても分からん(なぜワードの順番を入れ換えてもマッチするのか)
>
>895
>ワード1を先読みしてそれを含む^にマッチ
>ワード2を先読みしてそれを含む^(?=.*ワード1)にマッチ
>ワード3を先読みしてそれを含む^(?=.*ワード1)(?=.*ワード2)にマッチ
>
>896
>例えば「(先頭)あいうえお」という文字列に^(?=.*うえお)でサーチかける場合
>^(?=.*うえお)は「.*うえお」が続く^のみにマッチするから「うえお」を含む「(先頭)」にマッチ
>つまりこれを何度やっても^に戻ってくる
>で、先読みがどこかで失敗したらそこで成立しなくなるというカラクリ
349338
2017/10/21(土) 17:15:24.33ID:o7hEIA7f s).*?((?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月)(?:お?盆|クリスマス|正月).*(?:お?盆|クリスマス|正月))
AutoHotkeyシングルラインモードでは正規表現の先頭に「^」が有っても無くても先頭からマッチするので
.*?(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月) ;<----ここで先頭にマッチ(1)
(?:お?盆|クリスマス|正月) ;<----先頭に続く最初に見つかる(?:お?盆|クリスマス|正月)のどれかにマッチ(2)
.*(?:お?盆|クリスマス|正月) ;<----(2)に続く最後に見つかる(?:お?盆|クリスマス|正月)のどれかにマッチ(3)となるようです
s)と(?=.*?の間に最短0文字表現を入れないとマッチしないのはもしかしてバグなんでしょうかね
AutoHotkeyシングルラインモードでは正規表現の先頭に「^」が有っても無くても先頭からマッチするので
.*?(?=.*?お?盆)(?=.*?クリスマス)(?=.*?正月) ;<----ここで先頭にマッチ(1)
(?:お?盆|クリスマス|正月) ;<----先頭に続く最初に見つかる(?:お?盆|クリスマス|正月)のどれかにマッチ(2)
.*(?:お?盆|クリスマス|正月) ;<----(2)に続く最後に見つかる(?:お?盆|クリスマス|正月)のどれかにマッチ(3)となるようです
s)と(?=.*?の間に最短0文字表現を入れないとマッチしないのはもしかしてバグなんでしょうかね
350デフォルトの名無しさん
2017/10/24(火) 15:16:03.89ID:5n0ye5v7 すみません。
自分で書いた正規表現が期待通り動いたのですが理由が分かりません。
どなたか解説お願いします。
Notepad++の置換で、こんなデータに対して
<abcde> <hijk>
<abc> <XYZ>
<dfg>
検索文字列 (?:\s*<([^<>]*)>)?\s*<([^<>]*)>
置換文字列 [$1]\t[$2]\r\n
で置換して、結果がこうなりました。
[abcde] [hijk]
[abc] [XYZ]
[] [dfg]
この三行目の動作なんですが、一行に一個しかデータが無い場合には、二番目のデータとしてキャプチャしたかったので
この動きで良いのですが、なぜこれが出来たのが分かりません。
検索文字列の一つ目の丸カッコの (?:・・・)? <== この量指定子?がそう言う動作になるのでしょうか?
そうだとしたら、なぜそうなるのでしょうか?
あるいはもっと簡潔なパターンはありますか?
宜しくお願い致します。
自分で書いた正規表現が期待通り動いたのですが理由が分かりません。
どなたか解説お願いします。
Notepad++の置換で、こんなデータに対して
<abcde> <hijk>
<abc> <XYZ>
<dfg>
検索文字列 (?:\s*<([^<>]*)>)?\s*<([^<>]*)>
置換文字列 [$1]\t[$2]\r\n
で置換して、結果がこうなりました。
[abcde] [hijk]
[abc] [XYZ]
[] [dfg]
この三行目の動作なんですが、一行に一個しかデータが無い場合には、二番目のデータとしてキャプチャしたかったので
この動きで良いのですが、なぜこれが出来たのが分かりません。
検索文字列の一つ目の丸カッコの (?:・・・)? <== この量指定子?がそう言う動作になるのでしょうか?
そうだとしたら、なぜそうなるのでしょうか?
あるいはもっと簡潔なパターンはありますか?
宜しくお願い致します。
351デフォルトの名無しさん
2017/10/24(火) 15:43:41.40ID:JVoqQJo1 $1と$2が存在するという前提で置換しておきながら$1は?で消えるかもと指定してるから
$1が無いパターンにマッチしたと判断された(適当)
$1が無いパターンにマッチしたと判断された(適当)
352デフォルトの名無しさん
2017/12/01(金) 00:01:15.16ID:J9gYbH6z Spam Mail Killerの正規表現についてすみませんがご教示ください。
メールアドレスに同じドメインのアドレスを複数(たとえば3個以上)含む、という場合
例えばですが
abc@uvw-xyz.com, defg123@uvw-xyz.com, hi456@uvw-xyz.com
このようなアドレスをひとくくりに探し出すにはどのようにすればいいでしょうか?
##/(?=.*@uvy-xyz\.com){3,}/km
とやってみましたがうまく動きませんでした。
正規表現って難しい・・・
メールアドレスに同じドメインのアドレスを複数(たとえば3個以上)含む、という場合
例えばですが
abc@uvw-xyz.com, defg123@uvw-xyz.com, hi456@uvw-xyz.com
このようなアドレスをひとくくりに探し出すにはどのようにすればいいでしょうか?
##/(?=.*@uvy-xyz\.com){3,}/km
とやってみましたがうまく動きませんでした。
正規表現って難しい・・・
353デフォルトの名無しさん
2017/12/01(金) 00:27:29.48ID:lY+8fymW (.+?@uvw-xyz.com){3,}
354デフォルトの名無しさん
2017/12/01(金) 00:37:36.11ID:J9gYbH6z355デフォルトの名無しさん
2017/12/01(金) 01:38:11.93ID:4kQewCo+ ([\w\d._-]+?@uvw-xyz\.com, ){2,}[\w\d._-]+?@uvw-xyz\.com
冗長だけど、とりあえずこれならどのアプリでも動くはず
冗長だけど、とりあえずこれならどのアプリでも動くはず
357デフォルトの名無しさん
2017/12/01(金) 14:56:42.38ID:GNYmtVXo ([\w\d._-]+?@uvw-xyz\.com(,\s?)?){3,}
メールアドレスに注目するなら、これでもいいかな
メールアドレスに注目するなら、これでもいいかな
358デフォルトの名無しさん
2017/12/01(金) 15:03:45.52ID:GNYmtVXo スペースのパターンも考慮すると、こちらのほうがいいかも
([\w\d._-]+?@uvw-xyz\.com(,\s*)?){3,}
([\w\d._-]+?@uvw-xyz\.com(,\s*)?){3,}
359デフォルトの名無しさん
2017/12/01(金) 19:07:13.56ID:lDYRmGG1 拘り始めるときりがない
複数の記述方法があるしそれで制限も変わる
https://ja.m.wikipedia.org/wiki/%E3%83%A1%E3%83%BC%E3%83%AB%E3%82%A2%E3%83%89%E3%83%AC%E3%82%B9
軽く「正規表現 メールアドレス」でググればメールアドレスを糞まじめに正規表現で頑張る意味がないのが頭の5個も読めば理解できるでしょ
依頼者がとりあえず解決したと言ってるんだからこれ以上は現状不要だよ
複数の記述方法があるしそれで制限も変わる
https://ja.m.wikipedia.org/wiki/%E3%83%A1%E3%83%BC%E3%83%AB%E3%82%A2%E3%83%89%E3%83%AC%E3%82%B9
軽く「正規表現 メールアドレス」でググればメールアドレスを糞まじめに正規表現で頑張る意味がないのが頭の5個も読めば理解できるでしょ
依頼者がとりあえず解決したと言ってるんだからこれ以上は現状不要だよ
360352
2017/12/01(金) 23:13:24.55ID:J9gYbH6z361デフォルトの名無しさん
2017/12/02(土) 07:41:29.80ID:dQK/O/Fy362デフォルトの名無しさん
2017/12/02(土) 09:41:49.64ID:mi+Z/zsa >>360
横槍だけど358は最初に与えられた条件(3回出現)と違って3回“連続”出現だから留意してね
そして\wは\d_を含んでいるからまだ冗長だ、ついでに+?の?も{3,}の,もシンプルじゃないね
最初の質問の=を:にするだけでよかったと思うよ
^(?>.*?@uvy-xyz\.com){3}
横槍だけど358は最初に与えられた条件(3回出現)と違って3回“連続”出現だから留意してね
そして\wは\d_を含んでいるからまだ冗長だ、ついでに+?の?も{3,}の,もシンプルじゃないね
最初の質問の=を:にするだけでよかったと思うよ
^(?>.*?@uvy-xyz\.com){3}
363デフォルトの名無しさん
2017/12/02(土) 10:25:05.48ID:hDsQS9Tu 依頼者が充足宣言してるのにね
364デフォルトの名無しさん
2017/12/02(土) 10:49:44.12ID:SQFbqxvb 正規表現の難しいところは引き際。いろんな意味で。
365デフォルトの名無しさん
2017/12/02(土) 20:04:53.17ID:aLfswfyL 質問がメインのスレじゃないんだから、
探究することは悪いことじゃないよ。
探究することは悪いことじゃないよ。
366デフォルトの名無しさん
2017/12/02(土) 20:22:17.17ID:P9eUjlcX なにいってんだこいつ?
1
> 質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。
2 質問テンプレ
1
> 質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。
2 質問テンプレ
367デフォルトの名無しさん
2017/12/02(土) 20:32:56.34ID:+fOAFawt > 質問する場合は
 ̄ ̄ ̄ ̄ ̄ ̄
 ̄ ̄ ̄ ̄ ̄ ̄
368デフォルトの名無しさん
2017/12/02(土) 22:11:28.09ID:oKFwf0E4 ほとんど質問がルートのレスツリーばかり
テンプレも質問がらみばかり
引き際誤るとここまで人はみっともなくなれるのか
テンプレも質問がらみばかり
引き際誤るとここまで人はみっともなくなれるのか
369デフォルトの名無しさん
2017/12/02(土) 22:44:47.63ID:1qjImk2p 自己紹介乙
370デフォルトの名無しさん
2017/12/02(土) 23:58:10.96ID:NhirO4Ud 引き際重要
371デフォルトの名無しさん
2017/12/10(日) 08:22:53.66ID:DxswVEqC Google Apps Scriptで、下記の時系列データを配列で取得したいのだけど、どうしたら良いですか?
https://www.morningstar.co.jp/RankingWeb/IndicesPart.do?indcCode=15
https://www.morningstar.co.jp/RankingWeb/IndicesPart.do?indcCode=15
372デフォルトの名無しさん
2017/12/10(日) 17:27:12.44ID:UOQUQi73 どこまでやりましたか
373デフォルトの名無しさん
2017/12/10(日) 18:40:59.63ID:DxswVEqC あとは正規表現のとこだけです。
<tr>
<td class="center">12/08</td>
<td class="center">169</td>
<td class="center">17</td>
<td class="center"> </td>
<td class="center">26</td>
</tr>
<tr>
<td class="center">12/08</td>
<td class="center">169</td>
<td class="center">17</td>
<td class="center"> </td>
<td class="center">26</td>
</tr>
374デフォルトの名無しさん
2017/12/11(月) 00:06:26.95ID:4q7JrCp0 jQuery のセレクターを使え
$('td.center').text()
$('td.center').text()
375デフォルトの名無しさん
2017/12/11(月) 01:01:11.97ID:06if4WxO376デフォルトの名無しさん
2017/12/11(月) 07:53:34.73ID:HLwn5MaC 急にHTMLパーサなんて言われてもチンプンカンプンやわ
377デフォルトの名無しさん
2017/12/11(月) 09:34:01.52ID:78kXJ+6a すぐできるだろうと思って泥沼にハマることが多いわ、こりだすとキリがないわで、あきらめどころが難しいのが正規表現。
自分の中で制限時間(10分など。忙しさによる)を設けて、
それ以上時間がかかる場合は正規表現による解決するのをあきらめるってのが、運用上は合理的だろうね。
正規表現そのものの学習・調査をしたい場合は、もちろん違うが。
このスレの客層はどっちなのってことなのかな。
自分の中で制限時間(10分など。忙しさによる)を設けて、
それ以上時間がかかる場合は正規表現による解決するのをあきらめるってのが、運用上は合理的だろうね。
正規表現そのものの学習・調査をしたい場合は、もちろん違うが。
このスレの客層はどっちなのってことなのかな。
378デフォルトの名無しさん
2017/12/11(月) 14:24:59.19ID:HLwn5MaC jQueryやらHTMLパーサやら能書きばっかり
正規表現で出来たから、もうええわ
正規表現で出来たから、もうええわ
379デフォルトの名無しさん
2017/12/12(火) 00:30:19.52ID:u8BojTW8380デフォルトの名無しさん
2017/12/14(木) 17:08:16.97ID:lv6L9acp Perl互換ですが,
ファイルの先頭から末尾までをマッチさせる,つまりファイルのテキストを全部取得するにはどう書いたらいいのでしょうか?
ファイルの先頭から末尾までをマッチさせる,つまりファイルのテキストを全部取得するにはどう書いたらいいのでしょうか?
381デフォルトの名無しさん
2017/12/14(木) 17:36:18.19ID:lv6L9acp 解決しました
([\s\S]*)で出来ました.
([\s\S]*)で出来ました.
382デフォルトの名無しさん
2017/12/16(土) 03:31:44.42ID:ArLhqftT 正規表現は構文解析器(parser)じゃないから、
XML, HTML のように、文書に構造があるものは解析できない。バグる
例えば、コメント部に、
<td
と書かれていても、正規表現では該当してしまう
それに要素間に、祖先・子孫などの関係があって、入れ子構造になるから、
開始・終了タグが一致しない
XML, HTML のように、文書に構造があるものは解析できない。バグる
例えば、コメント部に、
<td
と書かれていても、正規表現では該当してしまう
それに要素間に、祖先・子孫などの関係があって、入れ子構造になるから、
開始・終了タグが一致しない
383デフォルトの名無しさん
2017/12/18(月) 22:01:18.38ID:fLY/8wUq バックスラッシュt、でいいやろ
384デフォルトの名無しさん
2017/12/18(月) 23:20:44.39ID:LMSHu3dl 正規表現でできることできないことの見極めが難しい。
うまくできない原因が、自分の未熟によるものか、そもそも誰がやろうが無理なのか、という見極め。
これは正規表現に限った話でないが、正規表現を使っていると遭遇することが非常に多い。
うまくできない原因が、自分の未熟によるものか、そもそも誰がやろうが無理なのか、という見極め。
これは正規表現に限った話でないが、正規表現を使っていると遭遇することが非常に多い。
385デフォルトの名無しさん
2017/12/18(月) 23:31:28.83ID:Xb/4cQMD 自分が使ってる範囲で使えるものか完璧を目指すかで違ってくるよ
386デフォルトの名無しさん
2017/12/25(月) 17:59:18.23ID:9hKP95Nk もはや姓のサイトウ(斉藤、齊藤など)に適した検索方法って正規表現ぐらいじゃね?
プレス発表 「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了:IPA 独立行政法人 情報処理推進機構
https://www.ipa.go.jp/about/press/20171225.html
プレス発表 「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了:IPA 独立行政法人 情報処理推進機構
https://www.ipa.go.jp/about/press/20171225.html
387デフォルトの名無しさん
2017/12/25(月) 18:01:37.66ID:9hKP95Nk というか外字だとマルチプラットホーム対応した検索アルゴリズムを作ることが困難だったので、国際規格化されただけまだマシか。
388デフォルトの名無しさん
2017/12/25(月) 22:40:21.08ID:8yZmKHLj389デフォルトの名無しさん
2018/01/02(火) 13:30:58.99ID:bFwGimBi 新年おめでとうございます
スマホアプリで正規表現を使いたくて調べたレベルで恐縮です
'\s'は空白文字だそうですが半角スペースのみを表現できないでしょうか?
また'/'を用いて半角スペースを表す方法はありませんでしょうか?
宜しくお願い致します
スマホアプリで正規表現を使いたくて調べたレベルで恐縮です
'\s'は空白文字だそうですが半角スペースのみを表現できないでしょうか?
また'/'を用いて半角スペースを表す方法はありませんでしょうか?
宜しくお願い致します
390デフォルトの名無しさん
2018/01/02(火) 19:00:49.45ID:I9szCE3x 何故その程度ググらない?
半角スペースはそのまま半角スペースだ
半角スペースはそのまま半角スペースだ
391デフォルトの名無しさん
2018/01/02(火) 20:13:20.96ID:bFwGimBi392デフォルトの名無しさん
2018/01/06(土) 20:03:46.61ID:eEPcZWZO 社外に情報を持ち出せず脳内再生ですみませんが、
以下の抽出条件を教えてください
●Regular Expressionの使用環境
Excel/VBAの参照設定で5.5
C#からのソースを移植中に、
Executeメソッドで(おそらく後読みができず)エラーとなっているが、
正規表現初心者で手も足も出ず…
●検索か置換か?
検索
●説明
複数行の
任意のホワイトスペースhostname: 後の文字列を検索し、
直後のドメイン名を取得したい。ただし、IPアドレスは除外したい。
●対象データ
hostname: hogehoge.com改行
hostname: mogemoge.com改行
hostname: 192.168.1.1改行
●希望する結果
hogehoge.com
mogemoge.com
よろしくお願いします。
以下の抽出条件を教えてください
●Regular Expressionの使用環境
Excel/VBAの参照設定で5.5
C#からのソースを移植中に、
Executeメソッドで(おそらく後読みができず)エラーとなっているが、
正規表現初心者で手も足も出ず…
●検索か置換か?
検索
●説明
複数行の
任意のホワイトスペースhostname: 後の文字列を検索し、
直後のドメイン名を取得したい。ただし、IPアドレスは除外したい。
●対象データ
hostname: hogehoge.com改行
hostname: mogemoge.com改行
hostname: 192.168.1.1改行
●希望する結果
hogehoge.com
mogemoge.com
よろしくお願いします。
393デフォルトの名無しさん
2018/01/06(土) 20:08:09.69ID:eEPcZWZO ●対象データ
△△hostname:△hogehoge.com改行
△△△△hostname:△mogemoge.com改行
△hostname:△192.168.1.1改行
のようにスペースが入っています。
Janeでカキコするとスペースが消えたので補足します。
△△hostname:△hogehoge.com改行
△△△△hostname:△mogemoge.com改行
△hostname:△192.168.1.1改行
のようにスペースが入っています。
Janeでカキコするとスペースが消えたので補足します。
394デフォルトの名無しさん
2018/01/06(土) 21:13:44.07ID:RuMnMvof ホスト名の条件が分からんからドメイン名と同等と仮定する
マルチラインモードで
^\s*(?:[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?:[^\S\x0A\x0D]*((?:[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?)$
としてグループ1のキャプチャを見る, とか
つうかVBAなら正規表現で頑張るより改行文字と:でそれぞれsplitしてループ回しながらtrimするのが自然だと思うけど
マルチラインモードで
^\s*(?:[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?:[^\S\x0A\x0D]*((?:[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?)$
としてグループ1のキャプチャを見る, とか
つうかVBAなら正規表現で頑張るより改行文字と:でそれぞれsplitしてループ回しながらtrimするのが自然だと思うけど
395デフォルトの名無しさん
2018/01/06(土) 22:13:51.90ID:eEPcZWZO >>394
なるほど、hostnameを検索して後読みするのではなく、
ドメインで合致させつつ、IPアドレスを除外するというわけですね。
理解のために改行してみました。
^\s*
(?:[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])
?:[^\S\x0A\x0D]
*(
(?:[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])
?)$
のうち、
[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])
がドメイン、
[^\S\x0A\x0D]
がIPアドレス除外ですね。
私もVBAならInstrとMIDを駆使したほうが可読性も生産性も上がると思うのですが、
過去のC#とPerlの正規表現コードを再利用しつつ、将来的にはPythonとかにも応用できるように
正規表現でがんばれ、との指示を受けたのですが、
いきなりVBAでは後読みできないとか、まわりに有識者のいない罠にはまり難儀しています。
なるほど、hostnameを検索して後読みするのではなく、
ドメインで合致させつつ、IPアドレスを除外するというわけですね。
理解のために改行してみました。
^\s*
(?:[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])
?:[^\S\x0A\x0D]
*(
(?:[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])
?)$
のうち、
[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])
がドメイン、
[^\S\x0A\x0D]
がIPアドレス除外ですね。
私もVBAならInstrとMIDを駆使したほうが可読性も生産性も上がると思うのですが、
過去のC#とPerlの正規表現コードを再利用しつつ、将来的にはPythonとかにも応用できるように
正規表現でがんばれ、との指示を受けたのですが、
いきなりVBAでは後読みできないとか、まわりに有識者のいない罠にはまり難儀しています。
396デフォルトの名無しさん
2018/01/06(土) 22:25:41.73ID:RuMnMvof > がIPアドレス除外ですね
違う
\Sは空白文字以外だから[^\S\x0A\x0D]は空白文字以外とCR, LFの「何れでもない」場合, つまり空白文字からCRとLFを除外したもの
そもそも(先頭が英字でなければならない)ドメイン名でマッチングしてるんだから先頭が数字で始まるIPアドレスを後から除外する必要はない
再利用性に関しても, 後読み出来るエンジンかそうでないかで既に失われてるんじゃないかね
キャプチャの取得方法なんぞ言語ごとに大分違うしな
仕事で使うなら尚更メンテし辛い上に遅い正規表現を使わにゃならん積極的理由は無い
splitでループ回せば入力のサイズに対して線型時間で終わることが保証される上に保守性も高い
違う
\Sは空白文字以外だから[^\S\x0A\x0D]は空白文字以外とCR, LFの「何れでもない」場合, つまり空白文字からCRとLFを除外したもの
そもそも(先頭が英字でなければならない)ドメイン名でマッチングしてるんだから先頭が数字で始まるIPアドレスを後から除外する必要はない
再利用性に関しても, 後読み出来るエンジンかそうでないかで既に失われてるんじゃないかね
キャプチャの取得方法なんぞ言語ごとに大分違うしな
仕事で使うなら尚更メンテし辛い上に遅い正規表現を使わにゃならん積極的理由は無い
splitでループ回せば入力のサイズに対して線型時間で終わることが保証される上に保守性も高い
397デフォルトの名無しさん
2018/01/07(日) 12:17:55.91ID:ln22xrzP398デフォルトの名無しさん
2018/01/10(水) 23:41:51.90ID:qa5Jh8Cf399デフォルトの名無しさん
2018/01/11(木) 10:30:10.40ID:Xo4biI2J ^[△]*hostname:[△]*([0-9.]*[A-Za-z\-][0-9A-Za-z.\-]*)$
^[△]*hostname:[△]*([0-9.]*[^\s0-9.]\S*)$
hostname:△mevius.5ch.net
hostname:△86886.jp
hostname:△日本語.jp
hostname:△はじめよう.みんな
^[△]*hostname:[△]*([0-9.]*[^\s0-9.]\S*)$
hostname:△mevius.5ch.net
hostname:△86886.jp
hostname:△日本語.jp
hostname:△はじめよう.みんな
400デフォルトの名無しさん
2018/01/11(木) 12:30:44.58ID:/99JjIqr401デフォルトの名無しさん
2018/01/11(木) 13:56:21.29ID:/99JjIqr402デフォルトの名無しさん
2018/01/11(木) 17:51:18.77ID:WzsJRajU あぁ, hostnameは固定文字列なのか
なら
^\s*hostname:[^\S\x0A\x0D]*((?:[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?)$
だけど
なら
^\s*hostname:[^\S\x0A\x0D]*((?:[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?\.)*[A-Za-z](?:[A-Za-z0-9\-]{0,61}[A-Za-z0-9])?)$
だけど
403デフォルトの名無しさん
2018/01/16(火) 12:15:21.97ID:RA24ssqp 正規表現の書き方教えてください。
CentOS 7のサーバーにURLを要求した際、下記のような余計な文字が付きます。付くことがあります。
/ディレクトリ/ファイル名.拡張子%01
/ディレクトリ/desktop.inib%01
/ディレクトリ/desktop.inie%01
またファイル名の後に、
%EE%81%9F%E2%81%80%EE%81%97%C9%84とか
%E6%89%B8%E7%A8%B7%E4%99%BA%E5%A5%97%E3%8D%95%E4%BD%8C%E6%A1%B2%01とか
ファイル名の語尾に不特定の文字が勝手に付く場合もあります。
ディレクトリを要求したときも
ディレクトリの語尾に%E4%84%B7など(これも不特定)が付いてしまうことがあります。
これを除外するには、
正規表現でどのように書けば良いのでしょうか?
よろしくお願いします。
CentOS 7のサーバーにURLを要求した際、下記のような余計な文字が付きます。付くことがあります。
/ディレクトリ/ファイル名.拡張子%01
/ディレクトリ/desktop.inib%01
/ディレクトリ/desktop.inie%01
またファイル名の後に、
%EE%81%9F%E2%81%80%EE%81%97%C9%84とか
%E6%89%B8%E7%A8%B7%E4%99%BA%E5%A5%97%E3%8D%95%E4%BD%8C%E6%A1%B2%01とか
ファイル名の語尾に不特定の文字が勝手に付く場合もあります。
ディレクトリを要求したときも
ディレクトリの語尾に%E4%84%B7など(これも不特定)が付いてしまうことがあります。
これを除外するには、
正規表現でどのように書けば良いのでしょうか?
よろしくお願いします。
404デフォルトの名無しさん
2018/01/16(火) 13:31:33.72ID:y9BMfGeo https://social.technet.microsoft.com/Forums/ja-JP/5debbbcd-1def-42f8-a495-f655ebd58c4b/windows10-1709-webdav-?forum=win10itprogeneralJP
コレか?
URLエンコード文字だけなら簡単だがASCIIが入るとなると容易ではない(どこまでがファイル名か判別出来ない)
クライアント側のアップデートを待つ方が賢明な気がする
コレか?
URLエンコード文字だけなら簡単だがASCIIが入るとなると容易ではない(どこまでがファイル名か判別出来ない)
クライアント側のアップデートを待つ方が賢明な気がする
405デフォルトの名無しさん
2018/01/16(火) 13:45:59.33ID:y9BMfGeo あと忘れてたけどWebDAVならクライアントにWinSCP使うとか
406403
2018/01/16(火) 14:48:31.79ID:RA24ssqp ありがとうございます。
自分の場合「空」にはなってませんが似てますね。
便利なクライアントアプリケーション探してみます。
自分の場合「空」にはなってませんが似てますね。
便利なクライアントアプリケーション探してみます。
407デフォルトの名無しさん
2018/01/16(火) 17:00:43.44ID:1yOH1J8J pattern = /^(.*)(?!%)/
p pattern.match('abc%123')
Ruby で否定先読みを使ったら、「abc」だけ取れない。
すべての文字列にマッチしてしまう
なんでやねんw
p pattern.match('abc%123')
Ruby で否定先読みを使ったら、「abc」だけ取れない。
すべての文字列にマッチしてしまう
なんでやねんw
408デフォルトの名無しさん
2018/01/16(火) 17:14:43.11ID:G8V+pnDB なんでやもなにも、.* だから全体にマッチするよ。1文字ごとにチェックするか、文字クラスを使いなさい。
409デフォルトの名無しさん
2018/01/16(火) 18:31:44.93ID:1yOH1J8J Ruby では、先頭から、% を探して、それ以降を削除する
str = '/dir/desktop.inib%01%EE%81'
pos = str.index('%')
if pos
str = str.slice(0...pos)
end
puts str
結果
/dir/desktop.inib
str = '/dir/desktop.inib%01%EE%81'
pos = str.index('%')
if pos
str = str.slice(0...pos)
end
puts str
結果
/dir/desktop.inib
410409
2018/01/16(火) 19:25:09.57ID:1yOH1J8J 正規表現でも、できた。
Ruby では、先頭から、% 以外の文字を探す
pattern = /^[^%]+/
str = '/dir/desktop.inib%01%EE%81'
puts pattern.match str
結果
/dir/desktop.inib
Ruby では、先頭から、% 以外の文字を探す
pattern = /^[^%]+/
str = '/dir/desktop.inib%01%EE%81'
puts pattern.match str
結果
/dir/desktop.inib
411デフォルトの名無しさん
2018/01/16(火) 20:18:43.79ID:y9BMfGeo 要件には書いてないけど, .iniまでが正しいファイル名だと思うよ
その後ろのbとかeもゴミ
その後ろのbとかeもゴミ
412デフォルトの名無しさん
2018/01/16(火) 22:39:12.31ID:9E60uHWe どういう法則性でb,eが付いたのかがわからないと、
b,eの他にも付くのがあるのか、また付かないこともあるのかもわからん
例えば、hoge.exee%01とかになるのか?
b,eの他にも付くのがあるのか、また付かないこともあるのかもわからん
例えば、hoge.exee%01とかになるのか?
413403
2018/01/17(水) 15:18:31.78ID:BVJUZk9+414413
2018/01/17(水) 17:17:53.77ID:BVJUZk9+ 最後に変な文章を残してしまいました。
すべてが1byte文字を要求するときは、
そんな変なゴミは付きにくいと書こうと思ったのですが、
まだ確証が無いので無視して結構です。
すべてが1byte文字を要求するときは、
そんな変なゴミは付きにくいと書こうと思ったのですが、
まだ確証が無いので無視して結構です。
415デフォルトの名無しさん
2018/02/07(水) 23:42:01.50ID:3vNjEx0B ●Regular Expressionの使用環境
桜エディタ(テキストエディタ)
●検索か置換か?
置き換え
●説明
文字数、文字種はいろいろです。ただしすべて半角(1バイト文字)です。
結果として、<>内の文字だけにできればどんな方法でも構いません
必要な情報かわかりませんが、<>の外には、<>があることはありません。
asqa>w3e<a>s98<as897kja> ←こんな感じの行はありません。
行末は必ず、>で終わり、必要な文字は必ず<>でくくられたものの中にあります。
いらない文字<必要な文字>ここに改行が入る という書式は絶対です。
●対象データ
R&^&*(!TYUIKM<slihfd>
BA%(*&%ASAS<asdlikh>
TF^(VB(*&N<a09sfyighkljn>
●希望する結果
slihfd
asdlikh
a09sfyighkljn
よろしくお願いいたします。
桜エディタ(テキストエディタ)
●検索か置換か?
置き換え
●説明
文字数、文字種はいろいろです。ただしすべて半角(1バイト文字)です。
結果として、<>内の文字だけにできればどんな方法でも構いません
必要な情報かわかりませんが、<>の外には、<>があることはありません。
asqa>w3e<a>s98<as897kja> ←こんな感じの行はありません。
行末は必ず、>で終わり、必要な文字は必ず<>でくくられたものの中にあります。
いらない文字<必要な文字>ここに改行が入る という書式は絶対です。
●対象データ
R&^&*(!TYUIKM<slihfd>
BA%(*&%ASAS<asdlikh>
TF^(VB(*&N<a09sfyighkljn>
●希望する結果
slihfd
asdlikh
a09sfyighkljn
よろしくお願いいたします。
416デフォルトの名無しさん
2018/02/08(木) 00:23:12.83ID:kN+YdVUy ^[^<>]*<([^<>]+)>$
$1
$1
417デフォルトの名無しさん
2018/02/08(木) 23:06:15.86ID:VxK8nSc/ [^<>^] サンクス
418デフォルトの名無しさん
2018/02/08(木) 23:24:13.78ID:Zisu4Ynz >>416
ありがとうございます。うまく抽出できました。
ありがとうございます。うまく抽出できました。
419デフォルトの名無しさん
2018/02/08(木) 23:37:41.58ID:kN+YdVUy このぐらいの正規表現なら基本だし, 覚えると正規表現の載ってるエディタでの編集が楽になるよ
とりあえずPerl互換を勉強してみるといい
とりあえずPerl互換を勉強してみるといい
420デフォルトの名無しさん
2018/02/14(水) 13:35:37.03ID:2LP2x+pK C#なんですが
[ああ]おおおおお
[いいい]こここここ
[うう][ええ]そそそそそ
ととととと[たた]
↓
おおおおお
こここここ
そそそそそ
ととととと[たた]
にしたいんですが、どうしたらいいでしょうか。
※先頭じゃない文中の[はは]は残したい
[ああ]おおおおお
[いいい]こここここ
[うう][ええ]そそそそそ
ととととと[たた]
↓
おおおおお
こここここ
そそそそそ
ととととと[たた]
にしたいんですが、どうしたらいいでしょうか。
※先頭じゃない文中の[はは]は残したい
421デフォルトの名無しさん
2018/02/16(金) 13:56:45.89ID:uX7uVTrc \[[^\]]*?\](?!$)
ところによっては\[[^\]]*?\](?!(?:\n|$))
ところによっては\[[^\]]*?\](?!(?:\n|$))
422デフォルトの名無しさん
2018/02/16(金) 14:10:38.80ID:ga78Zu+3 マルチラインモード
^(?:\[([^\[\]])\1*\])+
マッチ部分を除去
^(?:\[([^\[\]])\1*\])+
マッチ部分を除去
423420
2018/02/16(金) 14:11:39.72ID:CWd36B/o 1行目でバッチリ
感動しました!!!
感動しました!!!
424デフォルトの名無しさん
2018/02/16(金) 14:15:41.25ID:CPKH/1dQ それ文末以外消えるけどええのん
425421
2018/02/16(金) 15:30:22.93ID:mPXTHkFg >>424
文中は消えていいんじゃない?
>>420に
> [うう][ええ]そそそそそ
> そそそそそ
ってあるし
あ、
> ※先頭じゃない文中の[はは]は残したい
この[はは]はマッチしたらダメなのか
これ例の中においてくんないかなー
というか定義がよくわからんちん
^\[.*\](?!$)
ところによっては(?<=(?:^|\n))\[.*\](?!(?:\n|$))
マッチ
[ああ]おおおおお
[いいい]こここここ
[うう][ええ]そそそそそ
[たた]ななはは[まま]やや
→[たた]ななはは[まま]
[たた]ななははまま[やや]
→[たた]
アンマッチ
ととととと[たた]
ちち[はは]ぱぱまま
文中は消えていいんじゃない?
>>420に
> [うう][ええ]そそそそそ
> そそそそそ
ってあるし
あ、
> ※先頭じゃない文中の[はは]は残したい
この[はは]はマッチしたらダメなのか
これ例の中においてくんないかなー
というか定義がよくわからんちん
^\[.*\](?!$)
ところによっては(?<=(?:^|\n))\[.*\](?!(?:\n|$))
マッチ
[ああ]おおおおお
[いいい]こここここ
[うう][ええ]そそそそそ
[たた]ななはは[まま]やや
→[たた]ななはは[まま]
[たた]ななははまま[やや]
→[たた]
アンマッチ
ととととと[たた]
ちち[はは]ぱぱまま
426421
2018/02/16(金) 15:30:54.45ID:mPXTHkFg >>425
[たた]ななはは[まま]やや
の[まま]を含めずマッチしたい([たた])ならかなり複雑になりそうでちょっといますぐは思いつかないや
それってつまり
行頭[
行頭から括弧が繋がり、且つ、行末]を含めない範囲
なら
[たた][なな][はは][まま][やや]
のマッチが
→[たた][なな][はは][まま]
でいいのか、それとも行そのものがアンマッチなのかよーわからんし
[たた]ななはは[まま]やや
の[まま]を含めずマッチしたい([たた])ならかなり複雑になりそうでちょっといますぐは思いつかないや
それってつまり
行頭[
行頭から括弧が繋がり、且つ、行末]を含めない範囲
なら
[たた][なな][はは][まま][やや]
のマッチが
→[たた][なな][はは][まま]
でいいのか、それとも行そのものがアンマッチなのかよーわからんし
427デフォルトの名無しさん
2018/02/16(金) 15:55:42.80ID:CPKH/1dQ428デフォルトの名無しさん
2018/02/16(金) 15:57:06.09ID:CWd36B/o429デフォルトの名無しさん
2018/02/16(金) 16:00:32.77ID:CWd36B/o すみません
[ああ]おおおおお → おおおおお
[あああ]おおおおお → おおおおお
[ああ][いい]おおおおお → おおおおお
あああああ[いい] → あああああ[いい]
あああ[いい]うう → あああ[いい]うう
です。
先頭付近の [] は消したいけど、それ以外は残したい、って風です。
[ああ]おおおおお → おおおおお
[あああ]おおおおお → おおおおお
[ああ][いい]おおおおお → おおおおお
あああああ[いい] → あああああ[いい]
あああ[いい]うう → あああ[いい]うう
です。
先頭付近の [] は消したいけど、それ以外は残したい、って風です。
430421
2018/02/16(金) 16:24:42.64ID:rLsYeXBU >>429
[たた]ななはは[まま]やや
は?
[たた][なな][はは][まま][やや]
はどーなんの?
[あいう[かきく]たちつ]
[あいう[かきく]]たちつ
とか括弧内包の場合どーなんのとかも
あと行末も係わるんだから、例の同じ行に余計な文字列入れないで(たぶんこの件では大過ないと思うけど)
[たた]ななはは[まま]やや
は?
[たた][なな][はは][まま][やや]
はどーなんの?
[あいう[かきく]たちつ]
[あいう[かきく]]たちつ
とか括弧内包の場合どーなんのとかも
あと行末も係わるんだから、例の同じ行に余計な文字列入れないで(たぶんこの件では大過ないと思うけど)
431421
2018/02/16(金) 16:25:23.31ID:rLsYeXBU >>430
内包無視するとしたら
(?<=^)(?:\[[^\[]*?\])+(?!$)
ところによって(?<=(?:^|\n))(?:\[[^\[]*?\])+(?!(?:\n|$))
かね
>>429を満たし、
[たた]ななはは[まま]やや
→[たた]
[たた][なな][はは][まま][やや]
→[たた][なな][はは][まま]
となるし
たぶん
行頭[ および 行頭[に対応する]までマッチ
行頭[ および 行頭[に対応する]から括弧が繋がり、且つ、行末] および 行末]に対応する[までを含めない範囲
あたりなんだろうなー
ぱっと思いつくのはちょめちょめしたダウンロードファイルのリネームをしたいようなかんじかね
内包無視するとしたら
(?<=^)(?:\[[^\[]*?\])+(?!$)
ところによって(?<=(?:^|\n))(?:\[[^\[]*?\])+(?!(?:\n|$))
かね
>>429を満たし、
[たた]ななはは[まま]やや
→[たた]
[たた][なな][はは][まま][やや]
→[たた][なな][はは][まま]
となるし
たぶん
行頭[ および 行頭[に対応する]までマッチ
行頭[ および 行頭[に対応する]から括弧が繋がり、且つ、行末] および 行末]に対応する[までを含めない範囲
あたりなんだろうなー
ぱっと思いつくのはちょめちょめしたダウンロードファイルのリネームをしたいようなかんじかね
432デフォルトの名無しさん
2018/02/16(金) 16:26:09.97ID:dBpGhFbZ 仕様に不備があると作る方は大変だな
433デフォルトの名無しさん
2018/02/16(金) 17:00:58.65ID:Q4bZpk0j 正規表現の使いどころってどんなところですかね?
普通レベルのプログラマから見ると可読性低くて保守性も悪い気がする
タグの要素を最初にバッと配列に入れやすいとか?
普通レベルのプログラマから見ると可読性低くて保守性も悪い気がする
タグの要素を最初にバッと配列に入れやすいとか?
434デフォルトの名無しさん
2018/02/16(金) 17:11:19.84ID:GgVv8IsN >>433
可読性低くて保守性も悪いっていうのは本当にその通り
プログラミングで使うならまずは(正規表現が非常に直感的でない限りは)正規表現以外の選択肢を考えるべきで, それが可読性や保守性を上げないとなった上で正規表現が選択されるのがよい
勿論保守性や可読性を気にしないワンライナーとかであれば気にする必要はないが
あとはエディタやgrepなんかだと他に有力な選択肢がないから正規表現になる
可読性低くて保守性も悪いっていうのは本当にその通り
プログラミングで使うならまずは(正規表現が非常に直感的でない限りは)正規表現以外の選択肢を考えるべきで, それが可読性や保守性を上げないとなった上で正規表現が選択されるのがよい
勿論保守性や可読性を気にしないワンライナーとかであれば気にする必要はないが
あとはエディタやgrepなんかだと他に有力な選択肢がないから正規表現になる
435デフォルトの名無しさん
2018/02/16(金) 17:18:48.02ID:h4N2NTdR 単純に、
(?m)^\[.*\](.*)
じゃだめなん?
(?m)^\[.*\](.*)
じゃだめなん?
436デフォルトの名無しさん
2018/02/16(金) 17:23:34.33ID:GgVv8IsN437デフォルトの名無しさん
2018/02/16(金) 17:34:31.04ID:dBpGhFbZ438デフォルトの名無しさん
2018/02/16(金) 18:30:54.06ID:Q4bZpk0j439デフォルトの名無しさん
2018/02/16(金) 19:13:24.69ID:M8XJLm2H440デフォルトの名無しさん
2018/02/16(金) 20:46:56.42ID:d9VDf+sb >>420
$# 「行頭部分にある 1 個以上の \[[^\]*\] を削除」と初見で思ったのだが、違うのか?
$# それとも C# でどうやるかわからないという話? 申し訳ないが C# は知らない。
$
$cat a_in
[ああ]おおおおお
[いいい]こここここ
[うう][ええ]そそそそそ
ととととと[たた]
[ええ]あああ[いい]うう
$perl -pe 's/^(\[[^\]]*\])+//' < a_in
おおおおお
こここここ
そそそそそ
ととととと[たた]
あああ[いい]うう
$perl -0777 -pe 's/^(\[[^\]]*\])+//gm' < a_in
おおおおお
こここここ
そそそそそ
ととととと[たた]
あああ[いい]うう
$
$# 「行頭部分にある 1 個以上の \[[^\]*\] を削除」と初見で思ったのだが、違うのか?
$# それとも C# でどうやるかわからないという話? 申し訳ないが C# は知らない。
$
$cat a_in
[ああ]おおおおお
[いいい]こここここ
[うう][ええ]そそそそそ
ととととと[たた]
[ええ]あああ[いい]うう
$perl -pe 's/^(\[[^\]]*\])+//' < a_in
おおおおお
こここここ
そそそそそ
ととととと[たた]
あああ[いい]うう
$perl -0777 -pe 's/^(\[[^\]]*\])+//gm' < a_in
おおおおお
こここここ
そそそそそ
ととととと[たた]
あああ[いい]うう
$
441デフォルトの名無しさん
2018/02/16(金) 21:24:08.90ID:nYHQACKk442デフォルトの名無しさん
2018/02/17(土) 05:30:35.08ID:xZfN9pA3 何を望んでいるのかを明確にする方が先かと……
443デフォルトの名無しさん
2018/02/17(土) 11:13:15.50ID:sN1lrGX4444デフォルトの名無しさん
2018/02/17(土) 11:27:08.57ID:IU1gsQgu [ab][cd][ef]ああ
これは、繰り返しが入っている。
N回削除する必要がある
[ab][cd][ef]ああ
[cd][ef]ああ
[ef]ああ
ああ
[~] でグループ化すべき
これは、繰り返しが入っている。
N回削除する必要がある
[ab][cd][ef]ああ
[cd][ef]ああ
[ef]ああ
ああ
[~] でグループ化すべき
445デフォルトの名無しさん
2018/02/17(土) 12:22:01.47ID:IU1gsQgu /^\[[^\]]*\]/ =~ "[ab][cd]ああ"
$& #=> [ab]
Ruby で書いた。
行頭が\[ で、\[ 以外の文字が、0以上続いて、\] がある
$& #=> [ab]
Ruby で書いた。
行頭が\[ で、\[ 以外の文字が、0以上続いて、\] がある
446デフォルトの名無しさん
2018/02/17(土) 12:32:03.69ID:IU1gsQgu /^\[[^\]]*\]/ =~ "[ab][cd]ああ"
$& #=> [ab]
$' #=> [cd]ああ
/^\[[^\]]*\]/ =~ $'
$& #=> [cd]
$' #=> ああ
/^\[[^\]]*\]/ =~ $'
#=> nil
Ruby で書いた。
行頭が\[ で、\[ 以外の文字が、0以上続いて、\] がある
$& はマッチした部分で、$' はマッチした部分の後ろを表すから、
マッチを繰り返していけば、出来るけど
$& #=> [ab]
$' #=> [cd]ああ
/^\[[^\]]*\]/ =~ $'
$& #=> [cd]
$' #=> ああ
/^\[[^\]]*\]/ =~ $'
#=> nil
Ruby で書いた。
行頭が\[ で、\[ 以外の文字が、0以上続いて、\] がある
$& はマッチした部分で、$' はマッチした部分の後ろを表すから、
マッチを繰り返していけば、出来るけど
447デフォルトの名無しさん
2018/02/17(土) 12:42:57.33ID:IU1gsQgu /^(\[[^\]]*\])+/ =~ "[ab][cd]ああ[ef]"
$& #=> [ab][cd]
やったー。Ruby で出来た
\[ があり、\[ 以外の文字が、0以上続いて、\] がある。
これをグループ化して、1回以上繰り返す
ただし、グループ外に、先頭からを指定する
$& #=> [ab][cd]
やったー。Ruby で出来た
\[ があり、\[ 以外の文字が、0以上続いて、\] がある。
これをグループ化して、1回以上繰り返す
ただし、グループ外に、先頭からを指定する
448デフォルトの名無しさん
2018/02/18(日) 07:04:41.40ID:4dAbe4pu 正規表現で使用される記号があるとワケわからなくなってくるから
適当な記号、例えばQなどに置き換えて試行錯誤して最後に元の記号に戻したりする
適当な記号、例えばQなどに置き換えて試行錯誤して最後に元の記号に戻したりする
449デフォルトの名無しさん
2018/02/18(日) 11:53:19.92ID:QWcmX5lk 余計なバックトラックを防ぐために
$s = qr/(?>\s*)/
ってやってパターンに埋め込むことならある。
$s = qr/(?>\s*)/
ってやってパターンに埋め込むことならある。
450デフォルトの名無しさん
2018/02/23(金) 22:29:48.73ID:vtIXFjR6 (?s:^(?=.*ス)(?=.*プ))
CHmateで使う正規表現らしいんだけど最初の
(?s:"
の意味が検索してもわからないのですが教えていただけないでしょうか
CHmateで使う正規表現らしいんだけど最初の
(?s:"
の意味が検索してもわからないのですが教えていただけないでしょうか
451デフォルトの名無しさん
2018/02/23(金) 22:45:42.10ID:0zsudQHR452デフォルトの名無しさん
2018/02/24(土) 00:35:55.07ID:bvxyjlLF >>451
ありがとございます
確認してなんとなく分かりました
ところでこの正規表現の場合(?s:)って名前には改行はないので不要じゃないかと思ってしまうのですがどういう目的で使われているのでしょうか
ありがとございます
確認してなんとなく分かりました
ところでこの正規表現の場合(?s:)って名前には改行はないので不要じゃないかと思ってしまうのですがどういう目的で使われているのでしょうか
453デフォルトの名無しさん
2018/02/24(土) 01:37:05.64ID:d6NztqhC 書いたヤツの趣味じゃ?
しかもかなりてきとう
ワッチョイ名前ならおそらくドコモ判別?でもプだけではないhttp://itest.5ch.net/test/read.cgi/mango/1467623805/312
先読みなんてコストかけなくてもKOROKORO AAはSd固定
改行を無理矢理入れ込んでというシチュエーションでスとプでねらい打ちも違和感
本文で^(?=.*A)の類を使うとレス数後半のコストはかなりのもの
これは名前だから大したことにはならないけど
深謀遠慮があるのかも知れんがそれこそ書いた本人へ
しかもかなりてきとう
ワッチョイ名前ならおそらくドコモ判別?でもプだけではないhttp://itest.5ch.net/test/read.cgi/mango/1467623805/312
先読みなんてコストかけなくてもKOROKORO AAはSd固定
改行を無理矢理入れ込んでというシチュエーションでスとプでねらい打ちも違和感
本文で^(?=.*A)の類を使うとレス数後半のコストはかなりのもの
これは名前だから大したことにはならないけど
深謀遠慮があるのかも知れんがそれこそ書いた本人へ
454デフォルトの名無しさん
2018/02/27(火) 15:54:44.12ID:2v1tH105 C#で、
var rgx = new Regex("(.)+");
var str = "こんにちは。";
Console.WriteLine(rgx.Replace(str, "$1"));
とすると「。」が出力されるのですが、なぜですか?
$1は「。」になるのですか?「こ」だと思ったのですが、違いますか?
var rgx = new Regex("(.)+");
var str = "こんにちは。";
Console.WriteLine(rgx.Replace(str, "$1"));
とすると「。」が出力されるのですが、なぜですか?
$1は「。」になるのですか?「こ」だと思ったのですが、違いますか?
455デフォルトの名無しさん
2018/02/27(火) 16:08:59.77ID:u9k8VAiO >>454
理由はここ読んで
https://www.regular-expressions.info/captureall.html
短い説明は↓ここでも出てくる
https://regex101.com/r/te5DBr/1
理由はここ読んで
https://www.regular-expressions.info/captureall.html
短い説明は↓ここでも出てくる
https://regex101.com/r/te5DBr/1
456デフォルトの名無しさん
2018/02/27(火) 17:03:18.46ID:VEiALCIH どれどれ…
javascript
'こんにちは。'.replace(/(.)+/, '$1');
=> "。"
ほんまや!知らんかった
javascript
'こんにちは。'.replace(/(.)+/, '$1');
=> "。"
ほんまや!知らんかった
457デフォルトの名無しさん
2018/02/27(火) 19:34:07.35ID:LuvO3mbW458デフォルトの名無しさん
2018/02/27(火) 21:09:42.50ID:PLAOSS1/ Ruby でも、
'こんにちは。'.gsub(/(.)+/, $1)
#=> "。"
'こんにちは。'.gsub(/(.)+/, $1)
#=> "。"
459デフォルトの名無しさん
2018/02/27(火) 22:02:02.32ID:u9k8VAiO >>457
.NETはCaptureCollectionってのに入れてくれるみたいよ
ただフルマッチとキャプチャリンググループと両方1度に必要なければ
/(.){1}/みたいに正規表現変えれば配列に入れられるよね
.NETはCaptureCollectionってのに入れてくれるみたいよ
ただフルマッチとキャプチャリンググループと両方1度に必要なければ
/(.){1}/みたいに正規表現変えれば配列に入れられるよね
460デフォルトの名無しさん
2018/02/28(水) 21:03:30.09ID:V9ixSdqS461デフォルトの名無しさん
2018/02/28(水) 22:05:09.20ID:pxJOkH76 単純に最後にマッチした部分ってことじゃないかな。赤ラクダにそう書いてある。
C# は知らない。誰か翻訳してあげて。
C# は知らない。誰か翻訳してあげて。
462デフォルトの名無しさん
2018/03/01(木) 00:07:23.55ID:UkKloD3U >>460
キャプチャグループに量指定子がついてるとそのキャプチャグループの箇所に複数回マッチする可能性があるよね。
んで複数回マッチした場合は最後にマッチしたやつがそのキャプチャグループに入ってるってこと
"こんにちは。”に対して、/(.)+/でマッチをかけると
最初にピリオドが“こ”にマッチしてそれをグループ1に入れて
次に+を見てまたマッチするか繰り返す
今度はピリオドに”ん”がマッチするからそれをグループ1に入れて、、、
あとは繰り返し
“こんにちは。”が/(.)+/にフルマッチした時点でグループ1に入ってるのは”。”
キャプチャグループに量指定子がついてるとそのキャプチャグループの箇所に複数回マッチする可能性があるよね。
んで複数回マッチした場合は最後にマッチしたやつがそのキャプチャグループに入ってるってこと
"こんにちは。”に対して、/(.)+/でマッチをかけると
最初にピリオドが“こ”にマッチしてそれをグループ1に入れて
次に+を見てまたマッチするか繰り返す
今度はピリオドに”ん”がマッチするからそれをグループ1に入れて、、、
あとは繰り返し
“こんにちは。”が/(.)+/にフルマッチした時点でグループ1に入ってるのは”。”
463デフォルトの名無しさん
2018/03/01(木) 00:17:03.42ID:ikcjc59H /(.+)/ =~ 'こんにちは。'
$1 は、'こんにちは。'
/(.)+/ =~ 'こんにちは。'
$1 は、'。'
上は、1回しかマッチしていない、最長マッチ。
下は、1文字のマッチで、6回マッチして、最後のマッチが、'。'
$1 は、'こんにちは。'
/(.)+/ =~ 'こんにちは。'
$1 は、'。'
上は、1回しかマッチしていない、最長マッチ。
下は、1文字のマッチで、6回マッチして、最後のマッチが、'。'
464デフォルトの名無しさん
2018/03/01(木) 00:55:21.78ID:UkKloD3U465デフォルトの名無しさん
2018/03/01(木) 02:58:48.22ID:ksBcbegD >>462
なるほど。
なるほど。
466デフォルトの名無しさん
2018/03/01(木) 05:29:23.47ID:AobHbkwq 詳細 ○○表現
尼での評価がよかったので買ってみたが全然
リファレンスにもならない
やっぱり海外の訳本はだめだ、すくなくとも自分には良書でなかった
尼での評価がよかったので買ってみたが全然
リファレンスにもならない
やっぱり海外の訳本はだめだ、すくなくとも自分には良書でなかった
467デフォルトの名無しさん
2018/03/01(木) 15:52:15.50ID:UkKloD3U フクロウ本のことかな
中の仕組みを理解するための本であって
リファレンス本でも入門書でもないからね
中の仕組みを理解するための本であって
リファレンス本でも入門書でもないからね
468デフォルトの名無しさん
2018/03/02(金) 09:24:29.36ID:O5NS5hyG469デフォルトの名無しさん
2018/03/02(金) 13:01:46.53ID:btKfsNEv 試しに
for pat in '([cd])+' '(.)+' '.*(.)' ; do perl -Mre=debug -e '$pat = shift; print "abcd" =~ /$pat/ ,"\n" ;' "$pat" ; done
ってやってみた。最適化してそうだ。.*(.) は意味的には同じだと思うがバックトラックの分だけ不利。
Perl のソースコードを確認したわけではないので断定はしかねるが。
for pat in '([cd])+' '(.)+' '.*(.)' ; do perl -Mre=debug -e '$pat = shift; print "abcd" =~ /$pat/ ,"\n" ;' "$pat" ; done
ってやってみた。最適化してそうだ。.*(.) は意味的には同じだと思うがバックトラックの分だけ不利。
Perl のソースコードを確認したわけではないので断定はしかねるが。
470デフォルトの名無しさん
2018/03/03(土) 08:34:43.98ID:ooAwkD9v 今はサンプルだからいいけど
長大な文章じゃスキップで最適化しないとやってられないよな
長大な文章じゃスキップで最適化しないとやってられないよな
471469
2018/03/03(土) 13:47:58.16ID:GJwmn3yF 個人的には (.)+ と書くべき理由が思い当たらない。
472デフォルトの名無しさん
2018/03/04(日) 15:44:40.85ID:QUMop1Gl 正規表現とギターの速弾きが出来る奴は賢いと尊敬している
473デフォルトの名無しさん
2018/04/06(金) 19:38:34.22ID:U5C29TI1 複数のSQL文の書かれているSQLファイルから、DBの処理単位でSQL文を逐次取り出す正規表現が書きたいのですがどうしたら良いですか?
厳密なものでは無くても良くて英文字から始まってセミコロンで終わるというもので良いのです。
ただ、SQL分は行頭から始まるとは限らず、セミコロンの直後に次のSQL文が始まったり、空白文字などがあってからSQLの文が始まったりすることもあります。
また、文中に出てくるエスケープされたセミコロンや文字列中のセミコロンは文末の対象になって区切られては困るのでそれはスキップして評価がしたいです。
厳密なものでは無くても良くて英文字から始まってセミコロンで終わるというもので良いのです。
ただ、SQL分は行頭から始まるとは限らず、セミコロンの直後に次のSQL文が始まったり、空白文字などがあってからSQLの文が始まったりすることもあります。
また、文中に出てくるエスケープされたセミコロンや文字列中のセミコロンは文末の対象になって区切られては困るのでそれはスキップして評価がしたいです。
474デフォルトの名無しさん
2018/04/06(金) 22:09:42.71ID:witjIkkr 文字列の内外を判断するの難しい・・・・難しくない?
475デフォルトの名無しさん
2018/04/07(土) 12:21:20.06ID:BRhgC8GS multilineのオプション付けて
;でsplitしただけじゃだめなん
;でsplitしただけじゃだめなん
476デフォルトの名無しさん
2018/04/07(土) 12:23:00.56ID:BRhgC8GS >>474
それが含まれる時点で無理に正規表現一行で書くのはいつもあきらめる
それが含まれる時点で無理に正規表現一行で書くのはいつもあきらめる
477デフォルトの名無しさん
2018/04/07(土) 12:30:00.76ID:LBmouzwW ちゃんとやるなら文字列中のエスケープされたシングルクォートとかも処理しないとダメだし正規表現でやるのはすごく大変だと思う
478デフォルトの名無しさん
2018/04/07(土) 12:57:57.77ID:wQfk+GMe 正規文法ではかなり厳しい印象で, BNFの管轄だと思うおよね
479デフォルトの名無しさん
2018/04/08(日) 06:27:09.85ID:1mmlbc0v 1. ; で分割して、配列に入れる
2. 配列の各要素から、余分なものを削除する
2 のルールを、厳格に決めればよい
Ruby で作る方が速い
2. 配列の各要素から、余分なものを削除する
2 のルールを、厳格に決めればよい
Ruby で作る方が速い
480デフォルトの名無しさん
2018/04/08(日) 11:04:16.11ID:YK+KPtHu 正規表現は置いといて
DB用意して""で囲まれた部分をテキストとしてDBに入れながらID取得
本文側はIDに置き換える
あとは正規表現を使っても使わなくてもいいが;で分割
最後にまたID部分に元のテキストを流し込む
DB用意して""で囲まれた部分をテキストとしてDBに入れながらID取得
本文側はIDに置き換える
あとは正規表現を使っても使わなくてもいいが;で分割
最後にまたID部分に元のテキストを流し込む
481デフォルトの名無しさん
2018/04/08(日) 13:00:20.92 そこであきらめんなよ!
正規表現だけで乗り切ろうという気概を見せろよ!
正規表現だけで乗り切ろうという気概を見せろよ!
482デフォルトの名無しさん
2018/04/08(日) 13:08:05.41ID:wO4VFvVz (シングル|ダブル)クオート文字列って正規言語で表せる範囲にあるんかね?
文脈自由言語では表せるけど
文脈自由言語では表せるけど
483デフォルトの名無しさん
2018/04/08(日) 13:27:19.00ID:aPw27k7Z どの正規表現がつかえるのかがわからん
環境を明示してくれないとなー
環境を明示してくれないとなー
484デフォルトの名無しさん
2018/04/08(日) 18:18:43.83ID:1mmlbc0v /\"([^\"]*)\"/ =~ 'a"bc"d'
$1 #=> bc
"~" で、~には、" 以外の文字列が入る
$1 #=> bc
"~" で、~には、" 以外の文字列が入る
485デフォルトの名無しさん
2018/04/08(日) 18:28:48.48ID:aPw27k7Z "のエスケープや'もあるし
'a"b\"c'd"e'
'a"b\"c'd"e'
486473
2018/04/09(月) 10:33:55.69ID:Q+cYQrXX 沢山ご回答ありがとうございます。
皆さんのご意見を伺った限り、やはり正規表現一本では難しそうですよね…
はじめは前処理で既成のsqlパーサなどを通して、きれいに整形して別ファイルに保存してから処理する方法も検討していましたが、
できれば現物ファイルを生のまま読み込んで正規表現でなんとか行けないかなと思い試行錯誤していて、
うまい書き方が全然できなくてここに書き込みさせて頂いた次第です。
>>483
使用できる正規表現はPCREです。
具体的にはPHPで省メモリで巨大なSQLファイルを実行する仕組みが作りたくて
相談させてもらいました。自分の頭の中のアイデアでは
1.fileをbufsize分readして
2.正規表現でマッチするかチェック
3.マッチしていたらそのSQLを実行。マッチした文より、先の部分は次の実行のためにバッファに積んで1へもどる
4.マッチしていない場合は更にbufsize分read、2->4を繰り返す。
こんなイメージでした。
それを鑑みると、>>480さんのアイデアはちょっとありかなとも思います。
スレ違いなっちゃいますが、regexを使わずプログラム上でクオートの始まりと終わりを正しく
処理できれば随分楽できそうな気がします。一考の余地ありですかね?
皆さんのご意見を伺った限り、やはり正規表現一本では難しそうですよね…
はじめは前処理で既成のsqlパーサなどを通して、きれいに整形して別ファイルに保存してから処理する方法も検討していましたが、
できれば現物ファイルを生のまま読み込んで正規表現でなんとか行けないかなと思い試行錯誤していて、
うまい書き方が全然できなくてここに書き込みさせて頂いた次第です。
>>483
使用できる正規表現はPCREです。
具体的にはPHPで省メモリで巨大なSQLファイルを実行する仕組みが作りたくて
相談させてもらいました。自分の頭の中のアイデアでは
1.fileをbufsize分readして
2.正規表現でマッチするかチェック
3.マッチしていたらそのSQLを実行。マッチした文より、先の部分は次の実行のためにバッファに積んで1へもどる
4.マッチしていない場合は更にbufsize分read、2->4を繰り返す。
こんなイメージでした。
それを鑑みると、>>480さんのアイデアはちょっとありかなとも思います。
スレ違いなっちゃいますが、regexを使わずプログラム上でクオートの始まりと終わりを正しく
処理できれば随分楽できそうな気がします。一考の余地ありですかね?
487デフォルトの名無しさん
2018/04/09(月) 12:10:15.13ID:M/BmQ9Z1 "'", "\""
'"', '\''
クォーテーション内にクォーテーションがある、入れ子状態が難しい。
クォーテーションを、\ でエスケープしたりもあるし
XML Parser とか、プログラム実行の命令木とか、解析ツールを使わないと無理。
プログラミングで何とかできる、範囲を超えている
そもそも、入れ子状態にどういうパターンがあるのか、
全列挙して考えるのが、非常に難しい
入れ子の入れ子とか、再帰的に入れ子するかも知れないし
'"', '\''
クォーテーション内にクォーテーションがある、入れ子状態が難しい。
クォーテーションを、\ でエスケープしたりもあるし
XML Parser とか、プログラム実行の命令木とか、解析ツールを使わないと無理。
プログラミングで何とかできる、範囲を超えている
そもそも、入れ子状態にどういうパターンがあるのか、
全列挙して考えるのが、非常に難しい
入れ子の入れ子とか、再帰的に入れ子するかも知れないし
488デフォルトの名無しさん
2018/04/09(月) 17:17:14.98ID:4vJW9Ikj >>486
こういう感じでどうだろう
[a-zA-Z](?:\\"|\\'|[^"';]|(["'])(?:\\\1|(?:(?!\1).))*(?<!\\)\1)*;
英数字で始まって、\"や\'は許す;で終わる文字列
頭に^\s*を付けたほうがいいかもしれないけど
文字列は、" ' "、' " '、" \" "、' \' 'は許す( ; もOK)
ところで、" ' " ' "とは書けるんだっけ?
こういう括弧のネストが可能なら、正規表現の方もネスト構文や条件構文を使わないといけないけど
(俺は使ったことはないけど)
こういう感じでどうだろう
[a-zA-Z](?:\\"|\\'|[^"';]|(["'])(?:\\\1|(?:(?!\1).))*(?<!\\)\1)*;
英数字で始まって、\"や\'は許す;で終わる文字列
頭に^\s*を付けたほうがいいかもしれないけど
文字列は、" ' "、' " '、" \" "、' \' 'は許す( ; もOK)
ところで、" ' " ' "とは書けるんだっけ?
こういう括弧のネストが可能なら、正規表現の方もネスト構文や条件構文を使わないといけないけど
(俺は使ったことはないけど)
489デフォルトの名無しさん
2018/04/09(月) 17:44:25.66ID:4vJW9Ikj ただし↑は、コメント文はないものとしてのこと
490デフォルトの名無しさん
2018/04/09(月) 19:00:46.18ID:4vJW9Ikj さっそくダメだった
"\\"
"\\"
491デフォルトの名無しさん
2018/04/10(火) 00:21:39.82ID:oEQHPFsL 仕様を確定させるのが難しい。
単なるテキストには、ルールが無いだろ
XML とか、プログラム言語には、仕様があって、
ルール違反の書き方を許さないから、プログラムで判定できる
だから、まずこう書いたらエラーにする、という仕様を決めるべき
単なるテキストには、ルールが無いだろ
XML とか、プログラム言語には、仕様があって、
ルール違反の書き方を許さないから、プログラムで判定できる
だから、まずこう書いたらエラーにする、という仕様を決めるべき
492デフォルトの名無しさん
2018/04/10(火) 01:17:02.18ID:IM3kTV8x >>491
https://ronsavage.github.io/SQL/sql-2003-2.bnf.html
こいつのcharacter string literalとか読め
ちゃんと規格化されてるんだからさ
その上で正規表現で書くのは難しいって話
https://ronsavage.github.io/SQL/sql-2003-2.bnf.html
こいつのcharacter string literalとか読め
ちゃんと規格化されてるんだからさ
その上で正規表現で書くのは難しいって話
493デフォルトの名無しさん
2018/04/11(水) 13:14:45.93ID:p/bo/Ju1 試しに Perl でやってみた。最も楽観的な想定ならこのくらいまでは手抜きできる。
use strict;
my $comment = qr/(?:--.*?\n)/ ;
my $literal_ch = qr/(?:\'\'|[^\'])/ ;
my $ch_str_literal = qr/(?:\'(?>$literal_ch*)\')/ ;
my $other_ch = qr/[^\';]/ ;
my $some_str = qr/(?:$comment|$ch_str_literal|$other_ch)/ ;
my $statement = qr/(?:$some_str*;)/ ;
my $text = '';
while (<>){ $text .= $_; while ( $text =~ s/^$statement// ){ print("Found:$&\n") }}
文字列リテラルの中の文字の記法に特に対処すべき拡張があるなら $literal_ch に加えれば良い。
" は識別子を書くためのものだが '、;、-- のどれかが入る可能性があるなら $other_ch と $some_str に加えればいいだろう。
多分、問題はそこではない。この例では行単位の入力だから面倒な問題を回避できているが、そうでない場合の問題だ。
たとえばコメントの始まりの - までしか読まれていないという場合。もっと読まなければコメントかどうか判断できない。
あるいは文字列リテラルの中で ' が現れた場合。それは文字列リテラルの終わりなのか、それともリテラルの ' を表す '' の 1 文字目なのか。
こういう処理を自分で書くのは難しくはなくても面倒だし、処理速度も遅い。だから結局 flex を使ったりする。
use strict;
my $comment = qr/(?:--.*?\n)/ ;
my $literal_ch = qr/(?:\'\'|[^\'])/ ;
my $ch_str_literal = qr/(?:\'(?>$literal_ch*)\')/ ;
my $other_ch = qr/[^\';]/ ;
my $some_str = qr/(?:$comment|$ch_str_literal|$other_ch)/ ;
my $statement = qr/(?:$some_str*;)/ ;
my $text = '';
while (<>){ $text .= $_; while ( $text =~ s/^$statement// ){ print("Found:$&\n") }}
文字列リテラルの中の文字の記法に特に対処すべき拡張があるなら $literal_ch に加えれば良い。
" は識別子を書くためのものだが '、;、-- のどれかが入る可能性があるなら $other_ch と $some_str に加えればいいだろう。
多分、問題はそこではない。この例では行単位の入力だから面倒な問題を回避できているが、そうでない場合の問題だ。
たとえばコメントの始まりの - までしか読まれていないという場合。もっと読まなければコメントかどうか判断できない。
あるいは文字列リテラルの中で ' が現れた場合。それは文字列リテラルの終わりなのか、それともリテラルの ' を表す '' の 1 文字目なのか。
こういう処理を自分で書くのは難しくはなくても面倒だし、処理速度も遅い。だから結局 flex を使ったりする。
494デフォルトの名無しさん
2018/04/11(水) 14:19:31.82ID:jfPKheqL 仕様通りのParser とか、構文解析ツールが必要
それらを使って出力された、抽象構文木を使うのがよい
それらを使って出力された、抽象構文木を使うのがよい
495デフォルトの名無しさん
2018/05/04(金) 19:16:13.25ID:kVAlpXQV ★タイトル
★★タイトル
上のものにマッチさせたいのですが、
^★.*$
としてしまうと、下まで含まれるのですが、どうしたらいいでしょうか
★★タイトル
上のものにマッチさせたいのですが、
^★.*$
としてしまうと、下まで含まれるのですが、どうしたらいいでしょうか
496デフォルトの名無しさん
2018/05/04(金) 19:36:12.61ID:eD01Afe2 >>495
^★(?! ★).*$
^★(?! ★).*$
497495
2018/05/04(金) 21:14:35.89ID:L0LZvRGB 半角SP紛れ込んだわ
^★(?!★).*$
^★(?!★).*$
498デフォルトの名無しさん
2018/05/05(土) 05:47:27.14ID:iaqxNbgL ↑解答どうも
できなかったです
ちなみにmeryというテキストエディタの正規表現です
何の言語かはわかりませんが
できなかったです
ちなみにmeryというテキストエディタの正規表現です
何の言語かはわかりませんが
499デフォルトの名無しさん
2018/05/05(土) 06:26:09.87ID:O3up5M1Q500デフォルトの名無しさん
2018/05/05(土) 19:07:12.77ID:iaqxNbgL ↑ありがとうございます。行けました。
.*の前に否定を入れればいいんですね
.*の前に否定を入れればいいんですね
501デフォルトの名無しさん
2018/05/05(土) 21:57:45.66ID:+tF+3NSL 鬼雲…だと…?!
502デフォルトの名無しさん
2018/05/07(月) 13:28:13.91ID:XtvW294Z 正規表現をちゃんと論理的に導きたいと思って参考になる本を
買ったら必要な予備知識に群とか環が出てきて即諦めた
正規表現周りの開発をしてる人達はすごい人達なんだなぁ
すごさを直で実感出来た
買ったら必要な予備知識に群とか環が出てきて即諦めた
正規表現周りの開発をしてる人達はすごい人達なんだなぁ
すごさを直で実感出来た
503デフォルトの名無しさん
2018/05/07(月) 14:59:22.19ID:QMgv+0U5 用語に慣れてないだけだろ
やってることは大したことじゃない
やってることは大したことじゃない
504デフォルトの名無しさん
2018/05/07(月) 18:08:31.65ID:XtvW294Z まぁ膨大な時間と労力をかければ自分にも分かるんだろうけど
現実的じゃないんだよなぁ(人の何倍も時間かかるだろうし)
これからは正規表現技術者の努力に感謝しながら正規表現を
使おうと思います(^^)>
現実的じゃないんだよなぁ(人の何倍も時間かかるだろうし)
これからは正規表現技術者の努力に感謝しながら正規表現を
使おうと思います(^^)>
505デフォルトの名無しさん
2018/05/14(月) 07:31:45.21ID:0PI4I4+g JavaScriptによる正規表現チェッカー
くっそ長いので短縮
https://goo. gl/CE3aZ8
https://fatiherikli.github.io/fil/#eyJwYXRoIjoiSmF2YVNjcmlwdFRlc3QxLmpzIiwic291cmNlIjoiLyog5q2j6KaP6KG
o54++44Oe44OD44OB44OG44K544OIICovXG5cbi8vIOato+imj+ihqOePvlxudmFyIHJlID0gbmV3IFJlZ0V4cCgv
XFxkKy9nKTtcblxuLy8g44OG44Kt44K544OIXG52YXIgdGV4dCA9IChmdW5jdGlvbiAoKSB7LypcbmFhYVxuYmIx
MmJcbmM1NjdjYzg5XG4qL30pLnRvU3RyaW5nKCkuc3BsaXQoL1xcbi8pLnNsaWNlKDEsLTEpO1xuXG5jb25zb2x
lLmxvZyhcIlJlZ0V4cDpcIiwgcmUudG9TdHJpbmcoKSlcbmNvbnNvbGUubG9nKFwiVGV4dDpcIiwgdGV4dCk7XG5c
bnRleHQuZm9yRWFjaChmdW5jdGlvbihsaW5lKSB7XG4gICAgY29uc29sZS5sb2coXCJsaW5lOlwiLCBsaW5lKTtcbiA
gICB2YXIgcmVzdWx0ID0gbGluZS5tYXRjaChyZSk7XG4gICAgaWYocmVzdWx0KVxuICAgICAgICBjb25zb2xlLmxv
ZyhcInJlc3VsdDpcIiwgcmVzdWx0KTtcbiAgICBlbHNlXG4gICAgICAgIGNvbnNvbGUubG9nKFwicmVzdWx0OlwiLCBcIm51bGxcIik7XG59KVxuIn0
くっそ長いので短縮
https://goo. gl/CE3aZ8
https://fatiherikli.github.io/fil/#eyJwYXRoIjoiSmF2YVNjcmlwdFRlc3QxLmpzIiwic291cmNlIjoiLyog5q2j6KaP6KG
o54++44Oe44OD44OB44OG44K544OIICovXG5cbi8vIOato+imj+ihqOePvlxudmFyIHJlID0gbmV3IFJlZ0V4cCgv
XFxkKy9nKTtcblxuLy8g44OG44Kt44K544OIXG52YXIgdGV4dCA9IChmdW5jdGlvbiAoKSB7LypcbmFhYVxuYmIx
MmJcbmM1NjdjYzg5XG4qL30pLnRvU3RyaW5nKCkuc3BsaXQoL1xcbi8pLnNsaWNlKDEsLTEpO1xuXG5jb25zb2x
lLmxvZyhcIlJlZ0V4cDpcIiwgcmUudG9TdHJpbmcoKSlcbmNvbnNvbGUubG9nKFwiVGV4dDpcIiwgdGV4dCk7XG5c
bnRleHQuZm9yRWFjaChmdW5jdGlvbihsaW5lKSB7XG4gICAgY29uc29sZS5sb2coXCJsaW5lOlwiLCBsaW5lKTtcbiA
gICB2YXIgcmVzdWx0ID0gbGluZS5tYXRjaChyZSk7XG4gICAgaWYocmVzdWx0KVxuICAgICAgICBjb25zb2xlLmxv
ZyhcInJlc3VsdDpcIiwgcmVzdWx0KTtcbiAgICBlbHNlXG4gICAgICAgIGNvbnNvbGUubG9nKFwicmVzdWx0OlwiLCBcIm51bGxcIik7XG59KVxuIn0
506デフォルトの名無しさん
2018/05/15(火) 21:31:31.85ID:xchMEgzc ちょっと修正
https://goo. gl/M2Fn68
https://goo. gl/M2Fn68
507デフォルトの名無しさん
2018/05/19(土) 02:57:37.83ID:F73VBvr9 Linuxに触れるまで正規表現に方言があるなんて知らなかった
基本正規表現だの拡張正規表現だの
vimの置換で悩んでたら原因がエスケープの有無が原因とかもうね
ある程度は使えるが先読みとか後読みとか僅かでも深入りすると余計に混乱する
基本正規表現だの拡張正規表現だの
vimの置換で悩んでたら原因がエスケープの有無が原因とかもうね
ある程度は使えるが先読みとか後読みとか僅かでも深入りすると余計に混乱する
508デフォルトの名無しさん
2018/05/19(土) 11:08:45.44ID:rxs2hai/ 小さい世界で囲い込まれてれば楽だよな
ただし何かの拍子ではみ出した時に世界の広さを知って己の無力さを痛感する
よくあるパターン
ただし何かの拍子ではみ出した時に世界の広さを知って己の無力さを痛感する
よくあるパターン
509デフォルトの名無しさん
2018/05/23(水) 19:28:29.89ID:Au5e7VGg 僕の知り合いの知り合いができたパソコン一台でお金持ちになれるやり方
役に立つかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』
QBPEH
役に立つかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』
QBPEH
510デフォルトの名無しさん
2018/05/24(木) 10:47:44.54ID:cPlRxlDn QBPEH
511デフォルトの名無しさん
2018/05/25(金) 13:52:01.06ID:X/Hngdv+ HTMLの解析を正規表現でやりたいのですが
<a href="xxxxx"><img src="yyyyy" /></a>
という風に、<a> で括られた img の src だけを抽出したいんですけど
どうしたらいいのでしょう。
<a> で括られてない
<img src="yyyyy" />
は除外したいのです。
<a href="xxxxx"><img src="yyyyy" /></a>
という風に、<a> で括られた img の src だけを抽出したいんですけど
どうしたらいいのでしょう。
<a> で括られてない
<img src="yyyyy" />
は除外したいのです。
512デフォルトの名無しさん
2018/05/25(金) 13:53:08.12ID:X/Hngdv+ あ、すみません
<a href="xxxxx"><img src="yyyyy" /></a>
<a href="xxxxx">あああ<img src="yyyyy" /></a>
<a href="xxxxx"><img src="yyyyy" />いいい</a>
<a href="xxxxx">あああ<img src="yyyyy" />いいい</a>
<a href="xxxxx"><img src="yyyyy" /><div>あああ<div></a>
みたいに、<a> の中は <img> 以外のゴミも入ってきます。
※ゴミは無視したい
<a href="xxxxx"><img src="yyyyy" /></a>
<a href="xxxxx">あああ<img src="yyyyy" /></a>
<a href="xxxxx"><img src="yyyyy" />いいい</a>
<a href="xxxxx">あああ<img src="yyyyy" />いいい</a>
<a href="xxxxx"><img src="yyyyy" /><div>あああ<div></a>
みたいに、<a> の中は <img> 以外のゴミも入ってきます。
※ゴミは無視したい
513デフォルトの名無しさん
2018/05/25(金) 14:10:36.40ID:dgrSTrid514デフォルトの名無しさん
2018/05/25(金) 16:20:05.07ID:fgSfMucA >>513
<a href=""></a><img src="1.jpg"><a href=""></a>
<a href=""></a><img src="1.jpg"><a href=""></a>
515デフォルトの名無しさん
2018/05/25(金) 20:00:28.32ID:OUvr9ihJ 頑張ってみてもこの程度が限界
https://regex101.com/r/VYrYNO/1
で, >>511がHTMLの解析を正規表現だけでやる理由は何だ?
Pythonのhtml.parser, RubyのNokogiri, PHPならGoutter, それ以外の言語でも間違いなくHTMLパーサは誰かしら作ってる
そんな中で何故正規表現だけで?ぶっちゃけこういう用途には向いてない, というかHTMLの構文規則は正規言語を超えるんだけど, 分かってる?
https://regex101.com/r/VYrYNO/1
で, >>511がHTMLの解析を正規表現だけでやる理由は何だ?
Pythonのhtml.parser, RubyのNokogiri, PHPならGoutter, それ以外の言語でも間違いなくHTMLパーサは誰かしら作ってる
そんな中で何故正規表現だけで?ぶっちゃけこういう用途には向いてない, というかHTMLの構文規則は正規言語を超えるんだけど, 分かってる?
516デフォルトの名無しさん
2018/05/25(金) 20:29:09.95ID:rhJz1xPv パーサかましてXPathで必要な情報だけ抜くのが基本だしな
どうしても使えないっていう理由があるなら仕方ないけど
どうしても使えないっていう理由があるなら仕方ないけど
517デフォルトの名無しさん
2018/05/25(金) 21:21:37.93ID:lQiYp+1p 鬼雲限定
<a (?~</a>)<img src="([^"]+)"[^>]*>(?~<a )</a>
<a (?~</a>)<img src="([^"]+)"[^>]*>(?~<a )</a>
518デフォルトの名無しさん
2018/05/25(金) 22:28:52.14ID:Cqv+6nk2 ■変更前
004a34
A521n2
785b66
■変更後
0049934
99521992
7859966
----------------------
数値以外を99に置換したいです
お願いします
004a34
A521n2
785b66
■変更後
0049934
99521992
7859966
----------------------
数値以外を99に置換したいです
お願いします
519デフォルトの名無しさん
2018/05/25(金) 23:31:17.71ID:gd/oxjVv 木構造のものは、正規表現じゃ無理
1< 2< abc 3> 4>
2<からの最短マッチで、対応する3>を取れるけど、
1<からの最短マッチで、対応する4>を取れない。
3>にマッチしてしまうから
1< 2< 3< abc 4> 5> 6>
これでも、2<と5>をマッチさせられない。
最長・最短マッチでも、マッチしない
CSS セレクターを使う、jQuery, RubyのNokogiri などを使え。
これらの使い方は、ほぼ同じ
1< 2< abc 3> 4>
2<からの最短マッチで、対応する3>を取れるけど、
1<からの最短マッチで、対応する4>を取れない。
3>にマッチしてしまうから
1< 2< 3< abc 4> 5> 6>
これでも、2<と5>をマッチさせられない。
最長・最短マッチでも、マッチしない
CSS セレクターを使う、jQuery, RubyのNokogiri などを使え。
これらの使い方は、ほぼ同じ
520デフォルトの名無しさん
2018/05/25(金) 23:43:29.83ID:OUvr9ihJ >>518
数値以外と簡単に言うが改行文字や空白等の扱いはどうするんだ
変換対象文字をちゃんと明示しないと
/[^0-9]/99/g
こんなもんが欲しいわけではあるまい
とりあえずASCII印字可能文字に限るなら
/[\x21-\x2F\x40-\x7E]/99/g
だが当然マルチバイト文字は対象外
数値以外と簡単に言うが改行文字や空白等の扱いはどうするんだ
変換対象文字をちゃんと明示しないと
/[^0-9]/99/g
こんなもんが欲しいわけではあるまい
とりあえずASCII印字可能文字に限るなら
/[\x21-\x2F\x40-\x7E]/99/g
だが当然マルチバイト文字は対象外
521デフォルトの名無しさん
2018/05/25(金) 23:44:35.69ID:OUvr9ihJ \x40じゃなくて\x3Aだわ
522デフォルトの名無しさん
2018/05/26(土) 10:42:28.41ID:oqQZJpqn >>517
非包含オペレータか
非包含オペレータか
523デフォルトの名無しさん
2018/05/26(土) 17:59:00.22ID:xbMfHZm2 >>519
再帰を使えば、対応する括弧のネスト対応ぐらいならできるらしいよ(鬼雲、PCRE)
<([^<>]++|(?R))*>
# [^<>]++は(?>[^<>]+)としてもよい(どっちもバックトラックしないと思う)
# (?R)は、(?0)とも書ける
# (<([^<>]++|(?1))*>)
\g<-n>を使ってもできる(鬼雲だけ?)
(<(?:\g<-1>|[^<>])*>)
# \g<-1>は(?-1)とも書ける
# ここでは\g<-1>を先に書いたが上と同じく後ろに書いても同じ
再帰を使えば、対応する括弧のネスト対応ぐらいならできるらしいよ(鬼雲、PCRE)
<([^<>]++|(?R))*>
# [^<>]++は(?>[^<>]+)としてもよい(どっちもバックトラックしないと思う)
# (?R)は、(?0)とも書ける
# (<([^<>]++|(?1))*>)
\g<-n>を使ってもできる(鬼雲だけ?)
(<(?:\g<-1>|[^<>])*>)
# \g<-1>は(?-1)とも書ける
# ここでは\g<-1>を先に書いたが上と同じく後ろに書いても同じ
524デフォルトの名無しさん
2018/05/26(土) 19:07:35.21ID:vUfk79H6 https://regex101.com/r/VYrYNO/1
なぁこれメンテしたいか?というか出来るか?なぁ?
(?i:<a(?:\s+[a-z][a-z0-9]*(?:=(?:"[^"]*"|'[^']+'))?)*>)
((?:
(?i:<img(?:\s+(?:src="([^"]+)"|[a-z][a-z0-9]*(?:=(?:"[^"]*"|'[^']+'))?))*(?:\s*\/)?>)
|(?i:<([a-z][a-z0-9]*)(?:\s+[a-z][a-z0-9]*(?:=(?:"[^"]*"|'[^']+'))?)*>(?1)<\/\3>)
|(?i:<[a-z][a-z0-9]*(?:\s+[a-z][a-z0-9]*(?:=(?:"[^"]*"|'[^']+'))?)*\s*\/>|.*?))*)
(?i:<\/a>)
なぁこれメンテしたいか?というか出来るか?なぁ?
(?i:<a(?:\s+[a-z][a-z0-9]*(?:=(?:"[^"]*"|'[^']+'))?)*>)
((?:
(?i:<img(?:\s+(?:src="([^"]+)"|[a-z][a-z0-9]*(?:=(?:"[^"]*"|'[^']+'))?))*(?:\s*\/)?>)
|(?i:<([a-z][a-z0-9]*)(?:\s+[a-z][a-z0-9]*(?:=(?:"[^"]*"|'[^']+'))?)*>(?1)<\/\3>)
|(?i:<[a-z][a-z0-9]*(?:\s+[a-z][a-z0-9]*(?:=(?:"[^"]*"|'[^']+'))?)*\s*\/>|.*?))*)
(?i:<\/a>)
525デフォルトの名無しさん
2018/05/26(土) 19:08:54.60ID:vUfk79H6526デフォルトの名無しさん
2018/06/23(土) 01:47:09.94ID:19kQ7FFf527デフォルトの名無しさん
2018/06/24(日) 13:33:59.68ID:wSHpLaLO 文字列の中から数字13桁(それ未満でも超えてもNG)を抽出するにはどうしたらいいでしょう
JANコードらしきを抜き取りたいのです。
候補を抽出してから後でチェックデジット計算しますので
数字13桁のみで大丈夫です。
JANコードらしきを抜き取りたいのです。
候補を抽出してから後でチェックデジット計算しますので
数字13桁のみで大丈夫です。
528デフォルトの名無しさん
2018/06/24(日) 15:06:08.45ID:F1zD07yq 数字40桁くらい連続してたらどうする?
529デフォルトの名無しさん
2018/06/24(日) 16:56:18.47ID:wSHpLaLO 40桁はJANコードじゃないので除外したいです
530デフォルトの名無しさん
2018/06/24(日) 17:16:44.02ID:1DBcJ9cD \b[0-9]{13}\b
とか
(?<![0-9])[0-9]{13}(?![0-9])
とか
携帯だから試してない
とか
(?<![0-9])[0-9]{13}(?![0-9])
とか
携帯だから試してない
531530
2018/06/24(日) 20:41:43.34ID:LPLL+qJx 先頭と末尾も考慮すると
https://regex101.com/r/xT760t/2
(?:(?<=[^0-9])|^)[0-9]{13}(?:(?=[^0-9])|$)
ただかなりバックトラックするから性能は悪い
どうせチェックディジット確認するなら13桁以上で全抽出して桁数チェック追加した方がマシに見える
https://regex101.com/r/xT760t/4
[0-9]{13,}
https://regex101.com/r/xT760t/2
(?:(?<=[^0-9])|^)[0-9]{13}(?:(?=[^0-9])|$)
ただかなりバックトラックするから性能は悪い
どうせチェックディジット確認するなら13桁以上で全抽出して桁数チェック追加した方がマシに見える
https://regex101.com/r/xT760t/4
[0-9]{13,}
532デフォルトの名無しさん
2018/06/24(日) 23:39:40.09ID:chBT6m1a 結構、難しい
A <13桁の数字> B
A の部分が、文字列の先頭か、数字以外で、
B の部分が、文字列の末尾か、数字以外
A <13桁の数字> B
A の部分が、文字列の先頭か、数字以外で、
B の部分が、文字列の末尾か、数字以外
533デフォルトの名無しさん
2018/06/25(月) 07:16:09.30ID:HTnjHonA 文字列操作可能なら両端に数字以外の文字を付加して
[^0-9][0-9]{13}[^0-9]
かな
[^0-9][0-9]{13}[^0-9]
かな
534デフォルトの名無しさん
2018/06/25(月) 08:32:20.35ID:g3low2hV535デフォルトの名無しさん
2018/06/25(月) 09:21:19.58ID:9/L2g6Oc >>534
せやな, 否定前後読みならそのままでよかったわ(肯定で試しちゃった)
ただどのみちバックトラック多くて無駄だから正規表現だけでやるのでなければ13桁以上でマッチングして桁数判定入れるべきだと思う
せやな, 否定前後読みならそのままでよかったわ(肯定で試しちゃった)
ただどのみちバックトラック多くて無駄だから正規表現だけでやるのでなければ13桁以上でマッチングして桁数判定入れるべきだと思う
536デフォルトの名無しさん
2018/06/25(月) 21:12:44.36ID:lRi8bnr9 13桁を超えていても候補として受け取っておいて
チェックデジットの計算の手前で落とします。
どうもありがとうございました。
チェックデジットの計算の手前で落とします。
どうもありがとうございました。
537デフォルトの名無しさん
2018/06/26(火) 18:51:05.99ID:PFtq6YS9 文字列の先頭の文字以外を*に変換する
というのはどう書けばいいでしょうか?
というのはどう書けばいいでしょうか?
538デフォルトの名無しさん
2018/06/26(火) 20:16:27.74ID:IMFKH44M こういうこと?
$perl -pe 's/(?!^)./*/g'
alpha
a****
beta
b***
gamma
g****
$
良い方法かどうかはわからないが。
$perl -pe 's/(?!^)./*/g'
alpha
a****
beta
b***
gamma
g****
$
良い方法かどうかはわからないが。
539デフォルトの名無しさん
2018/06/26(火) 20:22:51.32ID:IMFKH44M perl -pe 's/(?<!^)./*/g'
とすべきだったかな。
とすべきだったかな。
540デフォルトの名無しさん
2018/07/04(水) 22:06:49.23ID:gFgZc5FG J1Q
541デフォルトの名無しさん
2018/07/05(木) 16:31:37.58ID:AeL6VB/V J1Q
542デフォルトの名無しさん
2018/07/16(月) 14:08:24.67ID:80hpbb9v 1 2 3 の3つの文字を、順番不同で、必ず各々、1つ以上含む
a23b1 → 真
1a2 → 偽
これは順番の組み合わせだから、正規表現で出来ますか?
a23b1 → 真
1a2 → 偽
これは順番の組み合わせだから、正規表現で出来ますか?
543デフォルトの名無しさん
2018/07/16(月) 14:41:45.67ID:/+vnEc6c544デフォルトの名無しさん
2018/07/25(水) 19:56:10.60ID:1XdhMp/e サクラエディタで
<>で囲まれていないaaaをあああにしたいです
<aaab>aaa<caaadaaa>baaadeaaa<ccc>baaad<baaa>aaabaaadaaa<ee>
↓
<aaab>あああ<caaadaaa>bあああdeあああ<ccc>bあああd<baaa>あああbあああdあああ<ee>
>([^<>a]*?)(aaa)([^<>a]*?)<
>$1あああ$2<
だと「>aaa<」や「>baaad<」は置換できるけど「>baaadeaaa<」や「>aaabaaadaaa<」が置換できずに残る
そこで
>([^<>a]*?)(aaa)([^<>a]*?)(aaa)([^<>a]*?)<
>$1あああ$2あああ$3<
と変換するわけですが当然「>aaabaaadaaa<」が残り…
<>に囲まれていないaaaが沢山あるので変換しきれません
何とかならないでしょうか
<>で囲まれていないaaaをあああにしたいです
<aaab>aaa<caaadaaa>baaadeaaa<ccc>baaad<baaa>aaabaaadaaa<ee>
↓
<aaab>あああ<caaadaaa>bあああdeあああ<ccc>bあああd<baaa>あああbあああdあああ<ee>
>([^<>a]*?)(aaa)([^<>a]*?)<
>$1あああ$2<
だと「>aaa<」や「>baaad<」は置換できるけど「>baaadeaaa<」や「>aaabaaadaaa<」が置換できずに残る
そこで
>([^<>a]*?)(aaa)([^<>a]*?)(aaa)([^<>a]*?)<
>$1あああ$2あああ$3<
と変換するわけですが当然「>aaabaaadaaa<」が残り…
<>に囲まれていないaaaが沢山あるので変換しきれません
何とかならないでしょうか
545デフォルトの名無しさん
2018/07/25(水) 20:31:56.63ID:AmPlbSPQ []内のa取っ払って
ぜんぶ変換できるまで何回もやったら?
(>[^<]*?)aaa([^>]*?<)
ぜんぶ変換できるまで何回もやったら?
(>[^<]*?)aaa([^>]*?<)
546デフォルトの名無しさん
2018/07/25(水) 20:46:43.74ID:AmPlbSPQ aaa(?=[^>]*<)
前後に必ずタグがあるならこれなら一回
前後に必ずタグがあるならこれなら一回
547デフォルトの名無しさん
2018/07/26(木) 09:15:37.25ID:4NbdqkDU548デフォルトの名無しさん
2018/07/29(日) 09:53:04.64ID:JxpitKP8 ●
パターン1, (\d+)月(\d+)日
パターン2, (\d+)月(\d+)数字以外(\d+)日
これを一回で取得したい
●対象データ
7月1日
7月2~4日
7月6から10日
7月12・13日
●希望する結果
7,1
7,2,4
7,6,10
7,12,13
お願いします
パターン1, (\d+)月(\d+)日
パターン2, (\d+)月(\d+)数字以外(\d+)日
これを一回で取得したい
●対象データ
7月1日
7月2~4日
7月6から10日
7月12・13日
●希望する結果
7,1
7,2,4
7,6,10
7,12,13
お願いします
549デフォルトの名無しさん
2018/07/29(日) 10:18:20.53ID:kCYuy8BN 取得って何だよ変数に入ればいいのか置換結果として取得したいのか
550デフォルトの名無しさん
2018/07/29(日) 10:49:28.56ID:TzC7zb5n551デフォルトの名無しさん
2018/07/29(日) 10:59:44.43ID:JxpitKP8 取り出すだけでいいです。
552デフォルトの名無しさん
2018/07/29(日) 11:42:16.30ID:kCYuy8BN 数字取り出して変数に入れるだけなら /(\d+)月(\d+)(?:\D+(\d+))?日/gu で仕舞いだが
553デフォルトの名無しさん
2018/07/29(日) 11:45:23.47ID:JxpitKP8554デフォルトの名無しさん
2018/07/29(日) 11:49:24.17ID:kCYuy8BN 変数にキャプチャしたいのか置換で取り出したいのかくらい書こうな
555デフォルトの名無しさん
2018/07/29(日) 11:57:08.75ID:JxpitKP8 失礼しました
556デフォルトの名無しさん
2018/08/12(日) 20:55:52.79ID:MOc1ccj1 C#で正規表現を使ってHTML内から文字コードをとってきたいのですが
以下の場合だと"UTF"としか取得できません。
"UTF-8"と取得する場合どうすればいいでしょうか?
<[^>]*\bcharset\s*=\s*[""']?(?<charset>\w+)\b
<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="UTF-8">
以下の場合だと"UTF"としか取得できません。
"UTF-8"と取得する場合どうすればいいでしょうか?
<[^>]*\bcharset\s*=\s*[""']?(?<charset>\w+)\b
<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="UTF-8">
557デフォルトの名無しさん
2018/08/12(日) 21:30:40.27ID:mMH07JtW >>556
HTMLは扱いが難しいからパーサ使った方がいい
どうしても正規表現だというなら,
1. とりあえず的な修正
https://regex101.com/r/sIUmzD/2
/<[^>]*\bcharset\s*=\s*(?:([^\s"'=><`]+)|'([^']*)'|"([^"]*)")\b/$1$2$3/i
2. もう少し気合の入れた修正
https://regex101.com/r/sIUmzD/1
|<meta
(?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)*
(?:\s+charset(?:\s*=\s*(?:([^\s"'=><`]+)|'([^']*)'|"([^"]*)"))?)
(?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)*\s*/?>|$1$2$3|i
ぐらいか
でもこれ後で読むのしんどいでしょ
HTMLは扱いが難しいからパーサ使った方がいい
どうしても正規表現だというなら,
1. とりあえず的な修正
https://regex101.com/r/sIUmzD/2
/<[^>]*\bcharset\s*=\s*(?:([^\s"'=><`]+)|'([^']*)'|"([^"]*)")\b/$1$2$3/i
2. もう少し気合の入れた修正
https://regex101.com/r/sIUmzD/1
|<meta
(?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)*
(?:\s+charset(?:\s*=\s*(?:([^\s"'=><`]+)|'([^']*)'|"([^"]*)"))?)
(?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)*\s*/?>|$1$2$3|i
ぐらいか
でもこれ後で読むのしんどいでしょ
558デフォルトの名無しさん
2018/08/12(日) 21:47:08.19ID:L571MbNB >>557
神だ
神だ
559557
2018/08/12(日) 21:53:09.85ID:mMH07JtW 2.の方を若干修正, charsetには値が必要ですわ
https://regex101.com/r/sIUmzD/3
|<meta
(?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)*
(?:\s+charset\s*=\s*(?:([^\s"'=><`]+)|'([^']*)'|"([^"]*)"))
(?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)*\s*/?>|$1$2$3|i
https://regex101.com/r/sIUmzD/3
|<meta
(?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)*
(?:\s+charset\s*=\s*(?:([^\s"'=><`]+)|'([^']*)'|"([^"]*)"))
(?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)*\s*/?>|$1$2$3|i
560デフォルトの名無しさん
2018/08/12(日) 22:00:37.17ID:MOc1ccj1 >>557
ありがとうございます!
当方がやりたかったことは、HTMLをテキストデータとして大量に取得して、その中から特定のワードでの絞り込みです。
正しい文字コードでHTMLを落としてからパースしようと思ったのですが、確かにパーサでやる手もありそうですね
正規表現は今まで避けてきたので、読むのがシンドイっていうかチンプンカンプンですが
求めていた動作です。とても助かりました。
使わせてももらいます。ありがとうございました。
ありがとうございます!
当方がやりたかったことは、HTMLをテキストデータとして大量に取得して、その中から特定のワードでの絞り込みです。
正しい文字コードでHTMLを落としてからパースしようと思ったのですが、確かにパーサでやる手もありそうですね
正規表現は今まで避けてきたので、読むのがシンドイっていうかチンプンカンプンですが
求めていた動作です。とても助かりました。
使わせてももらいます。ありがとうございました。
561デフォルトの名無しさん
2018/08/12(日) 23:56:24.69ID:2UQfVx23 HTML のように、要素に親子関係があるもの・構造化されたものは、正規表現じゃ無理
<1><x></x><y></y></1>
開き・閉じタグで、前から一致させると、
<1></x> が対応してしまう
ネストも無限にできるから、対応させるのは無理。
パーサを使うべき
<1><x></x><y></y></1>
開き・閉じタグで、前から一致させると、
<1></x> が対応してしまう
ネストも無限にできるから、対応させるのは無理。
パーサを使うべき
562デフォルトの名無しさん
2018/08/13(月) 00:16:51.60ID:06GD6VnQ キーワードと構成次第だろ
563デフォルトの名無しさん
2018/08/13(月) 00:22:13.35ID:LXDaPxOa rubyキチやぞ
564デフォルトの名無しさん
2018/08/13(月) 03:34:58.19ID:EnLsbSTB >>561
一部の環境では括弧等のネスト構造を取り扱いをサポートした正規表現があるよ
PCRE(Perl 5.10以降)やruby(鬼雲)、Python,PHPなどでも
C#の.NET Framework環境でもあったんじゃないかな
一部の環境では括弧等のネスト構造を取り扱いをサポートした正規表現があるよ
PCRE(Perl 5.10以降)やruby(鬼雲)、Python,PHPなどでも
C#の.NET Framework環境でもあったんじゃないかな
565デフォルトの名無しさん
2018/08/23(木) 19:11:59.52ID:4kav5HXR .*
何にでもマッチさせることができる最強で万能な正規表現
何にでもマッチさせることができる最強で万能な正規表現
566デフォルトの名無しさん
2018/08/23(木) 19:26:33.22ID:FR6Db0Vc 改行にはマッチしないけどね
[\s\S]*
[\s\S]*
567デフォルトの名無しさん
2018/08/24(金) 02:29:36.02ID:cgE41D9D568デフォルトの名無しさん
2018/08/24(金) 03:56:55.93ID:k/tOxHF9 >>567
鬼雲使ってみれば?
鬼雲使ってみれば?
569デフォルトの名無しさん
2018/08/24(金) 10:28:37.49ID:bF2ATmvV BNF使えよ
570デフォルトの名無しさん
2018/08/24(金) 10:38:07.25ID:wb3Q/jKx なんか知識が数年前で止まっちゃってる人がちらほらいるな
正規表現がネストに対応したのなんてもう一昔前ってイメージだけど
正規表現がネストに対応したのなんてもう一昔前ってイメージだけど
571デフォルトの名無しさん
2018/08/24(金) 12:46:08.34ID:srP6ovAZ 別に正規表現だけを追いかけてるわけじゃないから
572デフォルトの名無しさん
2018/08/24(金) 12:48:35.65ID:ZVlysGry なんでも正規表現で済まそうとするひとって
意地でもVBA使い続けてるひとと大差ない
意地でもVBA使い続けてるひとと大差ない
573デフォルトの名無しさん
2018/08/24(金) 12:49:36.87ID:yKVFr0CJ 適材適所
574デフォルトの名無しさん
2018/08/24(金) 16:58:29.09ID:k/tOxHF9575デフォルトの名無しさん
2018/08/24(金) 18:58:08.09ID:wb3Q/jKx576デフォルトの名無しさん
2018/08/25(土) 00:03:35.46ID:r5O9PJUC はいはい、正規表現マスターすごいねー
これでいいかな w
これでいいかな w
577デフォルトの名無しさん
2018/08/25(土) 00:35:41.84ID:I7tIpqHO 底辺に行くほど知識自慢はしかたがないだろ、正規表現に限らず
ただ掲示板的に質問したいのにバカがしゃしゃり出てきて迷惑だよな
ただ掲示板的に質問したいのにバカがしゃしゃり出てきて迷惑だよな
578デフォルトの名無しさん
2018/08/25(土) 10:52:22.58ID:J+b/MRtJ 的確な指示されても気に入らない回答だからと人の話を聴かない人は成長しないよ
自分の気に入る回答しかも自分と同じレベルの回答もらって喜んでればいい
自分の気に入る回答しかも自分と同じレベルの回答もらって喜んでればいい
579デフォルトの名無しさん
2018/08/26(日) 15:08:37.66ID:sCPJIsfv 俺なんか中学の勉強もロクにしなかったのに正規表現を理解したいから
今、大学レベルの数学を勉強してる・・なかなか進まないけどね・・
>>556 の質問からパーサとか出てくるのはちょっと違うと思うよ
metaタグ拾えばいいだけだよね?難しく考えすぎだよ
あとHTMLソースのほうが糞で実際の文字コードとmetaタグで指定されてる
文字コードが違うなんてことや、文字コードの指定が複数個所あるなんていう
2ページ分のHTMLをそのままくっ付けましたなんていうのも稀にあるから
そういう糞なHTMLを相手にする場合は対応を考えないといけないね
今、大学レベルの数学を勉強してる・・なかなか進まないけどね・・
>>556 の質問からパーサとか出てくるのはちょっと違うと思うよ
metaタグ拾えばいいだけだよね?難しく考えすぎだよ
あとHTMLソースのほうが糞で実際の文字コードとmetaタグで指定されてる
文字コードが違うなんてことや、文字コードの指定が複数個所あるなんていう
2ページ分のHTMLをそのままくっ付けましたなんていうのも稀にあるから
そういう糞なHTMLを相手にする場合は対応を考えないといけないね
580デフォルトの名無しさん
2018/08/26(日) 15:31:19.41ID:CE5Lnwmj >>579じゃあmetaタグを拾って来る正規表現をどうぞ
581デフォルトの名無しさん
2018/08/26(日) 15:37:54.94ID:zPuf2RGr え? そんなことマジで聞いてるのか?
582デフォルトの名無しさん
2018/08/26(日) 15:40:08.95ID:CE5Lnwmj マジだからちゃんと教えてくれよ
583デフォルトの名無しさん
2018/08/26(日) 18:08:41.45ID:sCPJIsfv 自分用に作るならこんな感じかなぁ、動作確認してないので使わないでね
|
<meta (?=\s) [^<>]* \s charset \s* = \s* (?:["']\s*)? ([^\s"'<>;]+)
|x;
こういうのは想定外 ※ " " の中に > がある
<meta comment="a>b" charset="UTF-8">
|
<meta (?=\s) [^<>]* \s charset \s* = \s* (?:["']\s*)? ([^\s"'<>;]+)
|x;
こういうのは想定外 ※ " " の中に > がある
<meta comment="a>b" charset="UTF-8">
584デフォルトの名無しさん
2018/08/26(日) 18:17:10.61ID:O4hA/SKg585デフォルトの名無しさん
2018/08/26(日) 18:36:53.61ID:sCPJIsfv586デフォルトの名無しさん
2018/08/26(日) 18:37:23.43ID:5oVMxLBv mataタグでのcharsetは定型的でしか使われないんで、仕様的に色々な場合に対応するのは無駄
俺が使うなら、こんなので十分
/<meta[^>]*\scharset=(["'])((?:(?!\1).)+)/i
俺が使うなら、こんなので十分
/<meta[^>]*\scharset=(["'])((?:(?!\1).)+)/i
587デフォルトの名無しさん
2018/08/26(日) 18:52:21.33ID:sCPJIsfv ほとんどの場合はそれで充分だろうねw
588デフォルトの名無しさん
2018/08/27(月) 04:46:33.83ID:2QlJLeh2589デフォルトの名無しさん
2018/08/29(水) 16:43:59.44ID:4UnjToZE こんなバカが回答者してたのか
過去レス見ると前から張り付いてるようだね
過去レス見ると前から張り付いてるようだね
590デフォルトの名無しさん
2018/08/31(金) 20:05:36.75ID:5NewXZva591デフォルトの名無しさん
2018/08/31(金) 21:09:12.34ID:5NewXZva bregonig.dll 2017/01/17 Ver.4.10 非包含オペレータに対応
うーん、非包含にマッチする正規表現はいつか自分で作れるように
なりたいと思ってたけど内部で勝手に作ってくれる時代になってしまったか~
自分の知識は2013あたりで止まってるから浦島だ
うーん、非包含にマッチする正規表現はいつか自分で作れるように
なりたいと思ってたけど内部で勝手に作ってくれる時代になってしまったか~
自分の知識は2013あたりで止まってるから浦島だ
592デフォルトの名無しさん
2018/09/01(土) 01:28:06.31ID:0IlLcsWm593デフォルトの名無しさん
2018/09/01(土) 22:17:13.09ID:0IlLcsWm (?~abc)
これは↓とまったく同じ動作になると言って良さそう
(?:(?!abc).)*(?:(?=abc).{1,2})?
否定したい文字列が固定長なら先読みで書き換え可能らしい
これは↓とまったく同じ動作になると言って良さそう
(?:(?!abc).)*(?:(?=abc).{1,2})?
否定したい文字列が固定長なら先読みで書き換え可能らしい
594デフォルトの名無しさん
2018/09/12(水) 19:47:12.85ID:j29ToL0A 正規表現を言語化できるようなとこ知りませんか?
/^ab/
これを入れると、
↓
「abで始まる」
と変換されるようなサービスって無いでしょうか?
/^ab/
これを入れると、
↓
「abで始まる」
と変換されるようなサービスって無いでしょうか?
595デフォルトの名無しさん
2018/09/13(木) 09:47:15.83ID:l9KSlvFS せっかく正規表現にした意味が無い
596デフォルトの名無しさん
2018/09/13(木) 09:50:19.09ID:NoauaeTl https://jex.im/regulex/#!flags=&;re=%5Eab
597デフォルトの名無しさん
2018/09/13(木) 13:28:20.78ID:a9m+mGXQ 視覚的に見れるサイトじゃなくて視覚的に作れるサイトがあったら便利かな
メタ文字を覚える必要が無くなるし動作を把握しながら作れる
そういうのが普及したらいいね
メタ文字を覚える必要が無くなるし動作を把握しながら作れる
そういうのが普及したらいいね
598デフォルトの名無しさん
2018/09/14(金) 00:35:39.11ID:qC9qAPWt そういうのとはちょっと違う&grepツールになっちゃうけど
TresGrepってのが入力欄でのマウス右クリックから正規表現を指定出来たり
正規表現1文字入力ごとにエラーチェック⇒NGならエラーメッセージを表示したりと
ちょっと便利
TresGrepってのが入力欄でのマウス右クリックから正規表現を指定出来たり
正規表現1文字入力ごとにエラーチェック⇒NGならエラーメッセージを表示したりと
ちょっと便利
599デフォルトの名無しさん
2018/09/14(金) 06:51:39.20ID:LTbXVNEK600デフォルトの名無しさん
2018/09/14(金) 14:14:58.44ID:grBP2MzP TresGrep使ってみたけど良くできてる
正規表現に何かしらの思い入れがあるのが分かる気がする
特に正規表現の複数行入力が出来るのはいい
自分は複数行入力が当たり前になるべきだと前から考えていて
それが実装されててちょっと感動してしまった
正規表現に何かしらの思い入れがあるのが分かる気がする
特に正規表現の複数行入力が出来るのはいい
自分は複数行入力が当たり前になるべきだと前から考えていて
それが実装されててちょっと感動してしまった
601デフォルトの名無しさん
2018/09/17(月) 12:06:03.62ID:SR+usNFF C#、System.Text.RegularExpressions.Regexの正規表現で
xxの中を取り出すにはどうしたらいいのでしょう?
ただし取り出したいのはトップのxxで、xxが閉じる前にyyがあるときはそのxxは無視という条件付きです
対象文字列 "<xx><xx><yy>111</yy></xx></xx><xx>222</xx><xx>333</xx>";
試した正規表現 @"<xx>.*?[^(</yy>)]</xx>"
結果
<xx><xx><yy>111</yy></xx></xx><xx>222</xx>
<xx>333</xx>
欲しい結果
<xx><xx><yy>111</yy></xx></xx>
<xx>222</xx>
<xx>333</xx>
xxの中を取り出すにはどうしたらいいのでしょう?
ただし取り出したいのはトップのxxで、xxが閉じる前にyyがあるときはそのxxは無視という条件付きです
対象文字列 "<xx><xx><yy>111</yy></xx></xx><xx>222</xx><xx>333</xx>";
試した正規表現 @"<xx>.*?[^(</yy>)]</xx>"
結果
<xx><xx><yy>111</yy></xx></xx><xx>222</xx>
<xx>333</xx>
欲しい結果
<xx><xx><yy>111</yy></xx></xx>
<xx>222</xx>
<xx>333</xx>
602デフォルトの名無しさん
2018/09/17(月) 13:51:51.89ID:tNilsymD603デフォルトの名無しさん
2018/09/17(月) 14:52:47.98ID:QtMg2HjE605デフォルトの名無しさん
2018/09/18(火) 00:00:11.49ID:lHFpavF+ >>601
.NET Frameworkの正規表現は知らんけど、鬼雲でなら
(?=<xx>)(<(\w+)>([^<]*|\g<-3>)*</\k<-2-0>>)
これは最低限のものでイレギュラーなものには対応しない
文字列でエスケープされてるとかコメントが入ってるとか
タグにタグ名以外の余計なものが入ってるとか(</a href=...>とか<br />とか)
ペアでないタグがあるとか(<br>のような単独タグ,<xx>と</xx>のどちらかしかないとか)
そういうのにも対応させるなら工夫して
一応、.NET Frameworkの正規表現の再帰については
https://qiita.com/HMMNRST/items/15800514bbe66f504789
.NET Frameworkの正規表現は知らんけど、鬼雲でなら
(?=<xx>)(<(\w+)>([^<]*|\g<-3>)*</\k<-2-0>>)
これは最低限のものでイレギュラーなものには対応しない
文字列でエスケープされてるとかコメントが入ってるとか
タグにタグ名以外の余計なものが入ってるとか(</a href=...>とか<br />とか)
ペアでないタグがあるとか(<br>のような単独タグ,<xx>と</xx>のどちらかしかないとか)
そういうのにも対応させるなら工夫して
一応、.NET Frameworkの正規表現の再帰については
https://qiita.com/HMMNRST/items/15800514bbe66f504789
606デフォルトの名無しさん
2018/09/18(火) 00:12:00.46ID:oPOmCM6y ありがと。もう少し単純にできるかと思っていたけどそんなに複雑になるのね
正規表現使わずにやる方向で考えてみます
正規表現使わずにやる方向で考えてみます
607583
2018/09/18(火) 00:55:53.38ID:t0fL3l18 >>605のリンク先見てやっつけで作ってみた
<xx>(?>(?:(?!</?xx>).)*)</xx>|<xx>((?'open'<xx>(?>(?:(?!</?xx>).)*))+(?'-open'</xx>(?>(?:(?!</?xx>).)*))+)*</xx>(?(open)(?!))
<xx>(?>(?:(?!</?xx>).)*)</xx>|<xx>((?'open'<xx>(?>(?:(?!</?xx>).)*))+(?'-open'</xx>(?>(?:(?!</?xx>).)*))+)*</xx>(?(open)(?!))
608デフォルトの名無しさん
2018/09/18(火) 01:11:05.24ID:0krUYS0m 典型的なダメ質問者だな。
610デフォルトの名無しさん
2018/09/18(火) 06:08:34.66ID:oPOmCM6y 確かにダメ質問者w
「xxが閉じる前にyyがあるときはそのxxは無視」という一見簡単そうなルールが予想以上に難しいようで
楽したいから正規表現使いたいのだけどあまり複雑になると楽じゃないからほかに逃げたくなる
「xxが閉じる前にyyがあるときはそのxxは無視」という一見簡単そうなルールが予想以上に難しいようで
楽したいから正規表現使いたいのだけどあまり複雑になると楽じゃないからほかに逃げたくなる
611デフォルトの名無しさん
2018/09/18(火) 07:04:18.68ID:iA/s8q9i ぶっちゃけ欲しい結果が何なのか結局よく分かってない
<xx>(?:(?<tag><(?!yy>)(?<tagname>[a-z]+)>)*\d+(?<-tag></\k<tagname>>)*(?(tag)(?!)))*</xx>
<xx>(?:(?<tag><(?!yy>)(?<tagname>[a-z]+)>)*\d+(?<-tag></\k<tagname>>)*(?(tag)(?!)))*</xx>
612デフォルトの名無しさん
2018/09/18(火) 07:13:00.25ID:oqy73oSH ID変わった
その表現だと <xx><xx><yy>111</yy></xx>
欲しい結果は<xx><xx><yy>111</yy></xx></xx>
こういう尻切れになることが多い
その表現だと <xx><xx><yy>111</yy></xx>
欲しい結果は<xx><xx><yy>111</yy></xx></xx>
こういう尻切れになることが多い
613デフォルトの名無しさん
2018/09/18(火) 07:16:10.21ID:iA/s8q9i どういうことよ
>>611の正規表現で <xx><xx><yy>111</yy></xx></xx><xx>222</xx><xx>333</xx> にマッチングすると
<xx>222</xx> と <xx>333</xx> にマッチするでしょ?
<xx><xx><yy>111</yy></xx> はどこから出てきたの?
>>611の正規表現で <xx><xx><yy>111</yy></xx></xx><xx>222</xx><xx>333</xx> にマッチングすると
<xx>222</xx> と <xx>333</xx> にマッチするでしょ?
<xx><xx><yy>111</yy></xx> はどこから出てきたの?
614デフォルトの名無しさん
2018/09/18(火) 07:42:45.15ID:oqy73oSH615デフォルトの名無しさん
2018/09/18(火) 07:46:54.65ID:iA/s8q9i > xxが閉じる前にyyがあるときは
これは直前ってこと?
<xx><yy>111</yy></xx> にはマッチしないってことでいいの?
これは直前ってこと?
<xx><yy>111</yy></xx> にはマッチしないってことでいいの?
616デフォルトの名無しさん
2018/09/18(火) 07:55:40.50ID:lHFpavF+ >ただし取り出したいのはトップのxxで
これだけで<yy></yy>があろうがなかろうが良いと俺は思ったんだけど
これだけで<yy></yy>があろうがなかろうが良いと俺は思ったんだけど
617デフォルトの名無しさん
2018/09/18(火) 08:27:12.31ID:iA/s8q9i yyがどうでもよければ
<xx>(?:(?:<(?<tag>[a-z]+)>)*\d+(?:</(?<-tag>\k<tag>)>)*(?(tag)(?!)))*</xx>
かなぁ
<xx>(?:(?:<(?<tag>[a-z]+)>)*\d+(?:</(?<-tag>\k<tag>)>)*(?(tag)(?!)))*</xx>
かなぁ
618デフォルトの名無しさん
2018/09/18(火) 08:36:05.56ID:oqy73oSH619デフォルトの名無しさん
2018/09/18(火) 09:00:26.56ID:iA/s8q9i まぁスタック使う構文が必要な時点で正規表現向きでないのは間違いない
620583
2018/09/18(火) 12:56:18.97ID:t0fL3l18 本来の数学的な正規表現という意味では向いてる質問なんだけどね
これぞ正規表現の仕事っていう質問
でもプログラムの検索で使う正規表現ではなかなか使われないね
これぞ正規表現の仕事っていう質問
でもプログラムの検索で使う正規表現ではなかなか使われないね
621583
2018/09/18(火) 13:25:09.30ID:t0fL3l18622583
2018/09/18(火) 13:29:58.42ID:t0fL3l18 間違い
\A を <xx>
正しくは
\A を <xx> ・・・
\A を <xx>
正しくは
\A を <xx> ・・・
623583
2018/09/18(火) 18:51:49.51ID:t0fL3l18624583
2018/09/21(金) 05:18:40.73ID:LI7qokUP (?# 主要部)
<xx(?&Attribute)>(?&innerText)(?&roop)?+</xx>
(?# 定義部)
(?:|(?!)
(?'Attribute'(?:\s[^>]*+)?+)
(?'singletag'br)
(?'tagname'[a-z][a-z\d]*+)
(?'innerText'
(?: [^<]*+
| <(?&singletag)(?&Attribute)>
)*+
)
(?'roop'
<(?'tag'(?&tagname))(?&Attribute)>
(?&innerText)(?&roop)?+
</\k'tag+0'>
(?&innerText)(?&roop)?+
)
)
<xx(?&Attribute)>(?&innerText)(?&roop)?+</xx>
(?# 定義部)
(?:|(?!)
(?'Attribute'(?:\s[^>]*+)?+)
(?'singletag'br)
(?'tagname'[a-z][a-z\d]*+)
(?'innerText'
(?: [^<]*+
| <(?&singletag)(?&Attribute)>
)*+
)
(?'roop'
<(?'tag'(?&tagname))(?&Attribute)>
(?&innerText)(?&roop)?+
</\k'tag+0'>
(?&innerText)(?&roop)?+
)
)
625デフォルトの名無しさん
2018/09/21(金) 05:54:00.34ID:LI7qokUP こだわった点
・主要部と定義部に分けて全体の構造が分かりやすくした
・繰り返しは全て強欲。無駄なバックトラックをさせない
・再帰には * を使わず、部分呼び出し自身に繰り返しをさせている
・定義部は (?:|(?!) ~ ) として定義部がサーチに使われるのを避けている
>>605には ([^<]*|\g<-3>)* という部分があって
([^<]*)* というバックトラック処理がえらいことになる部分があって気になった
あと再帰を使ってるのにループを * にさせているのを見て
* を使わずに書けるはずだと思って作ってみた
・主要部と定義部に分けて全体の構造が分かりやすくした
・繰り返しは全て強欲。無駄なバックトラックをさせない
・再帰には * を使わず、部分呼び出し自身に繰り返しをさせている
・定義部は (?:|(?!) ~ ) として定義部がサーチに使われるのを避けている
>>605には ([^<]*|\g<-3>)* という部分があって
([^<]*)* というバックトラック処理がえらいことになる部分があって気になった
あと再帰を使ってるのにループを * にさせているのを見て
* を使わずに書けるはずだと思って作ってみた
626デフォルトの名無しさん
2018/09/21(金) 06:11:13.31ID:LI7qokUP こういう書き方をした正規表現をサクラエディタで使おうとすると
1行に繋げなければならない、これでは不便すぎる
鬼雲の強力な正規表現を快適に使い倒せるようにするべき
出来れば複数行で書いた正規表現を1行に繋げる機能が欲しい
そうすればここのような掲示板に貼るときに便利
逆に1行で書かれた正規表現を複数行に直す機能も欲しい
手動でいちいち改行を入れる手間が省けて快適になる
この2つの機能は正規表現ライブラリに実装されることが望ましい
そうすれば他のテキストエディタの作者も気軽に実装出来るようになる
正規表現に新しいメタ文字が作られたときの対応も容易になる
1行に繋げなければならない、これでは不便すぎる
鬼雲の強力な正規表現を快適に使い倒せるようにするべき
出来れば複数行で書いた正規表現を1行に繋げる機能が欲しい
そうすればここのような掲示板に貼るときに便利
逆に1行で書かれた正規表現を複数行に直す機能も欲しい
手動でいちいち改行を入れる手間が省けて快適になる
この2つの機能は正規表現ライブラリに実装されることが望ましい
そうすれば他のテキストエディタの作者も気軽に実装出来るようになる
正規表現に新しいメタ文字が作られたときの対応も容易になる
627デフォルトの名無しさん
2018/09/21(金) 06:18:04.46ID:LI7qokUP 出来れば定義用の新しいコマンドが欲しい
定義のためのカッコなのにキャプチャが有効になってたり、
正規表現オブジェクトが無駄に肥大化してしまったりするから
定義のためのカッコなのにキャプチャが有効になってたり、
正規表現オブジェクトが無駄に肥大化してしまったりするから
628デフォルトの名無しさん
2018/09/21(金) 07:17:48.30ID:fJq/snux629583
2018/09/21(金) 19:24:14.97ID:LI7qokUP >>628
テキストエディタの正規表現の入力ウインドウに付けて欲しいんだ
次世代のテキストエディタは↓こうなって欲しい
1、画面をいっぱいに使って正規表現の複数行の記述が出来る
2、複数行で書かれた正規表現を一行に繋げるボタン
3、一行で書かれた正規表現を複数行に展開するボタン
これがスタンダードになるといいな
テキストエディタの正規表現の入力ウインドウに付けて欲しいんだ
次世代のテキストエディタは↓こうなって欲しい
1、画面をいっぱいに使って正規表現の複数行の記述が出来る
2、複数行で書かれた正規表現を一行に繋げるボタン
3、一行で書かれた正規表現を複数行に展開するボタン
これがスタンダードになるといいな
630デフォルトの名無しさん
2018/09/21(金) 20:42:25.54ID:c6u7OXiZ >>629
ガンバ w
ガンバ w
631デフォルトの名無しさん
2018/09/21(金) 20:44:43.75ID:OGYiByDT やっぱそうなるよな ここではw
632デフォルトの名無しさん
2018/09/21(金) 23:08:38.86ID:3+OghnRP extendedフラグを付けて鬼雲に渡せば、複数行で処理してくれる。
エディタ側で1行にくっつけたりする必要はない。
エディタ側で1行にくっつけたりする必要はない。
633583
2018/09/21(金) 23:41:08.24ID:LI7qokUP634デフォルトの名無しさん
2018/09/22(土) 02:13:48.20ID:EPQO3h7N >>633
鬼雲とbregonig.dllの作者さんまでどうぞ
https://twitter.com/k_takata
https://github.com/k-takata/Onigmo
https://github.com/k-takata/bregonig
http://k-takata.o.oo7.jp/mysoft/bregonig.html
あと鬼車オリジナルの作者さんも復活してたんだね
https://github.com/kkos/oniguruma/issues
https://twitter.com/5chan_nel (5ch newer account)
鬼雲とbregonig.dllの作者さんまでどうぞ
https://twitter.com/k_takata
https://github.com/k-takata/Onigmo
https://github.com/k-takata/bregonig
http://k-takata.o.oo7.jp/mysoft/bregonig.html
あと鬼車オリジナルの作者さんも復活してたんだね
https://github.com/kkos/oniguruma/issues
https://twitter.com/5chan_nel (5ch newer account)
635583
2018/09/22(土) 21:31:53.89ID:SLHR4wJP >>634
bregonig.dllはプログラミング用のライブラリをテキストエディタでも
使えるようにしたっていう感じなのでプログラミングに必要のない機能は
付けたくないと思う、管理が大変になるからね
だから次世代の正規表現ライブラリと次世代のテキストエディタに期待
ちなみにテキストエディタに重きを置いたライブラリならこんなのが可能になるはず
検索:( red(?'color='赤) | blue(?'color='青) | yellow(?'color='黄) )
置換:\k'color'
対象テキスト: blue
置換結果:青
現状の bregonig.dll でこれが出来ないということはプログラミングでなんとかなる
機能は付けないということ
テキストエディタのほうは改行をまたぐマッチの実現に苦戦してるようで
この問題が解決しないと高度な正規表現は宝の持ち腐れになるだけなので
次世代のテキストエディタに期待しましょう
>鬼車オリジナルの作者さん
別人だとは知りませんでした^^;
bregonig.dllはプログラミング用のライブラリをテキストエディタでも
使えるようにしたっていう感じなのでプログラミングに必要のない機能は
付けたくないと思う、管理が大変になるからね
だから次世代の正規表現ライブラリと次世代のテキストエディタに期待
ちなみにテキストエディタに重きを置いたライブラリならこんなのが可能になるはず
検索:( red(?'color='赤) | blue(?'color='青) | yellow(?'color='黄) )
置換:\k'color'
対象テキスト: blue
置換結果:青
現状の bregonig.dll でこれが出来ないということはプログラミングでなんとかなる
機能は付けないということ
テキストエディタのほうは改行をまたぐマッチの実現に苦戦してるようで
この問題が解決しないと高度な正規表現は宝の持ち腐れになるだけなので
次世代のテキストエディタに期待しましょう
>鬼車オリジナルの作者さん
別人だとは知りませんでした^^;
636デフォルトの名無しさん
2018/09/26(水) 01:40:37.36ID:3FykrnoG xyz? を含まないものにマッチする正規表現
http://www.din.or.jp/~ohzaki/regex.htm#WithoutXY
http://www.din.or.jp/~ohzaki/regex.htm#WithoutXYZ
> fmcat =(retofm
..のところで導かれている正規表現は明らかにxyやxyzを含む正規表現だけど
これは単なるミスなのかな?こんな難しいことをやってる人がこんなミスを
見逃すとはとても思えないから何か違うものなのかなぁ・・
http://www.din.or.jp/~ohzaki/regex.htm#WithoutXY
http://www.din.or.jp/~ohzaki/regex.htm#WithoutXYZ
> fmcat =(retofm
..のところで導かれている正規表現は明らかにxyやxyzを含む正規表現だけど
これは単なるミスなのかな?こんな難しいことをやってる人がこんなミスを
見逃すとはとても思えないから何か違うものなのかなぁ・・
637デフォルトの名無しさん
2018/09/26(水) 03:09:00.10ID:Rr41G2Hg 明らかに含むって試してから言ってる?
638デフォルトの名無しさん
2018/09/26(水) 10:58:06.87ID:3FykrnoG >>637
> fmcat =(retofm
で始まる3行のところの正規表現についてですよ?
(~)* x (~)* yz の形なので明らかにxyzにマッチします
*y(x*[^xy]y*)*x* は誤植でしょうけど・・
> fmcat =(retofm
で始まる3行のところの正規表現についてですよ?
(~)* x (~)* yz の形なので明らかにxyzにマッチします
*y(x*[^xy]y*)*x* は誤植でしょうけど・・
639デフォルトの名無しさん
2018/09/26(水) 14:05:39.88ID:pN+YCTD5 あー確かににそこはおかしいな
引用っぽいけど
引用っぽいけど
640デフォルトの名無しさん
2018/09/26(水) 23:39:54.65ID:3FykrnoG やっぱり間違いなんですかね?
プログラムを使って自動的に算出してるようなのに・・
プログラムを使って自動的に算出してるようなのに・・
641デフォルトの名無しさん
2018/09/27(木) 00:18:43.29ID:0xNuoCxe 俺もわからんけど、prologらしいから、括弧や表記はスタック順になってるとかでは?
642デフォルトの名無しさん
2018/09/27(木) 02:58:15.53ID:TOnM2DUW >prolog
なるほど、"xyを含まない正規表現" のところに grail って書いてあったのは
prologとやらの実行ソフト名だったのか
https://github.com/RichardMoot/Grail
これの使い方を調べれば謎が解けそうですね
暇なときに試してみます、ありがとう
なるほど、"xyを含まない正規表現" のところに grail って書いてあったのは
prologとやらの実行ソフト名だったのか
https://github.com/RichardMoot/Grail
これの使い方を調べれば謎が解けそうですね
暇なときに試してみます、ありがとう
643デフォルトの名無しさん
2018/10/06(土) 17:50:41.16ID:0JYIRqz1 検索対象文字 <test>a="akari"desu</test>
正規表現 a="*"
で、検索結果が「a="akari"」でなく、「a="」しか取得できないのはなぜでしょうか?
正規表現 a="*"
で、検索結果が「a="akari"」でなく、「a="」しか取得できないのはなぜでしょうか?
644デフォルトの名無しさん
2018/10/06(土) 17:56:12.23ID:e52HQVrn 馬鹿には無理
645デフォルトの名無しさん
2018/10/06(土) 18:01:22.57ID:FAIH8E2E a=\".*\"
メタ文字(ダブルクォート)をバックスラシュでエスケープ
.(ピリオド)で任意文字で0文字以上(アスタリスク)をつければ
とりあえずイケル
それでも意図どおりにマッチングしないことは予見できる
メタ文字(ダブルクォート)をバックスラシュでエスケープ
.(ピリオド)で任意文字で0文字以上(アスタリスク)をつければ
とりあえずイケル
それでも意図どおりにマッチングしないことは予見できる
646デフォルトの名無しさん
2018/10/06(土) 18:14:31.01ID:OZkGL/sg ワイルドカードと混同しちゃってるのか
ワイルドカードと正規表現を同時に使えるTresGrepなら動くかも
ワイルドカードと正規表現を同時に使えるTresGrepなら動くかも
647デフォルトの名無しさん
2018/10/06(土) 18:16:35.11ID:OZkGL/sg 正規表現っぽいIDになった?
648デフォルトの名無しさん
2018/10/06(土) 18:23:52.49ID:OZkGL/sg OZk G L /sg
ohzakiさんゲームのリンク
な気がしたので貼る、最近更新したばっかりやん
ゲーム関係のリンク
http://www.din.or.jp/~ohzaki/game.htm
ohzakiさんゲームのリンク
な気がしたので貼る、最近更新したばっかりやん
ゲーム関係のリンク
http://www.din.or.jp/~ohzaki/game.htm
649デフォルトの名無しさん
2018/10/14(日) 12:53:05.30ID:zaukh1NH650デフォルトの名無しさん
2018/10/14(日) 14:33:15.06ID:eP/1gSav ちょいと質問させて
a="[^"]*"
と書くことが多いんだけど
a=".*?"
と書くのとで結果に違いでるのかな?
a="[^"]*"
と書くことが多いんだけど
a=".*?"
と書くのとで結果に違いでるのかな?
651デフォルトの名無しさん
2018/10/14(日) 14:56:27.64ID:EqzxaMkD ""のなかに改行が含まれてた場合、違いが出るよ
652デフォルトの名無しさん
2018/10/14(日) 15:11:22.83ID:zaukh1NH あと、.*?は使えない正規表現の処理系があるんじゃなかったっけか。詳しくは(ry
653デフォルトの名無しさん
2018/10/14(日) 15:27:34.24ID:eP/1gSav >>651-652
なるほど、ありがとうございました
なるほど、ありがとうございました
654デフォルトの名無しさん
2018/10/14(日) 22:51:29.78ID:yTLvFK6H 1、<test>a="[^\"]*"</test>
2、<test>a=".*?"</test>
この2つが↓これにどうマッチするか試してごらん
---------------------------------------------------------------------------
<test>a="pokemon"(^-^)</test> <test>a="doramon"</test>
----------------------------------------------------------------------------
2、<test>a=".*?"</test>
この2つが↓これにどうマッチするか試してごらん
---------------------------------------------------------------------------
<test>a="pokemon"(^-^)</test> <test>a="doramon"</test>
----------------------------------------------------------------------------
656デフォルトの名無しさん
2018/10/15(月) 00:13:04.80ID:fKW/Yset この誤爆のことに注意を払えているなら .*? で問題ないよ
[^"] はそういう心配をしなくて良くなるからこっちを予防的に使うのもあり
[^"] はそういう心配をしなくて良くなるからこっちを予防的に使うのもあり
657デフォルトの名無しさん
2018/10/15(月) 22:36:58.63ID:fKW/Yset # 文字列 xy を含まない正規表現
$states = 3;
@matrix = ( # E A p q ※ A は求める答え
[qw(X X E E)], # A = p + q = pε + qε
[qw(E X [^x] [^xy])], # p = p[^x] + q[^xy] + ε
[qw(X X x x)], # q = px + qx
);
$states = 3;
@matrix = ( # E A p q ※ A は求める答え
[qw(X X E E)], # A = p + q = pε + qε
[qw(E X [^x] [^xy])], # p = p[^x] + q[^xy] + ε
[qw(X X x x)], # q = px + qx
);
658デフォルトの名無しさん
2018/10/15(月) 22:37:39.83ID:fKW/Yset # 文字列 xyz を含まない正規表現
$states = 4;
@matrix = ( # E A p q r ※ A は求める答え
[qw(X X E E E)], # A = p + q + r = pε + qε + rε
[qw(E X [^x] [^xy] [^xz])], # p = p[^x] + q[^xy] + r[^xz] + ε
[qw(X X x x x)], # q = px + qx + rx
[qw(X X X y X)], # r = qy
);
$states = 4;
@matrix = ( # E A p q r ※ A は求める答え
[qw(X X E E E)], # A = p + q + r = pε + qε + rε
[qw(E X [^x] [^xy] [^xz])], # p = p[^x] + q[^xy] + r[^xz] + ε
[qw(X X x x x)], # q = px + qx + rx
[qw(X X X y X)], # r = qy
);
659デフォルトの名無しさん
2018/10/18(木) 14:54:58.45ID:s3Db0e4D y*(x*[^xy]y*)*x* について考察
左右対称形、後ろから読めば yx を含まない正規表現になる
x の後ろでは [^xy] しかマッチ出来ないようになっている
{[^x]|x+[^xy]}*x* # 状態遷移図から導かれる正規表現
# ※ ここでは見やすいように ( ) を { } としている
# 最後の x* は状態 0 から状態 1 への遷移を表している
[^x]*{x+[^xy][^x]*}*x* # 分岐の繰り返し ( | )* の展開
([^xy]|y)*{x+[^xy]([^xy]|y)*}*x* # [^x] を ([^xy]|y) に分解
y*{x*[^xy]y*}*x* # x+ を x* にすると中央の [^xy] が分解した [^xy] と
# 同じを動作するので分解した [^xy] を消せる、完成
左右対称形、後ろから読めば yx を含まない正規表現になる
x の後ろでは [^xy] しかマッチ出来ないようになっている
{[^x]|x+[^xy]}*x* # 状態遷移図から導かれる正規表現
# ※ ここでは見やすいように ( ) を { } としている
# 最後の x* は状態 0 から状態 1 への遷移を表している
[^x]*{x+[^xy][^x]*}*x* # 分岐の繰り返し ( | )* の展開
([^xy]|y)*{x+[^xy]([^xy]|y)*}*x* # [^x] を ([^xy]|y) に分解
y*{x*[^xy]y*}*x* # x+ を x* にすると中央の [^xy] が分解した [^xy] と
# 同じを動作するので分解した [^xy] を消せる、完成
660デフォルトの名無しさん
2018/10/18(木) 23:54:36.85ID:s3Db0e4D こっちのほうがスマートだ..
# 状態遷移図から導かれる正規表現
([^x]|x+[^xy])*x*
# [^x] を分解し、[^xy] と y にする
([^xy]|y|x+[^xy])*x*
# [^xy] と x+[^xy] を1つにまとめる
(y|(x+)?[^xy])*x*
# (x+)? は x* に書き換えられる
(y|x*[^xy])*x*
# 分岐ループを展開して完成
y*(x*[^xy]y*)x*
# 状態遷移図から導かれる正規表現
([^x]|x+[^xy])*x*
# [^x] を分解し、[^xy] と y にする
([^xy]|y|x+[^xy])*x*
# [^xy] と x+[^xy] を1つにまとめる
(y|(x+)?[^xy])*x*
# (x+)? は x* に書き換えられる
(y|x*[^xy])*x*
# 分岐ループを展開して完成
y*(x*[^xy]y*)x*
661デフォルトの名無しさん
2018/10/20(土) 20:45:04.19ID:WB0b2hD6 (a|b|c)* の展開についての考察
# (b|c) を1つのパーツと考えて {a|(b|c)}* を展開する
a*{(b|c)a*}*
# 分配の法則
a*{ba*|ca*}*
# 再び (x|y)* の形が現れたのでここを展開する
a*(ba*)*{ca*(ba*)*}*
a=123、b=456、c=789 とすると
^(123)*(456(123)*)*(789(123)*(456(123)*)*)*$
# (b|c) を1つのパーツと考えて {a|(b|c)}* を展開する
a*{(b|c)a*}*
# 分配の法則
a*{ba*|ca*}*
# 再び (x|y)* の形が現れたのでここを展開する
a*(ba*)*{ca*(ba*)*}*
a=123、b=456、c=789 とすると
^(123)*(456(123)*)*(789(123)*(456(123)*)*)*$
662デフォルトの名無しさん
2018/10/21(日) 19:43:06.22ID:7AODCPK7 (a|b|c|d)* の展開についての考察
a*(ba*)*{ca*(ba*)*}* の a は全て a* の形になっているのでこれを利用する
a を (a|d) に置き換えることで分岐を1つ増やす
(a|d)* = a*(da*)* なので a* を a*(da*)* に置き換えるだけで答えが求まる
a*(da*)*(ba*(da*)*)*(ca*(da*)*(ba*(da*)*)*)*
(a|b|c|d|f)* を求めたいときは同じように a* を置き換えるだけで求まる
このように a* は分岐を無限に増やす入り口のような役割をする
a*(ba*)*{ca*(ba*)*}* の a は全て a* の形になっているのでこれを利用する
a を (a|d) に置き換えることで分岐を1つ増やす
(a|d)* = a*(da*)* なので a* を a*(da*)* に置き換えるだけで答えが求まる
a*(da*)*(ba*(da*)*)*(ca*(da*)*(ba*(da*)*)*)*
(a|b|c|d|f)* を求めたいときは同じように a* を置き換えるだけで求まる
このように a* は分岐を無限に増やす入り口のような役割をする
663デフォルトの名無しさん
2018/10/21(日) 23:04:31.26ID:mkrTRrBN このスレで名前が挙がってたTresGrep、気が付いたらbregonig.dllにも対応してるじゃん
プルダウンのモード切替で.NETの正規表現と切り替えられるのもいい感じ
もうこれでサクラエディタのGrepはお役御免にできるかもしれない
なんだけど・・・rubyの正規表現が全部使えるわけじゃないのに
「鬼雲検索」
を名乗るのはどうなんだろう
プルダウンのモード切替で.NETの正規表現と切り替えられるのもいい感じ
もうこれでサクラエディタのGrepはお役御免にできるかもしれない
なんだけど・・・rubyの正規表現が全部使えるわけじゃないのに
「鬼雲検索」
を名乗るのはどうなんだろう
664662
2018/10/22(月) 01:40:50.08ID:oA8lJo/T2018/10/22(月) 07:15:14.86ID:nc1bV2B+
全角スペースを\u3000と書いた場合とか
bregonigだとperl互換じゃない書き方は受け入れてもらえないわけで
bregonigだとperl互換じゃない書き方は受け入れてもらえないわけで
666662
2018/10/22(月) 14:03:03.71ID:oA8lJo/T 自分は文字コードの知識が無いので迂闊なことは言えないから
ちょっと調べたことだけ書いておくね
ここで
http://k-takata.o.oo7.jp/mysoft/bregonig.html
\u0149 を検索してみるとbregonigでも使えてそうなことが書かれてたよ
ちょっと調べたことだけ書いておくね
ここで
http://k-takata.o.oo7.jp/mysoft/bregonig.html
\u0149 を検索してみるとbregonigでも使えてそうなことが書かれてたよ
667662
2018/10/22(月) 21:23:16.87ID:oA8lJo/T サクラエディタでいろいろ実験してたら \s が全角スペースにマッチした
サクラエディタ向けの正規表現を作るときには気を付けないといけないな
サクラエディタ向けの正規表現を作るときには気を付けないといけないな
668デフォルトの名無しさん
2018/10/22(月) 23:33:25.25ID:aIOUU5bU bregonigは鬼雲の機能限定版(perl互換の正規表現だけが動く)って話をどこかで読んだ記憶があったんだよね
どうせやるなら本家onigmoのRuby版正規表現も全部動くようにすればいいのに、って思っただけなんだ
ちょっと難癖に近いなとは自分でも思ってる
\sもそうだけど\dに全角数字がマッチしちゃって痛い目に合うのもまれによくあること
サクラに限らないんじゃないかね
どうせやるなら本家onigmoのRuby版正規表現も全部動くようにすればいいのに、って思っただけなんだ
ちょっと難癖に近いなとは自分でも思ってる
\sもそうだけど\dに全角数字がマッチしちゃって痛い目に合うのもまれによくあること
サクラに限らないんじゃないかね
669デフォルトの名無しさん
2018/10/23(火) 00:10:38.63ID:W9szHIq5 I/Fの問題だろう
Onigmoの仕様では、\sは
Unicode以外の場合:
\t, \n, \v, \f, \r, \x20
Unicodeの場合:
0009, 000A, 000B, 000C, 000D, 0085(NEL),
General_Category -- Line_Separator
-- Paragraph_Separator
-- Space_Separator
ASCII外の文字を含むかどうかは ONIG_OPTION_ASCII_RANGE オプションに依存する。
とある
実際、サクラエディタで試すと、
2028(LS),2029(PS),
0009,000a,000b,000c,000d,0085,
0020,00a0,1680,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,200a,202f,205f,3000(SS)
がマッチする
なので、サクラエディタはUnicodeで鬼雲を使ってると思われる
Janeの場合でも、StyleはSJISであり、XenoはUnicodeなので
https://egg.5ch.net/test/read.cgi/software/1536058236/515
に対して、\d{6}がマッチするのはXenoのみである
Onigmoの仕様では、\sは
Unicode以外の場合:
\t, \n, \v, \f, \r, \x20
Unicodeの場合:
0009, 000A, 000B, 000C, 000D, 0085(NEL),
General_Category -- Line_Separator
-- Paragraph_Separator
-- Space_Separator
ASCII外の文字を含むかどうかは ONIG_OPTION_ASCII_RANGE オプションに依存する。
とある
実際、サクラエディタで試すと、
2028(LS),2029(PS),
0009,000a,000b,000c,000d,0085,
0020,00a0,1680,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,200a,202f,205f,3000(SS)
がマッチする
なので、サクラエディタはUnicodeで鬼雲を使ってると思われる
Janeの場合でも、StyleはSJISであり、XenoはUnicodeなので
https://egg.5ch.net/test/read.cgi/software/1536058236/515
に対して、\d{6}がマッチするのはXenoのみである
670662
2018/10/23(火) 00:11:35.27ID:FESm7ID8 なるほど、dll からは ONIG_SYNTAX_PERL しか使えないから
ruby を使い慣れてる人にとっては歯がゆいと..
> \dに全角数字がマッチしちゃって
ですね~、(?a) で防げるようなので覚えておきます
ruby を使い慣れてる人にとっては歯がゆいと..
> \dに全角数字がマッチしちゃって
ですね~、(?a) で防げるようなので覚えておきます
671デフォルトの名無しさん
2018/10/23(火) 00:18:39.55ID:FESm7ID8672デフォルトの名無しさん
2018/10/23(火) 00:24:56.92ID:W9szHIq5 なおUnicodeの空白でも、上記のCc(0009~0085)、LS,PS,Zs(Space Separator)
以外のCf(200b,200c,200d,FEFF)だとどうかなと試したが案の定マッチしなかった
さすがは仕様どおりだ
以外のCf(200b,200c,200d,FEFF)だとどうかなと試したが案の定マッチしなかった
さすがは仕様どおりだ
673デフォルトの名無しさん
2018/10/23(火) 01:02:05.21ID:FESm7ID8 > 200b,200c,200d,FEFF
サクラエディタにIMEパッドから打ち込んで試してみたら同じくマッチせず
# 主要部
(?&sp)
# 定義部
(|(?!)
(?<sp>
(?u)
[\x{200b}\x{200c}\x{200d}\x{FEFF}\s]
)
)
自分がこれ使うことは永遠になさそうだけどとりあえず..
サクラエディタにIMEパッドから打ち込んで試してみたら同じくマッチせず
# 主要部
(?&sp)
# 定義部
(|(?!)
(?<sp>
(?u)
[\x{200b}\x{200c}\x{200d}\x{FEFF}\s]
)
)
自分がこれ使うことは永遠になさそうだけどとりあえず..
674デフォルトの名無しさん
2018/10/23(火) 03:03:21.50ID:FESm7ID8675デフォルトの名無しさん
2018/10/25(木) 14:38:08.86ID:4OmhnPU0 あるファイルパスがありディレクトリのN階層目までのみを抽出したいのですが、正規表現について教えてください
例えばこんな入力のリストがある場合
aaa
aaa/bbb/ccc
aaa/bbb/ccc/ddd/eee/fff
で各リストに対して2階層目までを取得したい場合
aaa
aaa/bbb
aaa/bbb
となるのが期待値です。
((?:¥w+¥/?){1,2})とかしてみたんですが上手くいきませんでした、お手数ですがよろしくお願いします
例えばこんな入力のリストがある場合
aaa
aaa/bbb/ccc
aaa/bbb/ccc/ddd/eee/fff
で各リストに対して2階層目までを取得したい場合
aaa
aaa/bbb
aaa/bbb
となるのが期待値です。
((?:¥w+¥/?){1,2})とかしてみたんですが上手くいきませんでした、お手数ですがよろしくお願いします
676デフォルトの名無しさん
2018/10/25(木) 15:23:45.93ID:RdSksp9Y >>675
正規表現はプログラム言語や正規表現オブジェクトのオプションによって
動作がけっこう変化するので質問するときはそういうの書いてね
[^/]+(?:/[^/]+)?
ただしこれは正しいパスが与えられることを前提としているので注意
正規表現はプログラム言語や正規表現オブジェクトのオプションによって
動作がけっこう変化するので質問するときはそういうの書いてね
[^/]+(?:/[^/]+)?
ただしこれは正しいパスが与えられることを前提としているので注意
677デフォルトの名無しさん
2018/10/25(木) 15:29:23.12ID:ZE3NVml1 / の数が、0~2
678デフォルトの名無しさん
2018/10/25(木) 15:39:26.06ID:5Cy/pQlU ./ で始まってたらどう数えるん
/ で始まってたら?
/ で始まってたら?
679デフォルトの名無しさん
2018/10/25(木) 17:47:09.80ID:4OmhnPU0 >>676
ありがとうございます、perlが希望でしたので次回から書くようにします
例は2階層で固定のようですが、ちなみにn階層目とか可変で書くような場合は下記のような感じで良いでしょうか?
[^/]+(?:/[^/]+){0,n-1}
ありがとうございます、perlが希望でしたので次回から書くようにします
例は2階層で固定のようですが、ちなみにn階層目とか可変で書くような場合は下記のような感じで良いでしょうか?
[^/]+(?:/[^/]+){0,n-1}
680デフォルトの名無しさん
2018/10/25(木) 18:40:41.61ID:RdSksp9Y ああ、N階層までのマッチという質問だったのか、ごめんね
それで合ってるよb
それで合ってるよb
681デフォルトの名無しさん
2018/10/26(金) 10:18:13.83ID:MwloQati 暇つぶしに鬼雲の再帰処理に欠陥がないか探してみたけど見つからなかった
例、\1 を空文字にマッチさせて再帰の無限ループを狙う
()(?<name>a|\1\g<name>c)
例2、<x> を複数使ってマッチするのが空文字ではないように見せかける
(?<x>)(?<x>text)(?<name>a|\g<x>\g<name>c)
例、\1 を空文字にマッチさせて再帰の無限ループを狙う
()(?<name>a|\1\g<name>c)
例2、<x> を複数使ってマッチするのが空文字ではないように見せかける
(?<x>)(?<x>text)(?<name>a|\g<x>\g<name>c)
682デフォルトの名無しさん
2018/10/26(金) 23:39:01.03ID:MwloQati ・perl 5.22
if ( "a" =~ /^\Fa\E$/ )
{ print "match.\n"; }
else
{ print "no.\n"; }
# 結果: match.
・ サクラエディタ + bregonig.dll (ONIG_SYNTAX_PERL)
検索欄: ^\Fa\E$
テキスト: a
結果: 見つかりませんでした
\F の意味が知りたい..
if ( "a" =~ /^\Fa\E$/ )
{ print "match.\n"; }
else
{ print "no.\n"; }
# 結果: match.
・ サクラエディタ + bregonig.dll (ONIG_SYNTAX_PERL)
検索欄: ^\Fa\E$
テキスト: a
結果: 見つかりませんでした
\F の意味が知りたい..
683デフォルトの名無しさん
2018/10/26(金) 23:58:52.37ID:MwloQati http://perldoc.jp/docs/perl/5.16.1/perlreref.pod#ESCAPE32SEQUENCES
> \F \E まで畳み込み文字にします
bregonig.dll は Perl 5.14 ほぼ準拠だからまだ未対応らしい
> \F \E まで畳み込み文字にします
bregonig.dll は Perl 5.14 ほぼ準拠だからまだ未対応らしい
684デフォルトの名無しさん
2018/10/28(日) 00:53:19.71ID:ZnGbnC1U http://jane2ch.net/community/kako/1299/12999/1299979723.html
レス241からの高速化の話題を検証してみた
レス243
>1は例えば (?:http://)~ と、始めの数バイトをグループ化してやると速くなる
検証結果: 速度変わらず
レス245
> : の部分で一旦切れるようにすれば条件は平等になると思う
> (?:http:|ttp:|tp:) が速いわけではないと分かる
検証結果:
1. 10.345 ms
2. 10.560 ms
3. 05.130 ms
結論: (?:http:|ttp:|tp:) は速かった
レス241からの高速化の話題を検証してみた
レス243
>1は例えば (?:http://)~ と、始めの数バイトをグループ化してやると速くなる
検証結果: 速度変わらず
レス245
> : の部分で一旦切れるようにすれば条件は平等になると思う
> (?:http:|ttp:|tp:) が速いわけではないと分かる
検証結果:
1. 10.345 ms
2. 10.560 ms
3. 05.130 ms
結論: (?:http:|ttp:|tp:) は速かった
685デフォルトの名無しさん
2018/10/28(日) 01:36:44.44ID:ZnGbnC1U <鬼雲のリファレンス>
(?<element> \g<stag> \g<content>* \g<etag> ){0}
(?<stag> < \g<name> \s* > ){0}
(?<name> [a-zA-Z_:]+ ){0}
(?<content> [^<&]+ (\g<element> | [^<&]+)* ){0}
(?<etag> </ \k<name+1> >){0}
\g<element>
<とんこ式記述法>
\g<element>
(?!(?!)tonco
(?<element> \g<stag> \g<content>* \g<etag> )
(?<stag> < \g<name> \s* > )
(?<name> [a-zA-Z_:]+ )
(?<content> [^<&]+ (\g<element> | [^<&]+)* )
(?<etag> </ \k<name+1> >)
)
リファレンス方式は後ろの {0} を読むまでそこが定義だと分からない
main部と定義部の境がはっきりせず読みにくい
対してとんこ式は (?!(?!)tonco 以降が定義部だと分かるので読みやすい
(?!(?!)tonco を とんこ で辞書登録しておけば {0} をコピペしなくて済む
とんこ式の とんこ とは発案者の名前とのこと
(?<element> \g<stag> \g<content>* \g<etag> ){0}
(?<stag> < \g<name> \s* > ){0}
(?<name> [a-zA-Z_:]+ ){0}
(?<content> [^<&]+ (\g<element> | [^<&]+)* ){0}
(?<etag> </ \k<name+1> >){0}
\g<element>
<とんこ式記述法>
\g<element>
(?!(?!)tonco
(?<element> \g<stag> \g<content>* \g<etag> )
(?<stag> < \g<name> \s* > )
(?<name> [a-zA-Z_:]+ )
(?<content> [^<&]+ (\g<element> | [^<&]+)* )
(?<etag> </ \k<name+1> >)
)
リファレンス方式は後ろの {0} を読むまでそこが定義だと分からない
main部と定義部の境がはっきりせず読みにくい
対してとんこ式は (?!(?!)tonco 以降が定義部だと分かるので読みやすい
(?!(?!)tonco を とんこ で辞書登録しておけば {0} をコピペしなくて済む
とんこ式の とんこ とは発案者の名前とのこと
686デフォルトの名無しさん
2018/10/28(日) 14:53:16.06ID:ZnGbnC1U これらの記述法には1つ弱点があり
(?<name>ほにゃらら){0}
より前に
\k<name>
が出現すると文法エラーになる
例、
(?<tag>foo \k<name> bar){0}
(?<name>ほにゃらら){0}
\g<tag>
このため定義する順序が限定されてしまう、これは解消されるべき問題である
(?<name>ほにゃらら){0}
より前に
\k<name>
が出現すると文法エラーになる
例、
(?<tag>foo \k<name> bar){0}
(?<name>ほにゃらら){0}
\g<tag>
このため定義する順序が限定されてしまう、これは解消されるべき問題である
687デフォルトの名無しさん
2018/10/28(日) 15:07:39.92ID:ZnGbnC1U ↑これの例はおかしいな、このレスは取り消し
688デフォルトの名無しさん
2018/10/28(日) 15:36:10.31ID:ZnGbnC1U 昨日、詳説 正規表現の本を枕の下に置いて寝た
寝ている間に正規表現のパワーがもらえると思ったからだ
すると.. 夢に正規表現の神様が現れた
神様 「 \1 はな、 ${1} と書いてもマッチするんじゃよ」
朝、目覚めると飛び起きてperlを動かしてみた
if ( "aa" =~ /(a)${1}/ )
{ print "match!!\n"; }
else
{ print "no match..\n"; }
実行結果を見た私は奇跡を見ていた
寝ている間に正規表現のパワーがもらえると思ったからだ
すると.. 夢に正規表現の神様が現れた
神様 「 \1 はな、 ${1} と書いてもマッチするんじゃよ」
朝、目覚めると飛び起きてperlを動かしてみた
if ( "aa" =~ /(a)${1}/ )
{ print "match!!\n"; }
else
{ print "no match..\n"; }
実行結果を見た私は奇跡を見ていた
689デフォルトの名無しさん
2018/10/28(日) 20:54:51.63ID:ZnGbnC1U revilog.com/2012/08/7939.html
> a?[a-z] という正規表現は [b-z]|aa? という正規表現と
> 等価であり置換可能
前者は ab にマッチするが後者は...
> 同様に[a-z]?[A-z]という正規表現は [A-Z]|([a-z][a-z]?)
> という正規表現と 等価であり置換可能
前者は aA にマッチするが後者は...
> a?[a-z] という正規表現は [b-z]|aa? という正規表現と
> 等価であり置換可能
前者は ab にマッチするが後者は...
> 同様に[a-z]?[A-z]という正規表現は [A-Z]|([a-z][a-z]?)
> という正規表現と 等価であり置換可能
前者は aA にマッチするが後者は...
690デフォルトの名無しさん
2018/10/29(月) 00:52:40.24ID:BYis7ms7 ・ perl 5.22
use strict;
use warnings;
use encoding "cp932";
binmode STDERR, ':encoding(cp932)';
if ( "アイウエオ" =~ /\p{Katakana}/ ){ print "match!! <$&>\n"; }
else { print "no match..\n"; }
# 結果: match!! <ア>
・ bregonig.dll (shift_jis)
検索:\p{Katakana}
対象:アイウエオ
結果:見つかりません
サクラエディタ (unicode) ではマッチした
(?a)\p{Katakana} でもマッチ
use strict;
use warnings;
use encoding "cp932";
binmode STDERR, ':encoding(cp932)';
if ( "アイウエオ" =~ /\p{Katakana}/ ){ print "match!! <$&>\n"; }
else { print "no match..\n"; }
# 結果: match!! <ア>
・ bregonig.dll (shift_jis)
検索:\p{Katakana}
対象:アイウエオ
結果:見つかりません
サクラエディタ (unicode) ではマッチした
(?a)\p{Katakana} でもマッチ
691デフォルトの名無しさん
2018/10/29(月) 01:00:01.03ID:BYis7ms7 perl がマッチするのはもしかしたら内部的にunicodeになってるとかかな
自分はプログラマじゃないんでさっぱり
自分はプログラマじゃないんでさっぱり
692デフォルトの名無しさん
2018/10/29(月) 01:09:53.75ID:BYis7ms7 どうやら当たりらしい、unicodeに変換してからマッチしてた
if ( "あ" =~ /\x{3042}/ ) # true
if ( "あ" =~ /\x{82A0}/ ) # false
if ( "あ" =~ /\x{3042}/ ) # true
if ( "あ" =~ /\x{82A0}/ ) # false
693デフォルトの名無しさん
2018/10/29(月) 19:52:31.20ID:BYis7ms7 ・再帰の穴を狙う2
(str)
(?<name>
(?(1)yes|no)
\g<name>
|inner)
↓これに書き換えると
(?(1)yes) → 文法エラー
(?(1)|no) → 文法エラー
ガードが鉄壁ですごい、ほんと良く出来てるな~
(str)
(?<name>
(?(1)yes|no)
\g<name>
|inner)
↓これに書き換えると
(?(1)yes) → 文法エラー
(?(1)|no) → 文法エラー
ガードが鉄壁ですごい、ほんと良く出来てるな~
694デフォルトの名無しさん
2018/10/31(水) 16:56:37.48ID:ZWlmxwfj (?(条件)真の式|偽の式) の不具合を発見
() に "?:" を付けるかどうかで結果が変わってしまう
対象テキスト: 13 に対し、
1、
\A(?<name>1)(?(<name>)(2|3))\z
結果:マッチ
2、
\A(?<name>1)(?(<name>)(?:2|3))\z
結果:みつかりません
bregonig.dll (shift_jis, unicode 両方で確認)
ちなみに対象テキストを 12 にするとどちらもマッチする
() に "?:" を付けるかどうかで結果が変わってしまう
対象テキスト: 13 に対し、
1、
\A(?<name>1)(?(<name>)(2|3))\z
結果:マッチ
2、
\A(?<name>1)(?(<name>)(?:2|3))\z
結果:みつかりません
bregonig.dll (shift_jis, unicode 両方で確認)
ちなみに対象テキストを 12 にするとどちらもマッチする
695デフォルトの名無しさん
2018/10/31(水) 17:14:05.35ID:ZWlmxwfj やっぱりこれ欲しいなぁ
検索:( red(?'color='赤) | blue(?'color='青) | yellow(?'color='黄) )
置換:\k'color'
対象テキスト: blue
置換結果:青
これの有無で便利度が数段変わるんだよね
これの代わりに複数回の置換を行うと \G を使うときに困る
同じものを複数回検索するので速度低下に繋がる
検索:( red(?'color='赤) | blue(?'color='青) | yellow(?'color='黄) )
置換:\k'color'
対象テキスト: blue
置換結果:青
これの有無で便利度が数段変わるんだよね
これの代わりに複数回の置換を行うと \G を使うときに困る
同じものを複数回検索するので速度低下に繋がる
696デフォルトの名無しさん
2018/10/31(水) 19:55:08.08ID:ZWlmxwfj ・ (?'name=~' )
変数name の中身をマッチテストする先読みの親戚のようなもの
(?'name' <div> .*? </div> )
(?:
(?'name=~' \A .* abc .* \z)
pattern1 # タグの間に abc があるとき
|
(?'name=~' \A .* def .* \z)
pattern2 # タグの間に def があるとき
|
pattern3 # それ以外のとき
)
これもあると便利だけど (?(name) | ) で代用出来るから必要度は低い
変数name の中身をマッチテストする先読みの親戚のようなもの
(?'name' <div> .*? </div> )
(?:
(?'name=~' \A .* abc .* \z)
pattern1 # タグの間に abc があるとき
|
(?'name=~' \A .* def .* \z)
pattern2 # タグの間に def があるとき
|
pattern3 # それ以外のとき
)
これもあると便利だけど (?(name) | ) で代用出来るから必要度は低い
697デフォルトの名無しさん
2018/11/01(木) 00:56:07.61ID:+M+OiFJp698デフォルトの名無しさん
2018/11/01(木) 01:35:03.88ID:zrOHiVOt ニュタマーハタマーフ
699デフォルトの名無しさん
2018/11/01(木) 17:25:34.93ID:+M+OiFJp (*^-^*)
700デフォルトの名無しさん
2018/11/01(木) 17:34:43.67ID:+M+OiFJp >>694 のバグがrubyでも起こることを確認
ruby 2.5.3p105 (2018-10-18 revision 65156) [x64-mingw32]
原因は bregonig.dll でなく Onigumo にあるようだ
これは気付きやすい部類のバグだと思うんだけど
今までバグ報告が無かったようなのが不思議
takata神はここ見てるのかな
ruby 2.5.3p105 (2018-10-18 revision 65156) [x64-mingw32]
原因は bregonig.dll でなく Onigumo にあるようだ
これは気付きやすい部類のバグだと思うんだけど
今までバグ報告が無かったようなのが不思議
takata神はここ見てるのかな
701デフォルトの名無しさん
2018/11/01(木) 17:41:25.59ID:+M+OiFJp # ruby動作確認用コード
if '13' =~ /\A(?<name>1)(?(<name>)(?:2|3))\z/
# if '13' =~ /\A(?<name>1)(?(<name>)(2|3))\z/
p 'yes'
else
p 'no'
end
if '13' =~ /\A(?<name>1)(?(<name>)(?:2|3))\z/
# if '13' =~ /\A(?<name>1)(?(<name>)(2|3))\z/
p 'yes'
else
p 'no'
end
702デフォルトの名無しさん
2018/11/01(木) 23:04:15.23ID:dBKH7CcG703デフォルトの名無しさん
2018/11/02(金) 01:26:49.16ID:XP4jtOby704デフォルトの名無しさん
2018/11/05(月) 20:41:07.84ID:SJelCvn/ >>683
畳み込み文字ってなんですか?
畳み込み文字ってなんですか?
705デフォルトの名無しさん
2018/11/05(月) 23:47:01.14ID:xCFT0arz (?:
( V ) > (0 -1)
|
( . ) > (1 0)
)
俺も分からん
( V ) > (0 -1)
|
( . ) > (1 0)
)
俺も分からん
706デフォルトの名無しさん
2018/11/06(火) 18:39:37.29ID:4TN3vyid <正常>
(1)?
(?(1)(?:2|3)|4)
(1)?
(?(1)(?:2|3)|(?:4|5))
(1)?
(?(1)2|(?:3|4))
(1)?
(?(1)(2|3))
(1)?
(?(1)(?>2|3))
----------------------------
<異常>
(1)?
(?(1)(?:2|3))
(1)?
(?(1)(?:2|3)|4)
(1)?
(?(1)(?:2|3)|(?:4|5))
(1)?
(?(1)2|(?:3|4))
(1)?
(?(1)(2|3))
(1)?
(?(1)(?>2|3))
----------------------------
<異常>
(1)?
(?(1)(?:2|3))
707デフォルトの名無しさん
2018/11/06(火) 19:30:27.97ID:4TN3vyid <異常>
(1)?
(?(1)(?:2|(3)))
置換: [$2]
対象テキスト: 3
結果: [3]
-----------
<正常>
(1)?
(?(1)(?>2|3)|4)
(1)?
(?(1)(?>2|3)|(?>4|5))
(1)?
(?(1)(?:2|(3)))
置換: [$2]
対象テキスト: 3
結果: [3]
-----------
<正常>
(1)?
(?(1)(?>2|3)|4)
(1)?
(?(1)(?>2|3)|(?>4|5))
708デフォルトの名無しさん
2018/11/06(火) 19:36:59.61ID:4TN3vyid >>707 の実験でバグの原因が分かった
1、不要なカッコを取り除く処理が (?: ) を取り去った
2、分岐の "|" の意味合いが変わってしまった
ということだね、原因が分かれば回避が簡単なのでこのまま放置でも良さそう
1、不要なカッコを取り除く処理が (?: ) を取り去った
2、分岐の "|" の意味合いが変わってしまった
ということだね、原因が分かれば回避が簡単なのでこのまま放置でも良さそう
709デフォルトの名無しさん
2018/11/09(金) 18:21:43.84ID:BZlL2mTg perl5.14
# 1文字が2文字にマッチ
if ( "fi" =~ /\A\x{fb01}\z/i ){ print "true\n"; } else { print "false\n"; }
# 1文字が2文字にマッチ
if ( "fi" =~ /\A\x{fb01}\z/i ){ print "true\n"; } else { print "false\n"; }
710デフォルトの名無しさん
2018/11/09(金) 18:52:26.91ID:BZlL2mTg if ( "K" =~ /\A\x{212A}\z/i ) true
if ( "K" =~ /\A\x{212A}\z/il ) false
if ( "K" =~ /\A\x{212A}\z/il ) false
711デフォルトの名無しさん
2018/11/09(金) 21:22:21.15ID:BZlL2mTg if ( "\x{212A}" =~ /[[:print:]]/ ) true
if ( "\x{212A}" =~ /[[:print:]]/a ) false
if ( "\x{212A}" =~ /[[:print:]]/a ) false
712デフォルトの名無しさん
2018/11/10(土) 00:04:00.21ID:EY2CMtcP \d{0,32766}
# ok
\d{0,32767}
# error "Quantifier in {,} bigger than 32766 in regex;"
# ok
\d{0,32767}
# error "Quantifier in {,} bigger than 32766 in regex;"
713デフォルトの名無しさん
2018/11/10(土) 00:21:29.46ID:EY2CMtcP # \d{0,} は 32766回 を超えてマッチ可能
my $str = "";
for ( $count = 0; $count < 33000; $count++)
{ $str = $str."0"; }
print "\$str\.length = " , length($str) , "\n";
if ( $str =~ /\A\d{0,}\z/ )
{ print "true\n"; } else { print "false\n"; }
# 結果
# $str.length = 33000
# true
my $str = "";
for ( $count = 0; $count < 33000; $count++)
{ $str = $str."0"; }
print "\$str\.length = " , length($str) , "\n";
if ( $str =~ /\A\d{0,}\z/ )
{ print "true\n"; } else { print "false\n"; }
# 結果
# $str.length = 33000
# true
714デフォルトの名無しさん
2018/11/10(土) 18:21:06.77ID:EY2CMtcP # 検索表現の途中にある \G をマッチさせる
my $str = 'abcde';
$str =~ /abc/g;
if ($str =~ /abc\Gd/){ print "true\n"; } else { print "false\n"; }
my $str = 'abcde';
$str =~ /abc/g;
if ($str =~ /abc\Gd/){ print "true\n"; } else { print "false\n"; }
715デフォルトの名無しさん
2018/11/13(火) 00:16:05.06ID:QabZTjVa # (?1) の直前に (?i) を置いても効かない
if ( "Aa" =~ m/(?i)(A)(?1)/ )
{ print "true <$1>\n"; } else { print "false\n"; }
# 結果:true <A>
if ( "Aa" =~ m/(A)(?i)(?1)/ )
{ print "true <$1>\n"; } else { print "false\n"; }
# 結果:false
if ( "Aa" =~ m/(?i)(A)(?1)/ )
{ print "true <$1>\n"; } else { print "false\n"; }
# 結果:true <A>
if ( "Aa" =~ m/(A)(?i)(?1)/ )
{ print "true <$1>\n"; } else { print "false\n"; }
# 結果:false
716デフォルトの名無しさん
2018/11/13(火) 05:19:20.83ID:QabZTjVa ## (?{code}) を使って >>695 の置換
if ( "ybrybrb" =~ /
\A
(?|
(?<赤>r)(?{ "aka"; })
| (?<青>b)(?{ "ao"; })
| (?<黄>y)(?{ "ki"; })
)*
brybrb ## バックトラックに対応出来るか試す
\z
/x )
{ print "true. Color <${1}> is <${^R}> .\n"; } else { print "false.\n"; }
## 結果: true. Color <r> is <aka> .
## バックトラックの対応、成功
if ( "ybrybrb" =~ /
\A
(?|
(?<赤>r)(?{ "aka"; })
| (?<青>b)(?{ "ao"; })
| (?<黄>y)(?{ "ki"; })
)*
brybrb ## バックトラックに対応出来るか試す
\z
/x )
{ print "true. Color <${1}> is <${^R}> .\n"; } else { print "false.\n"; }
## 結果: true. Color <r> is <aka> .
## バックトラックの対応、成功
717デフォルトの名無しさん
2018/11/13(火) 21:32:36.34ID:QabZTjVa # 仲間外れを探せ
if ("\x{1990}" =~ /
\N{U+1990}
#\N{1990}
#\N{NEW TAI LUE LETTER HIGH NA}
/x){ print "match.\n"; } else { print "false.\n"; }
if ("\x{1990}" =~ /
\N{U+1990}
#\N{1990}
#\N{NEW TAI LUE LETTER HIGH NA}
/x){ print "match.\n"; } else { print "false.\n"; }
718デフォルトの名無しさん
2018/11/14(水) 10:41:07.07ID:Hh1ptiAj 717
719デフォルトの名無しさん
2018/11/14(水) 14:37:49.07ID:duOGmOFb ワロタw
720デフォルトの名無しさん
2018/11/14(水) 18:45:40.17ID:I91AeKub このクイズだか検証だかよくわからんの書き連ねてるのは何なの?
一人で無意味に書き連ねてるの?誰かとやりとりしてるの?
一人で無意味に書き連ねてるの?誰かとやりとりしてるの?
721デフォルトの名無しさん
2018/11/14(水) 23:41:31.78ID:cpUdYoRF 正規表現の勉強をしながら気付いたことをメモってるだけです
基本的には一人でやってます
仲間が欲しい...
基本的には一人でやってます
仲間が欲しい...
722デフォルトの名無しさん
2018/11/14(水) 23:44:34.67ID:CNd6PM4x ここはお前のチラシの裏なのか
ある程度まとまってんならともかくメモ書きなら他所でやれよ
ある程度まとまってんならともかくメモ書きなら他所でやれよ
723デフォルトの名無しさん
2018/11/15(木) 00:11:59.19ID:Ow4iH1sO 需要ないかな?無いならやめます
724デフォルトの名無しさん
2018/11/15(木) 22:32:34.48ID:IM0UsOCP 無いよ
725デフォルトの名無しさん
2018/11/16(金) 17:20:00.59ID:eADG8kUk bregonig.dll の (?a)\w の処理速度が遅い
(?u)\w と同じ速さ
\s や \d や [a-zA-Z_] より4倍の遅い
改善の余地ありそうだね
(?u)\w と同じ速さ
\s や \d や [a-zA-Z_] より4倍の遅い
改善の余地ありそうだね
726デフォルトの名無しさん
2018/11/17(土) 03:22:15.33ID:YADh6pBI ## (?(R1)yes|no) のサンプルコード
if ("abc23yz" =~ /
\A
( # $1
( # $2
a(?1)z
|
b(?2)y
|
c(?(R1)1|2)(?(R2)3|4)
) # $2
) # $1
/x){ print "match. <$&> \n"; } else { print "false.\n"; }
# 結果: match. <abc23yz>
# aとzの間にあるcは (?1) の中でマッチしているが
# bとyの間でもあるため (?2) の中でもある
# この場合はcを直接覆っている (R2) だけがyesになる
# 直接でない (R1) はnoになる
if ("abc23yz" =~ /
\A
( # $1
( # $2
a(?1)z
|
b(?2)y
|
c(?(R1)1|2)(?(R2)3|4)
) # $2
) # $1
/x){ print "match. <$&> \n"; } else { print "false.\n"; }
# 結果: match. <abc23yz>
# aとzの間にあるcは (?1) の中でマッチしているが
# bとyの間でもあるため (?2) の中でもある
# この場合はcを直接覆っている (R2) だけがyesになる
# 直接でない (R1) はnoになる
727デフォルトの名無しさん
2018/11/17(土) 12:49:09.25ID:Oiq/x6oK いつまで続くの?
728デフォルトの名無しさん
2018/11/21(水) 19:34:31.80ID:CU3gUCH4 ●Regular Expressionの使用環境
C#
●検索か置換か?
置換
●説明
先頭の全角スペースのみを置換したい
先頭の全角スペースは1文字の場合もある
●対象データ
ああああ あ あ あ あ あ
●希望する結果
空空空ああああ あ あ あ あ あ
C#
●検索か置換か?
置換
●説明
先頭の全角スペースのみを置換したい
先頭の全角スペースは1文字の場合もある
●対象データ
ああああ あ あ あ あ あ
●希望する結果
空空空ああああ あ あ あ あ あ
729デフォルトの名無しさん
2018/11/21(水) 23:39:43.26ID:UsYfXb0d >>728
Regex.Replace(str, @"(?<=^\s*)\s", "空");
Regex.Replace(str, @"(?<=^\s*)\s", "空");
730デフォルトの名無しさん
2018/11/21(水) 23:41:52.91ID:UsYfXb0d あ全角スペースか
\sを全角スペースに変えて
\sを全角スペースに変えて
731デフォルトの名無しさん
2018/11/22(木) 01:15:55.43ID:YNRtrxPu 可変長の戻り読みは便利だけどコールバックで処理するのが普通じゃないかな
https://ideone.com/4l8abQ
https://ideone.com/4l8abQ
732729
2018/11/22(木) 03:09:11.69ID:YAZbwzDX >>731
たしかにそっちの方が倍くらい速かった
ちなみに正規表現関係ないけど
var trimed = str.TrimStart(' ');
var replaced = new string('空', str.Length - trimed.Length) + trimed;
とか
var sb = new StringBuilder(str);
for(int i = 0; i < sb.Length; i++) if (sb[i] == ' ') sb[i] = '空'; else break;
とかにするとさらに10倍以上速かった
正規表現使わないでもいい時はなるべく使わないほうがええね
たしかにそっちの方が倍くらい速かった
ちなみに正規表現関係ないけど
var trimed = str.TrimStart(' ');
var replaced = new string('空', str.Length - trimed.Length) + trimed;
とか
var sb = new StringBuilder(str);
for(int i = 0; i < sb.Length; i++) if (sb[i] == ' ') sb[i] = '空'; else break;
とかにするとさらに10倍以上速かった
正規表現使わないでもいい時はなるべく使わないほうがええね
733デフォルトの名無しさん
2018/11/22(木) 11:43:47.30ID:sD3Vu3lJ >>729-732
どうもありがとうございました
どうもありがとうございました
734デフォルトの名無しさん
2018/11/26(月) 03:08:54.11ID:bvNwlvbS Regex.Replace(str, @"\G ", "空");
でもいけるよ
でもいけるよ
735デフォルトの名無しさん
2018/11/26(月) 06:49:56.12ID:OBhrl1nm736デフォルトの名無しさん
2018/11/27(火) 00:09:50.92ID:5gbDlA47 \Gを知らないのに正規表現を使いこなせるということはproxomitronのユーザーさんかな
737デフォルトの名無しさん
2018/11/28(水) 15:10:22.46ID:N4CCGDXj \Gの使い方を覚えたら>>714が面白く感じるかもね
知ってれば今更感しかないが
知ってれば今更感しかないが
738デフォルトの名無しさん
2018/11/29(木) 02:42:35.12ID:Fz25AUlj739デフォルトの名無しさん
2018/11/29(木) 02:52:05.30ID:rs9fzmaE740デフォルトの名無しさん
2018/11/29(木) 08:19:27.68ID:nDdllTwV 自分で立てればいいのになんで他人頼みなの?
741デフォルトの名無しさん
2018/12/02(日) 03:28:37.05ID:s0yCsMa3 >>738
じゃあ俺が立てるわ、テンプレの準備にちょっとかかるが
じゃあ俺が立てるわ、テンプレの準備にちょっとかかるが
742デフォルトの名無しさん
2018/12/08(土) 16:06:50.58ID:7G2k61ed twitter.com/munesuk
enya_go/status/1071188833515954176
先輩w
enya_go/status/1071188833515954176
先輩w
743デフォルトの名無しさん
2018/12/08(土) 20:04:57.14ID:RNQqcEtu アンド検索をしたいのですが、どう書けばいいでしょうか
^(?=.*あああ)(?=.*かかか).*$
このコードを見つけました
あああ と かかか の含まれる行がヒットします
ただ、ロジックがちょっとわかりません
先読みをつかっているのですが、先読み対象の語が指定されていません
これはどういうことでしょうか
分かりやすい解説サイトでもあれば教えてください
^(?=.*あああ)(?=.*かかか).*$
このコードを見つけました
あああ と かかか の含まれる行がヒットします
ただ、ロジックがちょっとわかりません
先読みをつかっているのですが、先読み対象の語が指定されていません
これはどういうことでしょうか
分かりやすい解説サイトでもあれば教えてください
744デフォルトの名無しさん
2018/12/08(土) 20:32:25.49ID:Dx33rAX6 このへんかな
>正規表現で論理積(AND)を実現する
>https://qiita.com/n4o847/items/dbcd0b8af3781d221424
自分流のちょっと乱暴な理解解釈だと
1. (?=検索対象) は、この条件が満たされないと後続のマッチを調べない
2. (?=検索対処) 自体は、この条件が満たされてた時点である意味消滅したかのようにふるまう
って動きを取るような感じ
ちなみにAND検索ができるgrepツール(TresGrep)がどんな正規表現を組み立てるか調べてみたら
「xxx&yyy&zzz」
↓
「xxx.*?(yyy.*?zzz|zzz.*?yyy)|yyy.*?(xxx.*?zzz|zzz.*?xxx)|zzz.*?(xxx.*?yyy|yyy.*?xxx)」
なんてのを吐き出した
安直だけどまあこれも間違ってはいない
>正規表現で論理積(AND)を実現する
>https://qiita.com/n4o847/items/dbcd0b8af3781d221424
自分流のちょっと乱暴な理解解釈だと
1. (?=検索対象) は、この条件が満たされないと後続のマッチを調べない
2. (?=検索対処) 自体は、この条件が満たされてた時点である意味消滅したかのようにふるまう
って動きを取るような感じ
ちなみにAND検索ができるgrepツール(TresGrep)がどんな正規表現を組み立てるか調べてみたら
「xxx&yyy&zzz」
↓
「xxx.*?(yyy.*?zzz|zzz.*?yyy)|yyy.*?(xxx.*?zzz|zzz.*?xxx)|zzz.*?(xxx.*?yyy|yyy.*?xxx)」
なんてのを吐き出した
安直だけどまあこれも間違ってはいない
745デフォルトの名無しさん
2018/12/08(土) 20:35:48.50ID:Dx33rAX6 あ、先読み対象の語は「^」だけで
「行頭から始まるという条件さえ満たせば何でもよい」と指定してる
「行頭から始まるという条件さえ満たせば何でもよい」と指定してる
746デフォルトの名無しさん
2018/12/08(土) 22:19:09.33ID:7G2k61ed 環境が分からない
何を検索したいのか分からない
>先読みをつかっているのですが、先読み対象の語が指定されていません
??? 指定されてないって何のことだろう、意味不明
正規表現うんぬんの前にまともな質問の仕方を学ぶべき
何を検索したいのか分からない
>先読みをつかっているのですが、先読み対象の語が指定されていません
??? 指定されてないって何のことだろう、意味不明
正規表現うんぬんの前にまともな質問の仕方を学ぶべき
747デフォルトの名無しさん
2018/12/08(土) 22:26:59.96ID:RNQqcEtu >>744
先読み対象は行頭ということですね
^(?=.*あああ)
これだと意味としては
「あああの前に行頭が存在すればヒット」
ということになると思います
これってもう少しかみ砕いた表現にできませんか?
まだ、理解が追い付いてないです
行頭が存在すればヒットということは、「行の中にあああがあればヒット」と同じことですか?
先読み対象は行頭ということですね
^(?=.*あああ)
これだと意味としては
「あああの前に行頭が存在すればヒット」
ということになると思います
これってもう少しかみ砕いた表現にできませんか?
まだ、理解が追い付いてないです
行頭が存在すればヒットということは、「行の中にあああがあればヒット」と同じことですか?
748デフォルトの名無しさん
2018/12/08(土) 23:05:31.04ID:hZepSGXS >>747
^は検索位置を示すもので、先頭を表す記号、
(?=)は先読みで検索開始位置を移動しないもの
つまり、
^(?=.*あああ)
は、先頭から(改行までの間に)文字列「あああ」がある場合
(先読みなのでマッチ後も次の検索開始位置はまだ先頭のまま)
よって
^(?=.*あああ)(?=.*かかか)
は、先頭から(改行までの間に)「あああ」があり、且つ先頭から「かかか」がある場合
.*$は不要だが、付けると、改行が存在すると絶対マッチしなくなる点が異なる
^は検索位置を示すもので、先頭を表す記号、
(?=)は先読みで検索開始位置を移動しないもの
つまり、
^(?=.*あああ)
は、先頭から(改行までの間に)文字列「あああ」がある場合
(先読みなのでマッチ後も次の検索開始位置はまだ先頭のまま)
よって
^(?=.*あああ)(?=.*かかか)
は、先頭から(改行までの間に)「あああ」があり、且つ先頭から「かかか」がある場合
.*$は不要だが、付けると、改行が存在すると絶対マッチしなくなる点が異なる
749デフォルトの名無しさん
2018/12/09(日) 06:54:41.50ID:C3Qast1U ↑かっこを二つならべると、()と()という感じで、アンドになるんでしょうか?
あと
(?=)は先読みで検索開始位置を移動しないもの
の部分なんですが、検索開始位置を移動しないというのはどういうことでしょうか
?=キーワード
で設定した場合、キーワードの相対位置から前を検索する、という認識でした
あと
(?=)は先読みで検索開始位置を移動しないもの
の部分なんですが、検索開始位置を移動しないというのはどういうことでしょうか
?=キーワード
で設定した場合、キーワードの相対位置から前を検索する、という認識でした
750デフォルトの名無しさん
2018/12/09(日) 08:43:46.17ID:UT294bNs 質問者は正規表現の基礎知識が足りてないと思われる
たとえるなら、(?=)の先読みは高校受験レベルで求められる英文法だとすると
質問者の場合は入門レベル(そもそもの基本ルールとか「.*」とか)の知識がごそっと抜けてる
なのでここまで出てきた説明を読んでもちんぷんかんぷんにしかならないのだろう
ちょっと遠回りになるけどちゃんと正規表現の基礎を理解したほうがいい
https://qiita.com/jnchito/items/893c887fbf19e17d3ff9
あたりを最終回(その4)まで読め
それでも理解できないなら、貴方には正規表現を扱うのは無理だからあきらめろ
たとえるなら、(?=)の先読みは高校受験レベルで求められる英文法だとすると
質問者の場合は入門レベル(そもそもの基本ルールとか「.*」とか)の知識がごそっと抜けてる
なのでここまで出てきた説明を読んでもちんぷんかんぷんにしかならないのだろう
ちょっと遠回りになるけどちゃんと正規表現の基礎を理解したほうがいい
https://qiita.com/jnchito/items/893c887fbf19e17d3ff9
あたりを最終回(その4)まで読め
それでも理解できないなら、貴方には正規表現を扱うのは無理だからあきらめろ
751デフォルトの名無しさん
2018/12/09(日) 09:50:40.98ID:vJutpfX/ >>749
()()でandになるわけではなく、()の次に()があるかどうかとなる(順序関係ができている)
^(a)(b)と書くと、abにはマッチするがaやbやbaにはマッチしない
これは、^(a)がマッチした時点で検索位置がaの次に移動しているためである
^(?=a)(b)と書くと、何もマッチしなくなる
これは先頭からaが見つかった場合、検索開始位置が移動しないため(?=a)を検索する前のまま(つまり先頭)になっている
次にbが先頭にあればいいわけだがそこにはaがあるからマッチしない
()()でandになるわけではなく、()の次に()があるかどうかとなる(順序関係ができている)
^(a)(b)と書くと、abにはマッチするがaやbやbaにはマッチしない
これは、^(a)がマッチした時点で検索位置がaの次に移動しているためである
^(?=a)(b)と書くと、何もマッチしなくなる
これは先頭からaが見つかった場合、検索開始位置が移動しないため(?=a)を検索する前のまま(つまり先頭)になっている
次にbが先頭にあればいいわけだがそこにはaがあるからマッチしない
752デフォルトの名無しさん
2018/12/09(日) 10:39:42.84ID:bsA2M6bZ ID:vJutpfX/
頭が良すぎて教えるのが下手なパターン
バカ語で話さないと通じないよ
頭が良すぎて教えるのが下手なパターン
バカ語で話さないと通じないよ
753デフォルトの名無しさん
2018/12/09(日) 10:51:59.84ID:bsA2M6bZ こんな最低限のこともググらず、自分で努力せずに人に聞くようなのに
教えてはいけないと思う、居ついてしまうからエサを与えないで欲しい
教えてはいけないと思う、居ついてしまうからエサを与えないで欲しい
754デフォルトの名無しさん
2018/12/09(日) 11:55:43.32ID:C3Qast1U755デフォルトの名無しさん
2018/12/09(日) 12:38:27.41ID:H3JhKeet756744
2018/12/09(日) 19:23:00.27ID:i2SuH64K757デフォルトの名無しさん
2018/12/09(日) 19:57:20.13ID:sTKdTIE5 位置の理解は言うほど易しくはないとおもわれ
正規表現検索とはテキストエディタでカーソルを1つずつ進めながら
合致する文字を1文字ずつ探っていくようなものだというイメージが必要だけど
そこをちゃんと説明してるものはあまり見かけない
正規表現検索とはテキストエディタでカーソルを1つずつ進めながら
合致する文字を1文字ずつ探っていくようなものだというイメージが必要だけど
そこをちゃんと説明してるものはあまり見かけない
758デフォルトの名無しさん
2018/12/09(日) 20:00:27.58ID:bzQOhihu759デフォルトの名無しさん
2018/12/09(日) 21:49:11.61ID:bsA2M6bZ 回答した人は親切丁寧に回答出来ていたよ、お疲れ様
上にも書いたように頭のいい人にしか理解出来ない回答になっていた
俗にいう分かってる人にしか分からない説明ってやつ
俺はこういうバカに教えるのは得意だから俺が回答を付ければ理解されたと
思うけど注意をスルーされたのでスルーした
上にも書いたように頭のいい人にしか理解出来ない回答になっていた
俗にいう分かってる人にしか分からない説明ってやつ
俺はこういうバカに教えるのは得意だから俺が回答を付ければ理解されたと
思うけど注意をスルーされたのでスルーした
760デフォルトの名無しさん
2018/12/10(月) 14:42:13.07ID:RU/iAdEK 知恵袋で質問を4000件以上やりとりしてる人だったのか
それなのに質問の仕方がまったくダメって
それなのに質問の仕方がまったくダメって
761デフォルトの名無しさん
2018/12/10(月) 17:07:38.24ID:RU/iAdEK 質問のペースがおかしい、1日に質問6つしてる
ググるより先に質問してんのか?
ググるより先に質問してんのか?
762デフォルトの名無しさん
2018/12/10(月) 17:25:29.04ID:RU/iAdEK https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10200202400
おまえらはこんなの相手に一生懸命教えてたのか
自分を安売りしすぎ、もってけ泥棒状態
おまえらはこんなの相手に一生懸命教えてたのか
自分を安売りしすぎ、もってけ泥棒状態
763デフォルトの名無しさん
2018/12/10(月) 17:25:37.52ID:RTUhzLAF そして回答はアダルトカテゴリのみという…
764デフォルトの名無しさん
2018/12/10(月) 17:29:58.71ID:RU/iAdEK やっぱ質問スレと本スレは分けるべきだな
この流れになると賢い人が来なくなってしまう
この流れになると賢い人が来なくなってしまう
765729
2018/12/10(月) 18:14:05.41ID:PtRqcV9k なんで馬鹿が一匹きただけでそういう話になるんだよ
過剰対応の典型やろ
過剰対応の典型やろ
766デフォルトの名無しさん
2018/12/10(月) 21:59:56.06ID:RU/iAdEK 入門サイトすら読んでないような人の質問とその回答にうんざりして
来なくなった人は大勢いると思うんだがそういう人達が集まれるスレが
あったらひょっとしたらすごいスレになるんじゃないかという期待がある
実際はただ過疎るだけなんだろうけどね
来なくなった人は大勢いると思うんだがそういう人達が集まれるスレが
あったらひょっとしたらすごいスレになるんじゃないかという期待がある
実際はただ過疎るだけなんだろうけどね
767デフォルトの名無しさん
2018/12/11(火) 02:31:31.29ID:oKdEGQIj 隔離スレなんて作るだけ無駄だろ
機能してるところなんて見たこと無い
機能してるところなんて見たこと無い
768デフォルトの名無しさん
2018/12/11(火) 02:44:05.34ID:4gYtUlOJ PCサロン板なら迷惑にならなそうなので立ててみた
【PCサロン】正則表現 part1
http://mao.5ch.net/test/read.cgi/pc2nanmin/1544462745/l50
基本過疎進行ですが正規表現を使いこなせる人同士で語りたい方はこちらで
【PCサロン】正則表現 part1
http://mao.5ch.net/test/read.cgi/pc2nanmin/1544462745/l50
基本過疎進行ですが正規表現を使いこなせる人同士で語りたい方はこちらで
769デフォルトの名無しさん
2018/12/13(木) 17:01:35.11ID:IMhQiOyS 回答が付いた。でも微妙におかしい。つっこんであげるべきか?
770デフォルトの名無しさん
2018/12/14(金) 20:59:53.53ID:DlmPms4F ^
(?:
(?!あああ|かかか).
)*+
(?>
(あああ)
|
かかか
)
(?:
(?!あああ|かかか).
)*+
(?(1)かかか|あああ)
.*+$
(?:
(?!あああ|かかか).
)*+
(?>
(あああ)
|
かかか
)
(?:
(?!あああ|かかか).
)*+
(?(1)かかか|あああ)
.*+$
771デフォルトの名無しさん
2018/12/14(金) 21:11:35.41ID:DlmPms4F ^
(?~あああ|かかか)
(?>
(あああ)
|
かかか
)
(?~あああ|かかか)
(?(1)かかか|あああ)
.*$
(?~あああ|かかか)
(?>
(あああ)
|
かかか
)
(?~あああ|かかか)
(?(1)かかか|あああ)
.*$
772デフォルトの名無しさん
2019/01/10(木) 03:02:56.41ID:mY602DpM FirefoxやChromeのブックマークにこれ登録して
https://i.imgur.com/68VCDRV.jpg
ブラウザのアドレスバーに
re foo|bar|baz
と入れると
https://regexper.com/#foo%7Cbar%7Cbaz
に飛べるようになる
簡易チェッカーとして便利
https://i.imgur.com/68VCDRV.jpg
ブラウザのアドレスバーに
re foo|bar|baz
と入れると
https://regexper.com/#foo%7Cbar%7Cbaz
に飛べるようになる
簡易チェッカーとして便利
773デフォルトの名無しさん
2019/01/10(木) 14:50:11.25ID:Q3mhk3sM >>772
いいねw まったく思い付きもしなかったアイデアwww
いいねw まったく思い付きもしなかったアイデアwww
774デフォルトの名無しさん
2019/01/10(木) 15:21:01.00ID:Q3mhk3sM >>772
chrome on mac だけどブックマークではダメで、設定→検索エンジン→検索エンジンの管理→追加 から登録しないといけなかったわ。
chrome on mac だけどブックマークではダメで、設定→検索エンジン→検索エンジンの管理→追加 から登録しないといけなかったわ。
775デフォルトの名無しさん
2019/01/13(日) 18:46:07.60ID:vFHHKg45776デフォルトの名無しさん
2019/01/26(土) 10:17:12.64ID:rNPVIr5d 否定先読み
と言うのがなかなか理解出来ないのですが、
サンプルを動かすと確かに動作するのですが、
今一つ仕組みが分かりません。
どんなふうに理解すれば良いのでしょうか?
と言うのがなかなか理解出来ないのですが、
サンプルを動かすと確かに動作するのですが、
今一つ仕組みが分かりません。
どんなふうに理解すれば良いのでしょうか?
777729
2019/01/26(土) 10:42:36.00ID:K4a4emwR 文字じゃなくて位置(文字と文字の間)に一致すると考えればいい
たとえば
abcdef
が対象の場合
肯定先読み(?=def)は直後にdefがある位置(cとdの間の位置)に一致する
abc[ここ]def
否定先読み(?!def)は直後にdefがない位置に一致する
[ここ]a[ここ]b[ここ]cd[ここ]e[ここ]f[ここ]
行頭の^や行末の$も文字じゃなくて位置に一致する
たとえば
abcdef
が対象の場合
肯定先読み(?=def)は直後にdefがある位置(cとdの間の位置)に一致する
abc[ここ]def
否定先読み(?!def)は直後にdefがない位置に一致する
[ここ]a[ここ]b[ここ]cd[ここ]e[ここ]f[ここ]
行頭の^や行末の$も文字じゃなくて位置に一致する
778デフォルトの名無しさん
2019/01/26(土) 11:13:09.45ID:yVAkGzul なるほどthx
779デフォルトの名無しさん
2019/01/26(土) 11:53:37.94ID:mL4if6wW780デフォルトの名無しさん
2019/01/26(土) 15:19:07.07ID:exLOU4gz 先読みはマッチさせたら、マッチ開始位置に戻るから、
単なる位置指定で、幅を持たない。
単なる条件を追加した、フィルター
否定先読みはマッチしない場合に、マッチ開始位置に戻る
先読みは、マッチ位置の直後の条件を指定するが、
戻り読みは、マッチ位置の直前の条件を指定する
単なる位置指定で、幅を持たない。
単なる条件を追加した、フィルター
否定先読みはマッチしない場合に、マッチ開始位置に戻る
先読みは、マッチ位置の直後の条件を指定するが、
戻り読みは、マッチ位置の直前の条件を指定する
781デフォルトの名無しさん
2019/01/27(日) 10:46:10.47ID:Th+zYLMn782デフォルトの名無しさん
2019/01/28(月) 10:47:47.80ID:wg8XKdax .netでの正規表現に迷ってます。
次の文字列のとき、"efgh/1"以降に"/"が含まれないときマッチするような正規表現を書きたいのです。
http://192.168.1.100/abcd/efgh/1 →True
http://192.168.1.100/abcd/efgh/1/ →False
http://192.168.1.100/abcd/efgh/12 →True
http://192.168.1.100/abcd/efgh/123/ →False
http://192.168.1.100/abcd/efgh/1?p=1 →True
次のような正規表現を試してみましたが、数値1文字しか対応できませんでした。
\/efgh\/[0-9]+(?!\/)
次の文字列のとき、"efgh/1"以降に"/"が含まれないときマッチするような正規表現を書きたいのです。
http://192.168.1.100/abcd/efgh/1 →True
http://192.168.1.100/abcd/efgh/1/ →False
http://192.168.1.100/abcd/efgh/12 →True
http://192.168.1.100/abcd/efgh/123/ →False
http://192.168.1.100/abcd/efgh/1?p=1 →True
次のような正規表現を試してみましたが、数値1文字しか対応できませんでした。
\/efgh\/[0-9]+(?!\/)
783デフォルトの名無しさん
2019/01/28(月) 10:57:25.94ID:DdBbxYrt \/efgh\/1[^/]*$
ではダメかな
ではダメかな
784デフォルトの名無しさん
2019/01/28(月) 12:18:39.25ID:c4Y7c3OH >>783でいいと思う
あとスラッシュにエスケープは不要だから/efgh/1[^/]*$
否定先読みが使いたいなら /efgh/[0-9]+(?!.*/)
(?!.*/)はそれ以降/が含まれない位置という意味
(?!/)だと直後に/がない位置という意味だから数字が2文字以上続いたらマッチしてしまう
あとスラッシュにエスケープは不要だから/efgh/1[^/]*$
否定先読みが使いたいなら /efgh/[0-9]+(?!.*/)
(?!.*/)はそれ以降/が含まれない位置という意味
(?!/)だと直後に/がない位置という意味だから数字が2文字以上続いたらマッチしてしまう
785デフォルトの名無しさん
2019/01/28(月) 12:21:15.63ID:c4Y7c3OH ごめん1って決まってるならこれでいいな
/efgh/1(?!.*/)
/efgh/1(?!.*/)
786782
2019/01/28(月) 15:51:48.42ID:wg8XKdax787デフォルトの名無しさん
2019/01/29(火) 06:11:22.47ID:mzqJgDrY $1
Windows PowerShell Cookbook
Regular Expressions Cookbook
Perl Cookbook
PHP Cookbook
Android Cookbook
Humble Book Bundle: Programming Cookbooks by O'Reilly (pay what you want and help charity)
https://www.humblebundle.com/books/programming-cookbooks
Windows PowerShell Cookbook
Regular Expressions Cookbook
Perl Cookbook
PHP Cookbook
Android Cookbook
Humble Book Bundle: Programming Cookbooks by O'Reilly (pay what you want and help charity)
https://www.humblebundle.com/books/programming-cookbooks
788デフォルトの名無しさん
2019/01/29(火) 06:32:49.85ID:mzqJgDrY Tools for Working with Regular Expressions
RegexBuddy
RegexPal
RegexMagic
More Online Regex Testers
RegexPlanet
regex.larsolavtorvik.com
Nregex
Rubular
myregexp.com
More Desktop Regular Expression Testers
Expresso
The Regulator
SDL Regex Fuzzer
PowerGREP
Windows Grep
RegexRenamer
RegexBuddy
RegexPal
RegexMagic
More Online Regex Testers
RegexPlanet
regex.larsolavtorvik.com
Nregex
Rubular
myregexp.com
More Desktop Regular Expression Testers
Expresso
The Regulator
SDL Regex Fuzzer
PowerGREP
Windows Grep
RegexRenamer
789デフォルトの名無しさん
2019/01/31(木) 16:07:48.62ID:Sc+6fvIO790デフォルトの名無しさん
2019/01/31(木) 16:08:40.61ID:Sc+6fvIO https://github.com/k-takata/Onigmo/issues/106
(?(n) (?: X | Y ) ) and (?(n) X | Y ) behavior is same.
(?: ) is left out.
(?(n) (?: X | Y ) | ) is nomal behavior.
This is a solution to a this bug problem.
ruby 2.5.3p105 (2018-10-18 revision 65156) [x64-mingw32]
bregonig.dll Ver.4.12 with Onigmo 6.1.2
(?(n) (?: X | Y ) ) and (?(n) X | Y ) behavior is same.
(?: ) is left out.
(?(n) (?: X | Y ) | ) is nomal behavior.
This is a solution to a this bug problem.
ruby 2.5.3p105 (2018-10-18 revision 65156) [x64-mingw32]
bregonig.dll Ver.4.12 with Onigmo 6.1.2
791デフォルトの名無しさん
2019/02/13(水) 00:35:05.11ID:HRhgNpoV 鬼雲には鬼雲を知ろうとすればするほど謎のテキストエディタの
情報が集まってくるという不思議な不具合があるがこのフィックスは不可能 :-)
情報が集まってくるという不思議な不具合があるがこのフィックスは不可能 :-)
792デフォルトの名無しさん
2019/03/07(木) 20:57:23.09ID:sEA+6w2y 今日元号の改正の準備で日付関連のコード書いてきたんだけど
>>695の置換が出来ると便利だったなという所があった
再帰が使えるのにこれが使えないのはバランス感覚に欠ける気がします
どうしてこうなった?
>>695の置換が出来ると便利だったなという所があった
再帰が使えるのにこれが使えないのはバランス感覚に欠ける気がします
どうしてこうなった?
793デフォルトの名無しさん
2019/03/12(火) 13:14:07.01ID:vSZ9R6NM 先読みの(?=huge)をつけると、後方がキャプチャーされません
そもそも前方に文字のない?=って使い方あってるでしょうか?
ちなみに言語はVB6です
そもそも前方に文字のない?=って使い方あってるでしょうか?
ちなみに言語はVB6です
794デフォルトの名無しさん
2019/03/13(水) 00:19:48.81ID:heD+eXgL Are you japanese?
Your japan language is strange.
Please show me sample codes.
Your japan language is strange.
Please show me sample codes.
795デフォルトの名無しさん
2019/03/13(水) 01:39:37.63ID:bUFEpZHr あなたの英語も変ですよ。
日本人はJapaneseとキャピタライズしてください。
日本語もjapan languageではなくJapanese languageです。
Japaneseだけで日本語という意味になりますが、前の文で日本人という意味で使っているのでlanguageを付けるのはいい判断でした。
また最後の文は、どうしても複数の例を見たいことを強調するのでない限りcodesではなくのcodeがふつうです。
不定冠詞のaも付けません。(絶対にただひとつの例だけ欲しいのでない限り)
日本人はJapaneseとキャピタライズしてください。
日本語もjapan languageではなくJapanese languageです。
Japaneseだけで日本語という意味になりますが、前の文で日本人という意味で使っているのでlanguageを付けるのはいい判断でした。
また最後の文は、どうしても複数の例を見たいことを強調するのでない限りcodesではなくのcodeがふつうです。
不定冠詞のaも付けません。(絶対にただひとつの例だけ欲しいのでない限り)
796デフォルトの名無しさん
2019/03/13(水) 02:16:45.79ID:heD+eXgL 自分の英語力は小学生相当なのでこんなもんです
教えてくれてありがとね
教えてくれてありがとね
797デフォルトの名無しさん
2019/03/13(水) 02:29:04.73ID:Z/ka/TFK irregular expression, exactly.
798デフォルトの名無しさん
2019/03/13(水) 08:53:04.20ID:heD+eXgL I am good at irregular expression.
799デフォルトの名無しさん
2019/03/13(水) 14:12:32.68ID:ZUOT1OTB nativeのひとに「あなた英語上手ですね」って言われても誉め言葉じゃないからな
その時点で下に観られてる
その時点で下に観られてる
800デフォルトの名無しさん
2019/03/14(木) 17:54:44.14ID:k53fNhgw 上手ですねと言われる可能性が0なので大丈夫です
801デフォルトの名無しさん
2019/04/22(月) 20:21:53.32ID:GQt1LKrG sed
置換
1に挟まれたN個以下の0または-で構成された文字列を、同数の1で置き換える
10001→11111
100-1→11111
1---1→11111
10-0-0001→111111111
置換対象と同数の文字列で置換するというところをどう正規表現で表すかわからず、、、
よろしくお願いします
置換
1に挟まれたN個以下の0または-で構成された文字列を、同数の1で置き換える
10001→11111
100-1→11111
1---1→11111
10-0-0001→111111111
置換対象と同数の文字列で置換するというところをどう正規表現で表すかわからず、、、
よろしくお願いします
802デフォルトの名無しさん
2019/04/23(火) 05:37:05.12ID:TbAsj7lM 正規表現で数を数えるのは無理
マッチさせて自力で文字を数えるコード書いて入れ替えて
ちなみに\Gが使える正規表現環境なら正規表現単独で可能
マッチさせて自力で文字を数えるコード書いて入れ替えて
ちなみに\Gが使える正規表現環境なら正規表現単独で可能
803デフォルトの名無しさん
2019/04/23(火) 07:05:11.04ID:k/th3sVe >>801
sed ':r; s/1[0-]\([0-]*1\)/11\1/; tr'
前方に 1 のある 10 を 11 に置換する
置換に成功したら tラベル で :ラベル の位置に戻って繰り返す
sed ':r; s/1[0-]\([0-]*1\)/11\1/; tr'
前方に 1 のある 10 を 11 に置換する
置換に成功したら tラベル で :ラベル の位置に戻って繰り返す
804デフォルトの名無しさん
2019/04/23(火) 08:49:46.57ID:ef59e0DS805デフォルトの名無しさん
2019/04/23(火) 10:21:33.54ID:yIB0exXp806デフォルトの名無しさん
2019/04/23(火) 11:46:04.64ID:ef59e0DS807デフォルトの名無しさん
2019/04/23(火) 12:07:17.02ID:yIB0exXp >>806
()で囲うとなってれば入れ子のケースは当然問題になるんだから
入れ子を考慮する必要があるかを明確に定義してないのは駄目な仕様。
10-以外が現れた場合の扱いも明記されていない
→現れることはないとみなしている
んだから
100010は現れないと想定して書く選択肢もある。
いずれにしろ、不明瞭な仕様を書く奴は無能だし、
勝手に解釈するのも実際の仕事じゃトラブルの元。
()で囲うとなってれば入れ子のケースは当然問題になるんだから
入れ子を考慮する必要があるかを明確に定義してないのは駄目な仕様。
10-以外が現れた場合の扱いも明記されていない
→現れることはないとみなしている
んだから
100010は現れないと想定して書く選択肢もある。
いずれにしろ、不明瞭な仕様を書く奴は無能だし、
勝手に解釈するのも実際の仕事じゃトラブルの元。
808デフォルトの名無しさん
2019/04/23(火) 12:23:27.03ID:ZY45SR7V Ruby なら、
re = /1([^1]+)1/ # 1~1 で、はさまれた部分
str = "x10-0y0-1x"
# $1 は、capture 部分で、0-0y0-。この部分を置換する。
# 結果は、x1 (111y11) 1x
p str.sub( re ) { |s| "1" + $1.gsub( /[0-]/, "1" ) + "1" }
re = /1([^1]+)1/ # 1~1 で、はさまれた部分
str = "x10-0y0-1x"
# $1 は、capture 部分で、0-0y0-。この部分を置換する。
# 結果は、x1 (111y11) 1x
p str.sub( re ) { |s| "1" + $1.gsub( /[0-]/, "1" ) + "1" }
809デフォルトの名無しさん
2019/04/23(火) 12:38:52.51ID:ef59e0DS >>807
反論と取られたのかな
反論でも賛意でもないよ
個人的には>>801が「よい定義や仕様」とは欠片も思わない一方で「ダメダメ」とも思わない
組んでいく中で詳細を詰めていくことも現実としてある
あなたが求めているようながっちり仕様が決まっていたらむしろやることなんてほぼないかも
単に日本語を翻訳する作業になるのでむしろ苦痛かな…
そこまで詰められるなら日本語で指示しないで自分で書けよと思ってしまうかも
スレ的に読み替えればがっちり仕様を出した上で「これは正規表現で可能か?」という命題に繋がるのでスレでがっちり仕様を出すなと言う意味ではないです(念為)
仕事でもなし頭の体操的にてきとーに答えてるだけなんでこれくらいなら気にしない派
反論と取られたのかな
反論でも賛意でもないよ
個人的には>>801が「よい定義や仕様」とは欠片も思わない一方で「ダメダメ」とも思わない
組んでいく中で詳細を詰めていくことも現実としてある
あなたが求めているようながっちり仕様が決まっていたらむしろやることなんてほぼないかも
単に日本語を翻訳する作業になるのでむしろ苦痛かな…
そこまで詰められるなら日本語で指示しないで自分で書けよと思ってしまうかも
スレ的に読み替えればがっちり仕様を出した上で「これは正規表現で可能か?」という命題に繋がるのでスレでがっちり仕様を出すなと言う意味ではないです(念為)
仕事でもなし頭の体操的にてきとーに答えてるだけなんでこれくらいなら気にしない派
810デフォルトの名無しさん
2019/04/23(火) 13:02:53.90ID:k/th3sVe % printf '100010\n1000101\n' | sed ':r; s/1[0-]\([0-]*1\)/11\1\n/; tr; s/\n//g'
111110
1111101
%
111110
1111101
%
811801
2019/04/23(火) 13:49:39.47ID:CFFnqXFD 問題が曖昧であったため議論を紛糾させてしまいました。すみません。
たしかに入れ子のことや、一致する最初の文字列か、最長か、01-以外の文字の存在などを明確に記載できていませんでした。
今回の問題で聞きたかったことをシンプルに表現すると、検索文字列の文字数(1~N個)に依存した置換が可能なのか、になります。
そこについては先の人が回答してくださった通り、文字数を記憶しておくような処理は不可能であるから正規表現の範疇ではないと思いました。
これまでの意見から当初目的ではないものの多くのヒントをもらいました。ありがとうございました。
問題提示者としていたらないながら、この話はクローズさせていただきます。
たしかに入れ子のことや、一致する最初の文字列か、最長か、01-以外の文字の存在などを明確に記載できていませんでした。
今回の問題で聞きたかったことをシンプルに表現すると、検索文字列の文字数(1~N個)に依存した置換が可能なのか、になります。
そこについては先の人が回答してくださった通り、文字数を記憶しておくような処理は不可能であるから正規表現の範疇ではないと思いました。
これまでの意見から当初目的ではないものの多くのヒントをもらいました。ありがとうございました。
問題提示者としていたらないながら、この話はクローズさせていただきます。
812デフォルトの名無しさん
2019/04/23(火) 13:52:46.13ID:yIB0exXp >>809
反論だなんて受取ってないから妄想やめて。
定義が曖昧過ぎてねえ…
としか言ってないから。
01-以外でいいのか、1.*1でいいのか
などなど要件がこんな不明瞭じゃねえ
と言う話しかしてないのであしからず。
反論だなんて受取ってないから妄想やめて。
定義が曖昧過ぎてねえ…
としか言ってないから。
01-以外でいいのか、1.*1でいいのか
などなど要件がこんな不明瞭じゃねえ
と言う話しかしてないのであしからず。
813デフォルトの名無しさん
2019/04/23(火) 13:54:41.14ID:yIB0exXp814デフォルトの名無しさん
2019/04/23(火) 15:45:58.43ID:ef59e0DS816デフォルトの名無しさん
2019/04/23(火) 19:20:56.30ID:GneiHx9I まーまー、ここはわしの顔を立てて双方おとなしくしてくれまいか。
817デフォルトの名無しさん
2019/04/23(火) 19:41:58.96ID:ef59e0DS818デフォルトの名無しさん
2019/04/23(火) 19:46:57.33ID:yIB0exXp819デフォルトの名無しさん
2019/04/24(水) 19:37:45.85ID:kN2xWSes 質問者の例題は数に応じた置換の簡単なサンプルが欲しくて書いたものだと思う
再帰的に無理やり導くクソコードなんて書かれても迷惑なだけでしょ
再帰的に無理やり導くクソコードなんて書かれても迷惑なだけでしょ
820デフォルトの名無しさん
2019/04/24(水) 21:35:46.86ID:SVxlletW 端からは大人と子供
ご愁傷様
ご愁傷様
821デフォルトの名無しさん
2019/04/25(木) 02:00:13.99ID:nkf4NYVZ pythonスレで似たテーマ観たからマルチ認定
822デフォルトの名無しさん
2019/04/26(金) 22:15:29.45ID:pXwlHtT3 sedとpythonじゃまるで違うから別件だろうな
>>817
勘違いして迷惑かけた分際で「ぐちぐち」って言葉を使うか普通..
というかこの文体、昔セガBBSにいた南瓜さんという人にそっくりだな
別人だろうけど思い出してワロタ
>>817
勘違いして迷惑かけた分際で「ぐちぐち」って言葉を使うか普通..
というかこの文体、昔セガBBSにいた南瓜さんという人にそっくりだな
別人だろうけど思い出してワロタ
823デフォルトの名無しさん
2019/04/26(金) 22:34:09.92ID:7hEPz6dq しばらくぶりにノゾいたらワロタ
ID:yIB0exXp
http://hissi.org/read.php/tech/20190423/eUlCMGV4WHA.html
平日の朝から晩まで
内容がとっても抽象的
ネット弁慶クンってホントにいるんだな!w
ID:yIB0exXp
http://hissi.org/read.php/tech/20190423/eUlCMGV4WHA.html
平日の朝から晩まで
内容がとっても抽象的
ネット弁慶クンってホントにいるんだな!w
824デフォルトの名無しさん
2019/04/26(金) 23:09:55.86ID:DINb0EDe マ板恒例、湿度高めの展開になってきましたー
825デフォルトの名無しさん
2019/04/27(土) 13:12:59.58ID:W9D3URJl オブジェクト指向最高さんは今回まったく落ち度が無い
迷惑かけといて素直に謝ることも出来ないくそコード製造機はもう来なくていい
迷惑かけといて素直に謝ることも出来ないくそコード製造機はもう来なくていい
826デフォルトの名無しさん
2019/04/27(土) 21:25:24.59ID:CxhHumup 翌日以降もこんな感じですよ
ttp://hissi.org/read.php/tech/20190424/M1dYN3QzOXA.html
ttp://hissi.org/read.php/tech/20190425/VThrOUNyV3U.html
ttp://hissi.org/read.php/tech/20190426/NGZaS2JZWkg.html
ttp://hissi.org/read.php/tech/20190427/QzZmMHJVWmE.html
こちらで引き取ってもらえませんか?
ttp://hissi.org/read.php/tech/20190424/M1dYN3QzOXA.html
ttp://hissi.org/read.php/tech/20190425/VThrOUNyV3U.html
ttp://hissi.org/read.php/tech/20190426/NGZaS2JZWkg.html
ttp://hissi.org/read.php/tech/20190427/QzZmMHJVWmE.html
こちらで引き取ってもらえませんか?
827デフォルトの名無しさん
2019/05/04(土) 22:49:23.33ID:Wy3P56AZ 引き取ってくれてありがとう~(^。^)
828デフォルトの名無しさん
2019/05/29(水) 23:29:43.55ID:NoMeOMsF よろしくお願い致します。
●Regular Expressionの使用環境
Python 3.7
●検索か置換か?
検索
●説明
3つ目と4つ目のダブルクオートの間の文字列を探す
●対象データ
"文字列1":[1000:"文字列2"]
●希望する結果
文字列2
●Regular Expressionの使用環境
Python 3.7
●検索か置換か?
検索
●説明
3つ目と4つ目のダブルクオートの間の文字列を探す
●対象データ
"文字列1":[1000:"文字列2"]
●希望する結果
文字列2
829デフォルトの名無しさん
2019/05/30(木) 07:22:28.54ID:NTWA4E5y830デフォルトの名無しさん
2019/05/30(木) 08:48:50.22ID:ZbLZAkBS >>829
文字列1が空だと空振るのでいっそベタ書きするかな
それと対象の規模によっては計算量も30%少なくて済む
"[^"]*"[^"]*"([^"]*)"
くどいーと思ってまとめてみても
"(?:[^"]*"){2}([^"]*)"
若干悪化して15%offくらいに留まる
文字列1が空だと空振るのでいっそベタ書きするかな
それと対象の規模によっては計算量も30%少なくて済む
"[^"]*"[^"]*"([^"]*)"
くどいーと思ってまとめてみても
"(?:[^"]*"){2}([^"]*)"
若干悪化して15%offくらいに留まる
831デフォルトの名無しさん
2019/05/30(木) 09:14:01.64ID:js+SNbQS やっぱり可変長の戻り読み使えないなら後方参照で抜き出すしかないよね
というか正規表現以外で抜き出した方が処理軽いんじゃ
というか正規表現以外で抜き出した方が処理軽いんじゃ
832デフォルトの名無しさん
2019/05/30(木) 10:41:49.43ID:NTWA4E5y833デフォルトの名無しさん
2019/05/30(木) 16:00:31.98ID:0UuZnvit834デフォルトの名無しさん
2019/06/12(水) 18:51:34.75ID:8qMgnvIv 正規表現で全角記号だけ抜き出す事はできますか?
★ファイル名
みたいにして先頭に来るようにしてたんですが、全角記号はエラーおこすことがあるようです
★ファイル名
みたいにして先頭に来るようにしてたんですが、全角記号はエラーおこすことがあるようです
835デフォルトの名無しさん
2019/06/12(水) 20:16:21.08ID:ATCcrAWn なんの処理系か書けよな
836デフォルトの名無しさん
2019/06/12(水) 20:18:49.53ID:0U8oWwW8 使用する文字コードも
837デフォルトの名無しさん
2019/06/17(月) 00:16:17.89ID:ks+4WGLz 助けてください。おながいします
●Regular Expressionの使用環境
Sakura Editor
(begonig.dll ver.3.06 with Onigmo 5.15.0)
●検索か置換か?
検索
●説明
日本語の文章の中に、全角英字が混じっています。
「全角英字の単語直後の任意の1文字」をマッチさせたいです。
(?<=[a-zA-Z]+).
でいけると思ったのですが、invalid pattern in look-behindでエラーになってしまいます。
どうもDLLの仕様で肯定後読みの式は固定文字長でなければならないらしく、代替案がないかなーと……
●対象データ
ああいいいabcうABCえおかきくけ
●希望する結果
「う」、「え」の2か所
●Regular Expressionの使用環境
Sakura Editor
(begonig.dll ver.3.06 with Onigmo 5.15.0)
●検索か置換か?
検索
●説明
日本語の文章の中に、全角英字が混じっています。
「全角英字の単語直後の任意の1文字」をマッチさせたいです。
(?<=[a-zA-Z]+).
でいけると思ったのですが、invalid pattern in look-behindでエラーになってしまいます。
どうもDLLの仕様で肯定後読みの式は固定文字長でなければならないらしく、代替案がないかなーと……
●対象データ
ああいいいabcうABCえおかきくけ
●希望する結果
「う」、「え」の2か所
838デフォルトの名無しさん
2019/06/17(月) 02:22:40.96ID:FPrxRapn (?<=[a-zA-Z])[^a-zA-Z]
839デフォルトの名無しさん
2019/06/17(月) 06:40:06.13ID:LXSfy5ij840デフォルトの名無しさん
2019/06/17(月) 21:52:38.33ID:ks+4WGLz841デフォルトの名無しさん
2019/06/18(火) 22:51:14.09ID:y1gFJJpS ちょっとした疑問
アラビア語のような右書き言葉だと正規表現をどう書くのだろう
文字列も正規表現も右書きだから、/xyz$/ は /$zyx/ ?
(レス不要です)
アラビア語のような右書き言葉だと正規表現をどう書くのだろう
文字列も正規表現も右書きだから、/xyz$/ は /$zyx/ ?
(レス不要です)
842デフォルトの名無しさん
2019/06/19(水) 05:02:00.28ID:tVNS+22r 【出資】松本卓朗 人工知能詐欺【注意】
https://rio2016.5ch.net/test/read.cgi/rikei/1560859403/
https://rio2016.5ch.net/test/read.cgi/rikei/1560859403/
843デフォルトの名無しさん
2019/06/19(水) 14:27:57.27ID:Yoy0IPRe いし正が左らか右は語本日
844デフォルトの名無しさん
2019/06/23(日) 22:51:37.03ID:WHM6Ibwm >>834
理論上は
|
で全部やればできる
ちょうど単なる全角(
1文字が2つの幅をもつ
ロシアの言語なども2幅
)
を捉えようとしていたので道具を紹介
https://i.imgur.com/9l39lUv.jpg
正規表現は (.) で1文字を習得し
バイト数が1でないものを拾うロジック
理論上は
|
で全部やればできる
ちょうど単なる全角(
1文字が2つの幅をもつ
ロシアの言語なども2幅
)
を捉えようとしていたので道具を紹介
https://i.imgur.com/9l39lUv.jpg
正規表現は (.) で1文字を習得し
バイト数が1でないものを拾うロジック
845デフォルトの名無しさん
2019/06/24(月) 06:26:17.63ID:F4CLQWNj ttps://so-zou.jp/software/tech/programming/tech/regular-expression/meta-character/variable-width-encoding.htm
こういうので全角記号だけさっくり選ばせろって事なんだろうけど
全角半角はユニコードだとフォント依存なので曖昧
ascii 以外って意味で言ってるんだろうけど
恐らく"ファイル名"て事からSJisの範疇外の文字って事かなと
こういうので全角記号だけさっくり選ばせろって事なんだろうけど
全角半角はユニコードだとフォント依存なので曖昧
ascii 以外って意味で言ってるんだろうけど
恐らく"ファイル名"て事からSJisの範疇外の文字って事かなと
846デフォルトの名無しさん
2019/06/24(月) 21:23:57.79ID:4+LiJo6+ 一文字決めうち かつ あらっぽいコレクション
vim の :h digraphs には結構ある
[??????????▲△??▼▽??◆◇?○◎●??????★☆?????♀♂?????♪?♭?♯??? 、。〃?々〆〇《》]
vim の :h digraphs には結構ある
[??????????▲△??▼▽??◆◇?○◎●??????★☆?????♀♂?????♪?♭?♯??? 、。〃?々〆〇《》]
847デフォルトの名無しさん
2019/06/24(月) 21:24:32.12ID:4+LiJo6+ [??????????▲△??▼▽??◇?○◎●??????★☆?????♀♂?????♪?♭?♯??? 、。〃?々〆〇《》]
848デフォルトの名無しさん
2019/06/24(月) 21:24:52.95ID:4+LiJo6+ [??????????△??▼▽??◆◇?○◎●??????★☆?????♀♂?????♪?♭?♯??? 、。〃?々〆〇《》]
849デフォルトの名無しさん
2019/06/24(月) 21:28:31.79ID:4+LiJo6+ おわった
NG word 群が正規表現を妨げる
一文字限定なら [] の処理が早い
vim の :h digraphs
には 1300個ぐらいの 記号を含むデータリストがあるから
それから組みたてやすい とおもう
NG word 群が正規表現を妨げる
一文字限定なら [] の処理が早い
vim の :h digraphs
には 1300個ぐらいの 記号を含むデータリストがあるから
それから組みたてやすい とおもう
850デフォルトの名無しさん
2019/06/24(月) 21:56:38.71ID:meJBThiE NGワードと文字化けの区別ができない人は書き込んじゃダメ。
851デフォルトの名無しさん
2019/06/24(月) 23:17:52.70ID:4+LiJo6+ そういえばブラウザに NG word に指定したのは自分だった
あらしが記号を使ってたことがあったので
あらしが記号を使ってたことがあったので
852デフォルトの名無しさん
2019/06/25(火) 07:18:11.77ID:0Do2GL77 荒らしが記号を使うことと書き込みを制限することに全く関連が無い
853デフォルトの名無しさん
2019/06/25(火) 08:36:20.64ID:Y04/VZ6Y854デフォルトの名無しさん
2019/07/08(月) 00:38:09.05ID:m6vFYfK4 ●Regular Expressionの使用環境
サクラエディタ(か秀丸エディタ)
●検索か置換か?
置換
●説明
不定回数のパターンを置換したい。
●対象データ
[A=a,A=b,A=c,A=d,・・・・]
・・・・の部分はどこまで続くのかは決まってない。が、多くても20個くらい
●希望する結果
A=a,b,c,d・・・・
サクラエディタ(か秀丸エディタ)
●検索か置換か?
置換
●説明
不定回数のパターンを置換したい。
●対象データ
[A=a,A=b,A=c,A=d,・・・・]
・・・・の部分はどこまで続くのかは決まってない。が、多くても20個くらい
●希望する結果
A=a,b,c,d・・・・
855デフォルトの名無しさん
2019/07/08(月) 05:29:01.40ID:9IE9wmRC (?<!^)A=
856854
2019/07/08(月) 23:27:17.45ID:Rb/08H3f >>855
ありがとうございます。
否定戻り読みってこうやって使うのですね。
もうちょっと深掘りして以下の場合どのようになるでしょう。
■対象データ
[A=a OR A=b OR A=c OR A=d・・・・]
[B=d OR B=c OR B=b OR B=a・・・・]
[C=a OR C=b OR C=c OR C=d・・・・]
■希望結果
A=a,b,c,d
B=d,c,b,a
C=a,b,c,d
ORの部分が難しくて混乱しています。。
ありがとうございます。
否定戻り読みってこうやって使うのですね。
もうちょっと深掘りして以下の場合どのようになるでしょう。
■対象データ
[A=a OR A=b OR A=c OR A=d・・・・]
[B=d OR B=c OR B=b OR B=a・・・・]
[C=a OR C=b OR C=c OR C=d・・・・]
■希望結果
A=a,b,c,d
B=d,c,b,a
C=a,b,c,d
ORの部分が難しくて混乱しています。。
857デフォルトの名無しさん
2019/07/10(水) 08:43:33.27ID:WA2fRW/e \s++OR\s++.=
,
,
858デフォルトの名無しさん
2019/07/10(水) 09:18:54.80ID:StxWbt+s ここの住民の正規表現能力は超人的だ
お節介させてくれ
もし使用環境に perl があれば、
ウルトラ難しい正規表現を理解可能な小さなパーツに分類できる
cat /dev/clipboard
[A=a OR A=b OR A=c OR A=d・・・・]
[B=d OR B=c OR B=b OR B=a・・・・]
[C=a OR C=b OR C=c OR C=d・・・・]
cat /dev/clipboard | perl -ne 'if ( m{^ \[ ( \w+ [=] ) }xcm) {print $1}; { if ( m{ = (\w+) \s }xcg ) {print "$1,"; redo} if ( m{ = (\w+) \S }xc ) {print "$1\n"} }'
A=a,b,c,d
B=d,c,b,a
C=a,b,c,d
お節介させてくれ
もし使用環境に perl があれば、
ウルトラ難しい正規表現を理解可能な小さなパーツに分類できる
cat /dev/clipboard
[A=a OR A=b OR A=c OR A=d・・・・]
[B=d OR B=c OR B=b OR B=a・・・・]
[C=a OR C=b OR C=c OR C=d・・・・]
cat /dev/clipboard | perl -ne 'if ( m{^ \[ ( \w+ [=] ) }xcm) {print $1}; { if ( m{ = (\w+) \s }xcg ) {print "$1,"; redo} if ( m{ = (\w+) \S }xc ) {print "$1\n"} }'
A=a,b,c,d
B=d,c,b,a
C=a,b,c,d
859デフォルトの名無しさん
2019/07/10(水) 09:35:40.67ID:StxWbt+s そして同じような形を処理するのに
必要な正規表現が大きく変わったりしない
cat /dev/clipboard
[A=a,A=b,A=c,A=d,A=e,A=f,A=g,A=h,A=i,A=j]
cat /dev/clipboard | perl -ne 'if ( m{^ \[ ( \w+ [=] ) }xcm) {print $1}; { if ( m{ = ( \w+ [,] ) }cxg ) {print "$1"; redo} if ( m{ = (\w+) [^,] }xc ) {print "$1\n"} }'
A=a,b,c,d,e,f,g,h,i,j
必要な正規表現が大きく変わったりしない
cat /dev/clipboard
[A=a,A=b,A=c,A=d,A=e,A=f,A=g,A=h,A=i,A=j]
cat /dev/clipboard | perl -ne 'if ( m{^ \[ ( \w+ [=] ) }xcm) {print $1}; { if ( m{ = ( \w+ [,] ) }cxg ) {print "$1"; redo} if ( m{ = (\w+) [^,] }xc ) {print "$1\n"} }'
A=a,b,c,d,e,f,g,h,i,j
860854
2019/07/11(木) 01:01:12.77ID:/KpWZOtx861デフォルトの名無しさん
2019/07/11(木) 21:00:44.92ID:SCYCuKB+862デフォルトの名無しさん
2019/07/13(土) 20:47:25.54ID:57lWPs8z 動作についての質問です。よろしくお願いします。
●Regular Expressionの使用環境
JavaScript (chrome)
●検索か置換か?
検索
●説明
'@time;prop1:style1;prop2:style2'.match(/(^|[@;])[^@;]*/g); が
["", ";prop1:style1", ";prop2:style2"] になる理由が分かりません。私の理解では、
["", "@time",";prop1:style1", ";prop2:style2"] となって欲しいところです。
どなたか説明お願いします。
^は文字列検索位置を「動かさない」と認識しています。
(以前は「動かす」と誤認識していましたが、何かで見解を改められたことを記憶しています)
●対象データ
ID@time;style 形式の指定で、
ID、time、styleの省略は全てありで、timeとstyleの順序は自由(IDは必ず先頭)
@開始はtime指定、それ以外はstyle指定とし、デリミタは ; としています。
この形式で任意の文字列(ユーザー入力)を処理します。
なお、'@time;prop1:style1;prop2:style2'.match(/(^.|[@;])[^@;]*/g); では希望の解
["@time", ";prop1:style1", ";prop2:style2"] を得られていますが、
デバッグ中に上記に引っかかったので、分かりましたらよろしくお願いいたします。
●Regular Expressionの使用環境
JavaScript (chrome)
●検索か置換か?
検索
●説明
'@time;prop1:style1;prop2:style2'.match(/(^|[@;])[^@;]*/g); が
["", ";prop1:style1", ";prop2:style2"] になる理由が分かりません。私の理解では、
["", "@time",";prop1:style1", ";prop2:style2"] となって欲しいところです。
どなたか説明お願いします。
^は文字列検索位置を「動かさない」と認識しています。
(以前は「動かす」と誤認識していましたが、何かで見解を改められたことを記憶しています)
●対象データ
ID@time;style 形式の指定で、
ID、time、styleの省略は全てありで、timeとstyleの順序は自由(IDは必ず先頭)
@開始はtime指定、それ以外はstyle指定とし、デリミタは ; としています。
この形式で任意の文字列(ユーザー入力)を処理します。
なお、'@time;prop1:style1;prop2:style2'.match(/(^.|[@;])[^@;]*/g); では希望の解
["@time", ";prop1:style1", ";prop2:style2"] を得られていますが、
デバッグ中に上記に引っかかったので、分かりましたらよろしくお願いいたします。
863デフォルトの名無しさん
2019/07/13(土) 23:13:26.72ID:57lWPs8z 正規表現の問題ではなくJavaScript固有の問題のようなので、質問を閉じ、
JavaScriptスレにて質問し直します。
興味のある方は以下をご覧ください。(これからすぐ投稿します)
https://mevius.5ch.net/test/read.cgi/tech/1417749547/341-
JavaScriptスレにて質問し直します。
興味のある方は以下をご覧ください。(これからすぐ投稿します)
https://mevius.5ch.net/test/read.cgi/tech/1417749547/341-
864デフォルトの名無しさん
2019/07/13(土) 23:31:59.74ID:57lWPs8z すいません自己解決しましたが一応。以下となりました。
https://mevius.5ch.net/test/read.cgi/tech/1417749547/341-342
https://mevius.5ch.net/test/read.cgi/tech/1417749547/341-342
865デフォルトの名無しさん
2019/07/14(日) 04:59:50.53ID:XILHsvHP この質問内容ならここで合ってます、jsスレよりもこのスレ向きです
正規表現には統一規格みたいなものは存在しないので環境によって動作が異なります
このスレの住民なら2番目のマッチが t から始まる環境も想定します
["","time", ";prop1:style1", ";prop2:style2"]
詳しい仕様を知らなくても動作を確認するコードを作っていろいろ試すと
どう動く環境なのかだいたい分かってしまうことが多いです
正規表現には統一規格みたいなものは存在しないので環境によって動作が異なります
このスレの住民なら2番目のマッチが t から始まる環境も想定します
["","time", ";prop1:style1", ";prop2:style2"]
詳しい仕様を知らなくても動作を確認するコードを作っていろいろ試すと
どう動く環境なのかだいたい分かってしまうことが多いです
866デフォルトの名無しさん
2019/07/14(日) 08:17:29.28ID:LdVrbIxu >>865
> 正規表現には統一規格みたいなものは存在しないので環境によって動作が異なります
これは知ってますがBREの範囲だと当然間違いなく動くし、
ほぼPCREに向けて統一中、といったところなのでは?
まあやたら複雑になってバックトラッキング等の問題が発生し、
結果的に速いライブラリに収束して行っているのはいいことだと思いますが。
> このスレの住民なら2番目のマッチが t から始まる環境も想定します
> ["","time", ";prop1:style1", ";prop2:style2"]
これは一応アウトなのでは?正規表現自体はデリミタごと取り込もうとしており、それが出来ていません。
これを言うならJavaScriptもアウトですが。
個人的にはJavaScriptは面白いのですが仕様がイマイチなところが散見されるのが難点ですね。
それが初心者に無用な混乱を引き起こし、上達の妨げになっている。
今回私も数時間無駄にしましたが、これが初心者だと脱出出来なくて誤解したままになってしまう。
そして本人はそれを自覚出来ず、Web上に間違った情報を垂れ流し、馬鹿が再生産されるというループになっている。
この意味では正規表現の現在の状況も同じようなものですが、
正規表現は「実装の幅がものすごくある」と共有されているだけまだましです。
JavaScriptの連中はその間違った実装を「正しい」と思いこんでいたりするので、会話が成立しません。
といってもJavaScriptのString.matchの仕様バグを今更直すことも出来ず、未来永劫このままだと思いますが。
> 正規表現には統一規格みたいなものは存在しないので環境によって動作が異なります
これは知ってますがBREの範囲だと当然間違いなく動くし、
ほぼPCREに向けて統一中、といったところなのでは?
まあやたら複雑になってバックトラッキング等の問題が発生し、
結果的に速いライブラリに収束して行っているのはいいことだと思いますが。
> このスレの住民なら2番目のマッチが t から始まる環境も想定します
> ["","time", ";prop1:style1", ";prop2:style2"]
これは一応アウトなのでは?正規表現自体はデリミタごと取り込もうとしており、それが出来ていません。
これを言うならJavaScriptもアウトですが。
個人的にはJavaScriptは面白いのですが仕様がイマイチなところが散見されるのが難点ですね。
それが初心者に無用な混乱を引き起こし、上達の妨げになっている。
今回私も数時間無駄にしましたが、これが初心者だと脱出出来なくて誤解したままになってしまう。
そして本人はそれを自覚出来ず、Web上に間違った情報を垂れ流し、馬鹿が再生産されるというループになっている。
この意味では正規表現の現在の状況も同じようなものですが、
正規表現は「実装の幅がものすごくある」と共有されているだけまだましです。
JavaScriptの連中はその間違った実装を「正しい」と思いこんでいたりするので、会話が成立しません。
といってもJavaScriptのString.matchの仕様バグを今更直すことも出来ず、未来永劫このままだと思いますが。
867デフォルトの名無しさん
2019/07/14(日) 10:58:08.46ID:wR6d2dgQ PCREに向けて統一中なんてどんな根拠で喋ってんだ
regex101で試してみれば分かるけどPCRE使ってるPHP以外のPython, ECMAScript, Goは全滅だぞ
regex101で試してみれば分かるけどPCRE使ってるPHP以外のPython, ECMAScript, Goは全滅だぞ
868デフォルトの名無しさん
2019/07/14(日) 12:13:01.78ID:LdVrbIxu >>867
ゴミという意味でだろ。
逆にお前はどう思ってるんだ?
JavaScriptのString.matchについては単にパッチを実装する場所を間違えただけ。
結果、String.match と RegExp.exec での結果が異なるという、言語内での不一致を引き起こしてる。
そしてこれはもう修正されることはない。
仕様バグとして永久に残り、プログラマに無駄な時間を消費させるだけのものとなる。
結果、言語が腐っていく。
正しくは RegExp.exec 側を修正し、両方とも無限ループにならずに
["", "@time",";prop1:style1", ";prop2:style2"]
を返すべきだった。
RegExp.lastIndex だけで状態管理出来ると「間違えた」からそうなった。
本来は先頭マッチフラグ RegExp.canMatchHead みたいなのが必要で、それを実装すれば両方とも正しい結果を返せた。
それを実装せず、String.match に間違ったパッチを当てたからそうなった。
これは実装者(おそらくブレンダンアイク本人)の判断ミスだ。
正規表現はPerlが再定義したと言っていい状況だ。だからみんなPCREを見てる。
PHPはさっさと取り込んだ。これは正しい判断だ。
JavaScriptはPCREを見てる。というか本来は取り込みたいのだろうが、上記のように今更部分がありすぎる。
Pythonには歴史的経緯があるのだろう、状況は知らん。
Goは最初から既にゴミだ。確実に廃れるだろうし、俺もそれを願っている。
そもそもGoなんてPCREが覇権取ったあとに出てきたのにPCREを採用してない時点でゴミ。
それ以外にもあの言語は独自路線を行き過ぎていて、ユーザーに無駄な勉強時間を強いている。
結果、既に他言語で慣らした強者が近づかず、結果的に馬鹿の楽園になってWeb系の馬鹿共に大受けしてるだけ。
Goの正規表現については詳しくは知らんが、仮にそれが奇妙な振る舞いをしたとして、お前はGo側の怠慢だと思わないのか?
JavaScriptやPython等それなりの歴史があるのならともかく、Goの場合は確実に防げた問題でしかない。
連中はそれを「わざと」やらなかったんだぞ。俺はそんな言語は支持しないし、ゴミだと何度でも断言する。
いずれにしても、今からの初心者が学ぶべきはPCREだろ。
お前は何が言いたいんだ?
ゴミという意味でだろ。
逆にお前はどう思ってるんだ?
JavaScriptのString.matchについては単にパッチを実装する場所を間違えただけ。
結果、String.match と RegExp.exec での結果が異なるという、言語内での不一致を引き起こしてる。
そしてこれはもう修正されることはない。
仕様バグとして永久に残り、プログラマに無駄な時間を消費させるだけのものとなる。
結果、言語が腐っていく。
正しくは RegExp.exec 側を修正し、両方とも無限ループにならずに
["", "@time",";prop1:style1", ";prop2:style2"]
を返すべきだった。
RegExp.lastIndex だけで状態管理出来ると「間違えた」からそうなった。
本来は先頭マッチフラグ RegExp.canMatchHead みたいなのが必要で、それを実装すれば両方とも正しい結果を返せた。
それを実装せず、String.match に間違ったパッチを当てたからそうなった。
これは実装者(おそらくブレンダンアイク本人)の判断ミスだ。
正規表現はPerlが再定義したと言っていい状況だ。だからみんなPCREを見てる。
PHPはさっさと取り込んだ。これは正しい判断だ。
JavaScriptはPCREを見てる。というか本来は取り込みたいのだろうが、上記のように今更部分がありすぎる。
Pythonには歴史的経緯があるのだろう、状況は知らん。
Goは最初から既にゴミだ。確実に廃れるだろうし、俺もそれを願っている。
そもそもGoなんてPCREが覇権取ったあとに出てきたのにPCREを採用してない時点でゴミ。
それ以外にもあの言語は独自路線を行き過ぎていて、ユーザーに無駄な勉強時間を強いている。
結果、既に他言語で慣らした強者が近づかず、結果的に馬鹿の楽園になってWeb系の馬鹿共に大受けしてるだけ。
Goの正規表現については詳しくは知らんが、仮にそれが奇妙な振る舞いをしたとして、お前はGo側の怠慢だと思わないのか?
JavaScriptやPython等それなりの歴史があるのならともかく、Goの場合は確実に防げた問題でしかない。
連中はそれを「わざと」やらなかったんだぞ。俺はそんな言語は支持しないし、ゴミだと何度でも断言する。
いずれにしても、今からの初心者が学ぶべきはPCREだろ。
お前は何が言いたいんだ?
869デフォルトの名無しさん
2019/07/14(日) 12:35:52.54ID:QmWR+pGh ゼロ幅で永久にマッチし続けるのになんで@timeに進めると思うの?
870デフォルトの名無しさん
2019/07/14(日) 13:05:26.62ID:LdVrbIxu >>869
お前は実装と仕様の違いを理解出来てないタイプだな。
String.matchは「マッチ全部を配列で返す」メソッドだ。
当然、無限ループなんてしてはいけない。
(ただし無限ループしない為に空文字マッチだと一文字進めるパッチだから仕様バグになってるが)
RegExp.execは「gマッチを一つずつ実行し、ユーザーがそこで適宜処理を行う」為のメソッドだ。
当然、何もしなければ順に次のマッチをしていくのが正しく、今現在のように無限ループするようでは駄目だ。
結果、今はユーザーが本来不要なコードを毎回書く羽目になってる。
具体的に言えば、 if (match!=='') が毎回必要になる。これが無駄だ。
JavaScript界隈にはお前みたいな馬鹿が多い。
本来はどうあるべきか、或いは何故この無駄なコードが必要なのか分からず、
今の「実装」が正しいと思いこんでいるタイプだ。
動かさないと分からない、あるいは動いていればいい程度のコードしか書けないからだが。
とはいえ、今回のようなケースに遭遇するとそうなるのも分かる気はするが。
いずれにしても、これはJavaScript環境固有の問題で、ここでは割とどうでもいいと思うが。
お前が正規表現として /(^|[@;])[^@;]*/g を書いたとき、全ての環境で無限ループするべきだ!と思っているのならそれでいいが、
実際はそうではないだろ?なら無駄にいちゃもんつけるなよ。
お前は実装と仕様の違いを理解出来てないタイプだな。
String.matchは「マッチ全部を配列で返す」メソッドだ。
当然、無限ループなんてしてはいけない。
(ただし無限ループしない為に空文字マッチだと一文字進めるパッチだから仕様バグになってるが)
RegExp.execは「gマッチを一つずつ実行し、ユーザーがそこで適宜処理を行う」為のメソッドだ。
当然、何もしなければ順に次のマッチをしていくのが正しく、今現在のように無限ループするようでは駄目だ。
結果、今はユーザーが本来不要なコードを毎回書く羽目になってる。
具体的に言えば、 if (match!=='') が毎回必要になる。これが無駄だ。
JavaScript界隈にはお前みたいな馬鹿が多い。
本来はどうあるべきか、或いは何故この無駄なコードが必要なのか分からず、
今の「実装」が正しいと思いこんでいるタイプだ。
動かさないと分からない、あるいは動いていればいい程度のコードしか書けないからだが。
とはいえ、今回のようなケースに遭遇するとそうなるのも分かる気はするが。
いずれにしても、これはJavaScript環境固有の問題で、ここでは割とどうでもいいと思うが。
お前が正規表現として /(^|[@;])[^@;]*/g を書いたとき、全ての環境で無限ループするべきだ!と思っているのならそれでいいが、
実際はそうではないだろ?なら無駄にいちゃもんつけるなよ。
871デフォルトの名無しさん
2019/07/14(日) 13:21:26.40ID:XILHsvHP >>866
"t" からマッチは誤りでした、申し訳ない..
タグの外側だけ対象に置換する
http://www.din.or.jp/~ohzaki/regex.htm#ReplaceOutside
この記事の動作のことを言いたかったんですがうろ覚えのまま
適当に書いてしまいました、ごめんなさい
"t" からマッチは誤りでした、申し訳ない..
タグの外側だけ対象に置換する
http://www.din.or.jp/~ohzaki/regex.htm#ReplaceOutside
この記事の動作のことを言いたかったんですがうろ覚えのまま
適当に書いてしまいました、ごめんなさい
872デフォルトの名無しさん
2019/07/14(日) 13:28:58.74ID:wR6d2dgQ >>868
PCREに統一中だという主張の根拠を聞いたんだがそれへの回答はないわけだ
PCREが素晴らしい実装で最初に触っとけばいいというのは同意するが, それが最良だなんてのはあり得ないし単なる妄想だよ
PCREに統一中だという主張の根拠を聞いたんだがそれへの回答はないわけだ
PCREが素晴らしい実装で最初に触っとけばいいというのは同意するが, それが最良だなんてのはあり得ないし単なる妄想だよ
873デフォルトの名無しさん
2019/07/14(日) 14:15:14.24ID:LdVrbIxu >>871
ああなるほど、Perlも似たようなゴミ実装になってるな。
> そこで,Perl では空文字列に マッチするような場合には,初回は空文字列がマッチするがそれ以降は マッチせずに必ず 1文字分は進むようにマッチしようとする.
これも実装ミスだな。
正しくは、このフラグを「空文字以外のマッチごとにセット」すればいいだけで、修正は1行で済むのだが、こちらも今更なのだろう。
「初回は」というのが間違いで、「空文字にマッチした直後は」が正しい。
ついでにもっと具体的に言っておくと、「初回は」というのが正しければ、
今の実装は検索起動時にフラグをセットして空文字マッチ後にリセットしているはず。
このフラグを「空文字以外のマッチ後」に毎回セットし直すように1行入れる。これで直る。
君がPERL等のOSSか何かにcontributeする気があって修正案を出してくるのなら見てあげるけど。
(俺自身ではそこまでやる気はない)
まあしかし、JavaScriptだけがゴミじゃない、ってのは分かった。
というかもしかしてJavaScriptの実装ってPERL実装互換に敢えてしてる?
>>872
お前は何派なんだよ?
JavaScriptに関してはMDNでも前は「PCREで大体使えます」みたいな事書いてたぞ。
最近大幅リニューアルしてその記述はなくなったが。
(というより色々見にくくなってあまり確認してない)
鬼車派ならこの手の「実装ミス」をひたすら潰しておけばワンチャンあるかもしれんよ。
JavaScriptにしてもPerlにしてもこの辺のミスは確実に足枷になってる。
具体的に言うと遭遇した全プログラマが数時間ずつ無駄に検索その他をさせられる羽目になってる。
これは「新規プログラマ」からすると上達を妨げる障壁でしかない。
JavaScriptで言うと「IEデハー」な件を全部暗記してて今もそれにすがっている奴のウザさみたいなもんだ。
仕様バグがない、というのはそれなりに武器になる。
ああなるほど、Perlも似たようなゴミ実装になってるな。
> そこで,Perl では空文字列に マッチするような場合には,初回は空文字列がマッチするがそれ以降は マッチせずに必ず 1文字分は進むようにマッチしようとする.
これも実装ミスだな。
正しくは、このフラグを「空文字以外のマッチごとにセット」すればいいだけで、修正は1行で済むのだが、こちらも今更なのだろう。
「初回は」というのが間違いで、「空文字にマッチした直後は」が正しい。
ついでにもっと具体的に言っておくと、「初回は」というのが正しければ、
今の実装は検索起動時にフラグをセットして空文字マッチ後にリセットしているはず。
このフラグを「空文字以外のマッチ後」に毎回セットし直すように1行入れる。これで直る。
君がPERL等のOSSか何かにcontributeする気があって修正案を出してくるのなら見てあげるけど。
(俺自身ではそこまでやる気はない)
まあしかし、JavaScriptだけがゴミじゃない、ってのは分かった。
というかもしかしてJavaScriptの実装ってPERL実装互換に敢えてしてる?
>>872
お前は何派なんだよ?
JavaScriptに関してはMDNでも前は「PCREで大体使えます」みたいな事書いてたぞ。
最近大幅リニューアルしてその記述はなくなったが。
(というより色々見にくくなってあまり確認してない)
鬼車派ならこの手の「実装ミス」をひたすら潰しておけばワンチャンあるかもしれんよ。
JavaScriptにしてもPerlにしてもこの辺のミスは確実に足枷になってる。
具体的に言うと遭遇した全プログラマが数時間ずつ無駄に検索その他をさせられる羽目になってる。
これは「新規プログラマ」からすると上達を妨げる障壁でしかない。
JavaScriptで言うと「IEデハー」な件を全部暗記してて今もそれにすがっている奴のウザさみたいなもんだ。
仕様バグがない、というのはそれなりに武器になる。
874デフォルトの名無しさん
2019/07/14(日) 15:13:19.95ID:LdVrbIxu >>867
今更regex101で確認してみたが、PCREだけは(これに関しては)正しく通るじゃねえかよ。
Perlの「初回は」というのはつまり g の時だけおかしくなるということであり、今回は当たらないからだが。
だからJavaScriptも仮にPerl実装互換にしようとしたとしてもしくってるな。
>>871
ちなみに
> > と < は後読みと先読みにして外に出すことができるので
の意味分かる?
おそらくはバックトラックを小さくする為(つまり高速化)だと思うのだが、
実際 regex101で試す限り余計に遅くなる。
テストサンプルはそこの下の「XMLタグを加工する」の上側半分のxmlで、こちらだと
(?:^|>)(.*?)(?:$|<) の場合は 29matches, 1277steps だが
(?:^|(?<=>))(.*?)(?:$|(?=<)) の場合は 29matches, 1875stepsで、余計に遅くなってる。
格好良くはないが別に $1$2$3 で置換しても問題ないと思うのだが。
今更regex101で確認してみたが、PCREだけは(これに関しては)正しく通るじゃねえかよ。
Perlの「初回は」というのはつまり g の時だけおかしくなるということであり、今回は当たらないからだが。
だからJavaScriptも仮にPerl実装互換にしようとしたとしてもしくってるな。
>>871
ちなみに
> > と < は後読みと先読みにして外に出すことができるので
の意味分かる?
おそらくはバックトラックを小さくする為(つまり高速化)だと思うのだが、
実際 regex101で試す限り余計に遅くなる。
テストサンプルはそこの下の「XMLタグを加工する」の上側半分のxmlで、こちらだと
(?:^|>)(.*?)(?:$|<) の場合は 29matches, 1277steps だが
(?:^|(?<=>))(.*?)(?:$|(?=<)) の場合は 29matches, 1875stepsで、余計に遅くなってる。
格好良くはないが別に $1$2$3 で置換しても問題ないと思うのだが。
875デフォルトの名無しさん
2019/07/14(日) 15:29:05.53ID:XILHsvHP >>874
> > と < は後読みと先読みにして外に出すことができるので
これは文字を消費しないための措置
マッチさせたい部分以外の部分にまでマッチしてしまうと次回の
検索開始位置が意図しないところに進んでしまったりするので先読みを
使って消費しないようにします
あとあなたが言ってることにはおおむね同意です
変な挙動は無くなるといいですね、perl6に期待したいところだけど
perl6では出来る限り最長文字数のマッチを目指す挙動になると聞いたような..
自分にとっては処理が重くなるのであまり嬉しくないですね..
> > と < は後読みと先読みにして外に出すことができるので
これは文字を消費しないための措置
マッチさせたい部分以外の部分にまでマッチしてしまうと次回の
検索開始位置が意図しないところに進んでしまったりするので先読みを
使って消費しないようにします
あとあなたが言ってることにはおおむね同意です
変な挙動は無くなるといいですね、perl6に期待したいところだけど
perl6では出来る限り最長文字数のマッチを目指す挙動になると聞いたような..
自分にとっては処理が重くなるのであまり嬉しくないですね..
876デフォルトの名無しさん
2019/07/14(日) 16:03:14.68ID:LdVrbIxu >>875
ああなるほど、\G使ってるからずれるのか、確かに。
BRE出身だから個人的には最初から />[^<]*</ が第一選択肢で、
筆者の発想が意味不明だったのだが、確かにそうだな。
ここら辺は正規表現だけで何とか出来る(Perl)思想と、
BREだけではどうにもならないからざっくり切り出して自前でプログラミングする(AWK)思想の違いだな。
Perl6はガン無視されてる感があるけどね。
今更Perlで組めるかよ、というのはPerlを使っている奴自身が感じていることらしいし。
(もっとも嫌われてる言語がPerl、2017はダントツの一位、
しかし同じStackOverflow実施の2018の結果はVBでperlは落ち着いたようだが)
https://stackoverflow.blog/2017/10/31/disliked-programming-languages/
https://news.mynavi.jp/article/20180604-639227/
もしかしてPerl6って徐々に使われだしてる?
> perl6では出来る限り最長文字数のマッチを目指す挙動になると聞いたような..
ん?
全てのプログラミング言語では最長マッチがデフォ、
というかそもそも下位の正規表現(BRE等)にはそれしかないが。(non-greedyがない)
XPATH等の文書検索側の人かな?だからって別に特に問題はないが。
ああなるほど、\G使ってるからずれるのか、確かに。
BRE出身だから個人的には最初から />[^<]*</ が第一選択肢で、
筆者の発想が意味不明だったのだが、確かにそうだな。
ここら辺は正規表現だけで何とか出来る(Perl)思想と、
BREだけではどうにもならないからざっくり切り出して自前でプログラミングする(AWK)思想の違いだな。
Perl6はガン無視されてる感があるけどね。
今更Perlで組めるかよ、というのはPerlを使っている奴自身が感じていることらしいし。
(もっとも嫌われてる言語がPerl、2017はダントツの一位、
しかし同じStackOverflow実施の2018の結果はVBでperlは落ち着いたようだが)
https://stackoverflow.blog/2017/10/31/disliked-programming-languages/
https://news.mynavi.jp/article/20180604-639227/
もしかしてPerl6って徐々に使われだしてる?
> perl6では出来る限り最長文字数のマッチを目指す挙動になると聞いたような..
ん?
全てのプログラミング言語では最長マッチがデフォ、
というかそもそも下位の正規表現(BRE等)にはそれしかないが。(non-greedyがない)
XPATH等の文書検索側の人かな?だからって別に特に問題はないが。
877デフォルトの名無しさん
2019/07/15(月) 15:22:14.71ID:y88H95dP Ruby で、
str = "@time;prop1:style1;prop2:style2"
re = /((^|[@;])[^@;]*)/
p results = str.scan( re )
# [["", ""], [";prop1:style1", ";"], [";prop2:style2", ";"]]
[ 0 ]がマッチした部分、[ 1 ]がキャプチャー部分
>>862
の、["", ";prop1:style1", ";prop2:style2"] と同じ結果
str = "@time;prop1:style1;prop2:style2"
re = /((^|[@;])[^@;]*)/
p results = str.scan( re )
# [["", ""], [";prop1:style1", ";"], [";prop2:style2", ";"]]
[ 0 ]がマッチした部分、[ 1 ]がキャプチャー部分
>>862
の、["", ";prop1:style1", ";prop2:style2"] と同じ結果
878デフォルトの名無しさん
2019/07/15(月) 16:42:33.19ID:xqOJLOC2 >>877
テストしてくれたって事か?なら一応まとめておく。
/(^|[@;])[^@;]*/g に対してテスト文字列 '@time;prop1:style1;prop2:style2' で
PCRE: ["", "@time",";prop1:style1", ";prop2:style2"]
JavaScript, Python, Go, Ruby, : ["",";prop1:style1", ";prop2:style2"]
結論、PCRE以外全部ゴミ
現時点でPCREが最良だ馬鹿タレ >>872
お前が何派か知らんが、PCREが最良でないと言い張るのなら少なくとも通るライブラリを具体的に提示しろ
ただまあこれにはちょっと情状酌量の余地有りで、
おそらく ^ が「先頭文字」ではなく「位置」にマッチすると再定義したのはPerlだ。
そもそもBREには | がない。従って (^| のような「先頭の空文字」マッチなんて書けない。
だからBREだと先頭の「位置」なのか「文字」なのかを厳密に区別する必要がない。
| が導入されたのはEREからだが、EREなんて大して使われてない。
結果、BRE育ちの連中が「位置」だと厳密に認識せずにコーディングすると間違える、というわけ。
そしてJavaScript, Python, Go, Ruby は全滅だ。
JavaScriptに関してはPerlを模倣したわけでもなく、単なるミスだ。言語内不一致を生じているし。
他言語は知らん。
Rubyみたいに「実装が仕様だボケ」と言い張る糞言語ではこの手の仕様バグを永久に修正出来ない。
よって新人は毛嫌いして離れていく。当たり前の話だ。
JavaScriptはおそらくバグだと認識されているが、今更直せない。
Perl6はこの点、仕様と実装を分離したから、バージョンアップと共に確実に修正する。
従って最良は現時点でもPCREだし、今後ともPCREだ馬鹿タレ >>872
テストしてくれたって事か?なら一応まとめておく。
/(^|[@;])[^@;]*/g に対してテスト文字列 '@time;prop1:style1;prop2:style2' で
PCRE: ["", "@time",";prop1:style1", ";prop2:style2"]
JavaScript, Python, Go, Ruby, : ["",";prop1:style1", ";prop2:style2"]
結論、PCRE以外全部ゴミ
現時点でPCREが最良だ馬鹿タレ >>872
お前が何派か知らんが、PCREが最良でないと言い張るのなら少なくとも通るライブラリを具体的に提示しろ
ただまあこれにはちょっと情状酌量の余地有りで、
おそらく ^ が「先頭文字」ではなく「位置」にマッチすると再定義したのはPerlだ。
そもそもBREには | がない。従って (^| のような「先頭の空文字」マッチなんて書けない。
だからBREだと先頭の「位置」なのか「文字」なのかを厳密に区別する必要がない。
| が導入されたのはEREからだが、EREなんて大して使われてない。
結果、BRE育ちの連中が「位置」だと厳密に認識せずにコーディングすると間違える、というわけ。
そしてJavaScript, Python, Go, Ruby は全滅だ。
JavaScriptに関してはPerlを模倣したわけでもなく、単なるミスだ。言語内不一致を生じているし。
他言語は知らん。
Rubyみたいに「実装が仕様だボケ」と言い張る糞言語ではこの手の仕様バグを永久に修正出来ない。
よって新人は毛嫌いして離れていく。当たり前の話だ。
JavaScriptはおそらくバグだと認識されているが、今更直せない。
Perl6はこの点、仕様と実装を分離したから、バージョンアップと共に確実に修正する。
従って最良は現時点でもPCREだし、今後ともPCREだ馬鹿タレ >>872
879デフォルトの名無しさん
2019/07/15(月) 23:23:32.64ID:3MPTmFRg BREの正規表現と今の正規表現の使い方の違いの話は面白いなぁ
しかしこの人こんなにすごいスキルとモチベがあるなら質問なんかせずに
自力でなんとか出来たのではw
質問してくれたおかげで面白い話をいろいろ聞けたからこちらは嬉しいけどネ
おかしな挙動と言えばperl5とOnigmoでは\Gの挙動に違いが
あってどちらかが違和感のある動作をしたはず
\Gの概念自体が微妙に違ったはずだけどメモるの忘れた
興味のある人はぐぐってね
しかしこの人こんなにすごいスキルとモチベがあるなら質問なんかせずに
自力でなんとか出来たのではw
質問してくれたおかげで面白い話をいろいろ聞けたからこちらは嬉しいけどネ
おかしな挙動と言えばperl5とOnigmoでは\Gの挙動に違いが
あってどちらかが違和感のある動作をしたはず
\Gの概念自体が微妙に違ったはずだけどメモるの忘れた
興味のある人はぐぐってね
880デフォルトの名無しさん
2019/07/16(火) 15:24:59.03ID:wQsYVdH6 ネット弁慶がイキりたかっただけでしょ
881デフォルトの名無しさん
2019/07/16(火) 16:08:47.84ID:cpfSTA9t >JavaScript, Python, Go, Ruby, : ["",";prop1:style1", ";prop2:style2"]
深くて理解できないことが多いが、これはやばい気がする
深くて理解できないことが多いが、これはやばい気がする
882デフォルトの名無しさん
2019/07/16(火) 17:23:30.54ID:hAAouWtx 読んでるだけで何も考えてなかったけど
/(^|[@;])[^@;]*/g
この書き方以外の書き方で意図した動作になるように書けないのかな
ここの人はこういうの得意だからもしかしたら・・?
/(^|[@;])[^@;]*/g
この書き方以外の書き方で意図した動作になるように書けないのかな
ここの人はこういうの得意だからもしかしたら・・?
883デフォルトの名無しさん
2019/07/16(火) 18:30:33.69ID:AvaVqNzm 一所懸命挑発的に書いてるのに全然乗ってもらえなくてかわいそう
884デフォルトの名無しさん
2019/07/16(火) 19:27:45.24ID:hAAouWtx 言ってることに説得力がありすぎて聞き入ってしまってたよ
どんどん言いたいことを言って欲しい
昔のdanさんを思い出すなぁ
どんどん言いたいことを言って欲しい
昔のdanさんを思い出すなぁ
885デフォルトの名無しさん
2019/07/16(火) 20:41:55.62ID:bFMew56o 入力フォーマットが正しいという前提で /@?[^@;]+/ の方が好み
そもそも正規表現使うより ; でsplitした方が良くね?とおm
そもそも正規表現使うより ; でsplitした方が良くね?とおm
886デフォルトの名無しさん
2019/07/16(火) 21:03:17.33ID:hMJFhr7R >>881
深くはない、単にバグってるだけ。
そしてそれはやばいどころではなく、全く話にならないレベルの物だ。使い物にならない。
例えば、図書館の蔵書をユーザーにも検索出来るようにしたとして、正規表現検索も選べるとしよう。
この場合、検索結果に現れないケースが発生することになり、使い物にならない。
プログラミング言語内の正規表現エンジンは「今までのプログラムが動かなくなる」危険があるからそうそう交換出来ないが、
図書館DBの検索フロントエンド内のエンジンなんて即交換可能なんだから、問題があればすぐ乗り換えられる。
PCREが気に入らないのならこんなところで無駄吠えするのではなく、
PCREがバグっているケース(例のタグ外側マッチとか)でもばっちり動く検索エンジンを提供して、乗り換えを待てばいいだけ。
現状、PCRE以外全部バグっているのだから救いようがないが。
JavaScriptの場合はatomエディターなる物があって、htmlやプログラムソースコードを編集出来るが、
JavaScriptの場合はreplaceもバグっているので、命中すれば、全置換しても全置換出来てないケースが発生する。
リファクタ等で変数名を変えるとき、手でやるとバグるので、当然エディタ機能で全置換させるわけだが、この場合にもバグる訳だ。
そしてユーザーはこのときに置換漏れが発生するとは全く思わないので、かなり手間取ることになる。
(atomでは対策されていると信じたい)
JavaScriptの場合はこのバグも「仕様」としてしまっているので、
逆に言えば仕様通りならバグに命中したときの挙動も確定してる。だから対策は出来るが、
Rubyみたいに「実装が仕様だ」と言い張る糞言語だとどういう挙動か確認してみなければ分からず、対策が出来ない。
ここらへんもRubyの思想は数周遅れている。
いずれにしてもこんな基本的なところのバグはあっても迷惑でしかなく、さっさと直せ、でしかない。
「速い」以前に「ヒットしない」エンジンなんて使い物にならないだろ。
エンジン競争しているつもりの馬鹿共も、方向性を完全に間違ってる。
「間違いなく動作する」エンジンを提供すれば、文書検索側の人間はサクッと乗り換えてくれるだろうさ。
速い遅いはその後の話だ。
深くはない、単にバグってるだけ。
そしてそれはやばいどころではなく、全く話にならないレベルの物だ。使い物にならない。
例えば、図書館の蔵書をユーザーにも検索出来るようにしたとして、正規表現検索も選べるとしよう。
この場合、検索結果に現れないケースが発生することになり、使い物にならない。
プログラミング言語内の正規表現エンジンは「今までのプログラムが動かなくなる」危険があるからそうそう交換出来ないが、
図書館DBの検索フロントエンド内のエンジンなんて即交換可能なんだから、問題があればすぐ乗り換えられる。
PCREが気に入らないのならこんなところで無駄吠えするのではなく、
PCREがバグっているケース(例のタグ外側マッチとか)でもばっちり動く検索エンジンを提供して、乗り換えを待てばいいだけ。
現状、PCRE以外全部バグっているのだから救いようがないが。
JavaScriptの場合はatomエディターなる物があって、htmlやプログラムソースコードを編集出来るが、
JavaScriptの場合はreplaceもバグっているので、命中すれば、全置換しても全置換出来てないケースが発生する。
リファクタ等で変数名を変えるとき、手でやるとバグるので、当然エディタ機能で全置換させるわけだが、この場合にもバグる訳だ。
そしてユーザーはこのときに置換漏れが発生するとは全く思わないので、かなり手間取ることになる。
(atomでは対策されていると信じたい)
JavaScriptの場合はこのバグも「仕様」としてしまっているので、
逆に言えば仕様通りならバグに命中したときの挙動も確定してる。だから対策は出来るが、
Rubyみたいに「実装が仕様だ」と言い張る糞言語だとどういう挙動か確認してみなければ分からず、対策が出来ない。
ここらへんもRubyの思想は数周遅れている。
いずれにしてもこんな基本的なところのバグはあっても迷惑でしかなく、さっさと直せ、でしかない。
「速い」以前に「ヒットしない」エンジンなんて使い物にならないだろ。
エンジン競争しているつもりの馬鹿共も、方向性を完全に間違ってる。
「間違いなく動作する」エンジンを提供すれば、文書検索側の人間はサクッと乗り換えてくれるだろうさ。
速い遅いはその後の話だ。
887デフォルトの名無しさん
2019/07/16(火) 21:18:41.35ID:hMJFhr7R >>879
BREの場合はやりきる前提ではないので、例えば例のタグ外側マッチだと、
元の文字列に > と < を足してしまって置換し、出力時に削る、みたいなことをする。
具体的には以下。
('>' + str + '<').replace(/>[^<]*</,'>bar<').slice(1,-1)
だからBREしか使えないAWKでも意外と何とかなったりする。
ただしこれはプログラミング出来る前提であって、
Webページに検索窓だけ提供されているような状態ではどうにもならないが。
>>885
それは正しい。実際俺もそれに近いことをしている。
デリミタが最初に出現もあり、最後に付加もあり、つまり
';prop:style1' や
'prop:style1;prop:style2;' もありなので、
結局 /(^|[@;])[^@;]*/g だと後のコードが綺麗に書けなかった。 /(^.|[@;])[^@;]*/g でも同じ。
意味的には @ もデリミタ扱いしているだけなので、実もフタもないが、@を ;@にしてsplitした。
具体的には以下。
str.replace(/@/g,';@').split(';').filter(v=>v)
BREの場合はやりきる前提ではないので、例えば例のタグ外側マッチだと、
元の文字列に > と < を足してしまって置換し、出力時に削る、みたいなことをする。
具体的には以下。
('>' + str + '<').replace(/>[^<]*</,'>bar<').slice(1,-1)
だからBREしか使えないAWKでも意外と何とかなったりする。
ただしこれはプログラミング出来る前提であって、
Webページに検索窓だけ提供されているような状態ではどうにもならないが。
>>885
それは正しい。実際俺もそれに近いことをしている。
デリミタが最初に出現もあり、最後に付加もあり、つまり
';prop:style1' や
'prop:style1;prop:style2;' もありなので、
結局 /(^|[@;])[^@;]*/g だと後のコードが綺麗に書けなかった。 /(^.|[@;])[^@;]*/g でも同じ。
意味的には @ もデリミタ扱いしているだけなので、実もフタもないが、@を ;@にしてsplitした。
具体的には以下。
str.replace(/@/g,';@').split(';').filter(v=>v)
888デフォルトの名無しさん
2019/07/16(火) 22:42:20.32ID:P37s1FHo 一度言った内容は繰り返さなくていいです
889デフォルトの名無しさん
2019/07/17(水) 08:28:41.50ID:2/Bgill9 >>873訂正
俺は俺のケースだけ考えていたが、これだと871内URLの筆者のケースと合致しない。
そこで一応、両方とも合致する実装を考えてみた。
(といってもバグってる実装について推測すること自体はあまり意味がないが)
Perlはおそらく、^のフラグではなくて、空文字マッチ後のそのマッチ区間の*を+にしてる。
(というより筆者もそう言っているのだが俺が早とちりしてしまった)
871のケースだと、正規表現 (?:^|>)(.*?)(?:$|<) に対して、
1回目:(?:^|>)(.*?)(?:$|<)
2回目:(?:^|>)(.+?)(?:$|<)
というわけだ。結果、2回目は「先頭、<含んだ1文字、次の<まで、となり、
その筆者の説明通り先頭タグを含んで次タグ或いは文末まで伸びることになる。
俺のケースでは、正規表現 (^|[@;])[^@;]* に対して、
1回目:(^|[@;])[^@;]*
2回目:(^|[@;])[^@;]+
だから '@time;prop1:style1;prop2:style2' に対して @time のマッチも正しく取れることになる。
こういった場合、実装者は安全側に倒したくなる物だが、
現実は安全側に倒しすぎて余分なケースを含んでしまい、結果、バグっているというわけだ。
JavaScriptは最高に安全な実装、「空文字マッチは1文字進める」とした。(おそらくRubyその他もそう)
これだと絶対に無限ループはしないが、俺のケースでバグる。
Perlの実装だと俺のケースは通るが、871内URLの筆者のケースでバグる。
その他バグケースも出してくれれば俺の推測で合っているかどうかは答える。
俺は俺のケースだけ考えていたが、これだと871内URLの筆者のケースと合致しない。
そこで一応、両方とも合致する実装を考えてみた。
(といってもバグってる実装について推測すること自体はあまり意味がないが)
Perlはおそらく、^のフラグではなくて、空文字マッチ後のそのマッチ区間の*を+にしてる。
(というより筆者もそう言っているのだが俺が早とちりしてしまった)
871のケースだと、正規表現 (?:^|>)(.*?)(?:$|<) に対して、
1回目:(?:^|>)(.*?)(?:$|<)
2回目:(?:^|>)(.+?)(?:$|<)
というわけだ。結果、2回目は「先頭、<含んだ1文字、次の<まで、となり、
その筆者の説明通り先頭タグを含んで次タグ或いは文末まで伸びることになる。
俺のケースでは、正規表現 (^|[@;])[^@;]* に対して、
1回目:(^|[@;])[^@;]*
2回目:(^|[@;])[^@;]+
だから '@time;prop1:style1;prop2:style2' に対して @time のマッチも正しく取れることになる。
こういった場合、実装者は安全側に倒したくなる物だが、
現実は安全側に倒しすぎて余分なケースを含んでしまい、結果、バグっているというわけだ。
JavaScriptは最高に安全な実装、「空文字マッチは1文字進める」とした。(おそらくRubyその他もそう)
これだと絶対に無限ループはしないが、俺のケースでバグる。
Perlの実装だと俺のケースは通るが、871内URLの筆者のケースでバグる。
その他バグケースも出してくれれば俺の推測で合っているかどうかは答える。
890デフォルトの名無しさん
2019/07/17(水) 08:28:59.00ID:2/Bgill9 正しい実装は、「経路全体」(つまりツリーのリーフ)に対してフラグを持たないといけない。
Perlは「区間」(=経路の一部)に対してフラグをつけてしまったところが間違いだ。
871のケース、単純化する為に (A0|A1)B(C0|C1)として、
1回目:A0BC1 で空文字マッチ
そして空文字マッチの場合はこれを記録し、これと同一の場合は次回以降はスキップする。
結果、2回目:最初に A0BC1 がマッチするがこれは捨てられ、次に A1BC0またはA1BC1となる。
そして非空文字マッチとなったので、この記録を全破棄して、同様にループを繰り返せばいい。
実装の修正は、探索関数そのものにだいぶ手を入れないといけないのでそれなりに大変だ。
まずは全部の最終段に「最終チェック」を入れて上記リストと照合、記載有ればマッチ失敗として探索継続、としなければならないが、
おそらくこれが1ヶ所では済まない。
ただしこれはリターンパスを辿ればいいので何らかのツールが有ればほぼ自動でいけるかもしれない。
次に上記リストを作成する為に全経路を出力させなければならない。
デバッグ用にこれが既にあればラッキーだが、なければ自前で作らなければいけない。
といっても内容はツリーのノードを辿るだけなので、ツリーのフォーマットが分かればすぐだが、
ゴリゴリに高速化とかしていると割と意味不明なコードになっていることが多いので、
その状態で確認するのは結構辛いとは思う。
リストの管理は、空文字マッチなら追記、非空文字マッチならクリア、なので、これはやるだけだ。
リストの管理も探索関数にやらせて、探索関数は
今:マッチ場所とマッチ長さを返す
修正後:マッチ場所とマッチ長さを含んだ『配列』を返す、とし、
「空文字マッチの場合は自動で継続、非空文字マッチまたは終了まで探索、まとめて配列で結果を返す」とするのがいいだろう。
Perlは「区間」(=経路の一部)に対してフラグをつけてしまったところが間違いだ。
871のケース、単純化する為に (A0|A1)B(C0|C1)として、
1回目:A0BC1 で空文字マッチ
そして空文字マッチの場合はこれを記録し、これと同一の場合は次回以降はスキップする。
結果、2回目:最初に A0BC1 がマッチするがこれは捨てられ、次に A1BC0またはA1BC1となる。
そして非空文字マッチとなったので、この記録を全破棄して、同様にループを繰り返せばいい。
実装の修正は、探索関数そのものにだいぶ手を入れないといけないのでそれなりに大変だ。
まずは全部の最終段に「最終チェック」を入れて上記リストと照合、記載有ればマッチ失敗として探索継続、としなければならないが、
おそらくこれが1ヶ所では済まない。
ただしこれはリターンパスを辿ればいいので何らかのツールが有ればほぼ自動でいけるかもしれない。
次に上記リストを作成する為に全経路を出力させなければならない。
デバッグ用にこれが既にあればラッキーだが、なければ自前で作らなければいけない。
といっても内容はツリーのノードを辿るだけなので、ツリーのフォーマットが分かればすぐだが、
ゴリゴリに高速化とかしていると割と意味不明なコードになっていることが多いので、
その状態で確認するのは結構辛いとは思う。
リストの管理は、空文字マッチなら追記、非空文字マッチならクリア、なので、これはやるだけだ。
リストの管理も探索関数にやらせて、探索関数は
今:マッチ場所とマッチ長さを返す
修正後:マッチ場所とマッチ長さを含んだ『配列』を返す、とし、
「空文字マッチの場合は自動で継続、非空文字マッチまたは終了まで探索、まとめて配列で結果を返す」とするのがいいだろう。
891デフォルトの名無しさん
2019/07/17(水) 08:29:16.56ID:2/Bgill9 なおPerlの実装だと『上位関数のみ』で対策できるため、
「取り敢えず1時間で直せ」と言われたらこうなるのも分からなくはない。
しかしいまだにそのままだというのは怠慢でしかないが。
JavaScript等も同様、『上位関数のみ』で対策出来るところで留まっている点からも、これは言える。
しかし現時点で世界中のプログラマがどれだけ無駄な時間を消費することになっているのかを考えれば、
こんなのは手間であろうがさっさと直せ、でしかないが。
いずれにしても、俺が修正してやる、修正案はこれだ!と具体的に出してくるのならレビューはする。
我こそは!という奴は頑張れ。
「取り敢えず1時間で直せ」と言われたらこうなるのも分からなくはない。
しかしいまだにそのままだというのは怠慢でしかないが。
JavaScript等も同様、『上位関数のみ』で対策出来るところで留まっている点からも、これは言える。
しかし現時点で世界中のプログラマがどれだけ無駄な時間を消費することになっているのかを考えれば、
こんなのは手間であろうがさっさと直せ、でしかないが。
いずれにしても、俺が修正してやる、修正案はこれだ!と具体的に出してくるのならレビューはする。
我こそは!という奴は頑張れ。
892デフォルトの名無しさん
2019/07/17(水) 09:46:24.93ID:u050lnGw 話を単純化すると、
1. ある文字、例えば@ から、次の@ の直前の文字まで
2. 先頭が、@ でなければ、先頭から、@ の直前の文字まで。
つまり、先頭が、@ でなければ、先頭文字を、@ とみなして処理する
つまり、ルール1・2は、同時に適用させず、先にルール1を適用し、
ルール1に適用しないものだけを、ルール2に使う
(^|[@;])[^@;]*
だから、この正規表現がおかしい。
定義があいまいになる、解釈を含んでいる!
OR の部分が、並列ではない。
ルール1を優先すべき!
1. ある文字、例えば@ から、次の@ の直前の文字まで
2. 先頭が、@ でなければ、先頭から、@ の直前の文字まで。
つまり、先頭が、@ でなければ、先頭文字を、@ とみなして処理する
つまり、ルール1・2は、同時に適用させず、先にルール1を適用し、
ルール1に適用しないものだけを、ルール2に使う
(^|[@;])[^@;]*
だから、この正規表現がおかしい。
定義があいまいになる、解釈を含んでいる!
OR の部分が、並列ではない。
ルール1を優先すべき!
893892
2019/07/17(水) 09:51:38.77ID:u050lnGw (^|[@;])[^@;]*
OR を使うと、両方に該当する場合に、どちらの処理がされるのか、あいまい!
つまり、先頭文字が@; の場合に、両方に該当するので、処理があいまい!
A|B
A, B 両方に該当する場合に、A,B どちらの処理がされるのか、あいまい!
OR を使うと、両方に該当する場合に、どちらの処理がされるのか、あいまい!
つまり、先頭文字が@; の場合に、両方に該当するので、処理があいまい!
A|B
A, B 両方に該当する場合に、A,B どちらの処理がされるのか、あいまい!
894デフォルトの名無しさん
2019/07/17(水) 09:53:34.46ID:RL7WDafS 左側優先とかないのかこれ?
895877
2019/07/17(水) 10:06:18.04ID:u050lnGw >>889
Ruby で、
str = "@time;prop1:style1;prop2:style2"
re = /((^|[@;])[^@;]*)/
p results = str.scan( re )
# [["", ""], [";prop1:style1", ";"], [";prop2:style2", ";"]]
[ 0 ]がマッチした部分、[ 1 ]がキャプチャー部分
>>862
の、["", ";prop1:style1", ";prop2:style2"] と同じ結果
# * を、+ に変えた。
re_2 = /((^|[@;])[^@;]+)/
p results_2 = str.scan( re_2 )
# [["@time", "@"], [";prop1:style1", ";"], [";prop2:style2", ";"]]
Ruby で、
str = "@time;prop1:style1;prop2:style2"
re = /((^|[@;])[^@;]*)/
p results = str.scan( re )
# [["", ""], [";prop1:style1", ";"], [";prop2:style2", ";"]]
[ 0 ]がマッチした部分、[ 1 ]がキャプチャー部分
>>862
の、["", ";prop1:style1", ";prop2:style2"] と同じ結果
# * を、+ に変えた。
re_2 = /((^|[@;])[^@;]+)/
p results_2 = str.scan( re_2 )
# [["@time", "@"], [";prop1:style1", ";"], [";prop2:style2", ";"]]
896デフォルトの名無しさん
2019/07/17(水) 13:38:56.68ID:FD/sfaX1 小飼って糖尿病で死んだんだっけ
897デフォルトの名無しさん
2019/07/17(水) 14:01:11.32ID:fOq5lc1d 質問させてください。
PCRE や bregonig で大文字・小文字の区別なしで\x{017F}がsやSにマッチしてしまうのは仕様ですか?
PCRE や bregonig で大文字・小文字の区別なしで\x{017F}がsやSにマッチしてしまうのは仕様ですか?
898デフォルトの名無しさん
2019/07/17(水) 15:07:35.98ID:Jmalh7Yl899デフォルトの名無しさん
2019/07/17(水) 20:30:56.60ID:2/Bgill9 >>894
ないね。
聞いたこと無いし、JavaScriptで試した限り ([@;]|^)[^@;]* でも結果は同じだった。
ただ、確かに普通に考えたら左優先でいいし、上記入れ替えで @time をキャプチャ出来るようになるべきではある。
言われてみれば優先順位が決まってないことに驚きだ。
ないね。
聞いたこと無いし、JavaScriptで試した限り ([@;]|^)[^@;]* でも結果は同じだった。
ただ、確かに普通に考えたら左優先でいいし、上記入れ替えで @time をキャプチャ出来るようになるべきではある。
言われてみれば優先順位が決まってないことに驚きだ。
900デフォルトの名無しさん
2019/07/17(水) 20:37:09.24ID:RL7WDafS >>899
ちょっと知識が深まったよ サンクス
ちょっと知識が深まったよ サンクス
901デフォルトの名無しさん
2019/07/17(水) 20:40:11.08ID:2/Bgill9 >>895
お前は毎回Rubyの話をどのスレにも持ち込んでいる荒らしだろ。
何か言いたいことがあるのなら必ず結論を書け。
何が言いたいのか分からないのでウザイ。だから荒らしなんだよ。
+ に変えて空文字マッチをなくし、結果、希望の文字列を得る、という運用で回避するのはありだ。
ただ、その場合は、プログラマにそう分かるように、
「Rubyの正規表現エンジンは空文字マッチ周りにバグがあるので、注意してください。
空文字マッチがある正規表現を与えた場合、予期せぬ動作になることがあります。」とアナウンスしないといけない。
事実上空文字マッチが使えないが、事実なんだからそうするしかないだろ。
Rubyはこういう事を全くしないからゴミなんだよ。Rubyは滅ぶべくして滅んで行ってるだけ。
JavaScriptは少なくとも仕様に明記はしてる。
ただそれだと弱いからMDNにも書け、というのが俺の主張であり、JavaScriptスレに勝手に依頼しておいた。
以前RegExp.testの件で同様に依頼したら追記されたから、そうなるのを願っている。
そういう、「落とし穴」は共同して塞いでいかないと駄目なんだよ。
完璧な言語なんてない。だから多少バグがあるのは仕方ないとして、
それを未来永劫新規プログラマに押しつけて「キャハハー、お前も落ちたか!」なんてやっているようでは駄目なんだ。
Rubyはプログラマに対してリスペクトが全くない。だから廃れるし、俺もそうなることを願っている。
お前はRubyを吹聴しさえすれば布教出来ると勘違いしているようだが、そんなことはない。
当たり前だが新人にとってはこんなバグにつき合わされること自体大迷惑でしかないんだよ。
今回のでもPCREが一番ましだし、Rubyなんて選ばれる理由がないだろ。
ゴミだと分かっているものを広めるのは、単なる詐欺師でしかないぞ。
お前はお前の行為によってRubyへの反感を得ているだけなことを自覚した方がいい。
あちこちのスレでお前は相当ウザがられてる。
そういうのではなくて、バグを修正するとか、仕様書に明記するとか、
何でそういう建設的な方向に努力出来ないんだ?
こういう地道な積み重ねを全くやってないからRubyの現状はあるわけでさ。
お前は毎回Rubyの話をどのスレにも持ち込んでいる荒らしだろ。
何か言いたいことがあるのなら必ず結論を書け。
何が言いたいのか分からないのでウザイ。だから荒らしなんだよ。
+ に変えて空文字マッチをなくし、結果、希望の文字列を得る、という運用で回避するのはありだ。
ただ、その場合は、プログラマにそう分かるように、
「Rubyの正規表現エンジンは空文字マッチ周りにバグがあるので、注意してください。
空文字マッチがある正規表現を与えた場合、予期せぬ動作になることがあります。」とアナウンスしないといけない。
事実上空文字マッチが使えないが、事実なんだからそうするしかないだろ。
Rubyはこういう事を全くしないからゴミなんだよ。Rubyは滅ぶべくして滅んで行ってるだけ。
JavaScriptは少なくとも仕様に明記はしてる。
ただそれだと弱いからMDNにも書け、というのが俺の主張であり、JavaScriptスレに勝手に依頼しておいた。
以前RegExp.testの件で同様に依頼したら追記されたから、そうなるのを願っている。
そういう、「落とし穴」は共同して塞いでいかないと駄目なんだよ。
完璧な言語なんてない。だから多少バグがあるのは仕方ないとして、
それを未来永劫新規プログラマに押しつけて「キャハハー、お前も落ちたか!」なんてやっているようでは駄目なんだ。
Rubyはプログラマに対してリスペクトが全くない。だから廃れるし、俺もそうなることを願っている。
お前はRubyを吹聴しさえすれば布教出来ると勘違いしているようだが、そんなことはない。
当たり前だが新人にとってはこんなバグにつき合わされること自体大迷惑でしかないんだよ。
今回のでもPCREが一番ましだし、Rubyなんて選ばれる理由がないだろ。
ゴミだと分かっているものを広めるのは、単なる詐欺師でしかないぞ。
お前はお前の行為によってRubyへの反感を得ているだけなことを自覚した方がいい。
あちこちのスレでお前は相当ウザがられてる。
そういうのではなくて、バグを修正するとか、仕様書に明記するとか、
何でそういう建設的な方向に努力出来ないんだ?
こういう地道な積み重ねを全くやってないからRubyの現状はあるわけでさ。
902デフォルトの名無しさん
2019/07/18(木) 16:11:19.79ID:Y8yxmCyC 今の複雑化した正規表現エンジンってエンジンを作った人ですらどう動くのか
予測が難しいところがあるのでは
バグと言えばバグだけど総合的に考えてみてこの動作が最適だからこのままにしよう
という部分もたくさんあると思う
だから怠慢という言葉はちょっと違う気がするなぁ
あとrubyの正規表現エンジンは空文字マッチが~の件は
つまりonigmoのことを言ってるんだけどonigmo自体は空文字マッチに
対応してると記憶してるからrubyモードの仕様なんじゃないかな
予測が難しいところがあるのでは
バグと言えばバグだけど総合的に考えてみてこの動作が最適だからこのままにしよう
という部分もたくさんあると思う
だから怠慢という言葉はちょっと違う気がするなぁ
あとrubyの正規表現エンジンは空文字マッチが~の件は
つまりonigmoのことを言ってるんだけどonigmo自体は空文字マッチに
対応してると記憶してるからrubyモードの仕様なんじゃないかな
903デフォルトの名無しさん
2019/07/18(木) 20:03:10.71ID:PnG1z3PK >>902
Ruby周りにはお前みたいなクズしかいないから駄目なんだよ。
プログラミング出来ないのなら黙ってろ。
今のお前が為すべきは、お前が持っているonigmo環境で該当パターンを試し、結果を共有することだ。
Rubyの評判を気にすることではない。
Ruby+onigmoの組み合わせでばっちり動くのなら、
「他環境はゴミです!みなさんの悩みはRubyで解決出来ます!この機会に乗り換えてください!」と言えばいいだけだ。
動くんじゃないかな、みたいなお前の希望的観測なんて何の役にも立たない。
或いは、onigmo単独では動くがRubyのバグ互換モードでは動かない、というのが事実なら、
「Rubyは次のメジャーアップデートでここが対策されます!みなさんご期待ください!」
と言えばいいだけだ。
実際、正規表現の方言/バグに参っている連中はいるんだから、それで乗り換えてくれるだろうさ。
実際、Rubyの奴らはこういう事を全くしない。
そしてRubyの評判だけを気にしているからRubyはゴミのままなんだよ。
871の件、Perl5.6だがPCREもか?と思って試したが、PCREもだ。
そしてPCREには
> using the same syntax and semantics as Perl 5.
と書いてある。つまりこれが本当ならPerl5のバグも含めて挙動は同一、ということになる。
しかしバグまで含めて同一とするにはPerlがこれを仕様化していないとほぼあり得ない。
そこでPerlを確認してみたが、どうやら以下がそれらしい。
> Repeated Patterns Matching a Zero-length Substring
> https://perldoc.perl.org/perlre.html
グダグダ説明はしてあるがPerlは読めんから詳細まで俺の読み通りかは分からんが。
いずれにしても、JavaScriptとPerlは仕様化してる。
Rubyが仕様化しておらず、これが大問題だと認識出来ないのは、Ruby界隈にはまともなプログラマがいないからだよ。
Ruby周りにはお前みたいなクズしかいないから駄目なんだよ。
プログラミング出来ないのなら黙ってろ。
今のお前が為すべきは、お前が持っているonigmo環境で該当パターンを試し、結果を共有することだ。
Rubyの評判を気にすることではない。
Ruby+onigmoの組み合わせでばっちり動くのなら、
「他環境はゴミです!みなさんの悩みはRubyで解決出来ます!この機会に乗り換えてください!」と言えばいいだけだ。
動くんじゃないかな、みたいなお前の希望的観測なんて何の役にも立たない。
或いは、onigmo単独では動くがRubyのバグ互換モードでは動かない、というのが事実なら、
「Rubyは次のメジャーアップデートでここが対策されます!みなさんご期待ください!」
と言えばいいだけだ。
実際、正規表現の方言/バグに参っている連中はいるんだから、それで乗り換えてくれるだろうさ。
実際、Rubyの奴らはこういう事を全くしない。
そしてRubyの評判だけを気にしているからRubyはゴミのままなんだよ。
871の件、Perl5.6だがPCREもか?と思って試したが、PCREもだ。
そしてPCREには
> using the same syntax and semantics as Perl 5.
と書いてある。つまりこれが本当ならPerl5のバグも含めて挙動は同一、ということになる。
しかしバグまで含めて同一とするにはPerlがこれを仕様化していないとほぼあり得ない。
そこでPerlを確認してみたが、どうやら以下がそれらしい。
> Repeated Patterns Matching a Zero-length Substring
> https://perldoc.perl.org/perlre.html
グダグダ説明はしてあるがPerlは読めんから詳細まで俺の読み通りかは分からんが。
いずれにしても、JavaScriptとPerlは仕様化してる。
Rubyが仕様化しておらず、これが大問題だと認識出来ないのは、Ruby界隈にはまともなプログラマがいないからだよ。
904デフォルトの名無しさん
2019/07/18(木) 20:22:20.04ID:Y8yxmCyC BREという超シンプルな正規表現エンジンが持っていた明解な動作の分かりやすさを
現代の超複雑な正規表現エンジンに求めることには無理がある
ちょっと挙動が変なところがあるけどこのほうが便利だよねってのが現代の考え方
なんじゃないかな、それに適応してるのが現代のプログラマということだろう
ゼロ幅マッチで1歩進む件もそういう挙動にするメリットがあるから
そうしてるんだろう、どんなメリットなのかは分からないが
コスト的な問題やセキュリティ的な問題かも知れない
時代遅れのプログラマが何を言おうが正直興味ないわ
現代の正規表現で見れば初心者だし
初心者が内部動作の仮説を立てたところで当たるわけがない
しかもたった数例のコードの動作を見ただけでだ、あほらしい
現代の超複雑な正規表現エンジンに求めることには無理がある
ちょっと挙動が変なところがあるけどこのほうが便利だよねってのが現代の考え方
なんじゃないかな、それに適応してるのが現代のプログラマということだろう
ゼロ幅マッチで1歩進む件もそういう挙動にするメリットがあるから
そうしてるんだろう、どんなメリットなのかは分からないが
コスト的な問題やセキュリティ的な問題かも知れない
時代遅れのプログラマが何を言おうが正直興味ないわ
現代の正規表現で見れば初心者だし
初心者が内部動作の仮説を立てたところで当たるわけがない
しかもたった数例のコードの動作を見ただけでだ、あほらしい
905デフォルトの名無しさん
2019/07/18(木) 20:44:40.06ID:PnG1z3PK >>902
お前みたいなゴミに回答する意味はないが、一応つけておいてやる。
> 今の複雑化した正規表現エンジンってエンジンを作った人ですらどう動くのか
> 予測が難しいところがあるのでは
そんなわけあるか馬鹿タレ。
今現在もスクリプタはプログラマからすると一段下に見られてて、
「スクリプタをプログラマと呼ぶな」という奴も一定数居るだろ。
その理由がこれだよ。
ガチのプログラマは数年前に他人が記述したコードでも必要あれば修正するしかない。
だからこの為に多大なる手間をかけてコードを整備してる。
スクリプタがやってる、今書いて今動いたら捨てておk、なんて甘い世界ではない。
まともなコードなら未来永劫整備可能だし、また、それを目指しているのがプログラマだ。
実際、Linuxなんて30年越しで整備され続けてるだろ。
数年前にお前が書いたコードすら読めないのは、お前の問題であって、それを全体のように言うな。
だからスクリプタは馬鹿にされるし、嫌われるんだよ。
正規表現エンジンなんてプログラミング全体からするとかなり簡単な部類だ。
動けばいいだけのエンジンなら再帰しまくりで1000行程度だろう。
最悪全交換でいい規模だから、そこまでガチで整備されている事は期待出来ないが、
それにしてもこの程度の規模のプログラムを読めない、ってことはあり得ない。
高速化はプログラムに対して「複雑度」を増すものではない。
具体的に言うと、静的コールグラフを複雑化することはなく、
単に遅い関数を速い関数に入れ替える、というのが基本になる。
だから、正規表現エンジンを読めない、というのなら、書いた奴か読む奴が馬鹿なだけであって、
ちゃんとした奴が書いたエンジンをちゃんとした奴が読めば確実に読める。
お前みたいなゴミに回答する意味はないが、一応つけておいてやる。
> 今の複雑化した正規表現エンジンってエンジンを作った人ですらどう動くのか
> 予測が難しいところがあるのでは
そんなわけあるか馬鹿タレ。
今現在もスクリプタはプログラマからすると一段下に見られてて、
「スクリプタをプログラマと呼ぶな」という奴も一定数居るだろ。
その理由がこれだよ。
ガチのプログラマは数年前に他人が記述したコードでも必要あれば修正するしかない。
だからこの為に多大なる手間をかけてコードを整備してる。
スクリプタがやってる、今書いて今動いたら捨てておk、なんて甘い世界ではない。
まともなコードなら未来永劫整備可能だし、また、それを目指しているのがプログラマだ。
実際、Linuxなんて30年越しで整備され続けてるだろ。
数年前にお前が書いたコードすら読めないのは、お前の問題であって、それを全体のように言うな。
だからスクリプタは馬鹿にされるし、嫌われるんだよ。
正規表現エンジンなんてプログラミング全体からするとかなり簡単な部類だ。
動けばいいだけのエンジンなら再帰しまくりで1000行程度だろう。
最悪全交換でいい規模だから、そこまでガチで整備されている事は期待出来ないが、
それにしてもこの程度の規模のプログラムを読めない、ってことはあり得ない。
高速化はプログラムに対して「複雑度」を増すものではない。
具体的に言うと、静的コールグラフを複雑化することはなく、
単に遅い関数を速い関数に入れ替える、というのが基本になる。
だから、正規表現エンジンを読めない、というのなら、書いた奴か読む奴が馬鹿なだけであって、
ちゃんとした奴が書いたエンジンをちゃんとした奴が読めば確実に読める。
906デフォルトの名無しさん
2019/07/18(木) 20:46:26.35ID:PnG1z3PK > バグと言えばバグだけど
単なるバグだ馬鹿タレ。
> 総合的に考えてみてこの動作が最適だからこのままにしようという部分もたくさんあると思う
非互換になるのでどこでアップデートして修正するかは言語側の選択となる。
だからその前段階、つまり今どこにバグがあってどれくらい問題なのか把握し、
それを広報して共有し、どのタイミングで修正するかを話し合わないといけない。
Rubyはこれが全く出来てない。だからゴミのままなんだよ。
> だから怠慢という言葉はちょっと違う気がするなぁ
バグだと認識した上で、それを仕様として広報するのが最低の義務。
JavaScriptとPerlはそれをやっている。
Rubyの現状はバグに気づいてないか、敢えて黙っているかで、どちらにしても糞でしかない。
> つまりonigmoのことを言ってるんだけどonigmo自体は空文字マッチに
> 対応してると記憶してるから
お前がどんだけ馬鹿なのか分からないが、「バグ」ってのは意図してない動作のことを言うんだぞ。
つまり、対応してるつもりが対応できてないから「バグ」なんだよ。
> rubyモードの仕様なんじゃないかな
そう言うのはちゃんと調べてから言え。希望的観測ではミスリードを大量発生させる。
そしてこれをやりまくっているのがJavaScript界隈で、結果、JavaScripterは馬鹿が再生産されまくってる。
そういうのは止めろ。お互いに得る物がない。
>>904
まあ書いた後に読んだから投稿はしておいた。
話すつもりがないのならさようならでいい。
お前は、自身の問題を認識出来てないタイプだ。まあこのタイプもよくいるが。
単なるバグだ馬鹿タレ。
> 総合的に考えてみてこの動作が最適だからこのままにしようという部分もたくさんあると思う
非互換になるのでどこでアップデートして修正するかは言語側の選択となる。
だからその前段階、つまり今どこにバグがあってどれくらい問題なのか把握し、
それを広報して共有し、どのタイミングで修正するかを話し合わないといけない。
Rubyはこれが全く出来てない。だからゴミのままなんだよ。
> だから怠慢という言葉はちょっと違う気がするなぁ
バグだと認識した上で、それを仕様として広報するのが最低の義務。
JavaScriptとPerlはそれをやっている。
Rubyの現状はバグに気づいてないか、敢えて黙っているかで、どちらにしても糞でしかない。
> つまりonigmoのことを言ってるんだけどonigmo自体は空文字マッチに
> 対応してると記憶してるから
お前がどんだけ馬鹿なのか分からないが、「バグ」ってのは意図してない動作のことを言うんだぞ。
つまり、対応してるつもりが対応できてないから「バグ」なんだよ。
> rubyモードの仕様なんじゃないかな
そう言うのはちゃんと調べてから言え。希望的観測ではミスリードを大量発生させる。
そしてこれをやりまくっているのがJavaScript界隈で、結果、JavaScripterは馬鹿が再生産されまくってる。
そういうのは止めろ。お互いに得る物がない。
>>904
まあ書いた後に読んだから投稿はしておいた。
話すつもりがないのならさようならでいい。
お前は、自身の問題を認識出来てないタイプだ。まあこのタイプもよくいるが。
907デフォルトの名無しさん
2019/07/18(木) 21:56:03.46ID:xdHI+pcE 荒らしと会話するな!
荒らしと会話する者も、荒らしだぞ!
プログラマーとは、コードで語る者だけ!
能書きはいらない!
そいつらは荒らしだから、会話するな!
荒らしと会話する者も、荒らしだぞ!
プログラマーとは、コードで語る者だけ!
能書きはいらない!
そいつらは荒らしだから、会話するな!
908デフォルトの名無しさん
2019/07/18(木) 22:31:51.56ID:PnG1z3PK >>907
お前はコードだけで語りすぎだけどな。
結論を書くようにしろよ。
というかRuby界隈の問題は典型的にこれなんだよ。
Rubyの連中と話してても話が前に進まない。
俺が老害プログラマで荒らしだったとして、
それはRubyの為にも、またこのスレを読んでいる連中の知識になるものでもないだろ。
Rubyの連中は精神年齢がちっと低すぎる。
onigumoが該当パターンに対して正しい答えを出せるのなら喧伝すればいいし、
駄目なら今現在正しく返せるPCRE以下だという現実を受け入れるしかない。
どっちでもないってのは、俺には頭おかしいとしか思えないけどな。
まあ確実に言えるのは、Rubyを今から学ぶのは止めとけ、ってことだ。
Rubyはコミュニティの腐り方がどうも他とは違う。
(JavaScriptも腐ってはいるが、あれは「若すぎる」のが原因だ。
かといって放置しても自然に改善するものでもないが)
お前はコードだけで語りすぎだけどな。
結論を書くようにしろよ。
というかRuby界隈の問題は典型的にこれなんだよ。
Rubyの連中と話してても話が前に進まない。
俺が老害プログラマで荒らしだったとして、
それはRubyの為にも、またこのスレを読んでいる連中の知識になるものでもないだろ。
Rubyの連中は精神年齢がちっと低すぎる。
onigumoが該当パターンに対して正しい答えを出せるのなら喧伝すればいいし、
駄目なら今現在正しく返せるPCRE以下だという現実を受け入れるしかない。
どっちでもないってのは、俺には頭おかしいとしか思えないけどな。
まあ確実に言えるのは、Rubyを今から学ぶのは止めとけ、ってことだ。
Rubyはコミュニティの腐り方がどうも他とは違う。
(JavaScriptも腐ってはいるが、あれは「若すぎる」のが原因だ。
かといって放置しても自然に改善するものでもないが)
909デフォルトの名無しさん
2019/07/19(金) 00:09:18.78ID:KcCrOwH9 PCREに非包含オペレータが搭載されたら起こしてくれ
910デフォルトの名無しさん
2019/07/19(金) 00:50:19.02ID:CNkXpMDT >>909
というかお前もそうだが、onigmo使ってるなら何で試して動作報告してくれないんだ?
そういうところがRubyのコミュニティはおかしいんだよ。
「みんなで前に進む」という感覚がない。
ちなみに
> 鬼車の中の人と Ruby の間の確執がなければとっくの昔に実装されていたのだろうかと思ったり思わなかったり。
> https://qiita.com/k-takata/items/4e45121081c83d3d5bfd
これって何?知ってたら教えてくれれば助かる。
というかお前もそうだが、onigmo使ってるなら何で試して動作報告してくれないんだ?
そういうところがRubyのコミュニティはおかしいんだよ。
「みんなで前に進む」という感覚がない。
ちなみに
> 鬼車の中の人と Ruby の間の確執がなければとっくの昔に実装されていたのだろうかと思ったり思わなかったり。
> https://qiita.com/k-takata/items/4e45121081c83d3d5bfd
これって何?知ってたら教えてくれれば助かる。
911デフォルトの名無しさん
2019/07/19(金) 02:29:00.41ID:CNkXpMDT >>909
入る予定なんてないだろう。
> 8.2 Perl
> Perl には最短一致の繰り返し、バックトラック
> の抑制、否定先読みがある。これにより、非包含オ
> ペレータに似た効果を得ることができる。しかし、
> 7.2 節で詳しく述べたようにこれらは形式言語理論
> からすると適切に扱えず、正規表現の組合せなどに
> 問題が生じる。
> https://staff.aist.go.jp/tanaka-akira/pub/prosym49-akr-paper.pdf
つまり理論畑の人には問題があるが、プログラミング上問題はないんだろ。
そりゃ入れないだろ。
入る予定なんてないだろう。
> 8.2 Perl
> Perl には最短一致の繰り返し、バックトラック
> の抑制、否定先読みがある。これにより、非包含オ
> ペレータに似た効果を得ることができる。しかし、
> 7.2 節で詳しく述べたようにこれらは形式言語理論
> からすると適切に扱えず、正規表現の組合せなどに
> 問題が生じる。
> https://staff.aist.go.jp/tanaka-akira/pub/prosym49-akr-paper.pdf
つまり理論畑の人には問題があるが、プログラミング上問題はないんだろ。
そりゃ入れないだろ。
912デフォルトの名無しさん
2019/07/19(金) 03:16:00.34ID:CNkXpMDT >>910
自己レスだがだいたい分かった。
その他はリンク切れが多くて詳細までは追えないが、どうやら、勝手に使ったことに対して怒っているらしい。
https://kkos.hatenadiary.org/entries/2007/05/25#1180100250
が、ライセンス違反でなければ勝手に使え、というのがBSDだし、
告知しなかったことに関してはRuby側が悪いわけでもない気がするが。
ただこれなら鬼車にはRubyバグを作り込む必要がないから芽がある気はする。
そして文句を言ったところで鬼雲にフォークしてマージしたのなら実質大して変わらない気もする。
よく分からん所で喧嘩してるなとは思う。
自己レスだがだいたい分かった。
その他はリンク切れが多くて詳細までは追えないが、どうやら、勝手に使ったことに対して怒っているらしい。
https://kkos.hatenadiary.org/entries/2007/05/25#1180100250
が、ライセンス違反でなければ勝手に使え、というのがBSDだし、
告知しなかったことに関してはRuby側が悪いわけでもない気がするが。
ただこれなら鬼車にはRubyバグを作り込む必要がないから芽がある気はする。
そして文句を言ったところで鬼雲にフォークしてマージしたのなら実質大して変わらない気もする。
よく分からん所で喧嘩してるなとは思う。
913デフォルトの名無しさん
2019/07/19(金) 11:33:59.54ID:bgAzEf51 このスレでコミュニティうんぬんは脱線しすぎじゃないかい。スレタイとなんも関係ないやろ。
914デフォルトの名無しさん
2019/07/20(土) 15:46:35.52ID:KXtQuYxh 本当にプログラマなのかな
915デフォルトの名無しさん
2019/07/20(土) 17:29:27.69ID:AFOF1ubv JSです
「はい」「はい」
「うん」「うん」
「■●」「■●」
「△◎」「△◎」
など、同じ文字列2回(あるいは2回以上)の繰り返しを探すにはどうすればよいでしょうか?
/「(.+)+」/
とかだと、1回目と2回目が違ってもヒットしちゃいますよね…?
「はい」「はい」
「うん」「うん」
「■●」「■●」
「△◎」「△◎」
など、同じ文字列2回(あるいは2回以上)の繰り返しを探すにはどうすればよいでしょうか?
/「(.+)+」/
とかだと、1回目と2回目が違ってもヒットしちゃいますよね…?
917915
2019/07/20(土) 17:37:46.94ID:AFOF1ubv918デフォルトの名無しさん
2019/07/20(土) 17:45:51.81ID:kkJ7q95a919デフォルトの名無しさん
2019/07/20(土) 20:12:32.11ID:AFOF1ubv >>918
3つ目の
# 重複文字列の抽出にも応用できます
pry(main)> '東京都日野市日野市ほげほげ'.match(/(.+)(\1)/)
=> #<MatchData "日野市日野市" 1:"日野市" 2:"日野市">
ですね、ありがとうございます…!
3つ目の
# 重複文字列の抽出にも応用できます
pry(main)> '東京都日野市日野市ほげほげ'.match(/(.+)(\1)/)
=> #<MatchData "日野市日野市" 1:"日野市" 2:"日野市">
ですね、ありがとうございます…!
920デフォルトの名無しさん
2019/07/21(日) 20:31:55.31ID:Bdf0kkIf >>912
ttps://kkos.hatenadiary.org/entry/20070906/1189084566
松本氏はrb_enc_mbclen()のインターフェースが不適切であるという指摘に対して、何故、その原因を私に責任転嫁したのでしょうか?
rb_enc_mbclen()のインターフェースが不適切になっている本当の理由は何でしょうか?
まつもと
元の表現は「鬼車から継承した」と書いただけで、別に「鬼車に責任がある」というつもりはありませんでした(実際「責任」はないわけですし)。
現在のインタフェースになっている原因が「鬼車がそうなっていたから」であり、その理由は「まつもとがGB18030のようなエンコーディングへの対応に対する関心が薄かった」ということです。
「だったら、最初からそう書けよ」と言われそうですが、すいません、言葉が足りませんでした。
ttps://kkos.hatenadiary.org/entry/20070906/1189084566
松本氏はrb_enc_mbclen()のインターフェースが不適切であるという指摘に対して、何故、その原因を私に責任転嫁したのでしょうか?
rb_enc_mbclen()のインターフェースが不適切になっている本当の理由は何でしょうか?
まつもと
元の表現は「鬼車から継承した」と書いただけで、別に「鬼車に責任がある」というつもりはありませんでした(実際「責任」はないわけですし)。
現在のインタフェースになっている原因が「鬼車がそうなっていたから」であり、その理由は「まつもとがGB18030のようなエンコーディングへの対応に対する関心が薄かった」ということです。
「だったら、最初からそう書けよ」と言われそうですが、すいません、言葉が足りませんでした。
921デフォルトの名無しさん
2019/07/22(月) 01:27:11.95ID:dN38X5eV >>920
おおサンクス。
ただ、それって 2007/05/25 より後だから、別件だね。
無駄に喧嘩してるなあ。
内容はkkos氏の方が正しい。
鬼車は最速を目指したライブラリなのだから、無駄なことは出来る限り省かなければならない。
そもそもスクリプト言語で不完全な文字列って、バイト列を直接与えるとかしないと出来ないはずだし、
その場合にはRuby側でチェックしておけ、というのはその通りで、極めて妥当な要求だ。
Rubyなんてmutable stringなのだから最初に必ずコピーが必要で、普通はその時にやればいいだけ。
その方が今時の型安全にも合うし。
それを「実は僕も問題だと思ってたんだよね」みたいな受け方をするからそりゃ不信感が募る。
これは完全にMatzが糞で、実はC流のグダグダコードを書いていて、
どこで何をするべきか分かってないのだと思う。
そしてRuby界隈ではMatzは変に神格化されてて裸の王様化してる、ってとこだろう。
878の動作結果を見ても、誰も問題だとは指摘出来ないようだし。
これはkkos氏が言っているとおりがそのままで、普通は、というか本当は、
1. Rubyは rb_enc_mbclen(p,end,enc) で記述していたが、
2. 鬼車が rb_enc_mbclen(p,enc) で記述されていることに気づき、
3. 何で end が無いのか確認して、
4. Ruby側にチェックをつける
という流れになる。
1が無いのに、「し、知ってたし」みたいなことを言うから「嘘つくな」になる。
つってもこういうちょっとズルいというか卑怯というか、絶対俺のバグは認めないマンは残念ながら普通にいるから、
いちいち問いただしても始まらない。ただ、多分、kkos氏が切れたのはその後、
> それはそれとして、鬼車を呼ぶ前に「一文字を完成していない不完全なバイト列は含まない」ことをチェックするのはかなりコストが高いのですが、
これだとは思う。鬼車側でチェックしたらコストが安い訳でもないのに、これはない。
これはコイツとは一緒にはやれない、という結論を出すには十分だ。
本来Aでやるべき事をBでやる、みたいなことをすると、コードが一気に劣化していく。
長いこと保守するつもりなら絶対に飲めない。実際、鬼車は今も保守されているし、kkos氏の判断は妥当だ。
おおサンクス。
ただ、それって 2007/05/25 より後だから、別件だね。
無駄に喧嘩してるなあ。
内容はkkos氏の方が正しい。
鬼車は最速を目指したライブラリなのだから、無駄なことは出来る限り省かなければならない。
そもそもスクリプト言語で不完全な文字列って、バイト列を直接与えるとかしないと出来ないはずだし、
その場合にはRuby側でチェックしておけ、というのはその通りで、極めて妥当な要求だ。
Rubyなんてmutable stringなのだから最初に必ずコピーが必要で、普通はその時にやればいいだけ。
その方が今時の型安全にも合うし。
それを「実は僕も問題だと思ってたんだよね」みたいな受け方をするからそりゃ不信感が募る。
これは完全にMatzが糞で、実はC流のグダグダコードを書いていて、
どこで何をするべきか分かってないのだと思う。
そしてRuby界隈ではMatzは変に神格化されてて裸の王様化してる、ってとこだろう。
878の動作結果を見ても、誰も問題だとは指摘出来ないようだし。
これはkkos氏が言っているとおりがそのままで、普通は、というか本当は、
1. Rubyは rb_enc_mbclen(p,end,enc) で記述していたが、
2. 鬼車が rb_enc_mbclen(p,enc) で記述されていることに気づき、
3. 何で end が無いのか確認して、
4. Ruby側にチェックをつける
という流れになる。
1が無いのに、「し、知ってたし」みたいなことを言うから「嘘つくな」になる。
つってもこういうちょっとズルいというか卑怯というか、絶対俺のバグは認めないマンは残念ながら普通にいるから、
いちいち問いただしても始まらない。ただ、多分、kkos氏が切れたのはその後、
> それはそれとして、鬼車を呼ぶ前に「一文字を完成していない不完全なバイト列は含まない」ことをチェックするのはかなりコストが高いのですが、
これだとは思う。鬼車側でチェックしたらコストが安い訳でもないのに、これはない。
これはコイツとは一緒にはやれない、という結論を出すには十分だ。
本来Aでやるべき事をBでやる、みたいなことをすると、コードが一気に劣化していく。
長いこと保守するつもりなら絶対に飲めない。実際、鬼車は今も保守されているし、kkos氏の判断は妥当だ。
922デフォルトの名無しさん
2019/08/01(木) 15:57:12.21ID:BVNOJ7mG >>789やってくれる人はいないか~
2ch全盛期なら誰かしらやってくれた可能性高いけどすっかり寂れたな
onigmoに興味があるならtakata氏の日記を読破してみてはどうかな
作りながら考えてたことが分かって面白かったよ
2ch全盛期なら誰かしらやってくれた可能性高いけどすっかり寂れたな
onigmoに興味があるならtakata氏の日記を読破してみてはどうかな
作りながら考えてたことが分かって面白かったよ
923デフォルトの名無しさん
2019/08/24(土) 12:41:17.80ID:fR0bFJ1E perlで
(?<=(aa|bb))c
ならokだが
(?<=(aa|bbb))c
だとVariable length lookbehind not implementedになるの納得いかないなー
確かに戻り読み部分の長さに複数の可能性があるけど明らかに有限じゃん
秀丸のHmJre.dllだと通るようだ
(?<=(aa|bb))c
ならokだが
(?<=(aa|bbb))c
だとVariable length lookbehind not implementedになるの納得いかないなー
確かに戻り読み部分の長さに複数の可能性があるけど明らかに有限じゃん
秀丸のHmJre.dllだと通るようだ
924デフォルトの名無しさん
2019/08/24(土) 13:46:10.60ID:6nD2xE5w (?<=(aa.*|bbb))c
925デフォルトの名無しさん
2019/08/25(日) 15:17:23.04ID:GRZE+Rz9 (?<=aa|bbb)c
926デフォルトの名無しさん
2019/09/01(日) 12:33:19.59ID:fodjUzDJ JS(ES2017)です
「貫樣」みたいな、中国語でしか使われないような怪しい漢字を弾きたい
(日本語で使われる漢字のみ許可したい この場合は「貫」だけ残して「樣」は消したい)
のですが
CJKとか言って一緒くたになっている以上、Unicode範囲指定などで判別することはできないですかね…?
「貫樣」みたいな、中国語でしか使われないような怪しい漢字を弾きたい
(日本語で使われる漢字のみ許可したい この場合は「貫」だけ残して「樣」は消したい)
のですが
CJKとか言って一緒くたになっている以上、Unicode範囲指定などで判別することはできないですかね…?
927926
2019/09/01(日) 12:38:35.03ID:fodjUzDJ 「樣」は一応日本語でも使うみたいですね…
とりあえず常用漢字じゃなければ弾くくらいでもいいのですが
常用漢字表を作って比較するくらいしかない…のかな?
とりあえず常用漢字じゃなければ弾くくらいでもいいのですが
常用漢字表を作って比較するくらいしかない…のかな?
928デフォルトの名無しさん
2019/09/01(日) 13:31:25.10ID:kCJZVLuH929デフォルトの名無しさん
2019/09/01(日) 13:35:35.35ID:kCJZVLuH ねむい
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/CJK/gb2312-80.gif
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/index-j.html
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/CJK/gb2312-80.gif
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/index-j.html
930デフォルトの名無しさん
2019/09/01(日) 18:46:39.31ID:VXfAHt8z >>927
樣は様の旧字で現在でも許容字体扱いだから「常用漢字表」にも
出て来る。
https://ja.wikipedia.org/wiki/%E5%B8%B8%E7%94%A8%E6%BC%A2%E5%AD%97%E4%B8%80%E8%A6%A7
>928-929みたいなのはあくまでコンピューター用のコードの
まとまりの話だから常用漢字か否かは区別していない。
上のリンクのウィキの本表をエクセルにコピーして2列目の
通用字体だけを残して改行を消してやり、それと平仮名や
記号を除外規定にして残り全部消すとかなら正規表現だけでも
さっさと終わるんじゃないかな。
JISの範囲内だけがほしいならシフトJISで保存したら他は
疑問符になるだろうからそれをまとめて削除したらおしまいだろうが
繁体字の樣は残る。簡体字の[木羊]は消える。
樣は様の旧字で現在でも許容字体扱いだから「常用漢字表」にも
出て来る。
https://ja.wikipedia.org/wiki/%E5%B8%B8%E7%94%A8%E6%BC%A2%E5%AD%97%E4%B8%80%E8%A6%A7
>928-929みたいなのはあくまでコンピューター用のコードの
まとまりの話だから常用漢字か否かは区別していない。
上のリンクのウィキの本表をエクセルにコピーして2列目の
通用字体だけを残して改行を消してやり、それと平仮名や
記号を除外規定にして残り全部消すとかなら正規表現だけでも
さっさと終わるんじゃないかな。
JISの範囲内だけがほしいならシフトJISで保存したら他は
疑問符になるだろうからそれをまとめて削除したらおしまいだろうが
繁体字の樣は残る。簡体字の[木羊]は消える。
931デフォルトの名無しさん
2019/09/01(日) 21:04:09.80ID:fO6VcsLE Google謹製の正規表現ライブリ「re2」でググったら「バイオハザード2 RE:2」が検索上位に来るのどうにかならない?
932デフォルトの名無しさん
2019/09/01(日) 22:01:25.54ID:Zrnas7uJ >>931
s/^(.+)でググったら「バイオハザード2 RE:2」が検索上位に来るのどうにかならない?$/$1/
s/^(.+)でググったら「バイオハザード2 RE:2」が検索上位に来るのどうにかならない?$/$1/
933デフォルトの名無しさん
2019/09/01(日) 22:50:02.12ID:8GDP8quV RE2 regex とか RE2 正規表現 とかでググれば
934デフォルトの名無しさん
2019/09/10(火) 22:48:57.92ID:CokwQGf+ 直前の文字が1回以上出現することが確実なケースで、仮に0回の出現として考慮しても問題がないという場合に、
+ではなく*で正規表現を記述する理由はありますか?
例えば、慣例として*のほうを使うとか、*とするとマッチしない場合のみ+を使うとかそういう
+ではなく*で正規表現を記述する理由はありますか?
例えば、慣例として*のほうを使うとか、*とするとマッチしない場合のみ+を使うとかそういう
935デフォルトの名無しさん
2019/09/10(火) 23:21:08.02ID:1dbF51qB 0回も許容するなら+ではなく*にする理由は0回も許容するからとしか
936デフォルトの名無しさん
2019/09/10(火) 23:26:41.78ID:L5QX1JAH 具体例で示してくれんとなんか曖昧でよくわからんね
937デフォルトの名無しさん
2019/09/11(水) 12:05:55.89ID:zFEVPQj4 >1回以上出現することが確実なケース
>仮に0回の出現として考慮しても問題がない
矛盾してるな
>仮に0回の出現として考慮しても問題がない
矛盾してるな
938デフォルトの名無しさん
2019/09/11(水) 15:12:05.49ID:wb8QVF41939デフォルトの名無しさん
2019/09/11(水) 16:12:55.15ID:h8Pfy2ne940デフォルトの名無しさん
2019/09/12(木) 02:26:26.53ID:xpiKRNxb やっぱ質問して放置か、教える側も学習すべきだな
まともな質問じゃないと思ったらスルーでいい
まともな質問じゃないと思ったらスルーでいい
941デフォルトの名無しさん
2019/09/12(木) 04:33:29.68ID:+6m2JHnd 別におかしな質問じゃないだろ
942デフォルトの名無しさん
2019/09/12(木) 06:58:37.97ID:1ik9S0iw いや普通におかしいだろ
なんか無理矢理の条件考えて論争させようとしてるような気がする
なんか無理矢理の条件考えて論争させようとしてるような気がする
943デフォルトの名無しさん
2019/09/12(木) 08:21:20.40ID:xpiKRNxb 自分なら人にこういう質問レスを書くかなって考えてみて絶対書かないと
思うものにはレス付けないのがいいかもね
説明不足で意味不明なものとかも
思うものにはレス付けないのがいいかもね
説明不足で意味不明なものとかも
944デフォルトの名無しさん
2019/09/12(木) 09:22:01.93ID:TOasMGF3 ●Regular Expressionの使用環境
Mery
●検索か置換か?
置換
●説明
属性内のアルファベット小文字を削除
●対象データ
id="105I42b 104I41b"
id="99E65e 95B43d 92B87d"
id="97B22d 95D18a 93B22c 93E23b"
●希望する結果
id="105I42 104I41"
id="99E65 95B43 92B87"
id="97B22 95D18 93B22 93E23"
id="((\d+[A-Z]\d+)[a-z] ?){2,}"で検索は出来たのですが置換が思い浮かびません
Mery
●検索か置換か?
置換
●説明
属性内のアルファベット小文字を削除
●対象データ
id="105I42b 104I41b"
id="99E65e 95B43d 92B87d"
id="97B22d 95D18a 93B22c 93E23b"
●希望する結果
id="105I42 104I41"
id="99E65 95B43 92B87"
id="97B22 95D18 93B22 93E23"
id="((\d+[A-Z]\d+)[a-z] ?){2,}"で検索は出来たのですが置換が思い浮かびません
945デフォルトの名無しさん
2019/09/12(木) 10:00:21.41ID:bJPykHLq わかりやすいように、できるだけそのまま書くならこうかな
●検索文字列
(id="|\G )((\d+[A-Z]\d+))[a-z]
●置換文字列
\1\2
●検索文字列
(id="|\G )((\d+[A-Z]\d+))[a-z]
●置換文字列
\1\2
946デフォルトの名無しさん
2019/09/12(木) 10:04:35.65ID:bJPykHLq 置換に問題は無いけど()が二重になってたミス修正
(id="|\G )(\d+[A-Z]\d+)[a-z]
(id="|\G )(\d+[A-Z]\d+)[a-z]
947デフォルトの名無しさん
2019/09/12(木) 10:30:50.86ID:TOasMGF3 >946
出来ました!
ありがとうございます。
田中哲スペシャルっていうやり方なのでしょうか
出来ました!
ありがとうございます。
田中哲スペシャルっていうやり方なのでしょうか
948デフォルトの名無しさん
2019/09/12(木) 11:08:37.62ID:bJPykHLq \Gは照合開始位置と呼ばれる物で、マッチした箇所の後の境界にマッチしてくれるので
さっきのように(特定の文字列or前回置換しところ)の後に置換したい文字列があるときとかに便利で定番
田中哲スペシャルは\gで同じ表現をもう一回使うって奴だから違うかな
さっきのように(特定の文字列or前回置換しところ)の後に置換したい文字列があるときとかに便利で定番
田中哲スペシャルは\gで同じ表現をもう一回使うって奴だから違うかな
949デフォルトの名無しさん
2019/09/12(木) 11:58:31.87ID:TOasMGF3 >948
勉強になります。
ちなみに最初の値にはアルファベットがついてないケースだと拾えなかったのですが
id="97B22 95D18a 93B22c 93E23b"
対応策ありますでしょうか?
勉強になります。
ちなみに最初の値にはアルファベットがついてないケースだと拾えなかったのですが
id="97B22 95D18a 93B22c 93E23b"
対応策ありますでしょうか?
950デフォルトの名無しさん
2019/09/12(木) 12:04:38.94ID:xpiKRNxb 自分ならこの時点でスルー
\Gは文頭にもマッチするから誤爆対策を忘れずに
\Gは文頭にもマッチするから誤爆対策を忘れずに
951デフォルトの名無しさん
2019/09/12(木) 15:04:33.55ID:bJPykHLq952デフォルトの名無しさん
2019/09/12(木) 18:04:49.29ID:TOasMGF3 >951
ヒントありがとうございます。
残りは自分でがんばってみます。
ヒントありがとうございます。
残りは自分でがんばってみます。
953デフォルトの名無しさん
2019/09/12(木) 18:08:37.95ID:EfYu2rO4 文字列 "プログラマー" を "プロクライマー" に書き換える正規表現を教えて下さい
954デフォルトの名無しさん
2019/09/12(木) 21:50:17.55ID:Jdu1U3XN そこにソースがあるから登るんだ。
955デフォルトの名無しさん
2019/09/12(木) 22:19:07.70ID:cqw0/uFd 正規表現の使い方じゃなく作り方、バックトラックなど理論から解説している書籍やそれに準ずるサイトなど知っていたらご教示ください。
こうやればこうなるよ、こういうときはこうすればいいんだよ的な学習では身に付かなくて…
こうやればこうなるよ、こういうときはこうすればいいんだよ的な学習では身に付かなくて…
956デフォルトの名無しさん
2019/09/12(木) 22:56:30.12ID:Yy9Clfy1 自分が参考にしたのはここだったかな
http://fussy.web.fc2.com/algo/search5_regex.htm
実装の仕方がある程度分かれば鬼車の作者さんのブログ(rubyの一件以前の記事)も参考になると思う
http://fussy.web.fc2.com/algo/search5_regex.htm
実装の仕方がある程度分かれば鬼車の作者さんのブログ(rubyの一件以前の記事)も参考になると思う
957デフォルトの名無しさん
2019/09/12(木) 23:14:33.93ID:Uy9QyXie ありがとうございます!
rubyの一件って何ですか?(何て検索したらいいですか?)
rubyの一件って何ですか?(何て検索したらいいですか?)
958デフォルトの名無しさん
2019/09/12(木) 23:43:24.49ID:Yy9Clfy1 Rubyの作者さんと何かあったようで嫌気が差したのかそれ以後ブログで正規表現のことを
取り上げる頻度がめっきり減っちゃったんですよ
取り上げる頻度がめっきり減っちゃったんですよ
959デフォルトの名無しさん
2019/09/13(金) 08:32:54.25ID:sQZEDK+j960デフォルトの名無しさん
2019/09/13(金) 10:47:34.78ID:wKEqF87n961デフォルトの名無しさん
2019/09/13(金) 11:54:40.09ID:X5DxpBbM 正規表現はどの言語でも共通で使えますか?それともちょっと違ったりしますか?
962デフォルトの名無しさん
2019/09/13(金) 12:02:22.73ID:KuW4wLhZ ちょっと違ったりします
963デフォルトの名無しさん
2019/09/13(金) 13:25:46.31ID:8XwQqyT8 Ruby で作った。
一旦、パターンで一致させてから、一致した行だけを変換した。
ただし、同じ行に、id="~" が複数あると、バグる!
src = <<'EOT'
id="aAxy Xz"
あ
id=""
id="9"
id="9y"
EOT
# id=" で始まって、" 以外の文字が続いて、" で終わる
re = /id\=\"([^\"]+)\"/ # ( ) 内は、$1
dest = src.gsub( re ) do |line|
'id="' + $1.delete( "a-z" ) + '"'
end
print dest
出力
id="A X"
あ
id=""
id="9"
id="9"
一旦、パターンで一致させてから、一致した行だけを変換した。
ただし、同じ行に、id="~" が複数あると、バグる!
src = <<'EOT'
id="aAxy Xz"
あ
id=""
id="9"
id="9y"
EOT
# id=" で始まって、" 以外の文字が続いて、" で終わる
re = /id\=\"([^\"]+)\"/ # ( ) 内は、$1
dest = src.gsub( re ) do |line|
'id="' + $1.delete( "a-z" ) + '"'
end
print dest
出力
id="A X"
あ
id=""
id="9"
id="9"
965デフォルトの名無しさん
2019/09/16(月) 02:45:59.31ID:dK4dr8mE JSで
101 dogs
7 little goats
30 8 year old humans
↑をそれぞれ
["101", "dogs"]
["7", "little goats"]
["30", "8 year old humans"]
と切り分けるにはどんな正規表現を使えばよいでしょうか?
["7", " ", "little goats"]のような形でもかまいません
.match(/^\d+\s|.+$/)
だと
["7 ", "little goats"]
になってしまい、数字のあとの余計な半角スペースをあとで取り除かなければならなくなるのがなんか嫌で…
101 dogs
7 little goats
30 8 year old humans
↑をそれぞれ
["101", "dogs"]
["7", "little goats"]
["30", "8 year old humans"]
と切り分けるにはどんな正規表現を使えばよいでしょうか?
["7", " ", "little goats"]のような形でもかまいません
.match(/^\d+\s|.+$/)
だと
["7 ", "little goats"]
になってしまい、数字のあとの余計な半角スペースをあとで取り除かなければならなくなるのがなんか嫌で…
966デフォルトの名無しさん
2019/09/16(月) 02:59:29.74ID:/xGIA7r1 正規表現を使えないなら文字列操作でやればいいだけ
正規表現を使いこなせてない人が使うとバグの温床になるからお勧めしない
正規表現を使いこなせてない人が使うとバグの温床になるからお勧めしない
967デフォルトの名無しさん
2019/09/16(月) 07:18:26.85ID:m2l8x1P1 >>965
.split(' ', 2)
.split(' ', 2)
968デフォルトの名無しさん
2019/09/16(月) 12:07:55.69ID:oN5KVYJd Ruby では、
chomp で、末尾の改行を削除する。
split の2 は、分割の最大数
text = <<'TEXT'
101 dogs
30 8 year old humans
TEXT
p ary = text.lines( chomp: true ).map { |line| line.split( " ", 2 ) }
出力
[["101", "dogs"], ["30", "8 year old humans"]]
chomp で、末尾の改行を削除する。
split の2 は、分割の最大数
text = <<'TEXT'
101 dogs
30 8 year old humans
TEXT
p ary = text.lines( chomp: true ).map { |line| line.split( " ", 2 ) }
出力
[["101", "dogs"], ["30", "8 year old humans"]]
969デフォルトの名無しさん
2019/09/16(月) 15:25:40.41ID:YU5GpdCi JSでは、
["30", "8 year old humans"]
ではなく
["30","8"]
となる
limitは、分割結果の制限であり、見つかった要素の数をそこまでで打ち切る
["30", "8 year old humans"]
ではなく
["30","8"]
となる
limitは、分割結果の制限であり、見つかった要素の数をそこまでで打ち切る
970968
2019/09/16(月) 15:36:25.96ID:oN5KVYJd >969
えー!!
えー!!
971デフォルトの名無しさん
2019/09/16(月) 15:52:31.08ID:YU5GpdCi972デフォルトの名無しさん
2019/09/16(月) 16:04:28.98ID:2suJbq8i matchじゃなくてsplitで
str.split(/(?<=^\d+) /)
か
array = str.split(" ");
array[0] + array.slice(1).join(" ")
とかじゃない?
str.split(/(?<=^\d+) /)
か
array = str.split(" ");
array[0] + array.slice(1).join(" ")
とかじゃない?
973デフォルトの名無しさん
2019/09/16(月) 16:06:13.84ID:2suJbq8i 間違えた
下の最後こうか
[array[0], array.slice(1).join(" ")]
下の最後こうか
[array[0], array.slice(1).join(" ")]
974デフォルトの名無しさん
2019/09/16(月) 16:24:50.88ID:VWND3fAL 素直に
"30 8 years old".match(/^(\d+) (.*)$/).slice(1)
じゃいかんの?
"30 8 years old".match(/^(\d+) (.*)$/).slice(1)
じゃいかんの?
975デフォルトの名無しさん
2019/09/16(月) 16:28:11.45ID:53ZoYsUm 正規表現逆引きcgiとかないの?
雑に日本語で書き込んだらAIが判断して正規表現を返してくれる
そんなの
雑に日本語で書き込んだらAIが判断して正規表現を返してくれる
そんなの
976デフォルトの名無しさん
2019/09/16(月) 17:07:19.10ID:YU5GpdCi977デフォルトの名無しさん
2019/09/16(月) 17:20:26.44ID:oN5KVYJd var ary = new Array( 2 )
var str = "30 8 year old humans"
var pos = str.indexOf( " " );
console.log( pos ) // 2
if( pos === -1 ) { // 見つからない
// 何かの処理
} else {
ary[ 0 ] = str.substring( 0, pos )
ary[ 1 ] = str.substring( pos + 1 )
}
console.log( ary ) // [ '30', '8 year old humans' ]
var str = "30 8 year old humans"
var pos = str.indexOf( " " );
console.log( pos ) // 2
if( pos === -1 ) { // 見つからない
// 何かの処理
} else {
ary[ 0 ] = str.substring( 0, pos )
ary[ 1 ] = str.substring( pos + 1 )
}
console.log( ary ) // [ '30', '8 year old humans' ]
978デフォルトの名無しさん
2019/09/16(月) 17:34:55.93ID:hRvCpxCQ979デフォルトの名無しさん
2019/09/16(月) 17:40:28.59ID:enU8we0d >>969
知らなかった
知らなかった
980デフォルトの名無しさん
2019/09/16(月) 18:09:34.33ID:enU8we0d const str = '30 8 year old humans'
(([first, ...rest]) => [first, rest.join(' ')])(str.split(' '))
//=> ["30", "8 year old humans"]
あ、正規表現がねぇw
(([first, ...rest]) => [first, rest.join(' ')])(str.split(' '))
//=> ["30", "8 year old humans"]
あ、正規表現がねぇw
981デフォルトの名無しさん
2019/09/16(月) 20:46:14.05ID:RGmahsTZ .split(/ (.*)/,2)
982デフォルトの名無しさん
2019/09/16(月) 22:28:40.71ID:enU8we0d 次スレ立てたんだけど、
Regular Expression(正規表現) Part15
https://mevius.5ch.net/test/read.cgi/tech/1568640311/
テンプレ貼ってたら>>3 がNGワードとやらで貼れません。
というわけであとよろしく。
Regular Expression(正規表現) Part15
https://mevius.5ch.net/test/read.cgi/tech/1568640311/
テンプレ貼ってたら>>3 がNGワードとやらで貼れません。
というわけであとよろしく。
983デフォルトの名無しさん
2019/09/17(火) 10:37:10.53ID:aFTX7+W5984977
2019/09/17(火) 12:02:24.99ID:aFTX7+W5 >>977
を修正した
const str = `101 dogs
30 8 year old humans`
const lines = str.split( "\n" ); // 配列
const results = lines.map( line => {
var ary = new Array( 2 )
const pos = line.indexOf( " " );
if( pos === -1 ) { // 見つからない
// 何かの処理
} else {
ary[ 0 ] = line.substring( 0, pos )
ary[ 1 ] = line.substring( pos + 1 )
}
return ary
} );
console.log( results ); // [ [ '101', 'dogs' ], [ '30', '8 year old humans' ] ]
を修正した
const str = `101 dogs
30 8 year old humans`
const lines = str.split( "\n" ); // 配列
const results = lines.map( line => {
var ary = new Array( 2 )
const pos = line.indexOf( " " );
if( pos === -1 ) { // 見つからない
// 何かの処理
} else {
ary[ 0 ] = line.substring( 0, pos )
ary[ 1 ] = line.substring( pos + 1 )
}
return ary
} );
console.log( results ); // [ [ '101', 'dogs' ], [ '30', '8 year old humans' ] ]
985デフォルトの名無しさん
2019/09/17(火) 16:12:25.16ID:sjKTVv5w amazonもダメみたいだね、本の紹介しようとしたら弾かれた
986983
2019/09/17(火) 17:07:52.35ID:aFTX7+W5 Amazon も、半角で書けないだろ
一番恐ろしいのは、はてなブログ!
書き込み禁止画面が出ずに、いきなり吸い込まれて、アクセス禁止にされる!
同様に、twitter の長いURL も、吸い込まれるものがあるらしい!
5ch で、しつこく宣伝する香具師をはめるために、いきなりのアク禁!
MANGO 板に書き込んで、何がNG ワードが、地道に判定していくしかない
一番恐ろしいのは、はてなブログ!
書き込み禁止画面が出ずに、いきなり吸い込まれて、アクセス禁止にされる!
同様に、twitter の長いURL も、吸い込まれるものがあるらしい!
5ch で、しつこく宣伝する香具師をはめるために、いきなりのアク禁!
MANGO 板に書き込んで、何がNG ワードが、地道に判定していくしかない
987デフォルトの名無しさん
2019/09/17(火) 17:46:48.25ID:+bGUkqkJ988デフォルトの名無しさん
2019/09/17(火) 17:53:38.97ID:Xou3E6HC はてブのURL、5ちゃんに書けないのか。気づいてなかったわ。
989デフォルトの名無しさん
2019/09/17(火) 17:56:58.73ID:+bGUkqkJ990デフォルトの名無しさん
2019/10/02(水) 17:34:34.60ID:dOlpIXop U . M . E
991デフォルトの名無しさん
2019/10/12(土) 20:41:17.72ID:VAjNOt6S 以下を正規表現で行うにはどうしたらよいでしょうか。
-----元データ------------------
<aaa bbb
ccc
ddd>
<eee>
ffff ggg
<hhh
iiii>
-----------------------------
-----欲しいデータ----------------
aaa bbb ccc ddd
eee
ffff ggg
hhh iiii
------------------------------
-----元データ------------------
<aaa bbb
ccc
ddd>
<eee>
ffff ggg
<hhh
iiii>
-----------------------------
-----欲しいデータ----------------
aaa bbb ccc ddd
eee
ffff ggg
hhh iiii
------------------------------
992デフォルトの名無しさん
2019/10/12(土) 20:46:20.53ID:osgjxuFW 改行無視のオプション+<>の間を取得して改行を空白に変更でどう?
993デフォルトの名無しさん
2019/10/12(土) 22:51:54.37ID:7TGqmTiW >>991
Ruby
$ cat input.txt | ruby -e 'puts ARGF.read.gsub(/<(.*?)>/m) { |m| $1.gsub("\n", "") }'
Node
$ cat input.txt | node -e 'process.stdout.write(fs.readFileSync(0).toString().replace(/<([\s\S]*?)>/mg, ($0,$1)=>$1.replace(/\n/g, "")))'
sed
$ echo $(cat input.txt) | sed -E 's/<([^>]*)>/\n\1\n/g' | sed -e '/^ *$/d' | sed -e 's/^ *//'
sedのは一旦改行削除して、<..>の前後に改行追加して、空行削除して、行頭の空白を削除してる
Ruby
$ cat input.txt | ruby -e 'puts ARGF.read.gsub(/<(.*?)>/m) { |m| $1.gsub("\n", "") }'
Node
$ cat input.txt | node -e 'process.stdout.write(fs.readFileSync(0).toString().replace(/<([\s\S]*?)>/mg, ($0,$1)=>$1.replace(/\n/g, "")))'
sed
$ echo $(cat input.txt) | sed -E 's/<([^>]*)>/\n\1\n/g' | sed -e '/^ *$/d' | sed -e 's/^ *//'
sedのは一旦改行削除して、<..>の前後に改行追加して、空行削除して、行頭の空白を削除してる
994デフォルトの名無しさん
2019/10/13(日) 01:09:33.88ID:Gu1oNPJo Ruby で、
text = <<"EOT"
<aaa bbb
ccc
ddd>
<eee>
ffff ggg
<hhh
iiii>
EOT
# m option は、multi-line。$1 は、キャプチャー部分。
# [^>]+ は、> 以外の文字が、1文字以上続く
puts text.gsub( /<([^>]+)>/m ) { |matched| $1.gsub( "\n", " " ) }
>>993
>$1.gsub("\n", "")
"" は、" "(半角空白)の間違いだろ
text = <<"EOT"
<aaa bbb
ccc
ddd>
<eee>
ffff ggg
<hhh
iiii>
EOT
# m option は、multi-line。$1 は、キャプチャー部分。
# [^>]+ は、> 以外の文字が、1文字以上続く
puts text.gsub( /<([^>]+)>/m ) { |matched| $1.gsub( "\n", " " ) }
>>993
>$1.gsub("\n", "")
"" は、" "(半角空白)の間違いだろ
995デフォルトの名無しさん
2019/10/13(日) 01:37:59.89ID:5y3mzviq996994
2019/10/13(日) 03:33:31.81ID:Gu1oNPJo 5ch からコピーすると、行末に半角空白が入るから、
漏れは、Ruby で削除してる
# クリップボード内の複数行文字列の、各行の先頭・末尾から、
# 連続する空白類を除去して、クリップボードに入れる
str = `powershell Get-Clipboard`
str.encode! Encoding::UTF_8, Encoding::CP932 # UTF_8 へ変換
ary = str.each_line.map( &:strip ) # 連続する空白類を除去する
IO.popen( 'clip', 'w:cp932' ) do | clip | # CP932 へ戻す
clip.print( ary.join "\n" )
end
漏れは、Ruby で削除してる
# クリップボード内の複数行文字列の、各行の先頭・末尾から、
# 連続する空白類を除去して、クリップボードに入れる
str = `powershell Get-Clipboard`
str.encode! Encoding::UTF_8, Encoding::CP932 # UTF_8 へ変換
ary = str.each_line.map( &:strip ) # 連続する空白類を除去する
IO.popen( 'clip', 'w:cp932' ) do | clip | # CP932 へ戻す
clip.print( ary.join "\n" )
end
997デフォルトの名無しさん
2019/10/13(日) 07:48:23.30ID:0NSyRtEU998デフォルトの名無しさん
2019/10/13(日) 22:01:19.92ID:5y3mzviq999デフォルトの名無しさん
2019/10/13(日) 22:05:59.26ID:w1EMiXuT VScodeの正規表現検索、置換はjavascriptだろうか?
1000デフォルトの名無しさん
2019/10/13(日) 22:42:48.39ID:5y3mzviq >>999
ripgrep
ripgrep
10011001
Over 1000Thread このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 942日 20時間 38分 13秒
新しいスレッドを立ててください。
life time: 942日 20時間 38分 13秒
10021002
Over 1000Thread 5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
レス数が1000を超えています。これ以上書き込みはできません。
ニュース
- 女性にAEDを使うと訴えられる?「セクハラにはなりません」弁護士と医師が明快に否定…なぜ一般人の心肺蘇生率やAEDの使用率は低いのか? [おっさん友の会★]
- 政府備蓄米が店頭に並び始めたのに値段下がらず…コメ平均価格13週連続上昇、5キロ4206円 [首都圏の虎★]
- 【立憲】立民・野田佳彦代表「暫定税率を廃止し、ガソリン減税を実施することも、野党が連携すれば可能」 [少考さん★]
- 日経平均終値 3万1136円 2644円安 過去3番目の下げ幅 ★2 [どどん★]
- 【福岡】「小学生ですか?」と声かけした無職男(55)、女子中学生(12)の首を押さえ押し倒しキス「パンツ脱がそうとした」 [おっさん友の会★]
- 劇作家から性被害訴えた女優、「Mr.サンデー」の討論に嫌悪感「分かってなさすぎる」「お前らは標的じゃなかっただけ」 [muffin★]
- 【悲報】トランプ「インフレは存在していないし、関税で儲かってるし、中国はザマァ。だからMAGA!」 [733893279]
- 🏡🏡🏡🏡🏡
- 【悲報】 トランプ関税、各国の対応「報復よりも説得」「説得よりも報復」と2極化 日本はどっち? [566475398]
- 【朗報】トランプ「関税で巨額が入ったら所得税の廃止も検討」 [673057929]
- 昔はこの米は2300円だった
- ▶ふーたんのおっぱいすこすこ部