Regular Expression(正規表現) Part16

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2021/11/03(水) 19:50:01.71ID:ebAE+z9+
Regular Expressionスレです。

質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。

前スレ
Regular Expression(正規表現) Part15
https://mevius.5ch.net/test/read.cgi/tech/1568640311/


次スレは>>980宜しく
天ぷら等>>2以降
2022/07/04(月) 22:10:57.58ID:at368eXu
ポゼッシブを強欲と呼んでる人がいるのこのスレで初めて知ったよ
強欲の英訳はほぼ100%greed/greedyになるから絶対やめた方がいい
2022/07/04(月) 22:18:25.27ID:Fzsxp6Q8
>>413
possess v. って単に所有する、っていう意味なのにね
2022/07/04(月) 23:33:58.60ID:Tw6HV9Rf
なにも日常語のpossessiveを強欲と訳しているのではない
「握ること」=「米の球」という誤訳が同じ物🍙を指すことで意訳になるのと同じで、
正規表現においてはpossessiveと強欲と絶対最大(量指定子)という語は定義によって同じ物を指して、対応する用語になっているというだけ
やたら英訳にこだわっている人は、possessiveという用語に対応するキーワードのひとつである強欲を知らずにgreedyと英訳してしまった無知をごまかしているように見える
2022/07/05(火) 00:14:37.32ID:Pgzcl5cT
>>415
「米の球」を黒焦げに焼いたらtarballになる、まで読んだ
2022/07/05(火) 10:52:26.63ID:K5Eu4yGw
>無知をごまかしているように見える

この人の感受性がおかしいと感じたのは俺だけだろうか、やたら人のことを悪く見ようとしてないか?
知らない人に対する潜在的な恐怖心がこういう発言になるのかな?分からんがみっともないからやめたほうがいい
2022/07/05(火) 11:08:04.06ID:sc95gC5i
議論は別にすきにしろよと思うが人格否定や揚げ足取りは荒れる元だからやめろ
2022/07/05(火) 11:41:54.88ID:cG0ybmcU
>>417
そらそこは反論を期待して英訳に固執する人を揶揄してわざと悪し様に言ったところだからな、図星だったなら謝るよ
でもまさか本題には一切触れず蛇足だけに突っ込んで人格の否定までして論点をずらすような真似をされるとは思わなかった、よほど気に障ったのだろうか
あ、反論があるなら本題の方をメインで頼むな、他の人に迷惑でみっともないからね
2022/07/05(火) 12:00:26.75ID:364oCHD3
>>416
おっと焼きおにぎりの悪口はそこまでだ
2022/07/05(火) 13:10:32.42ID:/Cj5WPzT
当て身は打撃のことじゃないって言い張る格ゲープレイヤーみたい
2022/07/05(火) 13:38:26.40ID:K5Eu4yGw
その攻撃性と被害妄想的な受け取り方はどうにかならんの?普通に会話すればいいだけだと思うのだが
このレスを読んでも攻撃されてると思うの?
2022/07/05(火) 13:44:47.04ID:SfuXrTgV
その精神病を当て擦るような言い方
2022/07/05(火) 16:42:32.77ID:9eeXBGst
>>ID:K5Eu4yGw
議論で熱くなって中傷が混じるのは褒められないことではあるがある程度は容認出来る
おまえは議論の本題に触れもせず、中傷、人格攻撃だけのレス
この違いが分かる?
中傷したいのなら議論の本題に上手く絡めて、やれ
2022/07/05(火) 17:00:54.47ID:8BLlx4g8
>>415
>正規表現においてはpossessiveと強欲と絶対最大(量指定子)という語は定義によって同じ物を指して、対応する用語になっているというだけ

それが問題だよねって話をしてるんでは?
正規表現においてpossessiveのことを強欲と呼ぶのは適切ではないという主張に対する反論にはなってないように見えるけど?
2022/07/05(火) 17:21:05.39ID:hw2faXZs
●Regular Expressionの使用環境
サクラエディタ2.3.2.0(bregonig.dll 4.20 with 鬼雲6.2.0)

●検索か置換か?
検索

●説明
\sの結果にUnicodeのスペースは全て含めたいが
Unicodeの改行(LF,CR,CRLF,NEL,PS,LS)は含めたくない。
(UNICODEの改行は厳密にはVTとFFが含まれると思いますが
https://www.unicode.org/standard/reports/tr13/tr13-5.html
できれば今回はVTとFFは例外で改行ではないスペース扱いにしたいです)

●対象データ
UTF-8テキストファイル
小U+0020迫LF(U+000A)
松U+0009本CRLF(U+000D U+000A)
高U+3000田NEL(U+0085)

●希望する結果
半角スペース
水平タブ
全角スペース
※単純に\sで検索すると都合6箇所マッチしてしまうので、
(サクラエディタが改行コード扱いする)Unicodeの改行(LF,CR,CRLF,NEL,PS,LS)を
マッチ対象から除外して3箇所だけにマッチする正規表現が知りたいです。
2022/07/05(火) 17:22:13.40ID:9eeXBGst
> possessiveのことを強欲と呼ぶ
飽く迄、英語をベースに日本語へ訳したいワケね
そういう解釈をしてるからおかしく感じるのだろう
日本語の欲張りに対しての強欲に相当する語が無いから英語ではpossessiveを充てている
英語側の単語が貧窮な都合だ
2022/07/05(火) 17:43:33.84ID:9eeXBGst
>>426
文字集合の積演算
[\s&&[^\r\n\x0085]]
これにPS,LSも含めればいい
2022/07/05(火) 17:56:41.32ID:4sOf+wSV
>>427
日本語も欲張りと強欲はどちらも欲深いことを言っているだけで、
欲の深さを示してはいないよ
近いと近距離、どっちの距離が離れているかを示せないないのと同じ
さらに言えば
逆に英語では明確に区別された語(greedy?|possessive)を、
明確に区別できない語([貪|強]欲)に置きかえたのが問題
直訳・意訳ですらない置きかえ
日本語に対して英語を充てたとそう勘違いしてる?
2022/07/05(火) 18:10:02.38ID:K5Eu4yGw
>英語の人
なんか申し訳ないね、せっかく英語の意味の違いを教えてくれたのにこんなことになってしまって・・代わりに謝るよ、ごめんね
俺も強欲という名前は間違いだと思う、教えてくれてありがとね
2022/07/05(火) 18:23:23.60ID:9eeXBGst
> 欲張りと強欲はどちらも欲深いことを言っているだけ
そりゃどちらにも「欲深い」の意があるだろう
だがその2つが並んで違いを理解出来無いのならおまえの日本語力に問題がある
普通に日本語を扱える者ならば「強い」を含む側に強い意味合いが込められていると解する
自分が分からなかったからと言ってケチ付けて自己肯定、「俺が悪いんじゃない」するのはみっともない
2022/07/05(火) 18:29:53.51ID:4sOf+wSV
>>431
そうか、「強」が付いてると強いのか知らなかった
強奪と収奪は強奪の方がより奪えるって理解でいいのかな
勉強になる
2022/07/05(火) 18:41:45.68ID:KH2ZmSBP
>>427
英語をベースにしないならそれこそrice ballのようにもっと適切な命名があるでしょ

プログラミング分野においてgreedyを貪欲/強欲/欲張りと訳すのが定番化してる中で
正規表現の場合だけは強欲は貪欲とは意味が違うというのが無理筋で悪い命名でしかない
フクロウ本の第3版で変更されてるのも強欲だと違いが分かりにくい/紛らわしいからだと思うよ

いい命名ではないけど貪欲に対して超貪欲とかならまだ賛同できた
2022/07/05(火) 18:41:56.55ID:4sOf+wSV
ちなみに日本語には無欲と[貪|強]欲の間に[小|少]欲ってのがあって、
こっちは明確に欲が少ないと定義されてるんだが、
普通に日本語を扱える者は「小さい」あるいは「少ない」欲の対義語として
「強い」欲となることに違和感を持たないものかな?
…とここまで書いて気付いたけど、貧と強が欲の深さを表してると思ってたってことか
かわいいね
2022/07/05(火) 19:04:14.64ID:K5Eu4yGw
昔は強欲でも困らなかったんだろう、しかし時代は変化していくからな
日本人にとって英語がより身近になれば英語から見ておかしい訳は淘汰されていくだろう

野球のカウントが S B O から B S O の順に変わったのと似てる、野茂以前では S B O で何の不都合も無かった
メジャーリーグを大リーグと呼ぶ訳は英語が分かる人から見てどう思うのか少し気になるw
2022/07/05(火) 19:04:56.60ID:TINjq0RZ
>>430
私(415,419)に対する人格攻撃や精神疾患への当て擦りととられる発言まで晒しておいて自身の行為は謝罪しないのな
一般に貪欲も欲張りも強欲もまとめてgreedなのもpossessiveが強欲でないこともあなた以外全員知ってた
その上で用語として定義されたものを訳とみなしたときの気持ち悪さについて議論している
絶対最大の英訳がpossessiveとかそれこそあり得ないだろ?
2022/07/05(火) 19:05:56.36ID:9eeXBGst
> 強奪と収奪
「奪う」はどちらも同じ
収は集める意が含まれる
強奪の強は「強引に」の意
ひったくりは収奪よりは強奪
村やビル占拠して人質脅して金品出させるようなのは「集める」ので収奪
収奪だって「奪う」ので「強制」的、強奪ではあるが「集める」方をより強調させた言葉
あと言葉はふわっとしてるもので意味するところはある程度の範囲がある
「奪う」の意が同じなのでどちらでも問題が無い場合もあるだろう
だが
> その2つが並んで違いを理解出来無いのなら
と書いたように両者を用いているのであれば、そこに違いがあって当然なわけで普通はその差異を汲み取れる
2022/07/05(火) 19:31:46.72ID:K5Eu4yGw
>>436
いや俺そこまでのことは言ってないと思うのだが
そんなつもりではなかったのでそれ以上に受け取ったなら謝るよ、ごめんね

>絶対最大がpossessive
日本語から英語への翻訳がこれだったら変だと思うね
2022/07/05(火) 19:45:12.44ID:4sOf+wSV
>>437
> 強奪の強は「強引に」の意
そういうことまでわかっていながら強欲についは頑なに強いと思ってるその認知はどこから来てるんだろう
大欲じゃいけない理由も知りたい
2022/07/05(火) 19:52:54.12ID:9eeXBGst
> 強欲についは頑なに強いと思ってるその認知は
>> その2つが並んで違いを理解出来無いのなら
が理解出来無い?
『「欲張り」と「強欲」が併用されている場合』に
どちらが強い意味合いを持つのかは一目瞭然な訳だが
まだ続けるの?
2022/07/05(火) 20:03:46.40ID:9jUwBfIC
SunやMicrosoftが使ってる以上、意味はどうあれ専門用語として取り扱うべきである
俺は嫌だから使わないってのはいいけど
他人が使ってるのをそんな言葉知らんぞ、間違ってると指摘するのは異常人
2022/07/05(火) 20:05:32.97ID:4sOf+wSV
>>440
思い込みじゃなくそうと示された他の資料を欲しい
一目瞭然なら当然どこかしらに示されてるだろうけど、
webの辞書や記事と手元の辞書ではその差を確認できなかったから
2022/07/05(火) 20:07:09.41ID:4sOf+wSV
>>441
MSはかつてそういう指摘に応えて使用する用語を変えてきた実績があるよ
一度決めたら二度と変わらないって会社ではない
2022/07/05(火) 20:11:53.67ID:4sOf+wSV
>>441
Oracleは日本語を正とせず英語を正としろって立場を採ってるよね
誤訳がありうるってことだし、誤訳によりライセンス内容の整合性がとれなくなったMSの事例もあるね
2022/07/05(火) 20:25:49.94ID:mmXAp8Yt
なんだなんだ
「強欲」って用語が指していることを理解してなくて会話がかみ合わなかった週末の人、
数日経ってもまだ「ぼくちゃんまちがってないもんえいごだとこうなんだもん」って駄々こねて80レス位進んでるのか・・・・・

ちょっとした勘違いとかちゃんとした日本語のドキュメントに目を通してなかったとか誰にでもあることなんだから
それこそ貧欲って書いてた人みたいに一言間違ってたわwって言うくらいで収まることだと思うんだけどなあ
悪いけどやってること恥の上塗りだよ?
2022/07/05(火) 20:35:51.78ID:K5Eu4yGw
もう ひんよく と きょうよく でいいよ
2022/07/05(火) 22:07:33.30ID:mmXAp8Yt
同一人物のくせに他人のフリとかどんだけ面の皮厚いんだよ・・・とか一瞬思ったけど
ID:K5Eu4yGw と ID:nkFK6+7O ID:4sOf+wSV は別人だったのか
見分けついてなくて同一レベルのゴミかと思ってたわごめん
2022/07/05(火) 22:30:45.62ID:JtY8aViY
口語だと基本的に最短一致、最長一致、バックトラックしない最長一致って言ってる
欲張りとか強欲とか実際に口に出して言ってる人には出会ったことないわ
2022/07/05(火) 22:50:11.96ID:MNnvUB1p
(非探索)最長一致
(最)多一致
(最)少一致
どちらも「最長」だと紛らわしさがあるので
でも「強欲」で定着しているものをわざわざ言い換える程の事でも無いと思う
450426
垢版 |
2022/07/06(水) 00:22:09.50ID:ToTyGXGb
>>428
\x0085を\x{0085}に変えて
[\s&&[^\r\n\x{0085}\x{2028}\x{2029}]]でOKでした
積演算&&の有効な使い方を初めて知りました
どうもありがとうございました
2022/07/06(水) 02:03:37.65ID:7JN09BFV
\R*+\K\s
2022/07/06(水) 05:39:49.51ID:FCzm9xaa
口頭ってことは対面レビューとか他の人と共有するソースコードでの正規表現だよね?
そうなると、相手のスキルレベルにもよるけど
「強欲」って単語だけでなく強欲な正規表現自体も避けておくかなあ
このスレのうんざりする流れを見てもわかるとおり「強欲」が相手に通じるとは限らないし
(強欲な正規表現なんて使ったことがない人のほうが多数派だろうし)
最長一致で事足りるなら多少のパフォーマンス悪化には目をつぶる

チャットとかなら「++」みたいな具体例を明示して「強欲」って単語を使うかな
ここみたいな正規表現スレならなにも前提を置かなくとも普通に「強欲」で通じるものとして会話するけど・・・
会話が成り立たなかったうえに間違いを指摘されても「英語だと」「口語だと」「xxxだと」とか延々ゴネる人とは会話したくないなあ
いい加減NGしたいからコテつけてくれるとありがたい
2022/07/06(水) 06:39:20.23ID:5qGkM3IH
しかし回答者のレベル低下が酷いな
ドンキホーテの件にしてもページの置換結果がそのまま店一覧のCSV形式になるような置換をして欲しかったな
$1,$2の件や強欲のすれ違いについても積極的に事態の収集を図ろうとせず悪化させて悪乗りするとはね
2022/07/06(水) 06:47:28.85ID:TTp+bFLp
英語名を変えさせたら良い
gohyork
yorkvary
muyork

対応して日本語名もカタカナ表記で
ゴヨーク
ヨークバリー
ムヨーク

そういう『名前』としてしまえば解決
一意な名称を与えた方が誤解も少なくなるだろう

> 強欲な正規表現なんて使ったことがない人のほうが多数派だろうし
それはあまりにもレベルが低すぎじゃね?
知らない者が学ぶべきであって触りすらも学んだことの無い者へ合わせる必要なんて無い
455298
垢版 |
2022/07/06(水) 06:53:49.49ID:ZAN9ui5m
>>361
> それ書いてる>>314には$1なんてどこにも書いて無いのにw
つまり、>>314の「,」があまりに小さくて見えなくて、
(?<=店)[^〒]*?〒\d{3}-\d{4}\s++
これしか書いてなくて、
2行目の$1,$2を省略したと思ったのですw
2022/07/06(水) 07:02:49.27ID:5qGkM3IH
ここの回答者はそう勘違いしてるのを知ってて何も助言しなかったんだぞ、馬鹿にして笑ってたんだよ
このスレは過疎たせいで悪質な初心者が上級者ヅラするようになってしまった
457298
垢版 |
2022/07/06(水) 07:06:06.70ID:ZAN9ui5m
秋葉原店
専門店

住所
〒101-0021 東京都千代田区外神田4丁目3-3
TEL
0570-024-511


で、さらに教えて欲しいのですが、
前回と同じ質問ですが、
店名と住所を抽出したいです。
で、↓を使いたいのですが、
店を抽出キーワードにすると、専門店とか店舗詳細とかの「店」も拾ってしまうのです。
で、データをよくみると、「 秋葉原店」のように店名の前にスペースがあります。
で、
( )(?<=店)[^〒]*〒\d{3}-\d{4}\s++ と、やってみたのですがダメでした。 どうすればよいでしょうか?

(?<=店)[^〒]*〒\d{3}-\d{4}\s++  ←は>>314さんの教えてくれたヤツ。
2022/07/06(水) 07:09:45.51ID:SZC2q9b+
これ非包含演算子に粘着してるのと同じやつだろ
粘着気質と承認欲求丸出しのマウンティング気質が全く同じ
2022/07/06(水) 07:46:05.23ID:o/55z/m0
>>453
再質問来てるぞ
> ドンキホーテの件にしてもページの置換結果がそのまま店一覧のCSV形式になるような置換をして欲しかったな
おまえがお手本見せてやれや
回答者をバカにするくらいだから余裕だろ?

>>457
>>320
使い方分からないならJSスレか初心者スレ行って聞いたらいい
460298
垢版 |
2022/07/06(水) 08:07:45.17ID:ZAN9ui5m
>>459
↓って英語だからどうやって使っていいのかわかりません。

https://pastebin.com/M6LqV15b
461デフォルトの名無しさん
垢版 |
2022/07/06(水) 11:44:54.56ID:MXaUuSJv
まず英語の勉強をするべき
2022/07/06(水) 12:10:15.16ID:c6fRPAAn
CSV の正規表現なんて、数千行ぐらい掛かるだろ。
HTTP の正規表現でも膨大だろ

行区切り文字の改行
列区切り文字のカンマ

クォート文字のダブルクォーテーション。
クォート文字が無くても、意味が変わらなければ省略できる

クォート文字内では、行区切り文字・列区切り文字の効果がなくなり、単なる文字となる。
クォート文字内で、連続した2つのクォート文字を使えば、
クォート文字の効果がなくなり、単なる1つのクォート文字となる

もし、クォート文字の対応関係が崩れたらエラー。
クォート文字の数は、必ず偶数個である

こんな膨大な条件判断を書けるわけない。
条件判断とか構造があるものは、正規表現では無理。
こういうものは、Ruby などのパーサーを使わないと無理

CSVをawk などで処理している香具師とか、CSVの構造を分かっていないから、
こういう特別な意味をもつ文字が混じると、バグル
2022/07/06(水) 13:40:21.16ID:gR1YTmZs
>>462
なんでCSVのパースする前提になってるんだ?
webの店舗情報のテキストをCSVにするのになんでクォート内の対応を気にする必要がある?
464デフォルトの名無しさん
垢版 |
2022/07/06(水) 15:43:31.34ID:MXaUuSJv
KEИTAはでたらめ
465462
垢版 |
2022/07/06(水) 17:15:52.66ID:c6fRPAAn
行区切り文字の改行、列区切り文字のカンマ、
クォート文字のダブルクォーテーション

CSV データ内に、こういう特別な意味をもつ文字が混じると、バグル

これらの文字が無ければ、Ruby などのCSVパーサーを使わずに、
awk などで処理しても、バグらない
2022/07/06(水) 17:19:01.24ID:QeuQIz9d
なんか話脱線マウントしまくって会議やコードレビュー下手くそで顰蹙を買いまくってそうな人来てるやん
2022/07/06(水) 17:55:19.63ID:gR1YTmZs
>>465
混ぜなきゃいいのでは
2022/07/06(水) 19:01:53.46ID:kQhbtDqq
いつも文体一緒だからバレる
2022/07/06(水) 19:30:39.95ID:5qGkM3IH
>> 298

「店」が無い店もあったからHTMLソースから取り出すようにしたよ
ブラウザでHTMLソースを表示させてnotepad++にソースをコピペしてから置換して

1回目の検索欄
^[^\r\n]*<h4\s+[^>]*class=["']?shopList[_\-\s]*storeName["']?[^>]*>\s*<span[^>]*>\s*</span\s*>\s*([^\s<>\r\n]+(?:\s+[^\s<>\r\n]+)*)\s*
</h4\s*>(?:(?!<dd[^>]*>\s*〒|<h4)(?:[\r\n]|.))*<dd[^>]*>\s*〒\s*[\d\-]+\s+([^\s<>\r\n]+(?:\s+[^\s<>\r\n]+)*)\s*</dd\s*>[^\r\n]*$

1回目の置換欄
うんこ$1,$2

2回目の検索欄
^(?!うんこ)[^\r\n]*$[\r\n]+

1回目の置換欄
( 空欄にして )


2回の置換が終われば店舗一覧が完成しているはず


1回目の検索欄は長すぎるから2行に分割したよ、1行に繋げてから使って
検索欄や置換欄に記入するときは前後に余計なスペースやタブ文字が紛れ込まないように

HTMLの細かい変化にはなるべく対応出来るようにしたけど店舗一覧のページがリニューアルしたら使えなくなるよ
2022/07/06(水) 19:34:28.40ID:5qGkM3IH
ミスった

1回目の置換欄
( 空欄にして )

これは2回目だね
2022/07/06(水) 19:39:45.64ID:5qGkM3IH
全国の店舗一覧を取得したいならwgetなどで各店舗一覧ページをローカルに保存してからnotepad++のファイル一括置換でまとめて置換したほうが楽
「wgetの使い方が分かりません」はスレ違いなのでよそで聞いて
2022/07/06(水) 23:10:34.54ID:gFUK7vgi
ホンの少し複雑化しただけで頭の悪さや性格って浮かび上がるよねw
2022/07/07(木) 16:29:53.46ID:ls1FMHZL
そのまま正規表現1回でやるのと、改行の種類とかあったりなかったりする要素とか明らかに不要な要素を掃除してからやるのとどっちがいいですか
2022/07/07(木) 16:37:27.46ID:3hUwVJb0
掃除して整形してからやるのがコスパ良いに決まってる
力業いくない
2022/07/07(木) 17:27:59.03ID:EezL89dt
ケースバイケースやろ
2022/07/07(木) 17:45:22.88ID:QZNfJ5wA
答え合わせ出来るとか、間違いに気付き易いor間違い難いケースは1発
合ってるか分かり難い場合は間違い難い正規化式で段階踏む
2022/07/08(金) 12:52:02.00ID:/znuHP85
パイプ・フィルターみたいに、どんどん変換していく方が分かりやすい。
処理A | 処理B | 処理C

Ruby の正規表現では、3種類の改行を、\R と書ける

/\r\n|\r|\n/

/\R/
2022/07/10(日) 17:44:55.47ID:0O2dRiW8
>possesive

ポジティブ
2022/07/16(土) 01:09:47.27ID:gUwlqT3Y
そして誰もいなくなった
2022/07/16(土) 09:09:55.88ID:L4T2PUf2
民度の低い異常者が常駐してたらそりゃ関わりたくないもん
2022/07/16(土) 11:12:47.12ID:WasoqaBj
自己紹介乙
482デフォルトの名無しさん
垢版 |
2022/07/20(水) 06:49:04.62ID:v4tHM0fs
●Regular Expressionの使用環境
秀丸

●検索か置換か?
置換

●説明
同じ文字+間に要らない文字列+同じ文字

同じ文字 一つにしたいです

●対象データ
[ぬるぽ & ぬるぽ]
[ガッ-ガッ]
[hoge & hoge]

●希望する結果
ぬるぽ
ガッ
hoge

よろしくお願いいたします。
2022/07/20(水) 07:23:49.75ID:iuCM0uSo
説明にない[は何?
2022/07/20(水) 08:35:20.99ID:jm1i1IHH
>>483
すみません希望する結果はこちらでおねがいします
[ぬるぽ]
[ガッ]
[hoge]
2022/07/20(水) 09:04:35.27ID:Fdf9zFh2
テスト
\[(.+?)(.*?\1)\](?\2)
2022/07/20(水) 16:27:05.86ID:f63hBcuy
(.+).+?\1
$1
2022/07/20(水) 16:30:30.08ID:OlkAUELc
[ wow & wow]
488482
垢版 |
2022/07/20(水) 17:48:38.07ID:VWdn2Di+
>>486さんの正規表現で上手くいきました
ありがとうございました
489デフォルトの名無しさん
垢版 |
2022/08/28(日) 01:14:30.52ID:y+9tLdhC
正規表現の先読み・後読み https://zenn.dev/usamik26/articles/regex-lookahead
2022/08/28(日) 07:40:58.02ID:MbqzPdhg
perlでは/.*hoge/より/.*?piyo/の方が圧倒的に速いのか
ステップ数は大して変わらなそうなのに
2022/08/28(日) 08:17:37.04ID:e6Sjxbuq
>>490
perlに限らずそりゃそうだろ
"hoge...めっちゃ長い文字列..."
ってあったら /.*?hoge/ なら最初の hoge でマッチしたと判断できるけど /.*hoge/ だと最後まで見ないと判断できない
最後に hoge ってある可能性があるから
2022/08/28(日) 08:52:32.95ID:7Mb5USF7
>>491
hogeじゃなくてpiyo

"hoge...めっちゃ長い文字列...piyo"
ってあったら /.*?piyo/ と /.*hoge/ は同じくらいだと期待するでしょ
489のコメントの比較テストを見てなんでそうなるのかなと
2022/08/28(日) 09:11:11.32ID:dcB5AKwO
>>492
そりゃそういうケースもあるけどそうでないケースの方が多いだろ
2022/08/28(日) 10:55:00.88ID:V92k17Tf
489の記事・コメントを見たけど
「.*hoge.*」

「.*?hoge」
の比較をして後者のほうが圧倒的に早いって記述はあったが
490の言ってる比較はどこにも見当たらないようだけど・・・?

492の
>hogeじゃなくてpiyo
はもっと意味不明だな
「/.*hoge/」
「/.*?piyo/」
の違いで、491は「.*」「.*?」の違いで速さが変わるのが当たり前って話をしてるのに
"hoge...めっちゃ長い文字列...piyo"みたいな極端な例を突然出してこられても
2022/08/28(日) 12:06:13.62ID:3aiLuiYL
マッチする場合はそれほどステップ数は変わらないけど
マッチしない場合のステップ数の差は大きいね
2022/08/28(日) 12:10:20.88ID:iCw3MfJc
(?s:^(?=.*(?:トビラ|280|280|[内外]製|純正|公式))(?=.*(?:ガイジ|発狂|長文|必死|キチガイ|キチキチ)))

これって何か間違ってますか?280が消えない時があります
2022/08/28(日) 12:33:21.57ID:4oWDpmI8
[22][88][00]
こういうこと?その消えない時のレス見ないと正確なことは分からんよ
後ろが一致してないのかもだし数値参照かもしれんし
2022/08/28(日) 14:30:01.62ID:HKThARKH
なぜ組み合わせたいのかがよくわからんな
後半のパターン部分を素で書けば良いと思うんだけど、あえて暴言を目視したいスレでもあるんだろうか?
2022/08/28(日) 14:36:53.39ID:q8tm2XHG
単発のNGの他に連鎖NGとかIDごとNGとかあるだろ
わからないなら黙ってろよ
2022/08/28(日) 16:16:08.48ID:XxcpkpFs
ごめん
501デフォルトの名無しさん
垢版 |
2022/09/04(日) 01:47:12.24ID:0/i0sC9q
GNU grep 3.8 (2022-09-02)から-Pオプションのリンク先がPCRE2になったらしい
それ以前は古いPCREだった
-Pオプションが機能しないWindows版grepバイナリには関係のない話だけど
2022/09/04(日) 07:42:45.45ID:pCQ9P7Vy
1
2

10
77
100
150
1000

3桁までの数字のみをする場合
[0-9]{,3}だとダメでした
正規表現チェッカーでいろいろ試しているですが分かりません
200までの数字だとどうしたらいいですか?
2022/09/04(日) 08:41:45.13ID:x2tuNrOY
ttps://www.simple-edition.com/prog_memo/number_range_regexp/

[1-9]|[1-9][0-9]|1[0-9]{2}|200
で範囲を作ったものを

ttps://weblabo.oscasierra.net/tools/regex/

ここに代入しても使えませんでした
「正規表現」の意味合いが違うんでしょうか?
2022/09/04(日) 09:08:03.10ID:MIQciAoV
>>503
それだと92000の200にもマッチしてしまうよ
インド数字等を気にしないなら[0-9]は[\d]でもOK

(?<![0-9])(?:200|[1][0-9]{2}|[1-9][0-9]|[0-9])(?![0-9])
505デフォルトの名無しさん
垢版 |
2022/09/04(日) 09:46:10.78ID:ZQZ632xa
>>503
[0-9]{1,3}
これだと結果でるようだけどそのサイトm値省略不可なのでは
他に | のorも説明ないようなのでダメとか

正規表現文法どこまで対応してるかは動かす環境次第なので質問テンプレートにも入力項目になってんだけど
>>1
2022/09/04(日) 10:07:01.01ID:qlj2b1lm
すまない

●Regular Expressionの使用環境
iPhone,a-shellというアプリ

●検索か置換か?
検索

●説明
フォルダ内にある写真を圧縮するため

●対象データ
1から200などのjpegとかの画像
●希望する結果
検索してそれをまとめて圧縮
2022/09/04(日) 10:19:49.12ID:NNtN3+VI
まあ案件次第だけど
> 200までの数字だとどうしたらいいですか?
とかなら\d+で取得してアプリケーション側で弾くのが後の保守を含めて簡単かと思う
2022/09/13(火) 19:48:53.80ID:aae9uQ50
スルーされにくい質問のテンプレと例

●Regular Expressionの使用環境
PowerShell7.2

●検索か置換か?
置換

●説明
文中(先頭及び文末以外)の0が連続して3つ以上並ぶ部分をハイフン(-)に置換したい

●対象データ
123000444
000123000
1230000000444

●希望する結果
123-444
000123000
123-444

よろしくお願いいたします。
2022/09/13(火) 20:02:34.86ID:BFM47HY2
(?<!^)000+(?!$)
-
2022/09/13(火) 20:23:28.22ID:el3nukes
00000 → 0-0 ?
2022/09/13(火) 20:37:38.14ID:G28B9gdh
ああ、
00001200030000

0-12-3-0
とするのか (>>509のやつ)
先頭末尾に繋がっている0は無視したい
000012-30000
のか例からだと不明だね
2022/09/13(火) 21:45:26.67ID:aae9uQ50
508です。
早くもいろいろご回答いただきありがとうございます。
そしてすみません、みなさまのリプを見て自分の考えが足りなかったことに気付きました…
変換は一度だけ、先頭から数えてもっとも近いもののみです。
正しく書き直します、すみません。

スルーされにくい質問のテンプレと例

●Regular Expressionの使用環境
PowerShell7.2

●検索か置換か?
置換

●説明
文中(先頭及び文末以外)の0が連続して3つ以上並ぶ部分をハイフン(-)に置換したい
(先頭から数えて最初の一致のみ)

●対象データ
123000444
000123000
1230000000444
12000045600006

●希望する結果
123-444
000123000
123-444
12-45600006

よろしくお願いいたします。
2022/09/13(火) 22:09:54.11ID:jeF3JQfM
>>511
> 先頭末尾に繋がっている0は無視したい
こんな条件どこから出てきたんだ?
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況