Regular Expression(正規表現) Part16

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん
垢版 |
2021/11/03(水) 19:50:01.71ID:ebAE+z9+
Regular Expressionスレです。

質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。

前スレ
Regular Expression(正規表現) Part15
https://mevius.5ch.net/test/read.cgi/tech/1568640311/


次スレは>>980宜しく
天ぷら等>>2以降
2022/07/03(日) 21:37:15.00ID:JPaw0m1w
possessiveって「独占欲が強い」って意味だから
含意も伝わる入門正規表現の「独占的」が一番いい訳だと思う
2022/07/03(日) 21:38:14.39ID:BZUl5BA7
強欲というのを専門用語にしてるわけだから誤訳と言っても仕方ないだろ
誤訳だから俺だけは強欲と貪欲は同じ取り扱いをするよで世間で通じるとでも思ってるのか
2022/07/03(日) 21:39:37.19ID:BZUl5BA7
>>385
他の訳にしてるところもあるのは知ってるが
強欲をいう言葉を出してgreedyのことだと解説してるところは皆無だと思ってる
反例よろしく
2022/07/03(日) 21:42:08.05ID:THTbKALg
lookaheadの「先読み」はいいけど、
lookbehindの「後読み」も悪しき訳だよね
「戻り読み」の方が方向が理解しやすい
2022/07/03(日) 21:55:07.74ID:B7Hb5nx0
possessiveが強欲と訳されてるのは、たぶんJava界隈で「possessive (very greedy)」と表記されていたのが「強欲」と訳されて、『詳説正規表現第2版』でもその訳が採用されて広まったのかな
個人的にはうまい訳だと思うけど、英語から入った人が混乱するのは理解できる
2022/07/03(日) 22:44:39.24ID:R6EXpQG5
>>379
正規表現技術入門 欲張り/控え目/強欲
正規表現辞典改訂新版 最長一致(longest match)、欲張り、貪欲(greedy)/最短一致(shortest match)、無欲(reluctant)/強欲(possessive)
2022/07/03(日) 22:55:10.77ID:hD5VDdvY
最長最短でいいわ
2022/07/03(日) 23:12:37.67ID:RqS+SurZ
各日本語名は鬼雲方式でいいわ
ttps://github.com/k-takata/Onigmo/blob/master/doc/RE.ja
2022/07/03(日) 23:31:21.62ID:C1pvOjRy
lookahead 未来読み、lookbehind 過去読みなら、分かりやすかった

先読み・後読みの、先・後が分からない
2022/07/03(日) 23:46:52.53ID:C1pvOjRy
greedy, reluctant はよく見るけど、
possessive 強欲は知らない

絶対最大量指定子なら見た事がある
2022/07/04(月) 01:04:08.73ID:ILSPAQNd
Microsoftとかjavaとか強欲を使ってるね
もし本当に知らないというのなら無知すぎると言わざるをえない
2022/07/04(月) 17:32:20.05ID:ri3Dm2ZG
日本語で正規表現に関して議論するなら知っておいてほしい気はするけど、
訳語を一つ知らないだけで無知とか言わなくても…

例えばperlreは2011年に「強欲な」が「絶対最大量」の表記に変更されているようだし、
触ってきた言語によっては強欲って訳に馴染みが無いのかも
2022/07/04(月) 18:06:20.41ID:oo1ug/2U
>>388
ストローマン!ストローマンじゃないか!
2022/07/04(月) 18:31:29.79ID:5WegoFeO
possesiveを強欲と呼ぶのは明らかな誤訳だし
greedyと勘違いするリスクも低くないんだから使わないほうがいい
同じようにgreedyを強欲と呼ぶのもリスクあるから避けるべきだね
2022/07/04(月) 19:19:19.95ID:rQV6IDNU
perldoc.jpでは「non-greedy」を「非貪欲、貪欲でない」、「non-possessive」を「強欲でない」としていますね
2022/07/04(月) 20:10:42.89ID:ckHiziij
「ひんよく」の人なら「きょうよく」と読んでしまいそうだしな
「独占的」がベストだという結論ならそれを広めようと思うがどうだろうか?
2022/07/04(月) 20:35:20.72ID:PN4eFOxq
貪婪/勉強、逐歩/独占、占有、独吐

食べきった文字を二度と吐き出さない=獨吐
2022/07/04(月) 20:35:46.95ID:4rkDJ26m
強欲: 掴んだら(一致したら)放さない
欲張り: 「なるべく沢山」で一致させる。不一致なら掴んでいた文字を放す
無欲: 条件が一致するまで1文字ずつ追加して最小一致させる

単語の直訳がどうかよりも、欲張り・無欲との関係性や動作(バックトラックの有無)のニュアンスとして強欲の方が適していると思われ
2022/07/04(月) 20:50:18.31ID:oo1ug/2U
強欲からpossessiveを連想するのが難しい以上、
possessiveを強欲とするのが適しているとはとても思えない
2022/07/04(月) 21:21:35.91ID:4rkDJ26m
それは英語に「欲張り」と「強欲」のニュアンス違いに相当する言葉が無く
どちらもgreedyになってしまうからpossessiveと置いているだけの話で
逆輸入してあちらさんの言葉に合わせるよりは
より本質的に合った言葉を当て嵌める方が理解しやすいし、訳としても正しい
2022/07/04(月) 21:22:02.00ID:5E8qS6xJ
いつまでやってんだ?
2022/07/04(月) 21:26:25.77ID:oo1ug/2U
昔話の欲張り爺さんは強欲爺だろ?
日本語だって欲張りと強欲に序列なんてないだろ
そも強欲は宗教用語だし
408デフォルトの名無しさん
垢版 |
2022/07/04(月) 21:29:14.26ID:CMsCi2w4
?サッカーでボール所有率をポゼッション(Possession)と表現するよ
2022/07/04(月) 21:42:50.78ID:ckHiziij
正規表現という名前自体も正則表現が正しいとよく言われるが正規表現と呼ばれ続けてるね
一度浸透してしまったら変更するのは容易ではないね
ほとんどの人にとっては強欲か独占的のどちらがいいかなんて「意味の違いなんかどうでもいい!変えるな!」だろうな

独占的 (旧名: 強欲)

というように注釈を付けながら変えるのが理想的だが果たして各方面に受け入れてもらえるのだろうか?
410デフォルトの名無しさん
垢版 |
2022/07/04(月) 21:51:29.57ID:CMsCi2w4
ネスレはレギュラーコーヒーに戦いを挑んでないみたいだけど、
インスタントコーヒーに取って代わるべくレギュラーソリュブルコーヒー推しだよね
2022/07/04(月) 22:00:36.67ID:sR2pocrJ
ネッスルの方がなじみ深い
2022/07/04(月) 22:06:35.42ID:7wZS5m0B
違いがわかる男の正規表現
2022/07/04(月) 22:10:57.58ID:at368eXu
ポゼッシブを強欲と呼んでる人がいるのこのスレで初めて知ったよ
強欲の英訳はほぼ100%greed/greedyになるから絶対やめた方がいい
2022/07/04(月) 22:18:25.27ID:Fzsxp6Q8
>>413
possess v. って単に所有する、っていう意味なのにね
2022/07/04(月) 23:33:58.60ID:Tw6HV9Rf
なにも日常語のpossessiveを強欲と訳しているのではない
「握ること」=「米の球」という誤訳が同じ物🍙を指すことで意訳になるのと同じで、
正規表現においてはpossessiveと強欲と絶対最大(量指定子)という語は定義によって同じ物を指して、対応する用語になっているというだけ
やたら英訳にこだわっている人は、possessiveという用語に対応するキーワードのひとつである強欲を知らずにgreedyと英訳してしまった無知をごまかしているように見える
2022/07/05(火) 00:14:37.32ID:Pgzcl5cT
>>415
「米の球」を黒焦げに焼いたらtarballになる、まで読んだ
2022/07/05(火) 10:52:26.63ID:K5Eu4yGw
>無知をごまかしているように見える

この人の感受性がおかしいと感じたのは俺だけだろうか、やたら人のことを悪く見ようとしてないか?
知らない人に対する潜在的な恐怖心がこういう発言になるのかな?分からんがみっともないからやめたほうがいい
2022/07/05(火) 11:08:04.06ID:sc95gC5i
議論は別にすきにしろよと思うが人格否定や揚げ足取りは荒れる元だからやめろ
2022/07/05(火) 11:41:54.88ID:cG0ybmcU
>>417
そらそこは反論を期待して英訳に固執する人を揶揄してわざと悪し様に言ったところだからな、図星だったなら謝るよ
でもまさか本題には一切触れず蛇足だけに突っ込んで人格の否定までして論点をずらすような真似をされるとは思わなかった、よほど気に障ったのだろうか
あ、反論があるなら本題の方をメインで頼むな、他の人に迷惑でみっともないからね
2022/07/05(火) 12:00:26.75ID:364oCHD3
>>416
おっと焼きおにぎりの悪口はそこまでだ
2022/07/05(火) 13:10:32.42ID:/Cj5WPzT
当て身は打撃のことじゃないって言い張る格ゲープレイヤーみたい
2022/07/05(火) 13:38:26.40ID:K5Eu4yGw
その攻撃性と被害妄想的な受け取り方はどうにかならんの?普通に会話すればいいだけだと思うのだが
このレスを読んでも攻撃されてると思うの?
2022/07/05(火) 13:44:47.04ID:SfuXrTgV
その精神病を当て擦るような言い方
2022/07/05(火) 16:42:32.77ID:9eeXBGst
>>ID:K5Eu4yGw
議論で熱くなって中傷が混じるのは褒められないことではあるがある程度は容認出来る
おまえは議論の本題に触れもせず、中傷、人格攻撃だけのレス
この違いが分かる?
中傷したいのなら議論の本題に上手く絡めて、やれ
2022/07/05(火) 17:00:54.47ID:8BLlx4g8
>>415
>正規表現においてはpossessiveと強欲と絶対最大(量指定子)という語は定義によって同じ物を指して、対応する用語になっているというだけ

それが問題だよねって話をしてるんでは?
正規表現においてpossessiveのことを強欲と呼ぶのは適切ではないという主張に対する反論にはなってないように見えるけど?
2022/07/05(火) 17:21:05.39ID:hw2faXZs
●Regular Expressionの使用環境
サクラエディタ2.3.2.0(bregonig.dll 4.20 with 鬼雲6.2.0)

●検索か置換か?
検索

●説明
\sの結果にUnicodeのスペースは全て含めたいが
Unicodeの改行(LF,CR,CRLF,NEL,PS,LS)は含めたくない。
(UNICODEの改行は厳密にはVTとFFが含まれると思いますが
https://www.unicode.org/standard/reports/tr13/tr13-5.html
できれば今回はVTとFFは例外で改行ではないスペース扱いにしたいです)

●対象データ
UTF-8テキストファイル
小U+0020迫LF(U+000A)
松U+0009本CRLF(U+000D U+000A)
高U+3000田NEL(U+0085)

●希望する結果
半角スペース
水平タブ
全角スペース
※単純に\sで検索すると都合6箇所マッチしてしまうので、
(サクラエディタが改行コード扱いする)Unicodeの改行(LF,CR,CRLF,NEL,PS,LS)を
マッチ対象から除外して3箇所だけにマッチする正規表現が知りたいです。
2022/07/05(火) 17:22:13.40ID:9eeXBGst
> possessiveのことを強欲と呼ぶ
飽く迄、英語をベースに日本語へ訳したいワケね
そういう解釈をしてるからおかしく感じるのだろう
日本語の欲張りに対しての強欲に相当する語が無いから英語ではpossessiveを充てている
英語側の単語が貧窮な都合だ
2022/07/05(火) 17:43:33.84ID:9eeXBGst
>>426
文字集合の積演算
[\s&&[^\r\n\x0085]]
これにPS,LSも含めればいい
2022/07/05(火) 17:56:41.32ID:4sOf+wSV
>>427
日本語も欲張りと強欲はどちらも欲深いことを言っているだけで、
欲の深さを示してはいないよ
近いと近距離、どっちの距離が離れているかを示せないないのと同じ
さらに言えば
逆に英語では明確に区別された語(greedy?|possessive)を、
明確に区別できない語([貪|強]欲)に置きかえたのが問題
直訳・意訳ですらない置きかえ
日本語に対して英語を充てたとそう勘違いしてる?
2022/07/05(火) 18:10:02.38ID:K5Eu4yGw
>英語の人
なんか申し訳ないね、せっかく英語の意味の違いを教えてくれたのにこんなことになってしまって・・代わりに謝るよ、ごめんね
俺も強欲という名前は間違いだと思う、教えてくれてありがとね
2022/07/05(火) 18:23:23.60ID:9eeXBGst
> 欲張りと強欲はどちらも欲深いことを言っているだけ
そりゃどちらにも「欲深い」の意があるだろう
だがその2つが並んで違いを理解出来無いのならおまえの日本語力に問題がある
普通に日本語を扱える者ならば「強い」を含む側に強い意味合いが込められていると解する
自分が分からなかったからと言ってケチ付けて自己肯定、「俺が悪いんじゃない」するのはみっともない
2022/07/05(火) 18:29:53.51ID:4sOf+wSV
>>431
そうか、「強」が付いてると強いのか知らなかった
強奪と収奪は強奪の方がより奪えるって理解でいいのかな
勉強になる
2022/07/05(火) 18:41:45.68ID:KH2ZmSBP
>>427
英語をベースにしないならそれこそrice ballのようにもっと適切な命名があるでしょ

プログラミング分野においてgreedyを貪欲/強欲/欲張りと訳すのが定番化してる中で
正規表現の場合だけは強欲は貪欲とは意味が違うというのが無理筋で悪い命名でしかない
フクロウ本の第3版で変更されてるのも強欲だと違いが分かりにくい/紛らわしいからだと思うよ

いい命名ではないけど貪欲に対して超貪欲とかならまだ賛同できた
2022/07/05(火) 18:41:56.55ID:4sOf+wSV
ちなみに日本語には無欲と[貪|強]欲の間に[小|少]欲ってのがあって、
こっちは明確に欲が少ないと定義されてるんだが、
普通に日本語を扱える者は「小さい」あるいは「少ない」欲の対義語として
「強い」欲となることに違和感を持たないものかな?
…とここまで書いて気付いたけど、貧と強が欲の深さを表してると思ってたってことか
かわいいね
2022/07/05(火) 19:04:14.64ID:K5Eu4yGw
昔は強欲でも困らなかったんだろう、しかし時代は変化していくからな
日本人にとって英語がより身近になれば英語から見ておかしい訳は淘汰されていくだろう

野球のカウントが S B O から B S O の順に変わったのと似てる、野茂以前では S B O で何の不都合も無かった
メジャーリーグを大リーグと呼ぶ訳は英語が分かる人から見てどう思うのか少し気になるw
2022/07/05(火) 19:04:56.60ID:TINjq0RZ
>>430
私(415,419)に対する人格攻撃や精神疾患への当て擦りととられる発言まで晒しておいて自身の行為は謝罪しないのな
一般に貪欲も欲張りも強欲もまとめてgreedなのもpossessiveが強欲でないこともあなた以外全員知ってた
その上で用語として定義されたものを訳とみなしたときの気持ち悪さについて議論している
絶対最大の英訳がpossessiveとかそれこそあり得ないだろ?
2022/07/05(火) 19:05:56.36ID:9eeXBGst
> 強奪と収奪
「奪う」はどちらも同じ
収は集める意が含まれる
強奪の強は「強引に」の意
ひったくりは収奪よりは強奪
村やビル占拠して人質脅して金品出させるようなのは「集める」ので収奪
収奪だって「奪う」ので「強制」的、強奪ではあるが「集める」方をより強調させた言葉
あと言葉はふわっとしてるもので意味するところはある程度の範囲がある
「奪う」の意が同じなのでどちらでも問題が無い場合もあるだろう
だが
> その2つが並んで違いを理解出来無いのなら
と書いたように両者を用いているのであれば、そこに違いがあって当然なわけで普通はその差異を汲み取れる
2022/07/05(火) 19:31:46.72ID:K5Eu4yGw
>>436
いや俺そこまでのことは言ってないと思うのだが
そんなつもりではなかったのでそれ以上に受け取ったなら謝るよ、ごめんね

>絶対最大がpossessive
日本語から英語への翻訳がこれだったら変だと思うね
2022/07/05(火) 19:45:12.44ID:4sOf+wSV
>>437
> 強奪の強は「強引に」の意
そういうことまでわかっていながら強欲についは頑なに強いと思ってるその認知はどこから来てるんだろう
大欲じゃいけない理由も知りたい
2022/07/05(火) 19:52:54.12ID:9eeXBGst
> 強欲についは頑なに強いと思ってるその認知は
>> その2つが並んで違いを理解出来無いのなら
が理解出来無い?
『「欲張り」と「強欲」が併用されている場合』に
どちらが強い意味合いを持つのかは一目瞭然な訳だが
まだ続けるの?
2022/07/05(火) 20:03:46.40ID:9jUwBfIC
SunやMicrosoftが使ってる以上、意味はどうあれ専門用語として取り扱うべきである
俺は嫌だから使わないってのはいいけど
他人が使ってるのをそんな言葉知らんぞ、間違ってると指摘するのは異常人
2022/07/05(火) 20:05:32.97ID:4sOf+wSV
>>440
思い込みじゃなくそうと示された他の資料を欲しい
一目瞭然なら当然どこかしらに示されてるだろうけど、
webの辞書や記事と手元の辞書ではその差を確認できなかったから
2022/07/05(火) 20:07:09.41ID:4sOf+wSV
>>441
MSはかつてそういう指摘に応えて使用する用語を変えてきた実績があるよ
一度決めたら二度と変わらないって会社ではない
2022/07/05(火) 20:11:53.67ID:4sOf+wSV
>>441
Oracleは日本語を正とせず英語を正としろって立場を採ってるよね
誤訳がありうるってことだし、誤訳によりライセンス内容の整合性がとれなくなったMSの事例もあるね
2022/07/05(火) 20:25:49.94ID:mmXAp8Yt
なんだなんだ
「強欲」って用語が指していることを理解してなくて会話がかみ合わなかった週末の人、
数日経ってもまだ「ぼくちゃんまちがってないもんえいごだとこうなんだもん」って駄々こねて80レス位進んでるのか・・・・・

ちょっとした勘違いとかちゃんとした日本語のドキュメントに目を通してなかったとか誰にでもあることなんだから
それこそ貧欲って書いてた人みたいに一言間違ってたわwって言うくらいで収まることだと思うんだけどなあ
悪いけどやってること恥の上塗りだよ?
2022/07/05(火) 20:35:51.78ID:K5Eu4yGw
もう ひんよく と きょうよく でいいよ
2022/07/05(火) 22:07:33.30ID:mmXAp8Yt
同一人物のくせに他人のフリとかどんだけ面の皮厚いんだよ・・・とか一瞬思ったけど
ID:K5Eu4yGw と ID:nkFK6+7O ID:4sOf+wSV は別人だったのか
見分けついてなくて同一レベルのゴミかと思ってたわごめん
2022/07/05(火) 22:30:45.62ID:JtY8aViY
口語だと基本的に最短一致、最長一致、バックトラックしない最長一致って言ってる
欲張りとか強欲とか実際に口に出して言ってる人には出会ったことないわ
2022/07/05(火) 22:50:11.96ID:MNnvUB1p
(非探索)最長一致
(最)多一致
(最)少一致
どちらも「最長」だと紛らわしさがあるので
でも「強欲」で定着しているものをわざわざ言い換える程の事でも無いと思う
450426
垢版 |
2022/07/06(水) 00:22:09.50ID:ToTyGXGb
>>428
\x0085を\x{0085}に変えて
[\s&&[^\r\n\x{0085}\x{2028}\x{2029}]]でOKでした
積演算&&の有効な使い方を初めて知りました
どうもありがとうございました
2022/07/06(水) 02:03:37.65ID:7JN09BFV
\R*+\K\s
2022/07/06(水) 05:39:49.51ID:FCzm9xaa
口頭ってことは対面レビューとか他の人と共有するソースコードでの正規表現だよね?
そうなると、相手のスキルレベルにもよるけど
「強欲」って単語だけでなく強欲な正規表現自体も避けておくかなあ
このスレのうんざりする流れを見てもわかるとおり「強欲」が相手に通じるとは限らないし
(強欲な正規表現なんて使ったことがない人のほうが多数派だろうし)
最長一致で事足りるなら多少のパフォーマンス悪化には目をつぶる

チャットとかなら「++」みたいな具体例を明示して「強欲」って単語を使うかな
ここみたいな正規表現スレならなにも前提を置かなくとも普通に「強欲」で通じるものとして会話するけど・・・
会話が成り立たなかったうえに間違いを指摘されても「英語だと」「口語だと」「xxxだと」とか延々ゴネる人とは会話したくないなあ
いい加減NGしたいからコテつけてくれるとありがたい
2022/07/06(水) 06:39:20.23ID:5qGkM3IH
しかし回答者のレベル低下が酷いな
ドンキホーテの件にしてもページの置換結果がそのまま店一覧のCSV形式になるような置換をして欲しかったな
$1,$2の件や強欲のすれ違いについても積極的に事態の収集を図ろうとせず悪化させて悪乗りするとはね
2022/07/06(水) 06:47:28.85ID:TTp+bFLp
英語名を変えさせたら良い
gohyork
yorkvary
muyork

対応して日本語名もカタカナ表記で
ゴヨーク
ヨークバリー
ムヨーク

そういう『名前』としてしまえば解決
一意な名称を与えた方が誤解も少なくなるだろう

> 強欲な正規表現なんて使ったことがない人のほうが多数派だろうし
それはあまりにもレベルが低すぎじゃね?
知らない者が学ぶべきであって触りすらも学んだことの無い者へ合わせる必要なんて無い
455298
垢版 |
2022/07/06(水) 06:53:49.49ID:ZAN9ui5m
>>361
> それ書いてる>>314には$1なんてどこにも書いて無いのにw
つまり、>>314の「,」があまりに小さくて見えなくて、
(?<=店)[^〒]*?〒\d{3}-\d{4}\s++
これしか書いてなくて、
2行目の$1,$2を省略したと思ったのですw
2022/07/06(水) 07:02:49.27ID:5qGkM3IH
ここの回答者はそう勘違いしてるのを知ってて何も助言しなかったんだぞ、馬鹿にして笑ってたんだよ
このスレは過疎たせいで悪質な初心者が上級者ヅラするようになってしまった
457298
垢版 |
2022/07/06(水) 07:06:06.70ID:ZAN9ui5m
秋葉原店
専門店

住所
〒101-0021 東京都千代田区外神田4丁目3-3
TEL
0570-024-511


で、さらに教えて欲しいのですが、
前回と同じ質問ですが、
店名と住所を抽出したいです。
で、↓を使いたいのですが、
店を抽出キーワードにすると、専門店とか店舗詳細とかの「店」も拾ってしまうのです。
で、データをよくみると、「 秋葉原店」のように店名の前にスペースがあります。
で、
( )(?<=店)[^〒]*〒\d{3}-\d{4}\s++ と、やってみたのですがダメでした。 どうすればよいでしょうか?

(?<=店)[^〒]*〒\d{3}-\d{4}\s++  ←は>>314さんの教えてくれたヤツ。
2022/07/06(水) 07:09:45.51ID:SZC2q9b+
これ非包含演算子に粘着してるのと同じやつだろ
粘着気質と承認欲求丸出しのマウンティング気質が全く同じ
2022/07/06(水) 07:46:05.23ID:o/55z/m0
>>453
再質問来てるぞ
> ドンキホーテの件にしてもページの置換結果がそのまま店一覧のCSV形式になるような置換をして欲しかったな
おまえがお手本見せてやれや
回答者をバカにするくらいだから余裕だろ?

>>457
>>320
使い方分からないならJSスレか初心者スレ行って聞いたらいい
460298
垢版 |
2022/07/06(水) 08:07:45.17ID:ZAN9ui5m
>>459
↓って英語だからどうやって使っていいのかわかりません。

https://pastebin.com/M6LqV15b
461デフォルトの名無しさん
垢版 |
2022/07/06(水) 11:44:54.56ID:MXaUuSJv
まず英語の勉強をするべき
2022/07/06(水) 12:10:15.16ID:c6fRPAAn
CSV の正規表現なんて、数千行ぐらい掛かるだろ。
HTTP の正規表現でも膨大だろ

行区切り文字の改行
列区切り文字のカンマ

クォート文字のダブルクォーテーション。
クォート文字が無くても、意味が変わらなければ省略できる

クォート文字内では、行区切り文字・列区切り文字の効果がなくなり、単なる文字となる。
クォート文字内で、連続した2つのクォート文字を使えば、
クォート文字の効果がなくなり、単なる1つのクォート文字となる

もし、クォート文字の対応関係が崩れたらエラー。
クォート文字の数は、必ず偶数個である

こんな膨大な条件判断を書けるわけない。
条件判断とか構造があるものは、正規表現では無理。
こういうものは、Ruby などのパーサーを使わないと無理

CSVをawk などで処理している香具師とか、CSVの構造を分かっていないから、
こういう特別な意味をもつ文字が混じると、バグル
2022/07/06(水) 13:40:21.16ID:gR1YTmZs
>>462
なんでCSVのパースする前提になってるんだ?
webの店舗情報のテキストをCSVにするのになんでクォート内の対応を気にする必要がある?
464デフォルトの名無しさん
垢版 |
2022/07/06(水) 15:43:31.34ID:MXaUuSJv
KEИTAはでたらめ
465462
垢版 |
2022/07/06(水) 17:15:52.66ID:c6fRPAAn
行区切り文字の改行、列区切り文字のカンマ、
クォート文字のダブルクォーテーション

CSV データ内に、こういう特別な意味をもつ文字が混じると、バグル

これらの文字が無ければ、Ruby などのCSVパーサーを使わずに、
awk などで処理しても、バグらない
2022/07/06(水) 17:19:01.24ID:QeuQIz9d
なんか話脱線マウントしまくって会議やコードレビュー下手くそで顰蹙を買いまくってそうな人来てるやん
2022/07/06(水) 17:55:19.63ID:gR1YTmZs
>>465
混ぜなきゃいいのでは
2022/07/06(水) 19:01:53.46ID:kQhbtDqq
いつも文体一緒だからバレる
2022/07/06(水) 19:30:39.95ID:5qGkM3IH
>> 298

「店」が無い店もあったからHTMLソースから取り出すようにしたよ
ブラウザでHTMLソースを表示させてnotepad++にソースをコピペしてから置換して

1回目の検索欄
^[^\r\n]*<h4\s+[^>]*class=["']?shopList[_\-\s]*storeName["']?[^>]*>\s*<span[^>]*>\s*</span\s*>\s*([^\s<>\r\n]+(?:\s+[^\s<>\r\n]+)*)\s*
</h4\s*>(?:(?!<dd[^>]*>\s*〒|<h4)(?:[\r\n]|.))*<dd[^>]*>\s*〒\s*[\d\-]+\s+([^\s<>\r\n]+(?:\s+[^\s<>\r\n]+)*)\s*</dd\s*>[^\r\n]*$

1回目の置換欄
うんこ$1,$2

2回目の検索欄
^(?!うんこ)[^\r\n]*$[\r\n]+

1回目の置換欄
( 空欄にして )


2回の置換が終われば店舗一覧が完成しているはず


1回目の検索欄は長すぎるから2行に分割したよ、1行に繋げてから使って
検索欄や置換欄に記入するときは前後に余計なスペースやタブ文字が紛れ込まないように

HTMLの細かい変化にはなるべく対応出来るようにしたけど店舗一覧のページがリニューアルしたら使えなくなるよ
2022/07/06(水) 19:34:28.40ID:5qGkM3IH
ミスった

1回目の置換欄
( 空欄にして )

これは2回目だね
2022/07/06(水) 19:39:45.64ID:5qGkM3IH
全国の店舗一覧を取得したいならwgetなどで各店舗一覧ページをローカルに保存してからnotepad++のファイル一括置換でまとめて置換したほうが楽
「wgetの使い方が分かりません」はスレ違いなのでよそで聞いて
2022/07/06(水) 23:10:34.54ID:gFUK7vgi
ホンの少し複雑化しただけで頭の悪さや性格って浮かび上がるよねw
2022/07/07(木) 16:29:53.46ID:ls1FMHZL
そのまま正規表現1回でやるのと、改行の種類とかあったりなかったりする要素とか明らかに不要な要素を掃除してからやるのとどっちがいいですか
2022/07/07(木) 16:37:27.46ID:3hUwVJb0
掃除して整形してからやるのがコスパ良いに決まってる
力業いくない
2022/07/07(木) 17:27:59.03ID:EezL89dt
ケースバイケースやろ
2022/07/07(木) 17:45:22.88ID:QZNfJ5wA
答え合わせ出来るとか、間違いに気付き易いor間違い難いケースは1発
合ってるか分かり難い場合は間違い難い正規化式で段階踏む
2022/07/08(金) 12:52:02.00ID:/znuHP85
パイプ・フィルターみたいに、どんどん変換していく方が分かりやすい。
処理A | 処理B | 処理C

Ruby の正規表現では、3種類の改行を、\R と書ける

/\r\n|\r|\n/

/\R/
2022/07/10(日) 17:44:55.47ID:0O2dRiW8
>possesive

ポジティブ
2022/07/16(土) 01:09:47.27ID:gUwlqT3Y
そして誰もいなくなった
2022/07/16(土) 09:09:55.88ID:L4T2PUf2
民度の低い異常者が常駐してたらそりゃ関わりたくないもん
2022/07/16(土) 11:12:47.12ID:WasoqaBj
自己紹介乙
482デフォルトの名無しさん
垢版 |
2022/07/20(水) 06:49:04.62ID:v4tHM0fs
●Regular Expressionの使用環境
秀丸

●検索か置換か?
置換

●説明
同じ文字+間に要らない文字列+同じ文字

同じ文字 一つにしたいです

●対象データ
[ぬるぽ & ぬるぽ]
[ガッ-ガッ]
[hoge & hoge]

●希望する結果
ぬるぽ
ガッ
hoge

よろしくお願いいたします。
2022/07/20(水) 07:23:49.75ID:iuCM0uSo
説明にない[は何?
2022/07/20(水) 08:35:20.99ID:jm1i1IHH
>>483
すみません希望する結果はこちらでおねがいします
[ぬるぽ]
[ガッ]
[hoge]
2022/07/20(水) 09:04:35.27ID:Fdf9zFh2
テスト
\[(.+?)(.*?\1)\](?\2)
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況