これで大丈夫でしょうか?
Pattern pattern = Pattern.compile(
"(([0-9a-zA-Z!#\\$%&'\\*\\+\\-/=\\?\\^_`\\{\\}\\|~]+(\\.[0-9a-zA-Z!#\\$%&'\\*\\+\\-/=\\?\\^_`\\{\\}\\|~]+)*)|(\"[^\"]*\"))"
"@[0-9a-zA-Z\\-]+(\\.[0-9a-zA-Z\\-]+)*");
実際のところ、リンクから取得する他に、、Webページの中に普通のテキストで表示してあるメールアドレスも取得したいんですね。
その場合どうするかというと、ページに書いてある全てのテキストをひとつの文字列に格納して、その中からメールアドレスを探してます。
その時はやはりメールアドレスのパターンから探すのがいいのではないかと思います。
まあ実際のところパターン文字列から?だけを削除したものを使って、これまで数百件のメールアドレスのWEBページからの抽出をしましたが、
ほぼエラーなしというか、変な文字列を抽出することはありませんでした。
mailto:info@jafrac.org&abc みたいな記述があればちゃんと抽出出来ないはずだと思うのですが、そうした記述はまずないってことだと思います。
とは言え使えない文字を含めたパターン文字列はまずいと思うので、書き換えてみましたが、これでいいのか不安です。
探検
Java入門・初心者質問スレ Part.7
■ このスレッドは過去ログ倉庫に格納されています
805デフォルトの名無しさん
2018/06/02(土) 20:21:16.02ID:ZL+shul1■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【熊本】園児に強制性交か 保育所勤務の男を逮捕「性的な欲望が我慢できなかった」警察は余罪を調べる [七波羅探題★]
- 堀江貴文、キャッシュレス非対応の店にモヤッ 『PayPay』立ち上げの人物にまさかの直談判「現金決済しかできないんだけど…」 [冬月記者★]
- 【前橋市】小川晶前市長とラブホテルで打ち合わせをした54歳男性職員を停職処分 今月末で依願退職するという [シャチ★]
- 【おこめ券】鈴木農相 米価維持の意図「一切ない」★3 [ぐれ★]
- 日銀「歴史的」利上げ迫る 35年ぶりの年間上げ幅、0.5%の壁を突破 [蚤の市★]
- 【サッカー】元日本代表DF冨安がオランダ1部アヤックスと大筋合意か 現地メディア報じる [久太郎★]
- 【悲報】欧州、トランプ関税の前例に従い対中規制として関税を検討、中国さん四面楚歌へ [733893279]
- 高市早苗「竹島は日本領土」 [834922174]
- 中国の日本向けレアアースの輸出止まる、高市のせいで日本終了のお知らせ [931948549]
- ヨドバシ店員「転売対策です。エヴァに出てくるロボットの名前をどれかひとつ言ってください」 [268718286]
- あくたんのおまんこって甘そうだよな🤤
- 🏡
