0807デフォルトの名無しさん
2020/08/12(水) 15:14:39.87ID:obuPMR8Vどこで質問したらいいのか分かりませんでした
curlで取得したhtmlソースからページのタイトルを取得したいです
curl "https://ja.wikipedia.org/wiki/" | nkf -w | grep -oP '(?<=<title>)(.+)(?=</title>)'
こんな感じで<title>タグに挟まれた文字列を正規表現で抽出すればできそうなのですが、wiki等の一部サイトではgrepで抽出できません
googleやyahooはできました
文字コードがShift-JISなのが問題だと思いますがnkfで変換してあるのになぜできないのかわかりません
どうすれば抽出できますか?