シェルスクリプト総合その33

**デフォルトの名無しさん** · 2020/08/12(水) 15:14:39.87

スレチでしたら申し訳ないです
どこで質問したらいいのか分かりませんでした

curlで取得したhtmlソースからページのタイトルを取得したいです

curl "https://ja.wikipedia.org/wiki/"; | nkf -w | grep -oP '(?<=<title>)(.+)(?=</title>)'

こんな感じで<title>タグに挟まれた文字列を正規表現で抽出すればできそうなのですが、wiki等の一部サイトではgrepで抽出できません
googleやyahooはできました

文字コードがShift-JISなのが問題だと思いますがnkfで変換してあるのになぜできないのかわかりません

どうすれば抽出できますか？

シェルスクリプト総合 その33

シェルスクリプト総合その33