スクレイピングの練習中でリスト内包表記とre.search()について教えてください
seleniumとlxmlで取得したデータの変換がうまく行かないです
url_list = ['https://www.tekitou'+re.search(r'[^0-9A-Z]dp[^0-9A-Z]([0-9A-Z]{10})([^0-9A-Z]|$)',a.get('href')).group() for a in html.cssselect('#tekitou > div > div > a:nth-child(1)')]
html.cssselect('#tekitou > div > div > a:nth-child(1)').get('href')の時点で取得できてるurlは下記のような感じです。
https://www.tekitou/%〇〇%〇〇/dp/(10桁の英数字 英は半角大文字)/ref=zg_bs_10桁の数字_2桁の数字/3桁の数字-7桁の数字-7桁の数字?pd_rd_i=(10桁の英数字 英は半角大文字)&psc=1
https://www.tekitou/music/player/ref=zg_bs_10桁の数字_2桁の数字/3桁の数字-7桁の数字-7桁の数字?pd_rd_i=(10桁の英数字 英は半角大文字)&psc=1
re.search().group()する前のurlが/dp/ありのurlと/dp/なしのurlに分かれるのですが、
re.search(r'[^0-9A-Z]dp[^0-9A-Z]([0-9A-Z]{10})([^0-9A-Z]|$)',a.get('href')).group()の作業の際にエラーがでてしまうため
/dp/なしのurlを削除するようにするか、
pd_rd_i=(10桁の英数字 英は半角大文字)&psc=1の(10桁の英数字 英は半角大文字)を取得するようにしたいです。
なにかうまい表記があれば教えてください
【まず1嫁】くだすれPython(超初心者用) その57
■ このスレッドは過去ログ倉庫に格納されています
509デフォルトの名無しさん
2022/07/24(日) 19:45:11.64ID:e/hljxBO■ このスレッドは過去ログ倉庫に格納されています
ニュース
- インド軍が係争地のパキスタン側に攻撃 26人犠牲テロへの報復 [七波羅探題★]
- 【文春】《記事予告》国民的女優&人気俳優 不倫スクープ第2弾 ★5 [Ailuropoda melanoleuca★]
- 若年層も注意「人や物の名前が出てこない」もしかしたらスマホ認知症かも…原因は「スマホの使い過ぎ」 [七波羅探題★]
- アイヌに対する差別偏見“見聞きしたことある”回答の1割 政府 [香味焙煎★]
- 【サッカー】UEFA-CL準決勝第2戦 インテル×バルセロナ [久太郎★]
- 日テレ「マジカル頭脳パワー!!」「THE夜もヒッパレ」「天声慎吾」「歌の大辞テン」など装い新たに蘇る [ひかり★]
- 「45歳だけど、大学に行って勉強し直そうと思う」 なぜかこれが日本だと笑われる件。おかしくないか?この国 [377388547]
- 【動画】日本さん、ゾンビが発生したら銃がないので確実に詰むことが証明されてしまう これ銃ないと絶対無理だろ、、、 [689851879]
- ダブパンマン出禁の🏡
- 【正論】玉木雄一郎「テスラやBYDのEVからはガソリン税を取れない😤暫定税率は廃止するべき😤」 [519511584]
- マチュ「キラキラだぁ」「シュウジ♥」「ニャァン💢」👈逆にこいつに共感できるやついるの? [606757419]
- 記憶が1週間しか保たないんだけどどうすればいい