X



Webスクレイピング(クローラ・スパイダー) [無断転載禁止]©2ch.net
0014Name_Not_Found
垢版 |
2017/10/10(火) 23:33:58.66ID:???
requestsとbeautifulsoupで超簡単だよね
0015Name_Not_Found
垢版 |
2017/10/11(水) 00:48:58.65ID:???
>>14
簡単。スクレイプに手を出す前は敷居高そうだなーって思ってたけどそんなことなかった。
0016Name_Not_Found
垢版 |
2017/10/24(火) 01:18:04.81ID:xNnmgAAP
このスレWebProg板向きの話題だな

クローラのプログラム自体は簡単だけど
収集したデータを実用に活かすのが難しい
0017Name_Not_Found
垢版 |
2017/10/24(火) 11:24:06.54ID:???
そうなんだよね。データを拾ってくるのはいいんだけどそれをどう活かすのかってのが思いつかない
0018Name_Not_Found
垢版 |
2017/10/27(金) 02:10:23.23ID:???
そんなもん毎晩のオカズに決まっておろーが
0021Name_Not_Found
垢版 |
2018/05/01(火) 19:01:02.87ID:l1wYHpV1
誰でもできる在宅ワーク儲かる方法
少しでも多くの方の役に立ちたいです
グーグルで検索するといいかも『金持ちになりたい 鎌野介メソッド』

LS2JZ
0022Name_Not_Found
垢版 |
2018/10/04(木) 01:09:51.62ID:???
import requests
from bs4 import BeautifulSoup
0023Name_Not_Found
垢版 |
2019/01/28(月) 23:27:21.81ID:???
5chスクレイピングしてみたらレスが増殖するんだけどなんで?
0025Name_Not_Found
垢版 |
2019/02/01(金) 11:28:06.48ID:???
環境はvbaなんだけど
例えばこのスレをスクレイピングしたら>>15のレスが2個に増える
このスレで言うと全体で26個のレスになる
他のスレで酷いところなんか400レスぐらいしかないのに取得レス数が1000レス超えたりする
どうなってんだ・・・
0026Name_Not_Found
垢版 |
2019/02/21(木) 05:21:08.70ID:???
どうなってんだろうねえ…
0028Name_Not_Found
垢版 |
2019/02/22(金) 18:39:26.28ID:???
javascriptを読み解こう!

例えば3ページ目
<a href="javascript:void(0)" onclick="return page('3');">3</a>

page('3')って関数にバインドされてるね。で、page関数を検索すると

function page(page_number){
document.specForm.Page.value = page_number;
document.specForm.ButtonType.value = "D"
document.specForm.submit();
return false;
}

formにあるhidden属性 Page=3, ButtonType=D がセットされて検索ボタンが押されて(submit)、postされる。すると3ページ目が得られる。
0029Name_Not_Found
垢版 |
2019/02/23(土) 03:20:06.94ID:???
>>28
ありがとうございます、解説のおかげでできました!
vbaでもjavascriptつかえるのも発見でした!
page('3')が関数だなんて思いもしませんでした。
ずっと3をクリックするにはどうすればいいかがんばってましたw
0030Name_Not_Found
垢版 |
2019/02/25(月) 16:27:20.50ID:???
Dim ie As InternetExplorer
Set ie = CreateObject("InternetExplorer.Application")
ie.navigate ("https://kakaku.com/specsearch/0010/";)
ie.Visible = True
Call wait(ie)
Application.wait (Now + TimeValue("0:00:01"))

Dim doc As HTMLDocument
Dim formel As HTMLFormElement
Dim sle As HTMLSelectElement

Set doc = ie.document
Set sle = doc.getElementsByName("OS").Item
Set formel = doc.getElementById("spec_search").all.Item(0)
sle.Value = 12
formel.submit

↑価格コムでパソコンをOSwin7で絞り込むコード
ここまで絞り込むのに10時間ぐらいかかってしまった・・・
formエレメントがspecFormで簡単に操作できれば楽勝だったんだけどそれができなくて四苦八苦しました。
教えていただいたjavascriptのコードにもspecForm.submit()でかかれてるから楽勝だと思ったのに。
なんか楽な方法無いですかね。。。これ使うと構文分析がらくだよって言うツールあったら教えてほしいです。
0031Name_Not_Found
垢版 |
2019/03/08(金) 12:46:47.05ID:???
webブラウザで調べたい要素の上にポインター置いて右クリックしたら
要素を調査とか検証とかみたいな項目があるだろう
それ使うのが一番手っ取り早いんじゃないかな
0032Name_Not_Found
垢版 |
2019/03/09(土) 14:02:13.03ID:???
最近のjavascriptやajax使いまくりのサイトのスクレイピングってselenium使う以外の方法ってある?
0033Name_Not_Found
垢版 |
2019/03/21(木) 11:41:27.53ID:???
定期的に更新されるJSONデータをScrapyでパースしてItemリストを作るような場合に、
以前のジョブですでに作成済みのItemはスキップするみたいなことは、どうやってやるのが良いんでしょう?

クロール済みのリンクを再度クロールしないようにするのとかは、JOBDIR指定すればうまいことスキップしてくれるんだけど、
https://docs.scrapy.org/en/latest/topics/jobs.html
クロールをスキップするんじゃなくて、生成済みItemの新規作成をスキップするスマートなやり方ってあるのかしら?

今のところ、Item PipelineでMongoDBにItemを格納するようにして、DBにItemをinsertする時にDuplicateKeyErrorでDropItemさせてるんだけど、ドロップさせないようにするとしたら、いちいちDBを読んで格納済みだったらItemを作成しないみたいにするしかないですか?

毎回DBを読みにいくのは重そうなので、とりあえず今はDBに入れる時点で重複エラーを起こさせてドロップしてるんだけど、なんかスマートじゃないですよね?
0034Name_Not_Found
垢版 |
2019/04/28(日) 23:33:17.81ID:???
あなたのワークシートがインターネットにつながる Excel VBAでクローリング&スクレイピング

って本を買おうと思ってパラパラって中身見てみたら、IE使うことになってんだよね
IEってもうオワコンなのに
0035Name_Not_Found
垢版 |
2019/05/06(月) 07:36:47.06ID:???
IEの更新がストップしたらEdgeが使えるようになるのかしら
0036Name_Not_Found
垢版 |
2019/05/21(火) 15:34:35.63ID:iTLTpi9z
このスレもっと活性化させたいね
0037Name_Not_Found
垢版 |
2019/05/21(火) 15:36:33.02ID:???
>>16 >>17
そんなんプログラミング自体は簡単だけど
うまく生かすのは難しいって何でも当てはまるじゃん
0038Name_Not_Found
垢版 |
2019/06/16(日) 13:45:04.68ID:???
phantom.jsも開発中止か
GUIなしでインストールできるヘッドレスブラウザはないもんか
0039Name_Not_Found
垢版 |
2019/06/16(日) 14:56:57.90ID:???
>>17
Pingaがなくなっちゃったからその代替はどう
0041Name_Not_Found
垢版 |
2020/01/20(月) 13:58:04.71ID:???
GASでスクレイピングしてるんだけど、3秒に1回のアクセスでもまたに遮断される
1時間に1度動くようにトリガーセットしてるのはまずいのかねえ
0042Name_Not_Found
垢版 |
2020/01/20(月) 17:00:25.54ID:???
>>41
アクセス先によるとしか
きっちり3秒に1回にしてるなら、ランダムな間隔にしてみたら?
0043Name_Not_Found
垢版 |
2020/04/06(月) 22:44:14.38ID:2xTj4JsS
例えば5chで何らかの理由であぼーんされてレスが削除される事ってあるじゃん?
その対策で新しいレスがつくたびに自動で保存とかってできる?
0044Name_Not_Found
垢版 |
2020/04/07(火) 18:04:32.05ID:???
>>41
相手のサイトが、頻繁にアクセスしてくる、IP アドレスを拒絶する機能を設定してる

>>43
頻繁にアクセスすると、そのIP アドレスを拒絶してくるのでは?
ひょっとしたら、営業妨害で刑事告訴してくるかもw

5ch では契約者だけに、API を公開してる。
契約していないと使えない
0045Name_Not_Found
垢版 |
2020/04/07(火) 20:50:39.70ID:oYVeDqlc
1分間に何回もアクセスしてる人なんてザラにいると思うけどその辺はどう?
0046Name_Not_Found
垢版 |
2020/04/09(木) 14:35:01.53ID:???
各サイトは、robots.txt を置いて、
クローラーに対して、クロールする方法を宣言する

クローラーはそれに従わないと、業務妨害罪となる

実店舗と同じ。
お店は、その店の規則に従わない客を追い出せる。
それでも客が出ていかなければ、警察を呼んで逮捕できる

お店は、革ジャン・サングラス・ヘルメット・刺青の客などを追い出せる
0047Name_Not_Found
垢版 |
2020/04/09(木) 15:16:09.16ID:8doRssbZ
>>46
なるへそ
0048Name_Not_Found
垢版 |
2020/04/09(木) 17:10:24.97ID:???
>>46
よくそんなウソ堂々と書き込めるなw
0049Name_Not_Found
垢版 |
2020/04/09(木) 23:49:51.95ID:???
>>46
ネタかもだけど、robots.txtに従わないからといって罰せられる法律はないよ
librahackみたいな例もrobots.txtに違反したからではなくシステムへの負荷の問題(あれはそもそもシステム側の不備だけど)
005046
垢版 |
2020/04/10(金) 13:53:32.04ID:???
大量の中国からのDos 攻撃なんか、国内からだと、確実に業務妨害で有罪になる

だから日本の司法権が及ばない、国外から実行する。
犯罪者が国外にいる場合、日本の裁判では有罪にできないから

ゴーンがそうw
裁判すら開けないw
0051Name_Not_Found
垢版 |
2020/04/10(金) 20:09:06.41ID:QalYELFz
星野ロミは特例?
0052Name_Not_Found
垢版 |
2020/06/22(月) 16:38:03.17ID:SB/JXgh9
>>51
星野ロミはそういう問題ではない
彼は漫画村というサイトで漫画を違法アップロードしていた
0054Name_Not_Found
垢版 |
2021/08/14(土) 03:44:37.40ID:???
ガチな初心者がmacにbeautifulsoup4をインスコした後につまずいている
プログラマーの人ってオライリーの「PythonによるWebスクレイピング」読めば簡単にできちゃうもんなの?
Webの知識も必要だなこれ・・
0055Name_Not_Found
垢版 |
2021/09/08(水) 08:48:32.02ID:???
>>54
うん、簡単にできるよ
まあ、読まなくてもできるけど
0056Name_Not_Found
垢版 |
2021/09/15(水) 19:06:35.49ID:???
スクレイピングすると地獄へ落ちるって本当ですか?
0057Name_Not_Found
垢版 |
2021/09/18(土) 03:39:06.98ID:???
スクレイピングの勉強するのですが、下手するとF5アタックになるとかの法的リスクと回避法を重視している入門書ってありますか?
今の所やりたいことは、特定の市町村の5年分気温気象データを収集して自分用に加工
近所のコインランドリーの稼働データを集計して空いてる確率が高い時間帯を調べるの2つです
前者は膨大なデータを取得する必要があります
後者は10分から20分おきにアクセスすることになります
0058Name_Not_Found
垢版 |
2021/10/17(日) 03:19:40.71ID:Vc4BqCx6
5chって専ブラ目的以外のデータ収集でもスクレイピングあかんの?利用規約読むと専ブラはあかんよって感じに見えるけど他が分からん
0059Name_Not_Found
垢版 |
2021/10/17(日) 05:36:13.37ID:???
もう大手は全て対策済みの時代遅れな技術ですよ
0060Name_Not_Found
垢版 |
2021/10/17(日) 06:48:09.22ID:???
webで公開してる情報なら完全な対策は無理よ
どうしてもというなら公開しないことだねw
0061Name_Not_Found
垢版 |
2021/10/17(日) 07:12:40.16ID:???
この板で質問するレベルのやつには対策を越えられないので同じ事
0062Name_Not_Found
垢版 |
2021/11/20(土) 20:21:27.93ID:???
WebスクとかRPAとかUIAutomationとか、よくそんなもん思いついたよな。
デジタルなんだから、ウインドウ非表示でデータ取れるようにしろよって思うわ。
レスを投稿する


ニューススポーツなんでも実況