スレ立てるまでもない質問はここで 152匹目

**デフォルトの名無しさん** · 2019/11/08(金) 21:03:36.68

質問する前にGoogleで検索しましょう。 http://www.google.com/
プログラム・ソフトの使い方は PC 初心者板やソフトウェア板へ。
ウイルス、ハッキング・クラッキングを求めるような発言は禁止です。
Javascript は Web 制作板、CGI は Web プログラミング板へ。
業界談義、愚痴はプログラマ板へどうぞ。
ゲーム関係の話題はゲーム製作板へどうぞ。
ネタ、板とは関係の無い話題はご遠慮ください。

前スレ
スレ立てるまでもない質問はここで 149匹目
https://mevius.5ch.net/test/read.cgi/tech/1529199088/

前々スレ
スレ立てるまでもない質問はここで 151匹目
https://mevius.5ch.net/test/read.cgi/tech/1541239698/

注意「～と～はどっちの方が○いですか？」みたいなのは
このスレの粘着荒らしですので無視してください

**デフォルトの名無しさん** · 2019/12/15(日) 03:56:12.34

>>183
保存する前に既に保存した画像かどうかチェックすればいいだけでは？

画像そのものでしか比較できないならダウンロードしてからハッシュで比較
テキストやURLで比較できる部分があるならそれで比較してハッシュ比較は保険

**デフォルトの名無しさん** · 2019/12/15(日) 06:03:34.66

ブラウザのキャッシュは、SQLite などのDB に、保存してる。
NoSQL でも良いけど

URL をキーにすれば？

ただ、HTML は動的に内容を読み込むものは、内容が毎回異なる。
その日のニュースサイトとか、ランキングサイトとか

だから、クローリングした日時やダウンロードした日時も、保存しておけばよい。
それか内容をハッシュ値に変換して、保存してあるものと比べるとか

クローリングした日時が保存してあれば、同じURL をクローリングしなくて済む。
または、ある程度期間を空けたりできる

こういう高機能なものは、Ruby のAnemone などのアプリを探した方がよい

ただし、Anemoneでも、5ch のように最初に、空のHTMLを送ってきてから、
Ajax を使って、動的に内容を読み込むようなものは、取得できない

そういうページは、Selenium WebDriver で、ブラウザを自動操作しないと無理