2ちゃん画像落としまくりスクリプト

11
垢版 |
NGNG
2ちゃんねるに貼ってある画像リンクを追い、
jpgをかき集めるスクリプトを作ってみました。

http://www.ninnin.net/

※perlとwgetが必要です。
※Windows,Macでは動きません。
NGNG
windows で perl も wget も動くはずだが。
31
垢版 |
NGNG
fork 使ってるからActive perlでは動かないのですよ。
cygwin上なら動くかも(ためしてないけど)
41
垢版 |
NGNG
追記:
MacOS Xなら動きますよ
(10.1ならwgetを入れなきゃだめだけど)
5名無しさん@お腹いっぱい。
垢版 |
NGNG
グロ画像コワイヨ(;´д`)
61
垢版 |
NGNG
例えばモー娘板で
一回スクリプトを実行すると
約800枚の画像が収集できます。
NGNG
UNIX板的にはどうかと思うがサンクス1
NGNG
Σ(゚д゚lll)ガーン
アイドル画像板でやったら最初の画像が葉っぱ隊だった
しかも何かループしてて同じ画像だけ取ってるっぽい。
42枚しか収集できなかった。
9UNIX すごい。
垢版 |
NGNG
MacOS X ですがやってみました。
こんなこともできるんですね。目からウロコです。
中にはとても重たいサーバーがあるので、可能であれば
タイムアウトのパラメータも追加されるとうれしいです。
(30秒以上反応が無かったらスキップして次、など)
perl スクリプトとか詳しくないのに勝手言っちゃってすいません。
NGNG
cygwinのperlでも動いた。

ただ $down デフォルトは、せめて2くらいに
しておいた方が良くないかい? もしくは固定とか。
サーバに申し訳なくて5は指定出来ん。
NGNG
mpegも落としたいが....
醤油みたけど直すのメンドイな
NGNG
こういうのは自分で書いた方が良さげ。
131
垢版 |
NGNG
1です。

>>8
アイドル版ならもっと集まるはず。取得スレ数リミットをもっとあげてみよう。

>>9
wgetのパラメータをいじればできます。現在の設定は2分です。
今後調整します。スクリプトの153行目をいじれば変更もできますよ。

>>10
その通りですね。次回のバージョンから少し下げます。

>>11
73,74,84行目の.jpgを.mpgに変更すればOKなはずです。
14名無しさん@お腹いっぱい。
垢版 |
NGNG
ガ━━(゚Д゚;)━━ソ!
よろこびいさんで半角板いったらなんもなかった
NGNG
おおお、すごいね。ガンガン落とせるよ。でも鯖の負荷がすごそう
なのでsage進行の方が良いかな…。

ところで、これで落とした画像を閲覧するスクリプトとか、
どうやって作るんだろう? 手動でeeで見てるんだけど、再帰的に
.jpgファイルを見るスプリプト?とかありそうなんですが。
16名無しさん@XEmacs
垢版 |
NGNG
やっぱ wget を fork して…ってのはみんな書くのね(笑)
ウチの環境だと wget は 2 個くらい fork するのが一番
効率が良かったかなぁ。
# fork しすぎると timeout して、
# まともに取れなかったりして…


>15
find ./ -name '*.jpg' -exec display \{\} \;
とか?
XEmacs の dired も、よく使いますけど。。。
NGNG
迷惑画像URLリストとか、どこかにないでしょうか。
フィルタリングしたいですよね。
NGNG
find ./ -name '*.jpg' |xargs ElectoricEyes
NGNG
半角板のDATってどこにあるす? つーか何もないのはおかしいよね。
NGNG
>>15
スクリプトじゃないけどgqviewとかpicviewとかじゃだめなん?
21124
垢版 |
NGNG
こんなことができるのは常時接続の人たちですか?
22うひひ
垢版 |
NGNG
>>21
情事切実な人だな。
23名無しさん@お腹いっぱい。
垢版 |
NGNG
>>19
半角板だと
$ita = http://okazu.bbspink.com/ascii/
の設定でOKなはず
24名無しさん@お腹いっぱい。
垢版 |
NGNG

http://とか
ttp://
みたいにあえてコピペ用になってる物も
落とせる?
25名無しさん@お腹いっぱい。
垢版 |
NGNG
>>17
同意.

でも,迷惑画像っつーのは人によって異なるからね,一概には...
画像分析して妙に赤が多いのはハネるとかは欲しいかも.
261
垢版 |
NGNG
>>24
むろんOKです。
"ttp://"でひっかけてます。
271
垢版 |
NGNG
>>25
その機能はつけたいんですけどね・・・
でも赤くない死体画像もあるし・・・

こういう時に1chのレス評価システムは
使い勝手があるんだな、と感じます
28名無しさん@XEmacs
垢版 |
NGNG
半角っていえば、天使とか鳥とかの半角用語?を含むURLをサポートしたスクリ
プト書いた人居る?漏れは諦めた(w
これ、できたら結構凄いよな…
NGNG
>>28
同意。ぜひ1にはがんばってもらいたい。
NGNG
たしかに画像フィルタは便利かもしれませんが、
個人的にはこのスクリプトは画像をダイジェストできることに
特化して欲しいです。

できれば追加して欲しい機能
1.URL は違うけどファイル名が同じ場合のファイル処理
2. キーワードを追加( tp:// とか http:// など)
3.スレッドのスキップ(先頭から50個目のスレッドから開始など)
4. いっそのこと MPEG ファイルも対象に。

スレッドのスキップはスクリプトに追加して作ってみました。
もし希望があれば送ります。>1
NGNG
スレをどこまで読んだか記憶して、次回はそれ以降だけを読むとか、
落としたファイルのアドレスを記録しておいてそのファイルは二度と落とさないとか
そういう機能がないと、毎日同じファイルをダウンしてきてしまうと思うのですが
どうよ?
321
垢版 |
NGNG
>>30
ご意見ありがとうございます。
検討して次期バージョンに反映します。

>>31
んーと現在の仕様では、同じファイルの画像が
ローカルにあればダウンしないようになっていますので、
毎日同じファイルをダウンしてしまうというのはないです。
ただ落としたファイルのアドレスを記憶とかしてたほうが、
2回目以降の効率は良いですね。
33名無しさん@お腹いっぱい。
垢版 |
NGNG
コレ使うとスレの荒れ度がわかるね
荒れてるスレは死体画像多い。
あとなぜかペットの画像も多いNE!
34名無しさん@お腹いっぱい。
垢版 |
NGNG
wgetでいいじゃん。
35名無しさん@お腹いっぱい。
垢版 |
NGNG
>>34
そういう説もある。
ttp://追えないけどね
NGNG
OSXにwget入れるのに小1時間かかりました。
でも成功、すごいぞUNIX、ありがとう>1
NGNG
>32

そっか、俺は落としてきたファイルを
別ディレクトリに移動して整理していたんだが、
そうすると、また同じやつを落としてきてしまうんだな。
死体画像とかも残しておかないと、
また同じ死体画像を落としてきてしまうのだな。
38名無しさん@お腹いっぱい。
垢版 |
NGNG
>>28 その辺の隠語は限られているから、単純置換じゃダメかな…
391
垢版 |
NGNG
>>37
死体画像は同じファイル名でダミーのファイルとかを
置くとかすると良いかも・・・

面倒なのでそのうちその辺もなんとかしたいですね
40名無しさん@XEmacs
垢版 |
NGNG
>38
単純置換は無理っぽいですね。隠語はちょこちょこ増えてるみたいですし、
URLは省略されたりクイズで記述されたりもするので(w
NGNG
おいおいおいおいおい、2ch内とはいえ下手なスパイダー
動かすのはやめてくれ。転送量も鯖の負荷も増える。
やりたいやつは公開なんかしないで、自分で作ってひっそりと
やってくれ。
42名無しさん@お腹いっぱい。
垢版 |
NGNG
>>41
すいてる時間帯でもダメ?
NGNG
>>42
まず、datファイルをgetして、それを元にすればよいかと思われ。
44名無しさん@お腹いっぱい。
垢版 |
NGNG
MacOSXの人って結構いるんだなぁ。
そういう漏れも。
45名無しさん@お腹いっぱい。
垢版 |
NGNG
>>44

俺もMacOS X
最近多いよね。

厨房UNIX使い気取りが増えてここの板の人は迷惑だろうけど・・
46名無しさん@お腹いっぱい。
垢版 |
NGNG
>>44 >>45

コンソール使う頻度はどれくらいよ?
あんまり多いのも、それはそれで考えもんだけど。
一応Macだし。
NGNG
>>44-46
スレ違い。
48名無しさん@お腹いっぱい。
垢版 |
NGNG
同名のファイルがあった場合、ファイルサイズを調べて一致しなかったら
後ろに_01とか付けて保存するのは出来ませんか?
491
垢版 |
NGNG
>>48
できます。
その方法も考えたのですが、結局やりませんでした。
いらないかな?と思って。
同じような要望が多ければ導入を検討します。

wgetのオプションの中にそんな機能があった気がしますので、
ご自分で改造してみてはいかがでしょう。
$optionsにオプションを突っ込んでwget実行サブルーチンを
呼んでるだけですので。
50名無しさん@お腹いっぱい。
垢版 |
NGNG
試しにやってみたけどいい感じだぁよ、ありがとう。>1
要望とか考えると結局Iria先生みたくなるんだろうけど期待しちゃうよ。
なにってcronで動かしておけるから昼間だけの時限モノとか拾える可能性
あるってだけでピンコたんピキーンなれるし。

ただこの板でやるなら負荷、転送量減らしは最初に考慮する必要あるかと。
引っ越し間際のスレなんて生データで300kb以上になるのを毎回引っ張る
のはやはり問題だと思うので、ツモって来たdat fileはローカルに保存して
再利用する方向で進めてはどうか。

同名異URI処理は取り敢えず後にしないと、考え無し厨房が全開で走らせる
と思われ。
NGNG
ねぇねぇ、これからもいじる気ある?>1
マジでcronで走らせてグロ画像getterになろうと思うだけどいぢっていい?
perl なんてしばらくいじってないから思い出すとこからはじめるけど。
NGNG
途中で切れちゃう画像とかあるんですが、どこをいじればいいですか?
$limit = 3
$down = 2
で使ってますが。
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況