2ちゃん画像落としまくりスクリプト

11
垢版 |
NGNG
2ちゃんねるに貼ってある画像リンクを追い、
jpgをかき集めるスクリプトを作ってみました。

http://www.ninnin.net/

※perlとwgetが必要です。
※Windows,Macでは動きません。
271
垢版 |
NGNG
>>25
その機能はつけたいんですけどね・・・
でも赤くない死体画像もあるし・・・

こういう時に1chのレス評価システムは
使い勝手があるんだな、と感じます
28名無しさん@XEmacs
垢版 |
NGNG
半角っていえば、天使とか鳥とかの半角用語?を含むURLをサポートしたスクリ
プト書いた人居る?漏れは諦めた(w
これ、できたら結構凄いよな…
NGNG
>>28
同意。ぜひ1にはがんばってもらいたい。
NGNG
たしかに画像フィルタは便利かもしれませんが、
個人的にはこのスクリプトは画像をダイジェストできることに
特化して欲しいです。

できれば追加して欲しい機能
1.URL は違うけどファイル名が同じ場合のファイル処理
2. キーワードを追加( tp:// とか http:// など)
3.スレッドのスキップ(先頭から50個目のスレッドから開始など)
4. いっそのこと MPEG ファイルも対象に。

スレッドのスキップはスクリプトに追加して作ってみました。
もし希望があれば送ります。>1
NGNG
スレをどこまで読んだか記憶して、次回はそれ以降だけを読むとか、
落としたファイルのアドレスを記録しておいてそのファイルは二度と落とさないとか
そういう機能がないと、毎日同じファイルをダウンしてきてしまうと思うのですが
どうよ?
321
垢版 |
NGNG
>>30
ご意見ありがとうございます。
検討して次期バージョンに反映します。

>>31
んーと現在の仕様では、同じファイルの画像が
ローカルにあればダウンしないようになっていますので、
毎日同じファイルをダウンしてしまうというのはないです。
ただ落としたファイルのアドレスを記憶とかしてたほうが、
2回目以降の効率は良いですね。
33名無しさん@お腹いっぱい。
垢版 |
NGNG
コレ使うとスレの荒れ度がわかるね
荒れてるスレは死体画像多い。
あとなぜかペットの画像も多いNE!
34名無しさん@お腹いっぱい。
垢版 |
NGNG
wgetでいいじゃん。
35名無しさん@お腹いっぱい。
垢版 |
NGNG
>>34
そういう説もある。
ttp://追えないけどね
NGNG
OSXにwget入れるのに小1時間かかりました。
でも成功、すごいぞUNIX、ありがとう>1
NGNG
>32

そっか、俺は落としてきたファイルを
別ディレクトリに移動して整理していたんだが、
そうすると、また同じやつを落としてきてしまうんだな。
死体画像とかも残しておかないと、
また同じ死体画像を落としてきてしまうのだな。
38名無しさん@お腹いっぱい。
垢版 |
NGNG
>>28 その辺の隠語は限られているから、単純置換じゃダメかな…
391
垢版 |
NGNG
>>37
死体画像は同じファイル名でダミーのファイルとかを
置くとかすると良いかも・・・

面倒なのでそのうちその辺もなんとかしたいですね
40名無しさん@XEmacs
垢版 |
NGNG
>38
単純置換は無理っぽいですね。隠語はちょこちょこ増えてるみたいですし、
URLは省略されたりクイズで記述されたりもするので(w
NGNG
おいおいおいおいおい、2ch内とはいえ下手なスパイダー
動かすのはやめてくれ。転送量も鯖の負荷も増える。
やりたいやつは公開なんかしないで、自分で作ってひっそりと
やってくれ。
42名無しさん@お腹いっぱい。
垢版 |
NGNG
>>41
すいてる時間帯でもダメ?
NGNG
>>42
まず、datファイルをgetして、それを元にすればよいかと思われ。
44名無しさん@お腹いっぱい。
垢版 |
NGNG
MacOSXの人って結構いるんだなぁ。
そういう漏れも。
45名無しさん@お腹いっぱい。
垢版 |
NGNG
>>44

俺もMacOS X
最近多いよね。

厨房UNIX使い気取りが増えてここの板の人は迷惑だろうけど・・
46名無しさん@お腹いっぱい。
垢版 |
NGNG
>>44 >>45

コンソール使う頻度はどれくらいよ?
あんまり多いのも、それはそれで考えもんだけど。
一応Macだし。
NGNG
>>44-46
スレ違い。
48名無しさん@お腹いっぱい。
垢版 |
NGNG
同名のファイルがあった場合、ファイルサイズを調べて一致しなかったら
後ろに_01とか付けて保存するのは出来ませんか?
491
垢版 |
NGNG
>>48
できます。
その方法も考えたのですが、結局やりませんでした。
いらないかな?と思って。
同じような要望が多ければ導入を検討します。

wgetのオプションの中にそんな機能があった気がしますので、
ご自分で改造してみてはいかがでしょう。
$optionsにオプションを突っ込んでwget実行サブルーチンを
呼んでるだけですので。
50名無しさん@お腹いっぱい。
垢版 |
NGNG
試しにやってみたけどいい感じだぁよ、ありがとう。>1
要望とか考えると結局Iria先生みたくなるんだろうけど期待しちゃうよ。
なにってcronで動かしておけるから昼間だけの時限モノとか拾える可能性
あるってだけでピンコたんピキーンなれるし。

ただこの板でやるなら負荷、転送量減らしは最初に考慮する必要あるかと。
引っ越し間際のスレなんて生データで300kb以上になるのを毎回引っ張る
のはやはり問題だと思うので、ツモって来たdat fileはローカルに保存して
再利用する方向で進めてはどうか。

同名異URI処理は取り敢えず後にしないと、考え無し厨房が全開で走らせる
と思われ。
NGNG
ねぇねぇ、これからもいじる気ある?>1
マジでcronで走らせてグロ画像getterになろうと思うだけどいぢっていい?
perl なんてしばらくいじってないから思い出すとこからはじめるけど。
NGNG
途中で切れちゃう画像とかあるんですが、どこをいじればいいですか?
$limit = 3
$down = 2
で使ってますが。
531
垢版 |
NGNG
>>50
datのタイムスタンプをチェックして再利用するようにしようかなぁ
ご意見ありがとう。転送量軽減を目指します。

>>51
ぜひいぢってください

>>52
117行目のwgetのオプション設定で調整できると思います。
-t や -w の値を調整すると良いかも。参考ページはこちらあたりをどうぞ
http://seagull.cs.uec.ac.jp/~horiuc-m/wget.html
NGNG
自分でSocket開いてRange: bytesヘッダとか使ってくれ。
つーかこういうもんはまともになってから公開してくれ
55名無しさん@お腹いっぱい。
垢版 |
NGNG
FreeBSDでこのソフト使いました。
jpg/以下にたくさんのファイルがきましたが、
この中から、最適なファイルを絞り込むのはむづかしいですね。

タグ情報等から、分類できないのかなあ?
もしくわ、winみたいに、一つ一つのファイルを簡単に表示
できたらまだいいかも。(サムネーム表示?)

今gimp使って、いっこいっこ開いてるけど、
もっと楽にファイル情報しらべれないかな?
56名無しさん@お腹いっぱい。
垢版 |
NGNG
今のままじゃ、ファイル名による絞り込み
しかできないよ。
NGNG
・・・ここは本当にUNIX板なのか・・・鬱
NGNG
Gimp…… 絶句
NGNG
つーか誰かがこのスクリプトをcronで定期的に実行して
作成されたjpglistをどっかで公開すりゃいいんだよね

それを元にiriaなりwgetなりで落とせばいい
そうすりゃ負荷はかからんし
60名無しさん@XEmacs
垢版 |
NGNG
>59
それおもろいね。

っつーか、 jpg をある程度の大きさごとにアーカイブしといてくれ(w
ってコレはアクセスが集中してダメかにゃ。
61XV
垢版 |
NGNG
A.ディレクトリ毎にサムネイル表示

xv [-dir 画像があるディレクトリ]
^v
^n .xvpics
^u

B.一気にサムネイル作成

cd ベースのディレクトリ
find [こっちで書いてもいいし] -type d -exec mkdir {}/.xvpics \;
xv [そしたらこっちもか、やっぱやめ]
^v
^e

C.見ているファイルを消す

見る
^d
^d

D.ファイルを移動する

^v
フォーカス戻す
^v
好きなようにDnDする

E.マスク外す

適当に範囲選択
f
アローキーで位置変更
Shift+アローキーで範囲伸縮
拡大は Ctrl+マウス
Alt+j
Shift押しながらパス入力
NGNG
>>59
2chはそれでいいかもしれんが、リスト配布はヤメとけ。
厨房に凶器与えるのと一緒だ。
6355
垢版 |
NGNG
>>58
さんに絶句されたんですが、
みなさんは、どうやって画像みてるのですか?
マジで教えてください。
厨房なんで、すみません。
NGNG
>>63
>>61
6555
垢版 |
NGNG
すばらしい。感動した!有難う。
66名無しさん@お腹いっぱい。
垢版 |
NGNG
グロ画像多すぎ。ホモ画像思わみてしまいかなりへこんだ。
67名無しさん@お腹いっぱい。
垢版 |
NGNG
Listアップするためのサーバーでも借りましょうかね。
NGNG
Navi2chで取得したdatを使うようにできたらうれしいな
6968
垢版 |
NGNG
あ,Navi2chで m a m i して,awkで抜いて,wgetすればいいだけか…
NGNG
>>55
XV の Visual Schnauzer とか使うのが一般的なんじゃないの?もっとも最近
の Linux の distribution なんかには XV の入っていない例もあるようだけ
ど。ちなみにわたくしは xv 3.10a に各種 patch を当てて、FLMASK とかの復
元もできるようにしたのを使ってる。Linux でも *BSD でも特に問題なくコン
パイルできると思うけど?
NGNG
XV って未だに使い方よくわかんない…
メンドーなので、なんでもかんでも ImageMagick …
NGNG
>>70
既出
NGNG
GQviewとか。
NGNG
キーボードマクロで+mamiするのをcronでまわしておくと、
便利というか迷惑というか。
75名無しさん@お腹いっぱい。
垢版 |
NGNG
便利と思うがなんであがらないのかな?
ということで定期あげ。
NGNG
ところで、画像集めた後の話だが、
同じ様な画像がたーくさんディスクの肥しになって
欝にならないか?

そんな時は、dupmerge
http://people.qualcomm.com/karn/code/dupmerge/
(QualcommのPhilip Karn作)

洩れは、
find . -name "*.[GgJj][IiPp][FfEeGg]*" -o -name "*.[Mm][Pp][EeGg]*" | dupmerge
みたいにして使ってるよ。
NGNG
>>76
sambaでwinにmountしているんだけれども、
この手のツールはwinのほうが充実していないでしょうか。
NGNG
shell で書けるからね。
NGNG
>> 76
どうせなら iname 使え
NGNG
そりでは修正
find . -iname "*.[gjm][ip][feg]*" | dupmerge
NGNG
>>77
最近のwindowsは、ハードリンク出来るの?
消すんじゃなくてハードリンクする所が
ミソなんだけど
NGNG
>>81
使えるわけないじゃん
NGNG
>>82 >> 77
じゃ、充実してないじゃん
NGNG
どうせ焼く時は使わない
85名無しさん@お腹いっぱい。
垢版 |
NGNG
あげます、あげます
86名無しさん@お腹いっぱい。
垢版 |
NGNG
お前ら、最近どうですか?
87名無しさん@お腹いっぱい。
垢版 |
NGNG
どの板も、途中でDLが止まってしまうのだよ。なんでだ??
88名無しさん@お腹いっぱい。
垢版 |
NGNG
>>81-82
Windowsでもハードリンク使えるみたい

CreateHardLink
これをMSDNかなんかでしらべれ

Unixと全く関係ないが、サゲたら忘れそうなのでアゲ
NGNG
FAT でどうやって hardlink 作るんだ?
NGNG
確か2000以降だっけかな、忘れた
NGNG
NTFSならhard linkもsymbolic linkもできるよ。
あんまり使われてないのはFATだと使えないからかも。
NGNG
symbolic linkをjunctionという、らしい。
ただこいつを使うと、WindowsのExplorerでさえ
摩訶不思議な挙動を示すことがあるというくらい、
ろくに使われてない機能。
NGNG
思いつきとしか思えない機能追加が多いからな。
だったら DOS のころから linkfile をサポートしといてほしい。
NGNG
DOSでFATでもハードリンク作れるYO!
ただし、chkdsk.exeにクロスリンクと言われてしまう、諸刃の剣。
素人にはお勧めできない。ってやつだ。
95名無しさん@お腹いっぱい。
垢版 |
NGNG
こえーーー
NGNG
>>94
確かに間違いでは無いな(笑)
NGNG
age て みた
98名無しさん@お腹いっぱい。
垢版 |
NGNG
やっぱり前回履歴に対応して欲しいなぁ。
毎日cronで走らせたいヨ。
NGNG
>>92
俺使ってる。でもあれってsymlinkというのは詐欺だろう。
join(DOS)とかFreeBSDのunion fs & mountみたいのと言った方が正確
かな。で、俺が見つけてる不具合は

1.Explorerやインストーラの空き容量計算がmountに対応できてないので、
 インストーラで(空きがあっても)「ねーよ」と弾かれたりする
2.MoveFile() APIがmountを考慮してないので、src/destが同じドライブ
 名だけど別ボリュームの場合、ファイル移動に失敗する(API直/cmd.exe
 Explorer全滅)

だな。
一応どっちも回避方法があるし、従来アプリは1.に対応できんというのは
仕方がない所でもあるんだが、2.はどう考えても(仕様変更への)追従ミス。

# 同一ボリューム内の移動の場合、ディレクトリエントリだけの書き換え
# で高速化してるんだが、同一ボリュームかどうかの判定にsrc/destの
# ドライブ文字しか見てないという。アホ。
100名無しさん@お腹いっぱい。
垢版 |
NGNG
100

101名無しさん@お腹いっぱい。
垢版 |
NGNG
ある板のある日の<a href="...">を一括表示してくれるようなサイトない?
つくろうかな…。
102名無しさん@お腹いっぱい。
垢版 |
NGNG
>>101
作って!
NGNG
>102
つくりはじめた。rawmodeを使おうかとも思ったけど、index.htmlをtidyでXHTMLに
変換してからXSLTで加工(XHTML to XML)して、XMLで日別にサーバ側に蓄積して、
CGIでXML選んでXSLTかまして(XML to HTML4)出力、みたいな感じにすることにした。
なんとなく。

とりあえず最初のXSLTまで書けましたわ。
104名無しさん@お腹いっぱい。
垢版 |
NGNG
age
NGNG
>103
すばらしいあげ
106101
垢版 |
NGNG
>>105
ども。マ板でもちょっと書いたんだけど、できました。
2ちゃんねるの 技術系/ニュース系 板の、URL流し読みサイト。

これ http://moso.borogrammers.net/newlin/ なんだけどどうかしら?

表示例↓
http://moso.borogrammers.net/newlin/read.cgi?board=news&yyyy=2002&mm=01&dd=23
107名無しさん@お腹いっぱい。
垢版 |
NGNG
祭り監視に良いNE >>106

NGNG
>>106
面白いね
ちょっと遊んでみるよ

でもsage
109名無しさん@お腹いっぱい。
垢版 |
NGNG
スレがばらばらに表示されるので、日付順、スレ順などのソートがあると嬉しいです。
110109
垢版 |
NGNG
あと、大量のリストを眺める作業になるので、スレタイトルは左揃えにしたほうが
視点の移動が少なくて良いんじゃないかと思います。
111名無しさん@お腹いっぱい。
垢版 |
NGNG
.datの形式変わった?
112106
垢版 |
NGNG
本業でヘロヘロになってました。109さんご意見どうも。

>スレがばらばらに表示されるので、日付順、スレ順などのソートがあると嬉しいです。
トップ画面に「発言日が最近のURLほど上に表示する」と「スレッド番号+発言番号
でソートして表示する」というラジオボタンをつけました。

>あと、大量のリストを眺める作業になるので、スレタイトルは左揃えにしたほうが
>視点の移動が少なくて良いんじゃないかと思います。
確かにそうですね。左揃えにしました。スレッドでソートした場合、かなり見易くなったの
ではないかと思います。

URLは相変わらず http://moso.borogrammers.net/newlin/ です。
113106
垢版 |
NGNG
新しい表示例:
http://moso.borogrammers.net/newlin/read.cgi?board=newsplus&yyyy=2002&mm=02&dd=21&abone=on&exclude=on&exclude_text=2ch.net%2F&ext_text=swf&thr_sort=yes
114名無しさん@お腹いっぱい。
垢版 |
NGNG
>>113のURLはなんか妙な表示になる気もするけど、良くなったと思います。
てーか誰か画面のデザインしてやれ。地味すぎるよ


NGNG
>>111
datは>>106のviewerには無関係と思われ
NGNG
>>1のスクリプトは、いまや改造しないとそのままでは使えないですね。
117名無しさん@お腹いっぱい。
垢版 |
NGNG
>>116
改造キボンヌ
118
垢版 |
NGNG
>>116,117
2ch のシステムはよく知らないんだけど現在では subject.txt と .dat
は直接見れないんだよね? read.cgi から raw モードで取得するのかな。
その辺りを書き換えればオッケー。
NGNG
monazilla ML 入るが吉。
NGNG
使えなくなってるね…
121116
垢版 |
NGNG
>>117
118が書いてるように、今は $ita/subject.txt が見られないようだから、
まずオリジナルスクリプトの subject.txt は subback.html にでも
しないといけない。
また、subback.html を参照するようにしたら、データナンバーの取り出し方も
変えないといけないね。いろいろなやり方があるだろうが、例えば
http://love.2ch.net/morningcoffee/subback.html
だったら
<a href="1014421686/l50">6: 中澤裕子ファン倶楽部 96 (977)</a>
みたいなスレッドのリストが得られて、要はこの中の 1014421686 を
切り出したいわけだから、38行目と60行目
($data_no) = split /\<\>/ , $_;
は、
@data = split /\//;
$data_no = $data[0];
$data_no =~ s%\D%%g;
とでもすれば $data_no に 1014421686 が入って、
あと、40行目の $target は、conf.txt に
$host = 'http://love.2ch.net/';
$categ = '/morningcoffee/';
を追加しといて
$target = "$host"."test/read.cgi"."$categ"."$data_no";
として使っているが、もっとエレガントなやり方があったら誰か教えて著。
NGNG
>>1 のサイト、アクセスできなかったんですけど
件のスクリプトを落とせるところは他にありませんか
123名無しさん@お腹いっぱい。
垢版 |
NGNG
  
124名無しさん@お腹いっぱい。
垢版 |
NGNG
wgetでダウンロードしたファイルを
ダウンロードしたYYYYMMDDという形式で
保存するにはどうすればいいのでしょう。

同じ名前でファイルが毎週更新されるので
cronでそのままで回すのでは上書きされて
しまいます。
125名無しさん@Emacs
垢版 |
NGNG
% wget http://xxx.xxx.xxx/???.jpg -P `date +%y%m%d`
ってのはダメ?
大量に引っこ抜くならこれでいいと思うけど。
NGNG
-O --output-document=FILE FILE に文書を出力します。
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況