Internet Archive総合 (web.archive.org) #2 ©2ch.net

 
 前スレッド

Internet Archive総合 (web.archive.org) #1
http://echo.2ch.net/test/read.cgi/esite/1189771222/
 

213名無しさん@お腹いっぱい。2018/01/04(木) 20:29:56.52
去年10月の第一週に取得しといたのが半分ぐらい駄目になってる
重要だと思うページは取れてるか確認してみたほうがいい

214名無しさん@お腹いっぱい。2018/01/04(木) 21:15:03.46
>>213
2015 年よりスクリプトで毎日一回ずつ保存させているものがあるんだけど、
昨年 10 月は第一週に限らずポツポツと抜けている。
URL は公開したくないのでスクショでご勘弁。
ttp://i.imgur.com/4qDvnsI.png
ttp://i.imgur.com/l0lfBpa.png
ttp://i.imgur.com/ZKixGUA.png

215名無しさん@お腹いっぱい。2018/01/04(木) 21:24:36.49
4月29日何があった

216名無しさん@お腹いっぱい。2018/01/04(木) 21:58:08.32
>>214
スクリプトってどんな感じの?参考にしたいからやり方教えて下さいm(__)m

2172142018/01/04(木) 22:01:04.72
>>215
403 ページが繰り返し記録されているので Internet Archive の問題ではない。

ちなみにスクリプトは /save/ にリクエストを投げてから、リダイレクトを処理して
最終的に 200 番か 504 番の応答が返ってくれば保存できたと判断、
それ以外なら計 10 回まで試行するように組んである。
ログは取っていないので、保存できなかった日にどういう応答が
返ってきていたのかは判らない。

218名無しさん@お腹いっぱい。2018/01/04(木) 22:59:58.51
10月散々だな・・・ここのログ読んでも9月末から10月までは大分やばそうな感じだし、見直してみるか

219名無しさん@お腹いっぱい。2018/01/04(木) 23:15:25.28
>>214
スクリプトを作成する技術があるのなら、アーカイブするよりも
そのページを直接ハードディスクにhtml(またはmhtml)で保存
するほうが確実ではないのか?

2202142018/01/05(金) 03:49:29.13
以下長文失礼。

>>219
いわゆる「証拠保全」の目的で、ブログなどを保存させることもあるでしょう・・・。

>>216
こちらでは Windows Scripting Host 用のスクリプトを JScript で書き、
それを Windows のタスクスケジューラで実行させている。
以下、Internet Archive へ仕掛けるアクセスの内容と、HTTP の応答コードの扱いについて簡単に。

1) 保存させたい URL の前に https://web.archive.org/save/ を付けて、
その URL 向けに HEAD リクエストを投げさせる。
2) 300 番台の応答 (リダイレクト) が返って来た場合、順次追跡して HEAD リクエストを投げさせる。
これは、使用する API によっては特に記述せずとも勝手にやってくれる。
3) 最終的に 200 番の応答が返ってくれば、たぶん保存できている。

保存成否は HTTP の応答コードだけでほぼ判定できる。
コンテントボディは不要なので HEAD メソッドを使っているが、
HEAD を扱えない環境なら GET メソッドでも問題無い。

数百メガバイトの巨大ファイルを保存させようとした場合など、
オリジンサーバから Internet Archive への転送に時間が掛かってしまうと
途中でタイムアウトとなり、504 番の応答が返ってきてしまう。
スクリプトを汎用とする (URL を別途パラメータとして与える) のであれば、
これも一応「保存できた」として扱った方が無難。
504 でも保存がキャンセルされる訳では無いようで、
これをエラーとして扱い再試行させてしまったがために
巨大ファイルを短い間隔で重複して保存させてしまったことがある。

2212162018/01/05(金) 20:15:59.49
>>220
ご丁寧にご解説ありがとうございましたm(__)m

定期保存の方法は大体理解できたのですが
当方JScriptに詳しくないのでスクリプトの具体的な書き方がわかりません(ノД`)・゜・。

ご無理は承知しておりますが
Pastebin.comなどにスクリプトのサンプルを貼って頂けると有り難いのですが・・・
ぜひとも後学の為によろしくお願い致します。(o_ _)o))

222名無しさん@お腹いっぱい。2018/01/05(金) 21:16:22.82
スレ違い
しかも今どきm(__)m (ノД`)・゜・。 (o_ _)o))の顔文字
キモいキモすぎる

223名無しさん@お腹いっぱい。2018/01/06(土) 15:47:30.36
専門板って時間の流れが違う人多いよね

224名無しさん@お腹いっぱい。2018/01/06(土) 17:38:17.30
時間の流れ方は人それぞれだし、顔文字とか個性があるのは別にいいんじゃない
Internet Archiveに関するスクリプトなら満更スレ違いとも言えないだろうし
Pastebin指定している所見ると、極力スレに迷惑かからないように考慮しているみたいだし
大体このスレ、1年過ぎても1スレの1/5くらいも消費してないくらい話題ないんだから
多少のスレ違いは問題ないっしょ

225名無しさん@お腹いっぱい。2018/01/06(土) 19:40:14.08
>スクリプトの具体的な書き方がわかりません(ノД`)・゜・。

から判るのは"参考"までに問うてみるなんてレベルには
背伸びしても達しない現状を隠しつつ>>216を書き
レスが来たと見るやベース丸コピの勢いで乞食メンタリティを現す
呆れた自己中クレクレ厨という事実

2262162018/01/06(土) 22:55:52.85
私のせいでスレが荒れてしまってすみません(>_<)
すべて無知で乞食で心が貧しかった私のせいです。。。
気分を害された方々、本当に申し訳ありませんでしたm(__)m

227名無しさん@お腹いっぱい。2018/01/09(火) 16:59:38.81
>>223

ひとくちに専門板といっても
この板とシャワートイレ板や文房具板では雰囲気がまったく違う。

228名無しさん@お腹いっぱい。2018/01/12(金) 11:17:09.62
懐かしいこの使い心地

229名無しさん@お腹いっぱい。2018/01/12(金) 22:39:58.08
今さっきからメンテナンスに入った
今日は夕方あたりから「503」乱発だったから仕方ないか…

というか昨日・一昨日あたり消えてるっぽいものもあるのだが

230名無しさん@お腹いっぱい。2018/01/13(土) 08:11:09.82
てか1月10日及び11日の分
やっぱり消えてるわ

231名無しさん@お腹いっぱい。2018/01/13(土) 08:32:56.05
ありゃりゃ

232名無しさん@お腹いっぱい。2018/02/27(火) 05:25:01.33
過去に取得されてるURLを現在の表示内容に更新する為に再度保存するにはどこのボタンを押せばいいんですか?

233名無しさん@お腹いっぱい。2018/02/27(火) 05:28:59.49
>>232
そんなボタンはありません。

234名無しさん@お腹いっぱい。2018/02/27(火) 08:43:21.75
☆ 日本の、改憲を行いましょう。現在、衆議員と参議院の
両院で、改憲議員が3分の2を超えております。
『憲法改正国民投票法』、でググってみてください。国会の発議は
すでに可能です。平和は勝ち取るものです。お願い致します。☆☆

235名無しさん@お腹いっぱい。2018/02/27(火) 20:45:30.03
>>232
https://web.archive.org/ の【 Save Page Now 】セクションに
URL入力欄とボタンがあるじゃろ

Capture a web page as it appears now for use as a trusted citation in the future.

236名無しさん@お腹いっぱい。2018/03/02(金) 07:42:32.15
>>235
御礼が遅れましたがありがとうございました
貴方良い人だ

237名無しさん@お腹いっぱい。2018/03/03(土) 14:40:00.74
取得歴0のページを新たにセーブしても"2 captures"になるのって何なんだろ

238名無しさん@お腹いっぱい。2018/03/05(月) 18:14:49.67
去年保存されてしばらくは完全に保存されてたページが
いつの間にかそのページの画像の大半が失われてた

239名無しさん@お腹いっぱい。2018/03/07(水) 22:29:59.08
This URL has been excluded from the Wayback Machine.
なサイトが復活した事例ってある?
BIGLOBEの例とか見るに必ずしも運営者が手を回したわけじゃないようだし、問い合わせたら復活したりするんじゃないかと思ったんだが

240名無しさん@お腹いっぱい。2018/03/12(月) 00:57:39.67
Archive.is で Facebook のアーカイブが取れなくなっている。

Archive.is のクローラは Facebook 上では登録ユーザとして振舞っていて、
パブリックでは無いコンテンツのアーカイブも取れるようになっているのだが
そこで使われていたアカウントがブロックされたっぽい。
ttp://Archive.is/TT0nA
Masha とか Nathan とか、過去にアカウント名が変わったことが何回かあるので
今回が初めてでは無いのかも。

>>239
聞いたことが無いですね・・・。

241名無しさん@お腹いっぱい。2018/04/17(火) 11:35:00.65
今日深夜ずっと繋がらないんだけど何かあった?

242名無しさん@お腹いっぱい。2018/04/20(金) 09:29:40.69
Archive.isはweb.archive.orgと違ってソース見るとリンクが別の文字列に置き換わるんだな
だから記録したリンクのアドレスをソースで調べようとしてもわからない
リンクアドレスが直接サイト上にすべて表示してあるなら大丈夫だけど
web.archive.orgtが禁止してるサイトを記録できるのはありがたいが中途半端

243名無しさん@お腹いっぱい。2018/04/23(月) 22:52:27.15
悪いひとたちがやって来て
みんなを殺した

理由なんて簡単さ
そこに弱いひとたちがいたから

女達は犯され
老人と子供は燃やされた

悪いひとたちはその土地に
家を建てて子供を生んだ

そして街ができ
悪いひとたちの子孫は増え続けた


朝鮮進駐軍 関東大震災 日本人10万人大虐殺

https://youtu.be/iBIA45CrE30
https://youtu.be/D0vgxFC04JQ
https://www.youtube.com/watch?v=sYsrzIjKJBc
https://www.youtube.com/watch?v=SiHp41uWo1I
https://www.youtube.com/watch?v=zYBCTRryFP8
https://youtu.be/-wF31xbwqPM

244名無しさん@お腹いっぱい。2018/05/22(火) 18:37:32.43
あー重い重い

245名無しさん@お腹いっぱい。2018/05/24(木) 23:16:48.78
最近は激烈重いな

246名無しさん@お腹いっぱい。2018/05/31(木) 08:55:50.66
別のところで耳にしたので本当かどうかわかりませんが
webarchiveを用いて消えてしまったリンク
例えばhttp://www.chinpoppo.ne.jp/images/xxxx.jpg
が昔あったが現在images以下が表のページからのリンクが消されたとして(サーバー内には存在するる)
その画像一覧をWebarchiveを用いると現在のページからも落とせると聞いたが本当でしょうか?
もし可能ならその方法を,またWebarchiveを用いないで出来る方法があれば教えてください
スレ違いならこの質問に適したスレを教えてください

247名無しさん@お腹いっぱい。2018/05/31(木) 10:37:12.73
>>246
日本語でおk。

「Wayback Machine に保存されているファイルの一覧」は出力できても、
「元サーバには置いてあっても Wayback Machine では保存しなかったファイルの一覧」なんか
出力できるわけ無いわ。

248名無しさん@お腹いっぱい。2018/05/31(木) 22:03:23.29
/*

249名無しさん@お腹いっぱい。2018/06/01(金) 09:35:59.56
>>247
ありがとうございました

250名無しさん@お腹いっぱい。2018/06/23(土) 22:07:00.35
このアーカイブてデータをSSDに全部入れ替えたら
アクセスすごい速くなるんだろうな、金額や手間を
考えたら途方もない話だろうけど

251名無しさん@お腹いっぱい。2018/06/24(日) 21:17:52.37
ストレージの速度も大事なんだろうけれど
データベース系はメモリが足らないとダメなんだろうなって気がする
それこそカネがかかる話だけれどもね

252名無しさん@お腹いっぱい。2018/07/05(木) 01:48:27.48
ここ数日 /save/ で保存を試みても失敗することが多くなった。
数回ないし十数回リロードすれば通るけど、本当に鬱陶しい。

253名無しさん@お腹いっぱい。2018/07/07(土) 04:58:10.52
>>252
右に同じ。

しかも、
>数回ないし十数回リロードすれば通るけど

これがまた結構時間をロスする。
意外とこのサイトの重要性は高まっているので、
ここが機能しなかったら本当に困る。

254名無しさん@お腹いっぱい。2018/07/07(土) 05:50:54.11
というか基本的な話だが、
同じサイトを複数回取る場合(頻繁にトップページが変わる、新聞社の公式とか)、
Internet Archiveは『10分程度』、間(あいだ)を置かなきゃダメなんだよね。

「Wayback Exception」でタイムロスがあっては尚更困るんだが。

255名無しさん@お腹いっぱい。2018/07/07(土) 13:46:21.85
他のアーカイブも利用しろよ
やたら重くていけねえ

256名無しさん@お腹いっぱい。2018/07/07(土) 15:39:37.64
もちろん他のところも利用してるけど、
1日20回限定だったり、サイトの方から拒否しちゃったりでねえ…

それにしてはここ数日、
InternetArchiveにアクセスが集中しすぎているのか?

257名無しさん@お腹いっぱい。2018/07/07(土) 18:11:15.42
なんかよく分からんエラー出て使えないと思ったらやっぱ不調なのね

258名無しさん@お腹いっぱい。2018/07/07(土) 18:13:12.53
というか好調のときってあるのかここ

259名無しさん@お腹いっぱい。2018/07/07(土) 19:14:44.12
午後から本当に「Sorry」ばかりでガチで不調

一時期のウェブ魚拓もそうだったが
不可解な画像を多量にアーカイブするような
平たく言えば「荒らし」が出てきてるのか?

260名無しさん@お腹いっぱい。2018/07/07(土) 23:50:33.04
困ったねぇ。

261名無しさん@お腹いっぱい。2018/07/10(火) 19:44:19.48
今日はこればっかり。

262名無しさん@お腹いっぱい。2018/07/12(木) 17:50:11.87
保守

263名無しさん@お腹いっぱい。2018/07/15(日) 01:03:22.54
確信

新着レスの表示
レスを投稿する