Internet Archive総合 (web.archive.org) #2 ©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
こういうのもちゃんと読んで反応してるんだろうか
問答無用で弾いてるような印象があるが
http://yahoo-mbga.jp/robots.txt User-Agent: *
Disallow: /
もうこれだけ読んでやめてる気がしてならない ネットワーク診断結果
デバイスまたはリソース(web.archive.org)が応答していません。 >>168
問答無用も何も、その robots.txt を規則通りに解釈したら
Internet Archive (ia_archiver) の場合は全拒否になるのだが。
| User-Agent: ia_archiver
| Disallow: /
この少し後ろに "User-Agent: *" で始まるグループがあるが、
上の "User-Agent: ia_archiver" を優先するため無視される。
| User-Agent: *
| Disallow: /
| Allow: /sitemap
| Allow: /$
| ...
仮に上の "User-Agent: ia_archiver" とその次の行が無かったとしても、
Internet Archive は Allow 命令には対応していない。
つまり、"User-Agent: *" とその次の Disallow 命令だけが解釈されて、
どっちみち全拒否となる。 何度かYahooスポーツの世話になっていたが、久しぶりに古いページを
見ようとしたらデータが取れなくなってるな。 Saving page now...が消えたと思いきやまた表示され
Saving page now...が今度こそ消えたと思いきやまた表示され
Saving page now...が(ry
この自動ループに陥って結局手動で停止させるんだが
後から確認してみると取れてるのと取れてないのが2:1ぐらい
めんどくせ 画像が全然保存できてないな
下手するとさっき保存したものよりも同じページの2009年くらいのスナップショットのほうがたくさん画像が見れたりする >>184
Bummerが3〜4回繰り返されるので
既に根気もくそも無くなってるわ
特に19時台が酷い気がするけど
単に気のせいかな ウェブ魚拓も「スカ」が多くなったな
魚拓の類がこんな調子だと本当に困る もうBummer出るのがデフォになってるな
改善される時は来るのだろうか はぁ?
上旬は先月よりだいぶ調子よかったが昨日からまたダメダメ 去年冬ごろ取得したのは"/"が勝手に加えられての404が多かった 悪いひとたちがやって来て
みんなを殺した
理由なんて簡単さ
そこに弱いひとたちがいたから
女達は犯され
老人と子供は燃やされた
悪いひとたちはその土地に
家を建てて子供を生んだ
そして街ができ
悪いひとたちの子孫は増え続けた
朝鮮進駐軍 関東大震災 日本人大虐殺
https://goo.gl/FTqHJ1
https://goo.gl/1ntWvZ
https://youtu.be/D0vgxFC04JQ
https://goo.gl/h1o4eV
https://www.youtube.com/watch?v=sYsrzIjKJBc ページ自体が表示されないが、今はどういう状況? メンテ中? Wayback Exception
An unknown exception has occurred. Unexpected Error
こればっか アーカイヴされたことないページへのリンク踏んだら
久々に404にならず"Save this url in the Wayback Machine"が現れてクリック取得ができた
これ常時できてたのって夏休み前だったから感動すら覚える サイトで友達が稼げるようになった情報とか
⇒ http://rprpe093w.sblo.jp/article/181823411.html
興味がある人だけ見てください。
SOF53Y4MWW 2h前にあった現地の停電の影響
さすがに回避不能だしイラついてもしょうがない
大人しく復旧を待とう あーーーー何か来たぞーーーー
>>211
取得しようとしたら、一旦反応はあるものの、
なぜか取得する前段階の画面に戻ってしまっていたな。
結局、1月1日は終始そんな状態だったが、
1日中使えなかったのはあまりに痛すぎる。 去年10月の第一週に取得しといたのが半分ぐらい駄目になってる
重要だと思うページは取れてるか確認してみたほうがいい >>213
2015 年よりスクリプトで毎日一回ずつ保存させているものがあるんだけど、
昨年 10 月は第一週に限らずポツポツと抜けている。
URL は公開したくないのでスクショでご勘弁。
ttp://i.imgur.com/4qDvnsI.png
ttp://i.imgur.com/l0lfBpa.png
ttp://i.imgur.com/ZKixGUA.png >>214
スクリプトってどんな感じの?参考にしたいからやり方教えて下さいm(__)m >>215
403 ページが繰り返し記録されているので Internet Archive の問題ではない。
ちなみにスクリプトは /save/ にリクエストを投げてから、リダイレクトを処理して
最終的に 200 番か 504 番の応答が返ってくれば保存できたと判断、
それ以外なら計 10 回まで試行するように組んである。
ログは取っていないので、保存できなかった日にどういう応答が
返ってきていたのかは判らない。 10月散々だな・・・ここのログ読んでも9月末から10月までは大分やばそうな感じだし、見直してみるか >>214
スクリプトを作成する技術があるのなら、アーカイブするよりも
そのページを直接ハードディスクにhtml(またはmhtml)で保存
するほうが確実ではないのか? 以下長文失礼。
>>219
いわゆる「証拠保全」の目的で、ブログなどを保存させることもあるでしょう・・・。
>>216
こちらでは Windows Scripting Host 用のスクリプトを JScript で書き、
それを Windows のタスクスケジューラで実行させている。
以下、Internet Archive へ仕掛けるアクセスの内容と、HTTP の応答コードの扱いについて簡単に。
1) 保存させたい URL の前に https://web.archive.org/save/ を付けて、
その URL 向けに HEAD リクエストを投げさせる。
2) 300 番台の応答 (リダイレクト) が返って来た場合、順次追跡して HEAD リクエストを投げさせる。
これは、使用する API によっては特に記述せずとも勝手にやってくれる。
3) 最終的に 200 番の応答が返ってくれば、たぶん保存できている。
保存成否は HTTP の応答コードだけでほぼ判定できる。
コンテントボディは不要なので HEAD メソッドを使っているが、
HEAD を扱えない環境なら GET メソッドでも問題無い。
数百メガバイトの巨大ファイルを保存させようとした場合など、
オリジンサーバから Internet Archive への転送に時間が掛かってしまうと
途中でタイムアウトとなり、504 番の応答が返ってきてしまう。
スクリプトを汎用とする (URL を別途パラメータとして与える) のであれば、
これも一応「保存できた」として扱った方が無難。
504 でも保存がキャンセルされる訳では無いようで、
これをエラーとして扱い再試行させてしまったがために
巨大ファイルを短い間隔で重複して保存させてしまったことがある。 >>220
ご丁寧にご解説ありがとうございましたm(__)m
定期保存の方法は大体理解できたのですが
当方JScriptに詳しくないのでスクリプトの具体的な書き方がわかりません(ノД`)・゜・。
ご無理は承知しておりますが
Pastebin.comなどにスクリプトのサンプルを貼って頂けると有り難いのですが・・・
ぜひとも後学の為によろしくお願い致します。(o_ _)o)) スレ違い
しかも今どきm(__)m (ノД`)・゜・。 (o_ _)o))の顔文字
キモいキモすぎる 時間の流れ方は人それぞれだし、顔文字とか個性があるのは別にいいんじゃない
Internet Archiveに関するスクリプトなら満更スレ違いとも言えないだろうし
Pastebin指定している所見ると、極力スレに迷惑かからないように考慮しているみたいだし
大体このスレ、1年過ぎても1スレの1/5くらいも消費してないくらい話題ないんだから
多少のスレ違いは問題ないっしょ >スクリプトの具体的な書き方がわかりません(ノД`)・゜・。
から判るのは"参考"までに問うてみるなんてレベルには
背伸びしても達しない現状を隠しつつ>>216を書き
レスが来たと見るやベース丸コピの勢いで乞食メンタリティを現す
呆れた自己中クレクレ厨という事実 私のせいでスレが荒れてしまってすみません(>_<)
すべて無知で乞食で心が貧しかった私のせいです。。。
気分を害された方々、本当に申し訳ありませんでしたm(__)m >>223
ひとくちに専門板といっても
この板とシャワートイレ板や文房具板では雰囲気がまったく違う。 今さっきからメンテナンスに入った
今日は夕方あたりから「503」乱発だったから仕方ないか…
というか昨日・一昨日あたり消えてるっぽいものもあるのだが 過去に取得されてるURLを現在の表示内容に更新する為に再度保存するにはどこのボタンを押せばいいんですか? ☆ 日本の、改憲を行いましょう。現在、衆議員と参議院の
両院で、改憲議員が3分の2を超えております。
『憲法改正国民投票法』、でググってみてください。国会の発議は
すでに可能です。平和は勝ち取るものです。お願い致します。☆☆ >>232
https://web.archive.org/ の【 Save Page Now 】セクションに
URL入力欄とボタンがあるじゃろ
Capture a web page as it appears now for use as a trusted citation in the future. >>235
御礼が遅れましたがありがとうございました
貴方良い人だ 取得歴0のページを新たにセーブしても"2 captures"になるのって何なんだろ 去年保存されてしばらくは完全に保存されてたページが
いつの間にかそのページの画像の大半が失われてた This URL has been excluded from the Wayback Machine.
なサイトが復活した事例ってある?
BIGLOBEの例とか見るに必ずしも運営者が手を回したわけじゃないようだし、問い合わせたら復活したりするんじゃないかと思ったんだが Archive.is で Facebook のアーカイブが取れなくなっている。
Archive.is のクローラは Facebook 上では登録ユーザとして振舞っていて、
パブリックでは無いコンテンツのアーカイブも取れるようになっているのだが
そこで使われていたアカウントがブロックされたっぽい。
ttp://Archive.is/TT0nA
Masha とか Nathan とか、過去にアカウント名が変わったことが何回かあるので
今回が初めてでは無いのかも。
>>239
聞いたことが無いですね・・・。 Archive.isはweb.archive.orgと違ってソース見るとリンクが別の文字列に置き換わるんだな
だから記録したリンクのアドレスをソースで調べようとしてもわからない
リンクアドレスが直接サイト上にすべて表示してあるなら大丈夫だけど
web.archive.orgtが禁止してるサイトを記録できるのはありがたいが中途半端 あー重い重い
別のところで耳にしたので本当かどうかわかりませんが
webarchiveを用いて消えてしまったリンク
例えばhttp://www.chinpoppo.ne.jp/images/xxxx.jpg
が昔あったが現在images以下が表のページからのリンクが消されたとして(サーバー内には存在するる)
その画像一覧をWebarchiveを用いると現在のページからも落とせると聞いたが本当でしょうか?
もし可能ならその方法を,またWebarchiveを用いないで出来る方法があれば教えてください
スレ違いならこの質問に適したスレを教えてください >>246
日本語でおk。
「Wayback Machine に保存されているファイルの一覧」は出力できても、
「元サーバには置いてあっても Wayback Machine では保存しなかったファイルの一覧」なんか
出力できるわけ無いわ。 このアーカイブてデータをSSDに全部入れ替えたら
アクセスすごい速くなるんだろうな、金額や手間を
考えたら途方もない話だろうけど ストレージの速度も大事なんだろうけれど
データベース系はメモリが足らないとダメなんだろうなって気がする
それこそカネがかかる話だけれどもね ここ数日 /save/ で保存を試みても失敗することが多くなった。
数回ないし十数回リロードすれば通るけど、本当に鬱陶しい。
>>252
右に同じ。
しかも、
>数回ないし十数回リロードすれば通るけど
これがまた結構時間をロスする。
意外とこのサイトの重要性は高まっているので、
ここが機能しなかったら本当に困る。 というか基本的な話だが、
同じサイトを複数回取る場合(頻繁にトップページが変わる、新聞社の公式とか)、
Internet Archiveは『10分程度』、間(あいだ)を置かなきゃダメなんだよね。
「Wayback Exception」でタイムロスがあっては尚更困るんだが。 もちろん他のところも利用してるけど、
1日20回限定だったり、サイトの方から拒否しちゃったりでねえ…
それにしてはここ数日、
InternetArchiveにアクセスが集中しすぎているのか? なんかよく分からんエラー出て使えないと思ったらやっぱ不調なのね 午後から本当に「Sorry」ばかりでガチで不調
一時期のウェブ魚拓もそうだったが
不可解な画像を多量にアーカイブするような
平たく言えば「荒らし」が出てきてるのか? 困ったねぇ。
今日はこればっかり。
そりゃな
既存の蓄積の替えがきかないという意味ではGoogleとかよりよっぽど重大だな いっそグーグルが買収してその脅威のメカニズムで
ウェイバックをワード検索できたり、負荷を軽くしたりプログラムを再構成してくれないかな >>266
「他人の著作物を勝手に保存してそのまま勝手に再公開する」という
インターネット・アーカイブがやっている行為について訴訟が起こされたけど、
非営利組織であることが米国著作権法のフェアユース規定を適用できるかどうかの
鍵となっていたはず。
買収で営利組織の傘下に入ると、おそらくそこが崩れて
保管されているアーカイブの殆どが違法コピーに成り下がる。 ■ このスレッドは過去ログ倉庫に格納されています