Internet Archive総合 (web.archive.org) #2 ©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
うん、何を残してもいいと思うけど
突っ込むならば
大事な物をいつまでも残しておく手段にIAを使う
という所では^_^; 自殺配信して死んだだるまが生きた証と言って残したブログも速攻で消されたけど誰かがIAに保存してたおかげで読めたな amebloをIAで開くと、トップページはアーカイブされているけど、
月別や個々のURLを入れるとアーカイブされていないことが多い。
まあ、amebloに限った話じゃないが。 HTMLだけで画像が全滅してるやつってどういうアーカイブのされかたなんだろ >>125
普通に有り得る例としては、そのサイトに直リン除けが掛けられていて
画像向けのリファラーのチェックが行われていたとか。 伺かの小鳩とクロver1.0の2003年のファイル落としたら
中に2007年と2008年と2015年の日付のファイルが入ってた謎 何か意味あるのかな。
ブログでトップに表示させるために2050年とかの記事があるようなものだったりするの? 何かまた見れなくなったサイトがあるんだが
余計な改悪してそう 何年か前からURLに「:80」が入るバグで見れないパターン出てくるな 過去の保存アーカイブの大半が死んでる。検索機能も駄目だし…
ミラー鯖は若干は検索機能でヒットするがやはりあるはずアーカイブにはエラーなのかたどりつけない。 アーカイブ済ページから未アーカイブページへのリンク踏むと
前はsave this url画面になったのに
こないだから404になっていちいちボックスにurl入れなきゃなので面倒 情報求めて初めて来たが、こんな板あったのか……
繋がらないのは俺だけじゃなかったんだな……
ここ使えないとマジで困りますよ…… 503と504で全然つながらない
あと1年で終わるんだろうな 昨日から久しぶりに使ってたんだが、全然つながらなくなったので調べてたが
ずっと調子悪かったのか
便利なんだけどな 日刊ス○ーツ公式
記事に関して新しいものが取得できなくなってる!?
2〜3日前までに取った記事は表示できるんだが
魚拓で取得不可能になったから(トップページは除く)
ここが使えないと何気に困る ページによって時系列表示が出るのと出ないのがあるけど、何が違うんだろう? >>146
/save/ で行けてるみたいだけどなぁ。 日付が変わって昨日になるが、18時ごろから1時間くらい、
タイムアウトとか言って、使い物にならなかった。
この時間帯で1時間も使えなかったのって、ほんと酷だわ…。 ちょっと古いブラウザで動かないページってどんな作り方なの? IA内に履歴ないURL踏んだときの
セーヴしないという選択なくしたんだな
ちょっと楽ちんになった >>153だけど、きのう書いたように仕様変更と思いきや
以前と同じく404吐くのに戻っていた
ちなみに昨日取得したページは、某著名人のブログ2017.8.29夕方アップ記事
きょう取得したのは、昨日と同アカのブログ内の昨晩アップ記事 > IA内に履歴ないURL踏ん
でみたけど
クリックと同時に"Saving page now..."になるページと404のワンクッションおくページとが混在。
中の人らがどこをどういじってるのか知らんが当分は不安定な状態が続きそう。
まーどうにかこうにか取得できてるんでありがたくフリー利用させてもらいまふ 一昨日(8月31日)、「Wayback Exception」という表示が何度も出て、
サイトの取得を妨げていたんだけど、見られた方はいますか?
「Exception」は“例外”という意味らしいけど、毎日のように取ってるサイトで
このような現象が起きたので驚いてる。
因みに昨日(9月1日)は逆に、その表示を一切見ていない。 >>158
いわゆるプログラミング用語の「例外」でしょ?
どうして例外が発生したのか見てないの?
>>159
そう、確かにその表示なのだが、
>どうして例外が発生したのか見てないの?
そこまでは見ていない、というよりも分からない。
何しろ、普段から取得している複数の新聞社のニュースサイトを
取る作業をしていた際に、この現象が起きたから。
どうにも原因が思いつかない。 Shift_JIS が宣言されていても Windows-31J として処理しくれるような
融通は利かせてくれないものだろうか。
http://web.archive.org/web/1/mevius.2ch.net/test/read.cgi/esite/1475246713/161
@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]_`
abcdefghijklmnopqrstu~∞gョх
括窮欠合紫順灯�
@ABCDEFGHIUVW\]^_`abcdefghijklmn
opqrstuvwxyz{|}~淫戒期釧厚匙囚
穿凧諦日琵放愈簾傅哄奧廈戌曉檄滯。「」、・ヲァィゥェォャュョッ
ーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマ
ミムメモヤユヨラリルレロワン゙゚瓏磅糶脣蕣褝踰鋺顫鴾
@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_
`abcdefghijklmnopqrstuvwxyz{|}~
胤拐棋屑口冊収埴箭蛸蹄乳眉方油練傴哈奬廐戔暾檢漲
。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタ
チツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚
磊糺脯蕘襠踴鍄顯鵆
@ABCDEFGHIJK >>161 は (0x8794) が 這 (0x9487) に化けてるけど、これは 2ch 側の問題だな。
具体的には、 の文字の 1 個以上の連続のうち、先頭バイトだけが
なぜか HTML 上では脱落する。
専ブラで dat を直接読んでいれば脱落は起こらない。
バイト列で表現するとこんな感じ。
41 41 87 94 87 94 87 94 87 94 41 41 (AA這這這尿A)
↓
41 41 -- 94 87 94 87 94 87 94 41 41 (AA這這這尿A)
http://web.archive.org/web/1/mevius.2ch.net/test/read.cgi/esite/1475246713/163
算術記号の ではなくて、ギリシャ文字の Σ (0x83B0) だと起こらない。 取得したページ上部のデザインがまた変わったなあ
小さくなったり大きくなったり極端だ (過去にもあったけど)
一部のサイトで、以前取ったアドレスが、取れなくなってるな。
取っても、現時点で最新のものしか出てこない。
https://web.archive.org/web/20170913155359/https://www.daily.co.jp/gossip/
https://web.archive.org/web/20170913094650/https://www.nikkansports.com/battle/ 悪いひとたちがやって来て
みんなを殺した
理由なんて簡単さ
そこに弱いひとたちがいたから
女達は犯され
老人と子供は燃やされた
悪いひとたちはその土地に
家を建てて子供を生んだ
そして街ができ
悪いひとたちの子孫は増え続けた
朝鮮進駐軍 関東大震災 日本人大虐殺
https://goo.gl/1ntWvZ
https://youtu.be/D0vgxFC04JQ
https://goo.gl/h1o4eV
https://www.youtube.com/watch?v=sYsrzIjKJBc
https://goo.gl/FTqHJ1 こういうのもちゃんと読んで反応してるんだろうか
問答無用で弾いてるような印象があるが
http://yahoo-mbga.jp/robots.txt User-Agent: *
Disallow: /
もうこれだけ読んでやめてる気がしてならない ネットワーク診断結果
デバイスまたはリソース(web.archive.org)が応答していません。 >>168
問答無用も何も、その robots.txt を規則通りに解釈したら
Internet Archive (ia_archiver) の場合は全拒否になるのだが。
| User-Agent: ia_archiver
| Disallow: /
この少し後ろに "User-Agent: *" で始まるグループがあるが、
上の "User-Agent: ia_archiver" を優先するため無視される。
| User-Agent: *
| Disallow: /
| Allow: /sitemap
| Allow: /$
| ...
仮に上の "User-Agent: ia_archiver" とその次の行が無かったとしても、
Internet Archive は Allow 命令には対応していない。
つまり、"User-Agent: *" とその次の Disallow 命令だけが解釈されて、
どっちみち全拒否となる。 何度かYahooスポーツの世話になっていたが、久しぶりに古いページを
見ようとしたらデータが取れなくなってるな。 Saving page now...が消えたと思いきやまた表示され
Saving page now...が今度こそ消えたと思いきやまた表示され
Saving page now...が(ry
この自動ループに陥って結局手動で停止させるんだが
後から確認してみると取れてるのと取れてないのが2:1ぐらい
めんどくせ 画像が全然保存できてないな
下手するとさっき保存したものよりも同じページの2009年くらいのスナップショットのほうがたくさん画像が見れたりする >>184
Bummerが3〜4回繰り返されるので
既に根気もくそも無くなってるわ
特に19時台が酷い気がするけど
単に気のせいかな ウェブ魚拓も「スカ」が多くなったな
魚拓の類がこんな調子だと本当に困る もうBummer出るのがデフォになってるな
改善される時は来るのだろうか はぁ?
上旬は先月よりだいぶ調子よかったが昨日からまたダメダメ 去年冬ごろ取得したのは"/"が勝手に加えられての404が多かった 悪いひとたちがやって来て
みんなを殺した
理由なんて簡単さ
そこに弱いひとたちがいたから
女達は犯され
老人と子供は燃やされた
悪いひとたちはその土地に
家を建てて子供を生んだ
そして街ができ
悪いひとたちの子孫は増え続けた
朝鮮進駐軍 関東大震災 日本人大虐殺
https://goo.gl/FTqHJ1
https://goo.gl/1ntWvZ
https://youtu.be/D0vgxFC04JQ
https://goo.gl/h1o4eV
https://www.youtube.com/watch?v=sYsrzIjKJBc ページ自体が表示されないが、今はどういう状況? メンテ中? Wayback Exception
An unknown exception has occurred. Unexpected Error
こればっか アーカイヴされたことないページへのリンク踏んだら
久々に404にならず"Save this url in the Wayback Machine"が現れてクリック取得ができた
これ常時できてたのって夏休み前だったから感動すら覚える サイトで友達が稼げるようになった情報とか
⇒ http://rprpe093w.sblo.jp/article/181823411.html
興味がある人だけ見てください。
SOF53Y4MWW 2h前にあった現地の停電の影響
さすがに回避不能だしイラついてもしょうがない
大人しく復旧を待とう あーーーー何か来たぞーーーー
>>211
取得しようとしたら、一旦反応はあるものの、
なぜか取得する前段階の画面に戻ってしまっていたな。
結局、1月1日は終始そんな状態だったが、
1日中使えなかったのはあまりに痛すぎる。 去年10月の第一週に取得しといたのが半分ぐらい駄目になってる
重要だと思うページは取れてるか確認してみたほうがいい >>213
2015 年よりスクリプトで毎日一回ずつ保存させているものがあるんだけど、
昨年 10 月は第一週に限らずポツポツと抜けている。
URL は公開したくないのでスクショでご勘弁。
ttp://i.imgur.com/4qDvnsI.png
ttp://i.imgur.com/l0lfBpa.png
ttp://i.imgur.com/ZKixGUA.png >>214
スクリプトってどんな感じの?参考にしたいからやり方教えて下さいm(__)m >>215
403 ページが繰り返し記録されているので Internet Archive の問題ではない。
ちなみにスクリプトは /save/ にリクエストを投げてから、リダイレクトを処理して
最終的に 200 番か 504 番の応答が返ってくれば保存できたと判断、
それ以外なら計 10 回まで試行するように組んである。
ログは取っていないので、保存できなかった日にどういう応答が
返ってきていたのかは判らない。 10月散々だな・・・ここのログ読んでも9月末から10月までは大分やばそうな感じだし、見直してみるか >>214
スクリプトを作成する技術があるのなら、アーカイブするよりも
そのページを直接ハードディスクにhtml(またはmhtml)で保存
するほうが確実ではないのか? 以下長文失礼。
>>219
いわゆる「証拠保全」の目的で、ブログなどを保存させることもあるでしょう・・・。
>>216
こちらでは Windows Scripting Host 用のスクリプトを JScript で書き、
それを Windows のタスクスケジューラで実行させている。
以下、Internet Archive へ仕掛けるアクセスの内容と、HTTP の応答コードの扱いについて簡単に。
1) 保存させたい URL の前に https://web.archive.org/save/ を付けて、
その URL 向けに HEAD リクエストを投げさせる。
2) 300 番台の応答 (リダイレクト) が返って来た場合、順次追跡して HEAD リクエストを投げさせる。
これは、使用する API によっては特に記述せずとも勝手にやってくれる。
3) 最終的に 200 番の応答が返ってくれば、たぶん保存できている。
保存成否は HTTP の応答コードだけでほぼ判定できる。
コンテントボディは不要なので HEAD メソッドを使っているが、
HEAD を扱えない環境なら GET メソッドでも問題無い。
数百メガバイトの巨大ファイルを保存させようとした場合など、
オリジンサーバから Internet Archive への転送に時間が掛かってしまうと
途中でタイムアウトとなり、504 番の応答が返ってきてしまう。
スクリプトを汎用とする (URL を別途パラメータとして与える) のであれば、
これも一応「保存できた」として扱った方が無難。
504 でも保存がキャンセルされる訳では無いようで、
これをエラーとして扱い再試行させてしまったがために
巨大ファイルを短い間隔で重複して保存させてしまったことがある。 ■ このスレッドは過去ログ倉庫に格納されています