Internet Archive総合 (web.archive.org) #2 ©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
>>246
日本語でおk。
「Wayback Machine に保存されているファイルの一覧」は出力できても、
「元サーバには置いてあっても Wayback Machine では保存しなかったファイルの一覧」なんか
出力できるわけ無いわ。 このアーカイブてデータをSSDに全部入れ替えたら
アクセスすごい速くなるんだろうな、金額や手間を
考えたら途方もない話だろうけど ストレージの速度も大事なんだろうけれど
データベース系はメモリが足らないとダメなんだろうなって気がする
それこそカネがかかる話だけれどもね ここ数日 /save/ で保存を試みても失敗することが多くなった。
数回ないし十数回リロードすれば通るけど、本当に鬱陶しい。
>>252
右に同じ。
しかも、
>数回ないし十数回リロードすれば通るけど
これがまた結構時間をロスする。
意外とこのサイトの重要性は高まっているので、
ここが機能しなかったら本当に困る。 というか基本的な話だが、
同じサイトを複数回取る場合(頻繁にトップページが変わる、新聞社の公式とか)、
Internet Archiveは『10分程度』、間(あいだ)を置かなきゃダメなんだよね。
「Wayback Exception」でタイムロスがあっては尚更困るんだが。 もちろん他のところも利用してるけど、
1日20回限定だったり、サイトの方から拒否しちゃったりでねえ…
それにしてはここ数日、
InternetArchiveにアクセスが集中しすぎているのか? なんかよく分からんエラー出て使えないと思ったらやっぱ不調なのね 午後から本当に「Sorry」ばかりでガチで不調
一時期のウェブ魚拓もそうだったが
不可解な画像を多量にアーカイブするような
平たく言えば「荒らし」が出てきてるのか? 困ったねぇ。
今日はこればっかり。
そりゃな
既存の蓄積の替えがきかないという意味ではGoogleとかよりよっぽど重大だな いっそグーグルが買収してその脅威のメカニズムで
ウェイバックをワード検索できたり、負荷を軽くしたりプログラムを再構成してくれないかな >>266
「他人の著作物を勝手に保存してそのまま勝手に再公開する」という
インターネット・アーカイブがやっている行為について訴訟が起こされたけど、
非営利組織であることが米国著作権法のフェアユース規定を適用できるかどうかの
鍵となっていたはず。
買収で営利組織の傘下に入ると、おそらくそこが崩れて
保管されているアーカイブの殆どが違法コピーに成り下がる。 >>267
厳しい局面を迎えているんだな
その訴訟は継続中なのかな?
結果次第では他の類似サイトにも確実に影響が出る… 最近数週間ずっと調子よかったのに
今日は1度めトライで成功するページが2割ぐらい 自分とこの環境だと今日は
優──良──可──不可
↑
この辺り 頼れるのがInternet Archiveしかいない…! ジオシティーズ消滅でだいぶ貴重なデータが失われるな
黒歴史サイトが消える〜って喜んでるのも居るがそんなもんより損失が大きいのが
アーカイブされりゃいいけどニフティなんかアーカイブで見れないサイト多い惨状
他では誰も扱っていないすんげーマニアックなデータを蓄積したサイトとか 勿体無い あれなあ
ドメインレベルで見えなくなってるっぽいのあれなんなんだろうな https://archive.org の上の入力欄に URL を突っ込んだ後、
最初に出てくるはずのカレンダ画面が真っ白。 ジオシティーズ削除までに出来る限りアーカイブしとかんとなあ
アーカイブされてそうで意外とされてなかったりする>ジオ 18日以降にとったキャッシュが全部見れなくなってる こいつぁきつい 改めて確認すると17日の夜以降かつ現在の24時間以上前くらいのは全て消えてるは
サイトにもよるのかな やべー 実質、魚拓やArchive isと比べたら、アーカイブサイトでは一番順調なところなのに。
何で数日前以降のものが消えるかね!?
管理者は気がついてるのか!? >>288-289
ウチはどうだろう、と思って見てみたら・・・今月 6 日以降の分が全く保存されていない。
ttp://i.imgur.com/cEWjNjz.png
どうも原因はサーバ不調とは別のよう。参考にならず申し訳ない。
>>220 で紹介した手順のまま何も変えていないのだが、明らかにおかしいので
通信内容を追ってみたところ、こちらが送った HEAD リクエストに対して 404 応答を返している。
試しに GET リクエストに切り替えてみると、きちんと 200 応答が返る。多分保存できている。
(以前は途中でリダイレクトがあったはずだが・・・どうだったっけ?)
おそらく仕様が変更されて、HEAD リクエストは使えなくなった、という事だと思う。
以下余談。
>>214 の 3 つのスクショと同じ URL、同じ年のカレンダーを再度見てみた。
ttp://i.imgur.com/71H5nOH.png
ttp://i.imgur.com/8aO7RgA.png
ttp://i.imgur.com/dUdgy82.png
>>214 の時点では歯抜けになっていた 10 月分が、かなり埋まっている。 月曜日終わりになっても特に改善せず
ここ数日1日以上前の物はすべて消滅 前思い出したように復活したことあるよなあ
今回はどうなんだろう ここ数日はりきってgeocitiesのアーカイブ保存してたのに消えてるじゃん...最悪
非表示じゃなくてアーカイブごと消滅したってこと?あまり詳しくないからわからんが 火曜日終わりになっても順調に消滅中
なんかアナウンスでも欲しい所 試しにCNNのアーカイブを確認してみると
https://web.archive.org/web/*/http://us.cnn.com/
やっぱり17日の昼くらいからさっぱりキャッシュが無くなってる
一応全世界的なのかもしれんが、外国の人は気づいているのだろうか? どうやら復旧した模様 過去の分も含めてリンクが表示されるようになった
どこかにアナウンスとか上がっているだろうか? ジオ全盛の頃って累積アクセス数でキリ番踏んだら報告するよう書いてる人結構いたなあ
報告めんどくて毎回スルーしてたら後で踏み逃げ常習者として晒されてたりした
懐かしくて確認してみたらアーカイブ取得されてて(ノ∀`)アチャー >>304
先月、毎日保存に使っているWebブラウザだと
https://web.archive.org/save/…
できなくなったのは、ブラウザのCookieを削除したらできるようになった。 Wayback Machine does not have this page archived.
見たかったページさようなら また消えてるページがある!?
昨日(11月12日)頻繁に「再読み込み」を促す画面が何度も出ていたが…。 最近、google chromeでアーカイブを見ようとすると
「The Wayback Machine is an initiative of the Internet Archive, a 501(c)(3) non-profit, building a digital library of Internet sites and other cultural artifacts in digital form.
Other projects include Open Library & archive-it.org.
Your use of the Wayback Machine is subject to the Internet Archive's Terms of Use.」
ってのが出てきて、先に進めない
別のブラウザだと普通に見えるのに あとAtwikiも魚拓とろうとするとスパム扱いされてできない >>316
スパム扱いされた例を貼っとく
http://web.archive.org/web/20181205074744/http://www26.atwiki.jp:80/gcmatome/pages/1017.html >>317
何だろうねぇ。
http://web.archive.org/web/20181211002734/www26.atwiki.jp/gcmatome/pages/1017.html
念のため、この時に使った User-Agent 文字列を貼っておく。
Mozilla/6.0 (Macintosh; Intel Mac OS X 10.13; rv:59.0) Gecko/20100101 Firefox/59.0 atwikiはFirefox 52にトラウマでもあるのか ふむふむ
http://web.archive.org/web/20181211102115/www26.atwiki.jp/gcmatome/pages/1017.html
Mozilla/6.0 (Macintosh; Intel Mac OS X 10.13; rv:60.0) Gecko/20100101 Firefox/60.0
>>320
/save/ を叩いた時なんだけど、もし点数方式で判定するなら
◎ IP は archive.org の取得用サーバ群の中の何れか一つが使われる。
米国の IP であること、また名前に www が入っていることは加点対象になる可能性あり。
同じ IP からの繰り返しアクセスも加点対象になる可能性あり。
◎ User-Agent を含め、リクエストヘッダはクライアントのものがそのまま転送される。
古いブラウザを使っていると加点対象になる可能性あり。
◎ さらに Via: HTTP/1.0 web.archive.org (Wayback Save Page) が追加される。
これは間違いなく加点対象。
この辺が総合的に判断されて弾かれているのだろう。
保存に成功することもあるので、Wayback Machine だからと言って一律に判断しているのでは無いと思う。 そもそも閲覧回数が多いのってスパムっていうのだろうか
いや本筋と関係ないな 先週くらいから、上のほうに寄付金募集のバナーが出るようになったな。
しかもIEだと、右上の「×」をクリックしても、どうしたわけかバナーが消えない。
この募集は本気だな。 将来見たくなった時のためにそれの魚拓も撮っといてくれ ウィキのコーヒー1杯みたいな洒落たジョークじゃないと金が集まらんぜ http://web.archive.org/web/20181223223511/https://www26.atwiki.jp/gcmatome/pages/2928.html
http://web.archive.org/web/20181223223509/https://www26.atwiki.jp/gcmatome/pages/686.html
またスパム扱いされてる 221 名前:名無しさん@お腹いっぱい。[] 投稿日:2018/12/22(土) 16:36:12.78
こういう海外サービスを発見した。
まだちょこっとしか試していないが。
Archive.st
https://archive.st
Time Travel
(ブラウザから「このサイトはやばいかもしれない」
という警告が出たが、おそるおそる行ってみると
特にまずいことはなかった)
http://timetravel.mementoweb.org Wayback Everywhereってアドオン使ってるけど他に便利なのないかな 以前のいつかと同じく、18年12月29日深夜から現在に至るまで取得したアーカイブの消失が起きている
注意されたし 名前上がらないけどWebrecorderとかInterPlanetary Waybackとか知ってる?
いいぞ〜これ ■ このスレッドは過去ログ倉庫に格納されています