Internet Archive総合 (web.archive.org) #2　©2ch.net

2016/09/30(金) 23:45:13.25

　
　前スレッド

Internet Archive総合 (web.archive.org) #1
http://echo.2ch.net/test/read.cgi/esite/1189771222/
　

**名無しさん＠お腹いっぱい。** · 2018/07/24(火) 06:42:47.65

これが無くなるとかなり困るな

**名無しさん＠お腹いっぱい。** · 2018/07/24(火) 19:26:12.66

そりゃな
既存の蓄積の替えがきかないという意味ではGoogleとかよりよっぽど重大だな

**名無しさん＠お腹いっぱい。** · 2018/07/25(水) 10:07:04.60

いっそグーグルが買収してその脅威のメカニズムで
ウェイバックをワード検索できたり、負荷を軽くしたりプログラムを再構成してくれないかな

**名無しさん＠お腹いっぱい。** · 2018/07/25(水) 10:39:55.70

>>266
「他人の著作物を勝手に保存してそのまま勝手に再公開する」という
インターネット・アーカイブがやっている行為について訴訟が起こされたけど、
非営利組織であることが米国著作権法のフェアユース規定を適用できるかどうかの
鍵となっていたはず。
買収で営利組織の傘下に入ると、おそらくそこが崩れて
保管されているアーカイブの殆どが違法コピーに成り下がる。

**名無しさん＠お腹いっぱい。** · 2018/07/29(日) 21:16:40.87

ひ

**名無しさん＠お腹いっぱい。** · 2018/07/30(月) 08:56:57.18

>>267
厳しい局面を迎えているんだな
その訴訟は継続中なのかな？
結果次第では他の類似サイトにも確実に影響が出る…

**名無しさん＠お腹いっぱい。** · 2018/07/31(火) 01:34:50.00

訴訟されてたとは初目目

**名無しさん＠お腹いっぱい。** · 2018/08/27(月) 22:33:15.82

最近数週間ずっと調子よかったのに
今日は1度めトライで成功するページが2割ぐらい

**名無しさん＠お腹いっぱい。** · 2018/10/01(月) 00:15:17.25

最近はどう？

**名無しさん＠お腹いっぱい。** · 2018/10/01(月) 09:42:09.77

自分とこの環境だと今日は
優──良──可──不可
　　　↑
　この辺り

**名無しさん＠お腹いっぱい。** · 2018/10/02(火) 00:22:35.28

結構いいやん

**名無しさん＠お腹いっぱい。** · 2018/10/02(火) 03:21:26.34

「Yahoo!ジオシティーズ」が2019年3月末でサービス終了
http://news.livedoor.com/lite/article_detail/15383313/

**名無しさん＠お腹いっぱい。** · 2018/10/02(火) 18:31:41.89

頼れるのがInternet Archiveしかいない…！

**名無しさん＠お腹いっぱい。** · 2018/10/02(火) 21:28:33.03

ジオシティーズ消滅でだいぶ貴重なデータが失われるな
黒歴史サイトが消える～って喜んでるのも居るがそんなもんより損失が大きいのが
アーカイブされりゃいいけどニフティなんかアーカイブで見れないサイト多い惨状
他では誰も扱っていないすんげーマニアックなデータを蓄積したサイトとか勿体無い

**名無しさん＠お腹いっぱい。** · 2018/10/03(水) 12:59:36.15

あれなあ
ドメインレベルで見えなくなってるっぽいのあれなんなんだろうな

**名無しさん＠お腹いっぱい。** · 2018/10/06(土) 20:02:45.36

https://archive.org の上の入力欄に URL を突っ込んだ後、
最初に出てくるはずのカレンダ画面が真っ白。

**名無しさん＠お腹いっぱい。** · 2018/10/06(土) 20:09:05.08

うん同じく

**279** · 2018/10/11(木) 02:20:55.03

>>279 の件は直ったようだ。

**名無しさん＠お腹いっぱい。** · 2018/10/15(月) 20:10:09.03

最近まともに動いてるね

**名無しさん＠お腹いっぱい。** · 2018/10/20(土) 16:16:56.53

いきなり保存できなくなった

**名無しさん＠お腹いっぱい。** · 2018/10/21(日) 11:22:22.45

全ページ検索はまだ？
でもモラル上厳しいか

**名無しさん＠お腹いっぱい。** · 2018/10/21(日) 11:47:41.23

大昔で来てたよね

**名無しさん＠お腹いっぱい。** · 2018/10/21(日) 18:07:24.21

ジオシティーズ削除までに出来る限りアーカイブしとかんとなあ
アーカイブされてそうで意外とされてなかったりする＞ジオ

**名無しさん＠お腹いっぱい。** · 2018/10/21(日) 18:46:47.27

それな

**名無しさん＠お腹いっぱい。** · 2018/10/21(日) 19:23:19.76

18日以降にとったキャッシュが全部見れなくなってるこいつぁきつい

2018/10/22(月) 07:48:21.85

改めて確認すると17日の夜以降かつ現在の24時間以上前くらいのは全て消えてるは
サイトにもよるのかなやべー

**名無しさん＠お腹いっぱい。** · 2018/10/22(月) 12:41:35.09

実質、魚拓やArchive isと比べたら、アーカイブサイトでは一番順調なところなのに。
何で数日前以降のものが消えるかね！？

管理者は気がついてるのか！？

**214** · 2018/10/22(月) 12:43:48.87

>>288-289
ウチはどうだろう、と思って見てみたら・・・今月 6 日以降の分が全く保存されていない。
ttp://i.imgur.com/cEWjNjz.png
どうも原因はサーバ不調とは別のよう。参考にならず申し訳ない。

>>220 で紹介した手順のまま何も変えていないのだが、明らかにおかしいので
通信内容を追ってみたところ、こちらが送った HEAD リクエストに対して 404 応答を返している。
試しに GET リクエストに切り替えてみると、きちんと 200 応答が返る。多分保存できている。
(以前は途中でリダイレクトがあったはずだが・・・どうだったっけ?)
おそらく仕様が変更されて、HEAD リクエストは使えなくなった、という事だと思う。

以下余談。
>>214 の 3 つのスクショと同じ URL、同じ年のカレンダーを再度見てみた。
ttp://i.imgur.com/71H5nOH.png
ttp://i.imgur.com/8aO7RgA.png
ttp://i.imgur.com/dUdgy82.png
>>214 の時点では歯抜けになっていた 10 月分が、かなり埋まっている。

**名無しさん＠お腹いっぱい。** · 2018/10/22(月) 23:54:24.33

月曜日終わりになっても特に改善せず
ここ数日1日以上前の物はすべて消滅

**名無しさん＠お腹いっぱい。** · 2018/10/23(火) 00:41:13.97

前思い出したように復活したことあるよなあ
今回はどうなんだろう

**名無しさん＠お腹いっぱい。** · 2018/10/23(火) 16:41:13.19

Access Denied

**名無しさん＠お腹いっぱい。** · 2018/10/23(火) 18:24:41.33

ここ数日はりきってgeocitiesのアーカイブ保存してたのに消えてるじゃん...最悪
非表示じゃなくてアーカイブごと消滅したってこと？あまり詳しくないからわからんが

**名無しさん＠お腹いっぱい。** · 2018/10/23(火) 23:47:43.02

火曜日終わりになっても順調に消滅中
なんかアナウンスでも欲しい所

**名無しさん＠お腹いっぱい。** · 2018/10/24(水) 00:04:11.87

試しにCNNのアーカイブを確認してみると
https://web.archive.org/web/*/http://us.cnn.com/
やっぱり17日の昼くらいからさっぱりキャッシュが無くなってる
一応全世界的なのかもしれんが、外国の人は気づいているのだろうか?

**名無しさん＠お腹いっぱい。** · 2018/10/26(金) 07:00:40.48

どうやら復旧した模様過去の分も含めてリンクが表示されるようになった
どこかにアナウンスとか上がっているだろうか？

**名無しさん＠お腹いっぱい。** · 2018/10/26(金) 08:55:54.62

直ったのか　良かった良かった

**名無しさん＠お腹いっぱい。** · 2018/10/31(水) 21:45:12.44

300

**名無しさん＠お腹いっぱい。** · 2018/11/01(木) 01:59:51.46

ジオ全盛の頃って累積アクセス数でキリ番踏んだら報告するよう書いてる人結構いたなあ
報告めんどくて毎回スルーしてたら後で踏み逃げ常習者として晒されてたりした
懐かしくて確認してみたらアーカイブ取得されてて(ﾉ∀`)ｱﾁｬｰ

**名無しさん＠お腹いっぱい。** · 2018/11/01(木) 02:33:05.67

悪いことはできないな

**名無しさん＠お腹いっぱい。** · 2018/11/09(金) 00:01:04.02

どう晒すん？

**名無しさん＠お腹いっぱい。** · 2018/11/09(金) 09:26:29.80

ぺージを見すぎるとエラーになる？

**名無しさん＠お腹いっぱい。** · 2018/11/09(金) 09:27:20.70

全ページ検索はまだ実現しないんですか？

**名無しさん＠お腹いっぱい。** · 2018/11/09(金) 10:30:55.67

大昔で来てたよね

**名無しさん＠お腹いっぱい。** · 2018/11/09(金) 13:46:06.53

>>304
先月、毎日保存に使っているWebブラウザだと
https://web.archive.org/save/…
できなくなったのは、ブラウザのCookieを削除したらできるようになった。

**名無しさん＠お腹いっぱい。** · 2018/11/09(金) 15:20:03.04

Wayback Machine does not have this page archived.
見たかったページさようなら

**名無しさん＠お腹いっぱい。** · 2018/11/13(火) 10:50:38.41

また消えてるページがある！？

昨日（11月12日）頻繁に「再読み込み」を促す画面が何度も出ていたが…。

**名無しさん＠お腹いっぱい。** · 2018/11/13(火) 14:48:03.50

「再読み込み」を促す画面
何これ

**名無しさん＠お腹いっぱい。** · 2018/11/13(火) 20:29:41.27

最近、google chromeでアーカイブを見ようとすると
「The Wayback Machine is an initiative of the Internet Archive, a 501(c)(3) non-profit, building a digital library of Internet sites and other cultural artifacts in digital form.
Other projects include Open Library & archive-it.org.

Your use of the Wayback Machine is subject to the Internet Archive's Terms of Use.」
ってのが出てきて、先に進めない
別のブラウザだと普通に見えるのに

**名無しさん＠お腹いっぱい。** · 2018/12/01(土) 01:21:10.86

英語わからん

**名無しさん＠お腹いっぱい。** · 2018/12/01(土) 02:58:50.17

I don't know English

**名無しさん＠お腹いっぱい。** · 2018/12/08(土) 10:22:01.38

http://members.jcom.home.ne.jp/が見れない

**名無しさん＠お腹いっぱい。** · 2018/12/08(土) 10:29:30.08

あとAtwikiも魚拓とろうとするとスパム扱いされてできない

**名無しさん＠お腹いっぱい。** · 2018/12/08(土) 22:34:13.94

>>315
そうか?

**名無しさん＠お腹いっぱい。** · 2018/12/09(日) 10:28:12.11

>>316
スパム扱いされた例を貼っとく
http://web.archive.org/web/20181205074744/http://www26.atwiki.jp:80/gcmatome/pages/1017.html

**名無しさん＠お腹いっぱい。** · 2018/12/11(火) 09:37:18.12

>>317
何だろうねぇ。
http://web.archive.org/web/20181211002734/www26.atwiki.jp/gcmatome/pages/1017.html
念のため、この時に使った User-Agent 文字列を貼っておく。
Mozilla/6.0 (Macintosh; Intel Mac OS X 10.13; rv:59.0) Gecko/20100101 Firefox/59.0

**名無しさん＠お腹いっぱい。** · 2018/12/11(火) 09:56:55.30

Mozilla/5.0 (Windows NT 6.1; rv:52.0) Gecko/20100101 Firefox/52.0
これでやってみたら弾かれたw
http://web.archive.org/web/20181211005436/www26.atwiki.jp/gcmatome/pages/1017.html

**名無しさん＠お腹いっぱい。** · 2018/12/11(火) 13:50:43.49

atwikiはFirefox 52にトラウマでもあるのか

**名無しさん＠お腹いっぱい。** · 2018/12/11(火) 19:58:30.15

ふむふむ
http://web.archive.org/web/20181211102115/www26.atwiki.jp/gcmatome/pages/1017.html
Mozilla/6.0 (Macintosh; Intel Mac OS X 10.13; rv:60.0) Gecko/20100101 Firefox/60.0

>>320
/save/ を叩いた時なんだけど、もし点数方式で判定するなら
◎ IP は archive.org の取得用サーバ群の中の何れか一つが使われる。
米国の IP であること、また名前に www が入っていることは加点対象になる可能性あり。
同じ IP からの繰り返しアクセスも加点対象になる可能性あり。
◎ User-Agent を含め、リクエストヘッダはクライアントのものがそのまま転送される。
古いブラウザを使っていると加点対象になる可能性あり。
◎ さらに Via: HTTP/1.0 web.archive.org (Wayback Save Page) が追加される。
これは間違いなく加点対象。

この辺が総合的に判断されて弾かれているのだろう。
保存に成功することもあるので、Wayback Machine だからと言って一律に判断しているのでは無いと思う。

**名無しさん＠お腹いっぱい。** · 2018/12/11(火) 20:49:04.21

そもそも閲覧回数が多いのってスパムっていうのだろうか
いや本筋と関係ないな

**名無しさん＠お腹いっぱい。** · 2018/12/12(水) 12:01:20.16

biglobe復活したっぽい？

**名無しさん＠お腹いっぱい。** · 2018/12/12(水) 13:36:14.82

なにそれ？まじ？

**名無しさん＠お腹いっぱい。** · 2018/12/13(木) 12:44:14.27

先週くらいから、上のほうに寄付金募集のバナーが出るようになったな。

しかもIEだと、右上の「×」をクリックしても、どうしたわけかバナーが消えない。

この募集は本気だな。

**名無しさん＠お腹いっぱい。** · 2018/12/13(木) 14:08:10.35

将来見たくなった時のためにそれの魚拓も撮っといてくれ

**名無しさん＠お腹いっぱい。** · 2018/12/13(木) 16:19:22.29

>>326
http://web.archive.org/web/*/archive.org/
これじゃ足りんのか?

**名無しさん＠お腹いっぱい。** · 2018/12/13(木) 16:32:01.50

本気やな

**名無しさん＠お腹いっぱい。** · 2018/12/13(木) 16:38:05.04

フィルタにぶっこんで終了
改悪し杉だ

**名無しさん＠お腹いっぱい。** · 2018/12/13(木) 18:31:05.91

ウィキのコーヒー1杯みたいな洒落たジョークじゃないと金が集まらんぜ

**名無しさん＠お腹いっぱい。** · 2018/12/13(木) 19:00:40.93

アーカイブ内は飲食禁止ですので…

**名無しさん＠お腹いっぱい。** · 2018/12/24(月) 07:37:21.51

http://web.archive.org/web/20181223223511/https://www26.atwiki.jp/gcmatome/pages/2928.html
http://web.archive.org/web/20181223223509/https://www26.atwiki.jp/gcmatome/pages/686.html

またスパム扱いされてる

**名無しさん＠お腹いっぱい。** · 2018/12/24(月) 11:12:18.71

ハム食べたくなってきた

**名無しさん＠お腹いっぱい。** · 2018/12/24(月) 16:33:59.12

221 名前：名無しさん＠お腹いっぱい。[] 投稿日：2018/12/22(土) 16:36:12.78

こういう海外サービスを発見した。
まだちょこっとしか試していないが。

Archive.st
https://archive.st

Time Travel
（ブラウザから「このサイトはやばいかもしれない」
という警告が出たが、おそるおそる行ってみると
特にまずいことはなかった）
http://timetravel.mementoweb.org

**名無しさん＠お腹いっぱい。** · 2018/12/25(火) 15:42:40.96

>>326
本日12月25日現在（これでよろしい？）
http://i.imgur.com/UCGhQjr.jpg

**名無しさん＠お腹いっぱい。** · 2019/01/01(火) 02:07:14.14

5ドルは高いなあ

**名無しさん＠お腹いっぱい。** · 2019/01/01(火) 06:17:17.53

12月30日に取った分が消えてる！？

**名無しさん＠お腹いっぱい。** · 2019/01/02(水) 14:42:28.29

“WE’VE REACHED OUR GOAL!”

https://i.imgur.com/vH6AgSg.jpg

**名無しさん＠お腹いっぱい。** · 2019/01/02(水) 16:26:04.27

保守

**名無しさん＠お腹いっぱい。** · 2019/01/02(水) 17:30:15.52

何だ俺のサポートはいらなかったんだ

**名無しさん＠お腹いっぱい。** · 2019/01/02(水) 21:03:41.50

Wayback Everywhereってアドオン使ってるけど他に便利なのないかな

**名無しさん＠お腹いっぱい。** · 2019/01/03(木) 10:14:56.81

以前のいつかと同じく、18年12月29日深夜から現在に至るまで取得したアーカイブの消失が起きている
注意されたし

◆P0jSlC5fJs · 2019/01/09(水) 13:23:55.37

名前上がらないけどWebrecorderとかInterPlanetary Waybackとか知ってる？
いいぞ～これ

**名無しさん＠お腹いっぱい。** · 2019/01/09(水) 17:39:45.59

>>343

クラウド保存でなくローカル保存？

**名無しさん＠お腹いっぱい。** · 2019/01/09(水) 21:27:16.68

どういうこっちゃ

**名無しさん＠お腹いっぱい。** · 2019/01/10(木) 15:23:06.86

>>343
使い方がよくわからん。

◆P0jSlC5fJs · 2019/01/11(金) 00:33:29.73

Webrecorderは、Webページからwarcファイルを生成するWebアプリケーション
生成したwarcはコレクションに保存され、そのまま表示したり、
会員なら公開コレクションにすることでURLを貼って公開できる
+ New Sessionの隣の「…」から「Download Collection」でコレクション内のwarcファイルをダウンロードできる

warcファイルは魚拓の規格化された形式で、HTTPのステータスコードから画像や動画までそのページを表示するのに必要な情報を格納している
とりあえずwarcファイルさえあれば後からどうにでもなるから残したいサイトは今すぐcaptureしてこい

warcファイルを表示するには、「Webrecorder-player」というアプリが使える
またWebrecorderのコレクションにwarcファイルをアップロードして追加することも可能なので、そうやって表示や公開をしてもいい

InterPlanetary Waybackはもうちょっと高度な話で、IPFSと連携するためのものなんだけどこれは後でいい

**名無しさん＠お腹いっぱい。** · 2019/01/11(金) 01:54:02.35

I see.

**名無しさん＠お腹いっぱい。** · 2019/01/11(金) 16:54:33.71

アプリとかﾏﾝﾄﾞｸｾ

**名無しさん＠お腹いっぱい。** · 2019/01/14(月) 23:42:12.54

19/01/13の分から取得したアーカイブが確認不可能になっている

**名無しさん＠お腹いっぱい。** · 2019/01/14(月) 23:59:40.50

いろいろあるな

**名無しさん＠お腹いっぱい。** · 2019/01/15(火) 11:10:48.03

保守

**名無しさん＠お腹いっぱい。** · 2019/01/23(水) 19:17:49.86

最近無茶苦茶重い時あるな
時間帯にもよるけど

**名無しさん＠お腹いっぱい。** · 2019/01/23(水) 23:58:37.78

いうほど最近か？

**214** · 2019/01/24(木) 03:33:30.27

>>214 と同じ URL の 2018 年カレンダーを貼ってみます。
10 月に連続して欠けているのは、Internet Archive の仕様変更に対し
こちらの対応が遅れた (>>291) ことが原因です。
ttp://i.imgur.com/aYSmomB.png
ttp://i.imgur.com/35RP1No.png
ttp://i.imgur.com/fRsG33D.png

こちらは URL を公開しちゃってもいいや。
この人の騒動について個人的に興味が無くなってきていること、
また別途取得させている個別エントリのアーカイブで十分なことから、いずれ止めるかもしれません。
ttp://web.archive.org/web/*/blog.goo.ne.jp/chimaki-1014
昨年 3 月以降、一日 2 回の取得に対し計 4 回のスナップショットが記録されているのは、
HTTP から HTTPS へのリダイレクトと HTTPS で取得したブログコンテンツが
それぞれ計上されているためかと思われます。

**名無しさん＠お腹いっぱい。** · 2019/01/27(日) 16:51:33.96

先週辺りから
「502 Bad Gateway」が
表示されることが多くなった

**名無しさん＠お腹いっぱい。** · 2019/01/28(月) 07:20:53.88

NHKニュース公式のスクショが
ちゃんと保存されないポンコツびりには
あきれた

**名無しさん＠お腹いっぱい。** · 2019/01/28(月) 07:22:08.67

×ポンコツびり
〇ポンコツぶり

あー本当に腹が立つ

**名無しさん＠お腹いっぱい。** · 2019/01/29(火) 10:32:25.48

近々でNHK NE○S W○Bのトップページを
InternetArchive経由で魚拓を取った人は
一度確かめてほしい

なぜか画面が「本日現在」の状態になっているから

ウェブ魚拓ではMETAタグが引っかかって駄目
ArchiveTodayも変な画像（白地に黒文字の注意書き？のみ）
を結果として返してくるので駄目

まさか頼みの綱のInternetArchiveで大失敗するとは思わなんだ

どうしてもN○K NEWS ○EBのトップページを残したければ
画面を直に撮影するしか方法は無いようだ

**名無しさん＠お腹いっぱい。** · 2019/01/29(火) 13:31:19.65

htmlに本文が入ってなくて、ajax的に別のファイルから読み込むやつはいかんな。
wixも同じ理由で保存されてない。
本文ファイルのキャッシュが残ってたとしても、それを読み込みに行ってくれないのよね

◆P0jSlC5fJs · 2019/01/30(水) 15:31:24.94

で、それはwebrecorderでも保存できないのかい？

**名無しさん＠お腹いっぱい。** · 2019/02/01(金) 19:43:12.41

>>361
使い方が分かりにくいな
記録（魚拓）は取れても
その取り出し方がいまいち分かり辛い

後日に取り出してその当時の状態を
再現できなければ意味がないし

**名無しさん＠お腹いっぱい。** · 2019/02/02(土) 19:49:25.42

>>360-361
何で「NHK NE○S W○B」のトップページの話を出したかといえば
先週日曜（1月27日）にあった某「国民的」グループの活動休止発表からだった

この時「N○K NEWS ○EB」のトップページでは
最上部の「速報」・そのすぐ下の「JUST IN」・本記事と
同時に3つの見出しで「○活動休止」の文字が並ぶという
何とも稀な状態になっていた

そこでInternetArchiveでページの魚拓を取り
同時にIｒfanview経由でスクリーンショットを取った“はず”だったのだが
その画像を何らかの形で保存することをうっかり忘れてしまっていた

そして翌朝になってInternetArchiveを確認したら…
下のような状況になっていた
https://i.imgur.com/IBOpfrs.jpg

すなわち明けて1月28日になったが
前日27日に取ったものが表示されないという状態

一応は類似の画像を検索してみたがこんなのしか出なかった
https://pbs.twimg.com/media/Dx56MVSV4AEsqgB.jpg