Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:08:09.83

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

**名無しさん＠お腹いっぱい。** · 2020/08/16(日) 22:58:30.65

ワープ用の棒グラフをクリックするとこんなふざけたアドレスに飛ばされる。当然表示できない。
https://web.archive.org/web/20130821015518if_/http://＊＊＊＊＊.com/web/20191201000000/http://＊＊＊＊＊.com/

**名無しさん＠お腹いっぱい。** · 2020/08/17(月) 00:28:22.30

ほんとだバグってる

**名無しさん＠お腹いっぱい。** · 2020/08/17(月) 09:21:29.95

メンテ中で何も見れない

**名無しさん＠お腹いっぱい。** · 2020/08/17(月) 17:09:41.45

保存されてたはずのページが今日確認したらされてなかったことに・・・
特に今年7月あたりがひどい。

**名無しさん＠お腹いっぱい。** · 2020/08/17(月) 22:57:21.09

以前はちゃんと保存されて見れてたのなら、サイト運営者からの削除申請があったとかでもない限りは一時的なトラブルだから待ってれば直る

**名無しさん＠お腹いっぱい。** · 2020/08/18(火) 15:30:05.05

保存直後は問題なく見れるが数日後は無くなってるのが多いね
保存失敗したならちゃんと失敗したとエラー表示出して欲しい

**名無しさん＠お腹いっぱい。** · 2020/08/18(火) 16:08:16.30

>>418
見られなくなるのは一時的で数日後にはちゃんと見えるようになる
urlをブクマして確かめてみろ

**名無しさん＠お腹いっぱい。** · 2020/08/19(水) 01:14:34.33

URLから日付を選ぶページで保存元(Reason:)がNo Collection Infoって表示が出てるのは時間かかってるっぽい
保存されたらlivewebかsave-nowになるはず

**名無しさん＠お腹いっぱい。** · 2020/08/20(木) 13:37:54.14

>>418
単にインデクシング階層で情報の表示に失敗してるだけで、サーバ内部にはちゃんと保存されてる
待ってれば直る

**名無しさん＠お腹いっぱい。** · 2020/08/20(木) 13:40:37.45

noteのIP漏洩事案だけど、Wayback MachineのアーカイブのソースにIP情報が残ってる記事が結構あるらしい
削除申請が出される可能性があるから、noteのアーカイブを取ったことのある人は改めて保存し直しておくことを推奨

**名無しさん＠お腹いっぱい。** · 2020/08/20(木) 16:42:28.79

IA側がIPアドレスは個人情報じゃないので削除却下と行ってきたらどうすんの?
個人的には今回の件どうでもいいと思ってるし、note運営がどうこういう話じゃないしな

**名無しさん＠お腹いっぱい。** · 2020/08/20(木) 23:09:46.55

IPアドレスはEUの一般データ保護規則で個人情報とされてるからIA側が却下する可能性は微妙
もちろんnote運営を介さないと削除申請は出せないはずだけど、
某自主制作コミュニティで「note運営に働きかけて記事のアーカイブを削除してもらおう」
って動きがあったのを見かけたものだから念の為と思ってね

**名無しさん＠お腹いっぱい。** · 2020/08/21(金) 00:04:13.83

運営に言わずに自分や自社のブログを消したいなら自分で削除依頼出せばいいのにな
初めっからやる気なさそう

**名無しさん＠お腹いっぱい。** · 2020/08/21(金) 00:22:21.22

今気付いたんだけど、削除申請を受けてWayback Machineから恒久的に削除されたサイトでも
スクリーンショット機能を使えば普通に保存・閲覧出来るんだな
（つまりスクリーンショットはWayback Machine削除申請の影響を受けない？
単にスクリーンショット機能実装以前に削除されたからかもしれないけど）
既出ならすまない

**名無しさん＠お腹いっぱい。** · 2020/08/21(金) 00:23:29.07

× スクリーンショット機能実装以前に削除されたから
○ スクリーンショット機能実装以前に削除されたページだったから

**名無しさん＠お腹いっぱい。** · 2020/08/21(金) 00:26:14.79

>>425
Internet Archiveの削除申請は「自分がそのサイト本体の管理者であることが確実にわかる証拠」を提示しないといけない
だから多分自力じゃ厳しいと思う

**名無しさん＠お腹いっぱい。** · 2020/08/22(土) 22:36:33.52

削除申請してる時間あるならルーター再起動するなりすればいいだけじゃないんかね…
ipバレてビビるとか古のネット民じゃないんだから

**名無しさん＠お腹いっぱい。** · 2020/08/23(日) 00:29:25.80

固定IPなんかはそうもいかんだろ

**名無しさん＠お腹いっぱい。** · 2020/08/24(月) 03:31:06.48

>>426
スクショ機能なんて使う場面ないだろと思ってたけどそういう使い道があったか

**名無しさん＠お腹いっぱい。** · 2020/08/24(月) 16:55:38.02

スクリーンショットとサイト保存って何が違うの？

**名無しさん＠お腹いっぱい。** · 2020/08/24(月) 18:05:25.38

普通のサイト保存→
HTML/CSS/JSなどを実行した結果のデータやアクセス日時などの情報を、WARCファイルという専用フォーマットにまとめて保存する。WARCの表示には専用のビューワが必要

スクリーンショット→
ページのスクリーンショットを撮った画像ファイルを保存する。やってることはスマホやパソコンのスクリーンショットと違いはない

要は保存する方法が全く違う

**名無しさん＠お腹いっぱい。** · 2020/08/24(月) 23:21:34.82

どのサイトからのものってのはわかるのかな

**名無しさん＠お腹いっぱい。** · 2020/08/25(火) 15:21:15.62

>>434
URLの先頭にarchive.orgのものが付く以外は普通のURLと変わらないので分かる

**名無しさん＠お腹いっぱい。** · 2020/08/25(火) 23:20:57.08

なら便利だな

**名無しさん＠お腹いっぱい。** · 2020/08/26(水) 00:43:57.57

表示中のアーカイブサイトのどこを押せばサイト内容まとめたWARCファイルとやらをDL出来んの

**名無しさん＠お腹いっぱい。** · 2020/08/26(水) 01:26:16.34

別にわざわざWARC落とさなくても、ブラウザのWayback Machineで表示されてるのがWARCの内容だぞ

アーカイブされたサイトはWARCファイルとしてまとめられ、Internet Archiveのサーバに保存される
Wayback Machineは、サーバ内のWARCを呼び出してブラウザで見れるように適切に変換しているだけ

**名無しさん＠お腹いっぱい。** · 2020/08/30(日) 08:16:25.60

/save/の保存制限ってここ数日は緩和されてる?
時間なかったのでダメ元で何ページか同時に/save/の後ろにURLつけてブラウザで開いてみたら
去年の後半以降からずっと出てた「制限に達したから5分待ってください」のエラーが全く出ずに保存できた

**439** · 2020/08/30(日) 08:20:18.13

保存時に画像やスクリプトファイルで待たされるのは
去年の快適だったころとは比べてまだ元通りではないけど、ちょっとストレス減った

**名無しさん＠お腹いっぱい。** · 2020/08/30(日) 19:10:13.20

note消された？
新しく保存もできない
https://web.archive.org/web/20200201000000*/https://note.com/

**名無しさん＠お腹いっぱい。** · 2020/08/30(日) 19:59:54.58

ローカルhtmlにsave/httpのリンク複数貼って
それ一斉に開いたらちゃんと保存されてんの？

**名無しさん＠お腹いっぱい。** · 2020/08/30(日) 20:07:43.20

本当だ
しかもnoteの以前のドメイン(note.mu)の方は完全にブロックされてる
Twitterでは8月上旬までこのドメインの魚拓が共有されてるからIP流出事件後にブロックされたっぽい
https://i.imgur.com/BAAGgrQ.jpg

**名無しさん＠お腹いっぱい。** · 2020/08/30(日) 20:35:37.14

>>442
されてると思う
まとめて大量にするとToo Many Requestsエラーで漏れがでる可能性はあるけど

**名無しさん＠お腹いっぱい。** · 2020/08/31(月) 04:33:09.24

>>423みたいな懐疑的意見もあったけど、個人的には予想通りの措置って感じだな...
robots.txt見たらia_archiverとmegalodonをブロックしてた

**名無しさん＠お腹いっぱい。** · 2020/08/31(月) 04:34:52.71

>>445
わかると思うけどnoteの話な

**名無しさん＠お腹いっぱい。** · 2020/09/01(火) 03:46:44.96

robots.txtでブロックしてようがIAのバグで保存しちゃう方法はあるので、
Noteがサービス終了してrobots.txtの規制解除まで見るのだけはお預けだね

**名無しさん＠お腹いっぱい。** · 2020/09/01(火) 05:36:23.80

サービス終了しても解除されない場合があるからそんなに楽観的には見れないな...
そういうサイトはおそらくメールの申請で、Wayback Machineから恒久的に削除されてるんだと思われる

**名無しさん＠お腹いっぱい。** · 2020/09/01(火) 12:18:32.04

excludedって削除じゃなくて除外処置じゃないっけ？確証は持てないけど
復活したアーカイブは見たことあるけどそのままの例は知らないので教えて欲しい

**名無しさん＠お腹いっぱい。** · 2020/09/01(火) 17:10:02.85

自分が知ってる例は、URLは忘れてしまったけど、
だいたい10年近く前に閉鎖された版権作品の二次創作小説投稿サイトだった
2, 3年前にそのサイトのアーカイブをWayback Machineで見ようとしたんだが、
"このサイトはWayback Machineから削除されました"というような内容のエラーメッセージが出て見れなかった

**名無しさん＠お腹いっぱい。** · 2020/09/01(火) 19:38:09.98

>>448
IAに除外要請を出しておいて、サービス終了時に再度
「うち辞めるから、もう見せても良いですよ」とか通知する奴が居たらアホだなw

実際に削除してるのか、単に非表示フラグを立ててるだけなのかは知らんけど。

**名無しさん＠お腹いっぱい。** · 2020/09/01(火) 19:57:29.68

心配しなくとも炎上させたいネットストーカーされてるところは他で流出するがな
5chや通販サイト等のクレカ含めた個人情報しかり
ここに挙がらないアーカイブサイトで取った魚拓はまだ残ってるし
マイナー過ぎていつ消えるか分からないけど晒すと使えなくなるから輸出してるが証拠能力が下がるのが悩み

**名無しさん＠お腹いっぱい。** · 2020/09/03(木) 16:37:02.03

>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
https://twitter.com/bulkneets/status/1300967926397194240
だそうな

IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2020/09/03(木) 16:37:02.33

>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
https://twitter.com/bulkneets/status/1300967926397194240
だそうな

IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2020/09/03(木) 16:37:29.67

二重投稿になってしまった、すまない

**名無しさん＠お腹いっぱい。** · 2020/09/03(木) 16:43:17.13

非表示にされたサイトでもスクリーンショットで保存できるテクニック、noteでも行けるわ
今試したら問題なく取れた
https://web.archive.org/web/20200903074132/http://web.archive.org/screenshot/https://note.com/

**名無しさん＠お腹いっぱい。** · 2020/09/05(土) 11:20:03.73

スクショはアーカイブデータとして見ると微妙なのがね・・・（単に見る分には良いけど）
全く取れないよりはましだけども

**名無しさん＠お腹いっぱい。** · 2020/09/05(土) 13:25:56.74

アーカイブ見ようとすると時々出る。いつも出るわけではない。更新で解決するときとしないときがある。
> ページの自動転送設定が正しくありません
> web.archive.org への接続中にエラーが発生しました。
> Cookie を無効化したり拒否していることにより、この問題が発生している可能性もあります。

**名無しさん＠お腹いっぱい。** · 2020/09/06(日) 01:34:21.61

ちょくちょく下の画面か503とかになるな…
https://i.imgur.com/wFIxonH.png

**名無しさん＠お腹いっぱい。** · 2020/09/06(日) 23:16:00.13

すみません、どなたかスクリーンショットでのアーカイブのやり方を教えていただけませんか？
ぐぐっても分からずじまいでしたので
よろしくお願いいたします

**名無しさん＠お腹いっぱい。** · 2020/09/07(月) 00:10:02.21

Sorry.
This snapshot cannot be displayed due to an internal error.

**名無しさん＠お腹いっぱい。** · 2020/09/07(月) 05:00:01.20

noteってアーカイブできない？
いくらやってもHrmになっちゃう

**名無しさん＠お腹いっぱい。** · 2020/09/07(月) 08:25:07.14

>>460
https://blog.archive.org/wp-content/uploads/2019/10/SPN-1.png
続きです
「save page now」を押してもこのチェックボックスがすべて出ず「save error pages」のチェックボックスしか出ないのです
何かアカウント登録とか必要なのでしょうか？

**名無しさん＠お腹いっぱい。** · 2020/09/07(月) 14:52:00.26

>>463
Sign in to use extra features: "Save outlinks", "Save screen shot" and "My web archive".
中学英語でも十分理解できる文章だと思うけどねぇ。

**名無しさん＠お腹いっぱい。** · 2020/09/07(月) 16:27:47.09

homepage2.nifty.comってWayback Machineで非表示になってるのか...

**名無しさん＠お腹いっぱい。** · 2020/09/07(月) 17:20:20.83

↑これどうにかならいあのんかな
niftyのhomepageなんてもう終わってるのに

**名無しさん＠お腹いっぱい。** · 2020/09/07(月) 19:00:05.38

>>464
どうもありがとうございます

**名無しさん＠お腹いっぱい。** · 2020/09/07(月) 20:31:13.49

Wayback Machineで非表示になってるサイトでも、
自前でクローラ動かしてWARC作ってInternet Archiveにアップロードすれば一応アーカイブを残すこと自体は出来るんだけどね...
APIを活用した支援ソフトを作ることや、WARCファイルの取り扱い方を幅広い人に周知することが重要になりそうだ

**名無しさん＠お腹いっぱい。** · 2020/09/08(火) 14:39:27.94

Save outlinksがアカウント必須になったのってどういう事情なのかね
やっぱり容量が逼迫してるから？

**名無しさん＠お腹いっぱい。** · 2020/09/08(火) 21:41:40.80

みんなはスキャンしてみたい本はある？

**名無しさん＠お腹いっぱい。** · 2020/09/08(火) 21:57:00.84

>>469
容量というかアーカイブ先サイトへのDOS攻撃っぽくなっちゃうからじゃね？
前は同一URLの保存間隔すら無かったし

**名無しさん＠お腹いっぱい。** · 2020/09/08(火) 23:04:42.17

>>470
本は流石に日本の著作権法上難しいからスキャンして上げる勇気はないな

**名無しさん＠お腹いっぱい。** · 2020/09/09(水) 14:34:19.54

青空文庫の対象になっている本だけにしておこう。

**名無しさん＠お腹いっぱい。** · 2020/09/09(水) 16:24:22.16

>>471
以前はリンク先辿るのは50個までって制限あった気がするけど今やったら58個辿った
もしかして50個制限を解除する代わりに相手先に過負荷を懸念してアカウント必須にしたんかね

**名無しさん＠お腹いっぱい。** · 2020/09/10(木) 18:29:24.96

>>472
海外も同じ？

**名無しさん＠お腹いっぱい。** · 2020/09/10(木) 20:53:03.63

>>475
アップロード操作が日本で行われる以上は、
フェアユースを認めていない日本法が絡んでくる。

**名無しさん＠お腹いっぱい。** · 2020/09/12(土) 15:50:29.35

>>476
そのうち海外でも違法になるし、削除対象になるな。

**名無しさん＠お腹いっぱい。** · 2020/09/12(土) 19:01:28.95

>>477
はぁ?
アホか

**名無しさん＠お腹いっぱい。** · 2020/09/12(土) 19:15:32.10

>>477
頭悪そう

**名無しさん＠お腹いっぱい。** · 2020/09/12(土) 19:54:33.10

多分中国人なんだろ
例の国家保安法みたいに、国外での行為も国内で処罰対象になるとか言うやつ

**名無しさん＠お腹いっぱい。** · 2020/09/16(水) 12:31:27.10

著作権法は「送信元の国」と「送信先の国」どちらの法律を適用するかで見解が分かれること自体は事実だから、あながち間違ってるわけでもない
合ってるわけでもないのが微妙な点だけど

**名無しさん＠お腹いっぱい。** · 2020/09/16(水) 19:20:01.19

【ネット】1000万件以上の研究論文がオンライン上から消失することを防ぐインターネットアーカイブの取り組みとは？　 [すらいむ★]
https://egg.5ch.net/test/read.cgi/scienceplus/1600244016/

**名無しさん＠お腹いっぱい。** · 2020/09/18(金) 08:59:11.97

今ってYahoo知恵袋アーカイブできるようになってるんだね
昔はできなかった記憶

**名無しさん＠お腹いっぱい。** · 2020/09/18(金) 09:41:08.71

Yahooの件はさんざん既出

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 00:05:31.29

Temporarily Offline
The Internet Archive's sites are temporarily offline.
We apologize for the inconvenience.

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 07:21:40.11

>>473
あとはフリーのWeb小説やWeb漫画だね

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 11:05:31.96

pixivって閉鎖はされなそうだけど、作品は自主削除が多発するしな。

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 11:59:03.96

epubファイルをアップロードすると、その場で、ページをめくって内容を確認できるようになった。

便利。

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 18:26:41.77

pixivをWayback Machineでアーカイブすると英語版が保存されるんだよね
Internet Archiveのサーバがアメリカにあるためだと思われる

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 20:31:33.86

リアリー？

**489** · 2020/09/20(日) 21:54:54.16

>>490
試してみたら？
今まで自分がやったやつは全部そうなったし今試してみてもそうなった
https://web.archive.org/web/20200920125157/https://www.pixiv.net/en/artworks/84437660

**名無しさん＠お腹いっぱい。** · 2020/09/21(月) 12:54:15.78

こっちの環境だけかな?
今朝から新規の保存をしても反映されない様で…

**名無しさん＠お腹いっぱい。** · 2020/09/21(月) 13:28:38.55

We can't retrieve all the files we need to display that page. Please try again later.

今朝からこのエラーばっかり、時間置いても同じエラー出る

**名無しさん＠お腹いっぱい。** · 2020/09/21(月) 15:08:51.20

俺も保存できてない。
APIもShow Allも反応なし

**名無しさん＠お腹いっぱい。** · 2020/09/21(月) 16:58:59.37

今朝からのエラーまだ直ってないのか

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 00:15:15.42

おま環かと思ったら俺の他にも取れない人いたのか

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 01:10:54.32

ブログから
Cloudflare and the Wayback Machine, joining forces for a more reliable Web
ttps://blog.archive.org/2020/09/17/internet-archive-partners-with-cloudflare-to-help-make-the-web-more-useful-and-reliable/
クラウドフレアと連携

簡単な要約
クラウドフレアのAlways Onlineサービスを使っているサイトは、サイトが鯖落ちしてるときにIAで保存されてるページを表示かもしれない
それとは別にIAに保存されていないURLの場合、システムで自動的に保存するかもしれない

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 01:27:34.31

ますます重くなるから余計な事はやめろ

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 02:07:08.22

ようやく新規の保存が通るようになった…
この後どうなるかわからんけど…

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 02:22:24.50

>>498
余計な事どころか
ここでチマチマ取ってるより遥かに重要

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 03:13:49.79

いつかはパンクする
その時期が早まるだけだ

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 08:08:56.42

てか、去年の同じ時期にも保存できなくなってたような
9月20日に保存できなかったのを覚えてる

**名無しさん＠お腹いっぱい。** · 2020/09/23(水) 01:15:58.22

覚えてられないほど頻繁に起きている気がするが

**名無しさん＠お腹いっぱい。** · 2020/09/25(金) 10:19:01.03

4GB超の更新ファイルを保存しようとしたら、2GBでカットされちゃったんだけど
ファイルの上限あるのかな。問題になりそう。

**名無しさん＠お腹いっぱい。** · 2020/09/25(金) 12:38:17.33

SPNで保存後、Visitの後ろに表示されるリンクがデタラメで不安になる

**名無しさん＠お腹いっぱい。** · 2020/09/25(金) 21:15:42.10

保存直後、即時反映される場合と一日経っても反映されない場合があって、差が激しい。

**名無しさん＠お腹いっぱい。** · 2020/09/28(月) 16:44:07.73

質問です
ログインしなければ見れない記事などは
どうすればアーカイブできるのでしょうか？
単にバックアップしてもログイン画面が表示されるだけなのです

**名無しさん＠お腹いっぱい。** · 2020/09/30(水) 13:25:58.72

>>507
基本的にログイン必須のページはアーカイブ出来ない
リクエストを工夫すれば取れるかもしれないけど、それ系のプログラムの知識が必要

**名無しさん＠お腹いっぱい。** · 2020/09/30(水) 20:22:18.87

今時ベーシックはないだろうしねえ

**名無しさん＠お腹いっぱい。** · 2020/09/30(水) 20:55:20.93

OAuthも無理だろうしSPNでログインが必要なページは事実上無理じゃないかな

**名無しさん＠お腹いっぱい。** · 2020/10/03(土) 20:46:46.28

ログインするページは魚拓出来ないのですね・・・
ご回答ありがとうございました。

**名無しさん＠お腹いっぱい。** · 2020/10/03(土) 22:59:15.77

そもそもパスワード等を知らない「アカの他人」には見えないようになっているページを
どうして Internet Archive という「他人」に保存させようとするんだ?

リテラシーが崩壊してるわw