Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:08:09.83

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

**名無しさん＠お腹いっぱい。** · 2020/09/18(金) 08:59:11.97

今ってYahoo知恵袋アーカイブできるようになってるんだね
昔はできなかった記憶

**名無しさん＠お腹いっぱい。** · 2020/09/18(金) 09:41:08.71

Yahooの件はさんざん既出

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 00:05:31.29

Temporarily Offline
The Internet Archive's sites are temporarily offline.
We apologize for the inconvenience.

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 07:21:40.11

>>473
あとはフリーのWeb小説やWeb漫画だね

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 11:05:31.96

pixivって閉鎖はされなそうだけど、作品は自主削除が多発するしな。

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 11:59:03.96

epubファイルをアップロードすると、その場で、ページをめくって内容を確認できるようになった。

便利。

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 18:26:41.77

pixivをWayback Machineでアーカイブすると英語版が保存されるんだよね
Internet Archiveのサーバがアメリカにあるためだと思われる

**名無しさん＠お腹いっぱい。** · 2020/09/20(日) 20:31:33.86

リアリー？

**489** · 2020/09/20(日) 21:54:54.16

>>490
試してみたら？
今まで自分がやったやつは全部そうなったし今試してみてもそうなった
https://web.archive.org/web/20200920125157/https://www.pixiv.net/en/artworks/84437660

**名無しさん＠お腹いっぱい。** · 2020/09/21(月) 12:54:15.78

こっちの環境だけかな?
今朝から新規の保存をしても反映されない様で…

**名無しさん＠お腹いっぱい。** · 2020/09/21(月) 13:28:38.55

We can't retrieve all the files we need to display that page. Please try again later.

今朝からこのエラーばっかり、時間置いても同じエラー出る

**名無しさん＠お腹いっぱい。** · 2020/09/21(月) 15:08:51.20

俺も保存できてない。
APIもShow Allも反応なし

**名無しさん＠お腹いっぱい。** · 2020/09/21(月) 16:58:59.37

今朝からのエラーまだ直ってないのか

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 00:15:15.42

おま環かと思ったら俺の他にも取れない人いたのか

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 01:10:54.32

ブログから
Cloudflare and the Wayback Machine, joining forces for a more reliable Web
ttps://blog.archive.org/2020/09/17/internet-archive-partners-with-cloudflare-to-help-make-the-web-more-useful-and-reliable/
クラウドフレアと連携

簡単な要約
クラウドフレアのAlways Onlineサービスを使っているサイトは、サイトが鯖落ちしてるときにIAで保存されてるページを表示かもしれない
それとは別にIAに保存されていないURLの場合、システムで自動的に保存するかもしれない

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 01:27:34.31

ますます重くなるから余計な事はやめろ

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 02:07:08.22

ようやく新規の保存が通るようになった…
この後どうなるかわからんけど…

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 02:22:24.50

>>498
余計な事どころか
ここでチマチマ取ってるより遥かに重要

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 03:13:49.79

いつかはパンクする
その時期が早まるだけだ

**名無しさん＠お腹いっぱい。** · 2020/09/22(火) 08:08:56.42

てか、去年の同じ時期にも保存できなくなってたような
9月20日に保存できなかったのを覚えてる

**名無しさん＠お腹いっぱい。** · 2020/09/23(水) 01:15:58.22

覚えてられないほど頻繁に起きている気がするが

**名無しさん＠お腹いっぱい。** · 2020/09/25(金) 10:19:01.03

4GB超の更新ファイルを保存しようとしたら、2GBでカットされちゃったんだけど
ファイルの上限あるのかな。問題になりそう。

**名無しさん＠お腹いっぱい。** · 2020/09/25(金) 12:38:17.33

SPNで保存後、Visitの後ろに表示されるリンクがデタラメで不安になる

**名無しさん＠お腹いっぱい。** · 2020/09/25(金) 21:15:42.10

保存直後、即時反映される場合と一日経っても反映されない場合があって、差が激しい。

**名無しさん＠お腹いっぱい。** · 2020/09/28(月) 16:44:07.73

質問です
ログインしなければ見れない記事などは
どうすればアーカイブできるのでしょうか？
単にバックアップしてもログイン画面が表示されるだけなのです

**名無しさん＠お腹いっぱい。** · 2020/09/30(水) 13:25:58.72

>>507
基本的にログイン必須のページはアーカイブ出来ない
リクエストを工夫すれば取れるかもしれないけど、それ系のプログラムの知識が必要

**名無しさん＠お腹いっぱい。** · 2020/09/30(水) 20:22:18.87

今時ベーシックはないだろうしねえ

**名無しさん＠お腹いっぱい。** · 2020/09/30(水) 20:55:20.93

OAuthも無理だろうしSPNでログインが必要なページは事実上無理じゃないかな

**名無しさん＠お腹いっぱい。** · 2020/10/03(土) 20:46:46.28

ログインするページは魚拓出来ないのですね・・・
ご回答ありがとうございました。

**名無しさん＠お腹いっぱい。** · 2020/10/03(土) 22:59:15.77

そもそもパスワード等を知らない「アカの他人」には見えないようになっているページを
どうして Internet Archive という「他人」に保存させようとするんだ?

リテラシーが崩壊してるわw

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 00:30:28.82

むやみに笑うなよ…もっと平和にいこうぜ

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 01:06:25.33

「リテラシーが崩壊してるわw」では済まされないくらい重要な問題なんだけどな
例えば学術論文リポジトリはログインしないと閲覧出来ない場合も多くて問題になってたりする

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 01:17:45.63

「ログインしないと入れないページ」は深層ウェブというものの一つでもあるんだけど、
ディープウェブのWebアーカイブをどうやってやっていくべきかというのは割と難しい課題なのよ

ログインしないと入れないページは、ちゃんとした理由があるからこそ閲覧に制限がかかってる
でもそれと同時に、ちゃんとした理由があってログインしないと入れないページをアーカイブしたい場合というのも往々にしてあるわけ（上で挙げた学術論文リポジトリはその一例）

とは言え、いくらアーカイブする必然性があってもだからと言ってアクセス制限を無視して良いわけではないし、両者の兼ね合いは結構難しい
ともかくこういうのを単なるネットリテラシーの問題として済ますのは良くない

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 01:22:42.49

理由は何であろうが、ログインを要求してるんだから
それ以上は IA 側の知った話じゃないよ

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 03:15:02.69

「知った話じゃない」ってのは
「関心を持って注視しているが現時点では対応していない」状況にぴったりな言葉じゃないと思う

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 15:45:40.69

>>515
自分でローカルに保存すればいいじゃん
なんだかんだ言って天災・過失で自前バックアップ死ぬよりも、ネットの方が通報も含めて明らかに先に死ぬし

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 17:10:59.85

>>515
言ってることがただの自己中だってことに気付けよ

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 17:23:57.00

横からだけど全然自己中じゃないと思うよ。

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 21:38:12.33

保存される側のルール＞保存する側の都合だしな

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 22:44:09.00

>>521
だよねー、普通は

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 01:02:47.64

>>521
その兼ね合いが難しいって話よ
そもそもウェブアーカイブ自体著作権法スレスレのものだし、保存される側の都合を完璧に守るのは無理だと自分は割り切ってる

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 01:05:22.46

ウェブアーカイブが単純にローカルで保存しとけば済む話だったらInternet Archiveという団体は存在しえない
保存する側とされる側の都合の兼ね合いは「自己中」で一蹴せず、ちゃんと考えていかなきゃいけないシリアスな問題だと思うよ

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 02:54:18.28

まだ引っ張んのかこいつw

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 04:15:46.32

草生やしてるほうレッテル貼りしかしてないもんなあ

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 04:55:38.02

自己中呼ばわりやら草生やしたりやらしてる方は
何か恨みでもあるんかってくらい食い付いてるしな
感情論で殴ってるだけだから話自体に説得力ないし

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 10:48:51.05

>>522
正義マンがポリコレ棒めっちゃぶんぶんしてるのに似てる
なんでルール守れないゴミ自己中のくせに被害者面してんの？
やべーわ
それで管理人がサイト更新意欲なくなっても
俺は悪くない！
とか宣うんだろｗ

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 17:14:59.29

おもしれー
もっとやれ

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 19:42:44.10

もっとやれって言われた以上この話題は無視するか
ここはTwitterのリプライかよ、くだらない

**名無しさん＠お腹いっぱい。** · 2020/10/06(火) 21:16:26.76

ルールに従えとしか言えないな
考えていかなきゃいけない問題だとは思うが、ここで議論する意味は無い

**名無しさん＠お腹いっぱい。** · 2020/10/07(水) 18:39:57.75

またデータ取れない状態になったみたいね

**名無しさん＠お腹いっぱい。** · 2020/10/15(木) 08:59:33.08

1980年代のインターネットの書き込みが磁気テープから復活　2020/10/14 [朝一から閉店までφ★]
https://asahi.5ch.net/test/read.cgi/newsplus/1602676258/

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 05:28:12.15

昨日ぐらいから/save/の後にURLつけると520エラーばっかりなんだが
保存すらされてない

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 07:12:52.64

Sorry
Cannot start capture

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 07:24:27.85

>>535
これ

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 12:16:07.53

Cannot start capture
これ俺以外もなってたのか
おま環じゃなくてよかった

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 14:04:37.17

>>534
Unknown Error
failed to archive the URL. specifics of failurte is unknown

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 14:10:34.97

>>538
×failurte
○failure
手打ちしたら余計なものが混入してた

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 16:57:00.72

Unknown Errorのままで使えない

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 17:35:10.02

ここ何周か archive.st が取得完了してもアーカイブされない不具合なままだ……

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 17:40:36.68

オフラインだって出てきた
>>535 >>538
これを直す為のメンテかな・・・？

**名無しさん＠お腹いっぱい。** · 2020/10/17(土) 05:55:06.62

とりあえず今の所は/save/もSPNも保存できるね
直ったかな

**名無しさん＠お腹いっぱい。** · 2020/10/17(土) 05:58:22.64

https://archive.org/post/1110563/archive-url-10-times-today-limit

俺の環境では確認できてないけど、
同じ日に10回以上保存されてるURLをさらに保存するとこんなエラーが出る場合があるらしい。

This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.

まあ、ニュースサイトとかじゃない限り10回も保存はしないだろうけど。

**名無しさん＠お腹いっぱい。** · 2020/10/17(土) 09:10:23.03

相変わらずページの一部画像が欠けて保存される

**名無しさん＠お腹いっぱい。** · 2020/10/17(土) 15:39:48.96

アーカイブが存在しなければ保存するみたいな選択項目があればもう少し容量削減できそうなのにな

**名無しさん＠お腹いっぱい。** · 2020/10/18(日) 13:05:45.08

このスレにかつて居たスポーツ新聞野郎がキチガイ扱いされたのは、
個々のニュースではなくサイトのトップとか一覧とかのアーカイブに固執してたから。

**名無しさん＠お腹いっぱい。** · 2020/10/18(日) 16:03:43.18

>>546
isみたくトップからやり直さないと何年も前のアーカイブ開くだけで取り直すか聞かないのもウザイけどな

**名無しさん＠お腹いっぱい。** · 2020/10/19(月) 00:06:20.58

>>547
あの人最近見かけないけど今どうしてるのかね
トップページや一覧ページの保存だけに血道を上げている様子は、正直言って病的というか空恐ろしいものがあった
他のスレ住人に何を言われてもほぼ反応なしで、何だか自分の世界に入り込んでるみたいだったね
彼は未だにスポーツ新聞のトップページを毎日手動で保存し続けているんだろうかね

**名無しさん＠お腹いっぱい。** · 2020/10/19(月) 04:33:54.40

archive.isでとった魚拓をinternet archiveで保存すると
できるのとできないのがあるんだけど
違いはなんだろう

**名無しさん＠お腹いっぱい。** · 2020/10/19(月) 06:12:33.66

あ、時間おいて再度やったら保存できたのもあるから単にサーバー側の不具合かも

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 17:14:46.24

Unknown Errorが多いな

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 19:10:14.06

既出かもしれないけど、こんなページがある。

Wayback Stats
https://archive.org/stats/
https://analytics0.archive.org/stats/wb.php

注目したいのはHTTP 200と503エラーのグラフと404エラーの割合グラフ
このスレでも報告があった10/15～10/16は表示エラーが多くて、
10/17は一時半分近くエラー続きだったそうだ。

このURLはテンプレか>>1に入れといていいと思う。

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 21:53:07.53

ずっと見られなくなってたtripod.com系のサイトがいつの間にか見れるようになってた
あとIEで見れなくなった
印刷プレビューはIEが一番使いやすかったのに…

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 22:53:30.54

IE排除は英断というか当たり前だと思う
開発元のマイクロソフトもとっくにサポートやめて「代わりにEdge使ってね」ってしつこいくらい宣伝してたし...

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 23:00:54.10

運営側にとってはIEってセキュリティホールも仕様の古さも色々と面倒で、本当に悩みの種なんだわ
Internet Archiveに限らずIEでの閲覧を想定しないサイトは今後どんどん増えていくだろうし、
悪いこと言わないから他のブラウザに乗り換えた方が良いよ

というか、これはあくまで個人的な感想だからつもりはないけど、
IEの印刷プレビューって言うほど使いやすいかな？
Chromeに印刷プレビュー機能がなかった10年前じゃあるまいし

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 23:21:09.35

UserAgentをIEに変えても、普通に見れるが。。
Your browser may not be compatible～ってのは出るけど。

**名無しさん＠お腹いっぱい。** · 2020/10/21(水) 00:30:53.60

「The server didn't respond in time for http://～」がよく表示されると思ったら特定のサイトだけだったか・・・

＞10/17は一時半分近くエラー続きだったそうだ。
　道理で保存されてないのがいくつかあるなと思ったら・・・

**名無しさん＠お腹いっぱい。** · 2020/10/21(水) 10:59:34.87

>>557
UserAgentで弾いてる訳じゃなくて、ページの構成自体をIEが対応してない形式に変更したんじゃないの？
IE使ってないから確認できてないけど

**名無しさん＠お腹いっぱい。** · 2020/10/21(水) 18:00:01.04

>>550
archive.is の拓が直接 archive.orgに取り込めない場合は少し前までなら anonymouse のWebプロキシのURL付けると取り込めたりしたが、

（例：http://anonymouse.org/cgi-bin/anon-www.cgi/http://e-words.jp/w/%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96.html　で取り込む）

…今秋から archive.is へのアクセスが暗号通信（ https://archive.is/XXXXX ）強制にされてしまったんで不可になってしまった。
（ anonymouse.は非暗号アクセス http:// のサイトにしか対応してない）
　

**名無しさん＠お腹いっぱい。** · 2020/10/21(水) 19:01:46.68

10/19あたりもひどいなぁ・・・
きちんと保存されてたはずのものがされてないことに。

**名無しさん＠お腹いっぱい。** · 2020/10/21(水) 23:45:30.07

保存が10/19ならもう数日待つべし

**名無しさん＠お腹いっぱい。** · 2020/10/22(木) 00:43:54.18

一時期なものならまだ良いが・・・

**名無しさん＠お腹いっぱい。** · 2020/10/22(木) 12:51:56.97

最低でも一週間は待てとあれほど
まぁ話題が少ないからループするのはしょうがないけど

**名無しさん＠お腹いっぱい。** · 2020/10/22(木) 19:24:33.27

>>46のことか。
ここのところあまりにもひどくてさ・・・

**名無しさん＠お腹いっぱい。** · 2020/10/23(金) 03:51:33.89

もはや不安定さには完全に慣れてしまった

**名無しさん＠お腹いっぱい。** · 2020/10/23(金) 11:25:58.48

一定周期で不安定化するのは
もう定期イベントみたいなもの

**名無しさん＠お腹いっぱい。** · 2020/10/24(土) 22:48:06.96

なんか急にやたら長い変なURLになって保存失敗することが増えた

**名無しさん＠お腹いっぱい。** · 2020/10/24(土) 23:09:23.02

ワケわからんurlになるよな

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 01:01:50.22

URLはバグってるけど少し経ってから元のURLでAPI確認すると取れてるぽい

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 01:34:37.40

"The server didn't respond in time for (保存URL)."
ってエラーメッセージが出ても、後で確認すると取れてることが多かったりする

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 12:49:20.36

とうとうエラーでサイト見れなくなったか？

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 13:16:13.93

>>572
何を言ってるのか良く判らない、と良く言われるだろw

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 13:24:21.46

503エラー出てるね
メンテ中かな

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 13:29:27.09

https://archive.org/
まさかのトップページで 500 エラーを返されたわw

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 14:45:08.36

復旧はしたが再度保存するのに要求される待ち時間が30分になってる…
ちょっと前は20分、去年あたりは10分で良かったのに…

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 21:11:43.05

/save/で1ページ保存できたっぽいから、もう1ページやったら
Unknown Errorになった。

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 21:16:36.58

スポーツ新聞野郎まだ居たのか

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 21:57:17.13

また取れない
Unknown Errorを繰り返すようになった

**名無しさん＠お腹いっぱい。** · 2020/10/26(月) 00:51:01.37

cloudfront.netがなぜか全部ブロックされていて、こんな風に表示される

Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.

会社のプレスリリースなどでcloudfront.net使ってるところは保存できなくなってるわ

**名無しさん＠お腹いっぱい。** · 2020/10/26(月) 17:19:48.92

Wayback Statsによると
24日午後4時～8時(日本時間25日午前8時～12時頃)にサーバーダウンして4時間ほどページすら見れなかったらしい

**名無しさん＠お腹いっぱい。** · 2020/10/26(月) 19:05:44.02

アメブロとったらかたつむりの画像かえされたんだけどなんでｗ

**名無しさん＠お腹いっぱい。** · 2020/10/26(月) 21:03:32.40

リアルなやつか？