Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ 今ってYahoo知恵袋アーカイブできるようになってるんだね
昔はできなかった記憶 Temporarily Offline
The Internet Archive's sites are temporarily offline.
We apologize for the inconvenience. >>473
あとはフリーのWeb小説やWeb漫画だね pixivって閉鎖はされなそうだけど、作品は自主削除が多発するしな。 epubファイルをアップロードすると、その場で、ページをめくって内容を確認できるようになった。
便利。 pixivをWayback Machineでアーカイブすると英語版が保存されるんだよね
Internet Archiveのサーバがアメリカにあるためだと思われる >>490
試してみたら?
今まで自分がやったやつは全部そうなったし今試してみてもそうなった
https://web.archive.org/web/20200920125157/https://www.pixiv.net/en/artworks/84437660 こっちの環境だけかな?
今朝から新規の保存をしても反映されない様で… We can't retrieve all the files we need to display that page. Please try again later.
今朝からこのエラーばっかり、時間置いても同じエラー出る 俺も保存できてない。
APIもShow Allも反応なし ブログから
Cloudflare and the Wayback Machine, joining forces for a more reliable Web
ttps://blog.archive.org/2020/09/17/internet-archive-partners-with-cloudflare-to-help-make-the-web-more-useful-and-reliable/
クラウドフレアと連携
簡単な要約
クラウドフレアのAlways Onlineサービスを使っているサイトは、サイトが鯖落ちしてるときにIAで保存されてるページを表示かもしれない
それとは別にIAに保存されていないURLの場合、システムで自動的に保存するかもしれない ようやく新規の保存が通るようになった…
この後どうなるかわからんけど… >>498
余計な事どころか
ここでチマチマ取ってるより遥かに重要 てか、去年の同じ時期にも保存できなくなってたような
9月20日に保存できなかったのを覚えてる 4GB超の更新ファイルを保存しようとしたら、2GBでカットされちゃったんだけど
ファイルの上限あるのかな。問題になりそう。 SPNで保存後、Visitの後ろに表示されるリンクがデタラメで不安になる 保存直後、即時反映される場合と一日経っても反映されない場合があって、差が激しい。 質問です
ログインしなければ見れない記事などは
どうすればアーカイブできるのでしょうか?
単にバックアップしてもログイン画面が表示されるだけなのです >>507
基本的にログイン必須のページはアーカイブ出来ない
リクエストを工夫すれば取れるかもしれないけど、それ系のプログラムの知識が必要 OAuthも無理だろうしSPNでログインが必要なページは事実上無理じゃないかな ログインするページは魚拓出来ないのですね・・・
ご回答ありがとうございました。 そもそもパスワード等を知らない「アカの他人」には見えないようになっているページを
どうして Internet Archive という「他人」に保存させようとするんだ?
リテラシーが崩壊してるわw 「リテラシーが崩壊してるわw」では済まされないくらい重要な問題なんだけどな
例えば学術論文リポジトリはログインしないと閲覧出来ない場合も多くて問題になってたりする 「ログインしないと入れないページ」は深層ウェブというものの一つでもあるんだけど、
ディープウェブのWebアーカイブをどうやってやっていくべきかというのは割と難しい課題なのよ
ログインしないと入れないページは、ちゃんとした理由があるからこそ閲覧に制限がかかってる
でもそれと同時に、ちゃんとした理由があってログインしないと入れないページをアーカイブしたい場合というのも往々にしてあるわけ(上で挙げた学術論文リポジトリはその一例)
とは言え、いくらアーカイブする必然性があってもだからと言ってアクセス制限を無視して良いわけではないし、両者の兼ね合いは結構難しい
ともかくこういうのを単なるネットリテラシーの問題として済ますのは良くない 理由は何であろうが、ログインを要求してるんだから
それ以上は IA 側の知った話じゃないよ 「知った話じゃない」ってのは
「関心を持って注視しているが現時点では対応していない」状況にぴったりな言葉じゃないと思う >>515
自分でローカルに保存すればいいじゃん
なんだかんだ言って天災・過失で自前バックアップ死ぬよりも、ネットの方が通報も含めて明らかに先に死ぬし >>515
言ってることがただの自己中だってことに気付けよ >>521
その兼ね合いが難しいって話よ
そもそもウェブアーカイブ自体著作権法スレスレのものだし、保存される側の都合を完璧に守るのは無理だと自分は割り切ってる ウェブアーカイブが単純にローカルで保存しとけば済む話だったらInternet Archiveという団体は存在しえない
保存する側とされる側の都合の兼ね合いは「自己中」で一蹴せず、ちゃんと考えていかなきゃいけないシリアスな問題だと思うよ 自己中呼ばわりやら草生やしたりやらしてる方は
何か恨みでもあるんかってくらい食い付いてるしな
感情論で殴ってるだけだから話自体に説得力ないし >>522
正義マンがポリコレ棒めっちゃぶんぶんしてるのに似てる
なんでルール守れないゴミ自己中のくせに被害者面してんの?
やべーわ
それで管理人がサイト更新意欲なくなっても
俺は悪くない!
とか宣うんだろw もっとやれって言われた以上この話題は無視するか
ここはTwitterのリプライかよ、くだらない ルールに従えとしか言えないな
考えていかなきゃいけない問題だとは思うが、ここで議論する意味は無い 昨日ぐらいから/save/の後にURLつけると520エラーばっかりなんだが
保存すらされてない Sorry
Cannot start capture Cannot start capture
これ俺以外もなってたのか
おま環じゃなくてよかった >>534
Unknown Error
failed to archive the URL. specifics of failurte is unknown >>538
×failurte
○failure
手打ちしたら余計なものが混入してた ここ何周か archive.st が取得完了してもアーカイブされない不具合なままだ…… オフラインだって出てきた
>>535 >>538
これを直す為のメンテかな・・・? とりあえず今の所は/save/もSPNも保存できるね
直ったかな https://archive.org/post/1110563/archive-url-10-times-today-limit
俺の環境では確認できてないけど、
同じ日に10回以上保存されてるURLをさらに保存するとこんなエラーが出る場合があるらしい。
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.
まあ、ニュースサイトとかじゃない限り10回も保存はしないだろうけど。 アーカイブが存在しなければ保存するみたいな選択項目があればもう少し容量削減できそうなのにな このスレにかつて居たスポーツ新聞野郎がキチガイ扱いされたのは、
個々のニュースではなくサイトのトップとか一覧とかのアーカイブに固執してたから。 >>546
isみたくトップからやり直さないと何年も前のアーカイブ開くだけで取り直すか聞かないのもウザイけどな >>547
あの人最近見かけないけど今どうしてるのかね
トップページや一覧ページの保存だけに血道を上げている様子は、正直言って病的というか空恐ろしいものがあった
他のスレ住人に何を言われてもほぼ反応なしで、何だか自分の世界に入り込んでるみたいだったね
彼は未だにスポーツ新聞のトップページを毎日手動で保存し続けているんだろうかね archive.isでとった魚拓をinternet archiveで保存すると
できるのとできないのがあるんだけど
違いはなんだろう あ、時間おいて再度やったら保存できたのもあるから単にサーバー側の不具合かも 既出かもしれないけど、こんなページがある。
Wayback Stats
https://archive.org/stats/
https://analytics0.archive.org/stats/wb.php
注目したいのはHTTP 200と503エラーのグラフと404エラーの割合グラフ
このスレでも報告があった10/15〜10/16は表示エラーが多くて、
10/17は一時半分近くエラー続きだったそうだ。
このURLはテンプレか>>1に入れといていいと思う。 ずっと見られなくなってたtripod.com系のサイトがいつの間にか見れるようになってた
あとIEで見れなくなった
印刷プレビューはIEが一番使いやすかったのに… IE排除は英断というか当たり前だと思う
開発元のマイクロソフトもとっくにサポートやめて「代わりにEdge使ってね」ってしつこいくらい宣伝してたし... 運営側にとってはIEってセキュリティホールも仕様の古さも色々と面倒で、本当に悩みの種なんだわ
Internet Archiveに限らずIEでの閲覧を想定しないサイトは今後どんどん増えていくだろうし、
悪いこと言わないから他のブラウザに乗り換えた方が良いよ
というか、これはあくまで個人的な感想だからつもりはないけど、
IEの印刷プレビューって言うほど使いやすいかな?
Chromeに印刷プレビュー機能がなかった10年前じゃあるまいし UserAgentをIEに変えても、普通に見れるが。。
Your browser may not be compatible〜ってのは出るけど。 「The server didn't respond in time for http://〜」がよく表示されると思ったら特定のサイトだけだったか・・・
>10/17は一時半分近くエラー続きだったそうだ。
道理で保存されてないのがいくつかあるなと思ったら・・・ >>557
UserAgentで弾いてる訳じゃなくて、ページの構成自体をIEが対応してない形式に変更したんじゃないの?
IE使ってないから確認できてないけど >>550
archive.is の拓が直接 archive.orgに取り込めない場合は少し前までなら anonymouse のWebプロキシのURL付けると取り込めたりしたが、
(例:http://anonymouse.org/cgi-bin/anon-www.cgi/http://e-words.jp/w/%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96.html で取り込む)
…今秋から archive.is へのアクセスが暗号通信( https://archive.is/XXXXX )強制にされてしまったんで不可になってしまった。
( anonymouse.は非暗号アクセス http:// のサイトにしか対応してない )
10/19あたりもひどいなぁ・・・
きちんと保存されてたはずのものがされてないことに。 最低でも一週間は待てとあれほど
まぁ話題が少ないからループするのはしょうがないけど >>46のことか。
ここのところあまりにもひどくてさ・・・ 一定周期で不安定化するのは
もう定期イベントみたいなもの なんか急にやたら長い変なURLになって保存失敗することが増えた URLはバグってるけど少し経ってから元のURLでAPI確認すると取れてるぽい "The server didn't respond in time for (保存URL)."
ってエラーメッセージが出ても、後で確認すると取れてることが多かったりする >>572
何を言ってるのか良く判らない、と良く言われるだろw https://archive.org/
まさかのトップページで 500 エラーを返されたわw 復旧はしたが再度保存するのに要求される待ち時間が30分になってる…
ちょっと前は20分、去年あたりは10分で良かったのに… /save/で1ページ保存できたっぽいから、もう1ページやったら
Unknown Errorになった。 また取れない
Unknown Errorを繰り返すようになった cloudfront.netがなぜか全部ブロックされていて、こんな風に表示される
Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.
会社のプレスリリースなどでcloudfront.net使ってるところは保存できなくなってるわ Wayback Statsによると
24日午後4時〜8時(日本時間25日午前8時〜12時頃)にサーバーダウンして4時間ほどページすら見れなかったらしい アメブロとったらかたつむりの画像かえされたんだけどなんでw ■ このスレッドは過去ログ倉庫に格納されています