Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ >>469
容量というかアーカイブ先サイトへのDOS攻撃っぽくなっちゃうからじゃね?
前は同一URLの保存間隔すら無かったし >>470
本は流石に日本の著作権法上難しいからスキャンして上げる勇気はないな >>471
以前はリンク先辿るのは50個までって制限あった気がするけど今やったら58個辿った
もしかして50個制限を解除する代わりに相手先に過負荷を懸念してアカウント必須にしたんかね >>475
アップロード操作が日本で行われる以上は、
フェアユースを認めていない日本法が絡んでくる。 >>476
そのうち海外でも違法になるし、削除対象になるな。 多分中国人なんだろ
例の国家保安法みたいに、国外での行為も国内で処罰対象になるとか言うやつ 著作権法は「送信元の国」と「送信先の国」どちらの法律を適用するかで見解が分かれること自体は事実だから、あながち間違ってるわけでもない
合ってるわけでもないのが微妙な点だけど 【ネット】1000万件以上の研究論文がオンライン上から消失することを防ぐインターネットアーカイブの取り組みとは? [すらいむ★]
https://egg.5ch.net/test/read.cgi/scienceplus/1600244016/ 今ってYahoo知恵袋アーカイブできるようになってるんだね
昔はできなかった記憶 Temporarily Offline
The Internet Archive's sites are temporarily offline.
We apologize for the inconvenience. >>473
あとはフリーのWeb小説やWeb漫画だね pixivって閉鎖はされなそうだけど、作品は自主削除が多発するしな。 epubファイルをアップロードすると、その場で、ページをめくって内容を確認できるようになった。
便利。 pixivをWayback Machineでアーカイブすると英語版が保存されるんだよね
Internet Archiveのサーバがアメリカにあるためだと思われる >>490
試してみたら?
今まで自分がやったやつは全部そうなったし今試してみてもそうなった
https://web.archive.org/web/20200920125157/https://www.pixiv.net/en/artworks/84437660 こっちの環境だけかな?
今朝から新規の保存をしても反映されない様で… We can't retrieve all the files we need to display that page. Please try again later.
今朝からこのエラーばっかり、時間置いても同じエラー出る 俺も保存できてない。
APIもShow Allも反応なし ブログから
Cloudflare and the Wayback Machine, joining forces for a more reliable Web
ttps://blog.archive.org/2020/09/17/internet-archive-partners-with-cloudflare-to-help-make-the-web-more-useful-and-reliable/
クラウドフレアと連携
簡単な要約
クラウドフレアのAlways Onlineサービスを使っているサイトは、サイトが鯖落ちしてるときにIAで保存されてるページを表示かもしれない
それとは別にIAに保存されていないURLの場合、システムで自動的に保存するかもしれない ようやく新規の保存が通るようになった…
この後どうなるかわからんけど… >>498
余計な事どころか
ここでチマチマ取ってるより遥かに重要 てか、去年の同じ時期にも保存できなくなってたような
9月20日に保存できなかったのを覚えてる 4GB超の更新ファイルを保存しようとしたら、2GBでカットされちゃったんだけど
ファイルの上限あるのかな。問題になりそう。 SPNで保存後、Visitの後ろに表示されるリンクがデタラメで不安になる 保存直後、即時反映される場合と一日経っても反映されない場合があって、差が激しい。 質問です
ログインしなければ見れない記事などは
どうすればアーカイブできるのでしょうか?
単にバックアップしてもログイン画面が表示されるだけなのです >>507
基本的にログイン必須のページはアーカイブ出来ない
リクエストを工夫すれば取れるかもしれないけど、それ系のプログラムの知識が必要 OAuthも無理だろうしSPNでログインが必要なページは事実上無理じゃないかな ログインするページは魚拓出来ないのですね・・・
ご回答ありがとうございました。 そもそもパスワード等を知らない「アカの他人」には見えないようになっているページを
どうして Internet Archive という「他人」に保存させようとするんだ?
リテラシーが崩壊してるわw 「リテラシーが崩壊してるわw」では済まされないくらい重要な問題なんだけどな
例えば学術論文リポジトリはログインしないと閲覧出来ない場合も多くて問題になってたりする 「ログインしないと入れないページ」は深層ウェブというものの一つでもあるんだけど、
ディープウェブのWebアーカイブをどうやってやっていくべきかというのは割と難しい課題なのよ
ログインしないと入れないページは、ちゃんとした理由があるからこそ閲覧に制限がかかってる
でもそれと同時に、ちゃんとした理由があってログインしないと入れないページをアーカイブしたい場合というのも往々にしてあるわけ(上で挙げた学術論文リポジトリはその一例)
とは言え、いくらアーカイブする必然性があってもだからと言ってアクセス制限を無視して良いわけではないし、両者の兼ね合いは結構難しい
ともかくこういうのを単なるネットリテラシーの問題として済ますのは良くない 理由は何であろうが、ログインを要求してるんだから
それ以上は IA 側の知った話じゃないよ 「知った話じゃない」ってのは
「関心を持って注視しているが現時点では対応していない」状況にぴったりな言葉じゃないと思う >>515
自分でローカルに保存すればいいじゃん
なんだかんだ言って天災・過失で自前バックアップ死ぬよりも、ネットの方が通報も含めて明らかに先に死ぬし >>515
言ってることがただの自己中だってことに気付けよ >>521
その兼ね合いが難しいって話よ
そもそもウェブアーカイブ自体著作権法スレスレのものだし、保存される側の都合を完璧に守るのは無理だと自分は割り切ってる ウェブアーカイブが単純にローカルで保存しとけば済む話だったらInternet Archiveという団体は存在しえない
保存する側とされる側の都合の兼ね合いは「自己中」で一蹴せず、ちゃんと考えていかなきゃいけないシリアスな問題だと思うよ 自己中呼ばわりやら草生やしたりやらしてる方は
何か恨みでもあるんかってくらい食い付いてるしな
感情論で殴ってるだけだから話自体に説得力ないし >>522
正義マンがポリコレ棒めっちゃぶんぶんしてるのに似てる
なんでルール守れないゴミ自己中のくせに被害者面してんの?
やべーわ
それで管理人がサイト更新意欲なくなっても
俺は悪くない!
とか宣うんだろw もっとやれって言われた以上この話題は無視するか
ここはTwitterのリプライかよ、くだらない ルールに従えとしか言えないな
考えていかなきゃいけない問題だとは思うが、ここで議論する意味は無い 昨日ぐらいから/save/の後にURLつけると520エラーばっかりなんだが
保存すらされてない Sorry
Cannot start capture Cannot start capture
これ俺以外もなってたのか
おま環じゃなくてよかった >>534
Unknown Error
failed to archive the URL. specifics of failurte is unknown >>538
×failurte
○failure
手打ちしたら余計なものが混入してた ここ何周か archive.st が取得完了してもアーカイブされない不具合なままだ…… オフラインだって出てきた
>>535 >>538
これを直す為のメンテかな・・・? とりあえず今の所は/save/もSPNも保存できるね
直ったかな https://archive.org/post/1110563/archive-url-10-times-today-limit
俺の環境では確認できてないけど、
同じ日に10回以上保存されてるURLをさらに保存するとこんなエラーが出る場合があるらしい。
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.
まあ、ニュースサイトとかじゃない限り10回も保存はしないだろうけど。 アーカイブが存在しなければ保存するみたいな選択項目があればもう少し容量削減できそうなのにな このスレにかつて居たスポーツ新聞野郎がキチガイ扱いされたのは、
個々のニュースではなくサイトのトップとか一覧とかのアーカイブに固執してたから。 >>546
isみたくトップからやり直さないと何年も前のアーカイブ開くだけで取り直すか聞かないのもウザイけどな >>547
あの人最近見かけないけど今どうしてるのかね
トップページや一覧ページの保存だけに血道を上げている様子は、正直言って病的というか空恐ろしいものがあった
他のスレ住人に何を言われてもほぼ反応なしで、何だか自分の世界に入り込んでるみたいだったね
彼は未だにスポーツ新聞のトップページを毎日手動で保存し続けているんだろうかね archive.isでとった魚拓をinternet archiveで保存すると
できるのとできないのがあるんだけど
違いはなんだろう あ、時間おいて再度やったら保存できたのもあるから単にサーバー側の不具合かも 既出かもしれないけど、こんなページがある。
Wayback Stats
https://archive.org/stats/
https://analytics0.archive.org/stats/wb.php
注目したいのはHTTP 200と503エラーのグラフと404エラーの割合グラフ
このスレでも報告があった10/15〜10/16は表示エラーが多くて、
10/17は一時半分近くエラー続きだったそうだ。
このURLはテンプレか>>1に入れといていいと思う。 ずっと見られなくなってたtripod.com系のサイトがいつの間にか見れるようになってた
あとIEで見れなくなった
印刷プレビューはIEが一番使いやすかったのに… IE排除は英断というか当たり前だと思う
開発元のマイクロソフトもとっくにサポートやめて「代わりにEdge使ってね」ってしつこいくらい宣伝してたし... 運営側にとってはIEってセキュリティホールも仕様の古さも色々と面倒で、本当に悩みの種なんだわ
Internet Archiveに限らずIEでの閲覧を想定しないサイトは今後どんどん増えていくだろうし、
悪いこと言わないから他のブラウザに乗り換えた方が良いよ
というか、これはあくまで個人的な感想だからつもりはないけど、
IEの印刷プレビューって言うほど使いやすいかな?
Chromeに印刷プレビュー機能がなかった10年前じゃあるまいし UserAgentをIEに変えても、普通に見れるが。。
Your browser may not be compatible〜ってのは出るけど。 「The server didn't respond in time for http://〜」がよく表示されると思ったら特定のサイトだけだったか・・・
>10/17は一時半分近くエラー続きだったそうだ。
道理で保存されてないのがいくつかあるなと思ったら・・・ >>557
UserAgentで弾いてる訳じゃなくて、ページの構成自体をIEが対応してない形式に変更したんじゃないの?
IE使ってないから確認できてないけど >>550
archive.is の拓が直接 archive.orgに取り込めない場合は少し前までなら anonymouse のWebプロキシのURL付けると取り込めたりしたが、
(例:http://anonymouse.org/cgi-bin/anon-www.cgi/http://e-words.jp/w/%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96.html で取り込む)
…今秋から archive.is へのアクセスが暗号通信( https://archive.is/XXXXX )強制にされてしまったんで不可になってしまった。
( anonymouse.は非暗号アクセス http:// のサイトにしか対応してない )
10/19あたりもひどいなぁ・・・
きちんと保存されてたはずのものがされてないことに。 最低でも一週間は待てとあれほど
まぁ話題が少ないからループするのはしょうがないけど >>46のことか。
ここのところあまりにもひどくてさ・・・ 一定周期で不安定化するのは
もう定期イベントみたいなもの なんか急にやたら長い変なURLになって保存失敗することが増えた ■ このスレッドは過去ログ倉庫に格納されています