Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう Internet Archive ttp://www.archive.org/index.php インターネット・アーカイブ - Wikipedia ttp://ja.wikipedia.org/wiki/InternetArchive ------------------ Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても 真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、 16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。 前スレッド Internet Archive総合 (web.archive.org) #2 http://mevius.5ch.net/test/read.cgi/esite/1475246713/ OAuthも無理だろうしSPNでログインが必要なページは事実上無理じゃないかな ログインするページは魚拓出来ないのですね・・・ ご回答ありがとうございました。 そもそもパスワード等を知らない「アカの他人」には見えないようになっているページを どうして Internet Archive という「他人」に保存させようとするんだ? リテラシーが崩壊してるわw 「リテラシーが崩壊してるわw」では済まされないくらい重要な問題なんだけどな 例えば学術論文リポジトリはログインしないと閲覧出来ない場合も多くて問題になってたりする 「ログインしないと入れないページ」は深層ウェブというものの一つでもあるんだけど、 ディープウェブのWebアーカイブをどうやってやっていくべきかというのは割と難しい課題なのよ ログインしないと入れないページは、ちゃんとした理由があるからこそ閲覧に制限がかかってる でもそれと同時に、ちゃんとした理由があってログインしないと入れないページをアーカイブしたい場合というのも往々にしてあるわけ(上で挙げた学術論文リポジトリはその一例) とは言え、いくらアーカイブする必然性があってもだからと言ってアクセス制限を無視して良いわけではないし、両者の兼ね合いは結構難しい ともかくこういうのを単なるネットリテラシーの問題として済ますのは良くない 理由は何であろうが、ログインを要求してるんだから それ以上は IA 側の知った話じゃないよ 「知った話じゃない」ってのは 「関心を持って注視しているが現時点では対応していない」状況にぴったりな言葉じゃないと思う >>515 自分でローカルに保存すればいいじゃん なんだかんだ言って天災・過失で自前バックアップ死ぬよりも、ネットの方が通報も含めて明らかに先に死ぬし >>515 言ってることがただの自己中だってことに気付けよ >>521 その兼ね合いが難しいって話よ そもそもウェブアーカイブ自体著作権法スレスレのものだし、保存される側の都合を完璧に守るのは無理だと自分は割り切ってる ウェブアーカイブが単純にローカルで保存しとけば済む話だったらInternet Archiveという団体は存在しえない 保存する側とされる側の都合の兼ね合いは「自己中」で一蹴せず、ちゃんと考えていかなきゃいけないシリアスな問題だと思うよ 自己中呼ばわりやら草生やしたりやらしてる方は 何か恨みでもあるんかってくらい食い付いてるしな 感情論で殴ってるだけだから話自体に説得力ないし >>522 正義マンがポリコレ棒めっちゃぶんぶんしてるのに似てる なんでルール守れないゴミ自己中のくせに被害者面してんの? やべーわ それで管理人がサイト更新意欲なくなっても 俺は悪くない! とか宣うんだろw もっとやれって言われた以上この話題は無視するか ここはTwitterのリプライかよ、くだらない ルールに従えとしか言えないな 考えていかなきゃいけない問題だとは思うが、ここで議論する意味は無い 昨日ぐらいから/save/の後にURLつけると520エラーばっかりなんだが 保存すらされてない Sorry Cannot start capture Cannot start capture これ俺以外もなってたのか おま環じゃなくてよかった >>534 Unknown Error failed to archive the URL. specifics of failurte is unknown >>538 ×failurte ○failure 手打ちしたら余計なものが混入してた ここ何周か archive.st が取得完了してもアーカイブされない不具合なままだ…… オフラインだって出てきた >>535 >>538 これを直す為のメンテかな・・・? とりあえず今の所は/save/もSPNも保存できるね 直ったかな https://archive.org/post/1110563/archive-url-10-times-today-limit 俺の環境では確認できてないけど、 同じ日に10回以上保存されてるURLをさらに保存するとこんなエラーが出る場合があるらしい。 This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more. まあ、ニュースサイトとかじゃない限り10回も保存はしないだろうけど。 アーカイブが存在しなければ保存するみたいな選択項目があればもう少し容量削減できそうなのにな このスレにかつて居たスポーツ新聞野郎がキチガイ扱いされたのは、 個々のニュースではなくサイトのトップとか一覧とかのアーカイブに固執してたから。 >>546 isみたくトップからやり直さないと何年も前のアーカイブ開くだけで取り直すか聞かないのもウザイけどな >>547 あの人最近見かけないけど今どうしてるのかね トップページや一覧ページの保存だけに血道を上げている様子は、正直言って病的というか空恐ろしいものがあった 他のスレ住人に何を言われてもほぼ反応なしで、何だか自分の世界に入り込んでるみたいだったね 彼は未だにスポーツ新聞のトップページを毎日手動で保存し続けているんだろうかね archive.isでとった魚拓をinternet archiveで保存すると できるのとできないのがあるんだけど 違いはなんだろう あ、時間おいて再度やったら保存できたのもあるから単にサーバー側の不具合かも 既出かもしれないけど、こんなページがある。 Wayback Stats https://archive.org/stats/ https://analytics0.archive.org/stats/wb.php 注目したいのはHTTP 200と503エラーのグラフと404エラーの割合グラフ このスレでも報告があった10/15〜10/16は表示エラーが多くて、 10/17は一時半分近くエラー続きだったそうだ。 このURLはテンプレか>>1 に入れといていいと思う。 ずっと見られなくなってたtripod.com系のサイトがいつの間にか見れるようになってた あとIEで見れなくなった 印刷プレビューはIEが一番使いやすかったのに… IE排除は英断というか当たり前だと思う 開発元のマイクロソフトもとっくにサポートやめて「代わりにEdge使ってね」ってしつこいくらい宣伝してたし... 運営側にとってはIEってセキュリティホールも仕様の古さも色々と面倒で、本当に悩みの種なんだわ Internet Archiveに限らずIEでの閲覧を想定しないサイトは今後どんどん増えていくだろうし、 悪いこと言わないから他のブラウザに乗り換えた方が良いよ というか、これはあくまで個人的な感想だからつもりはないけど、 IEの印刷プレビューって言うほど使いやすいかな? Chromeに印刷プレビュー機能がなかった10年前じゃあるまいし UserAgentをIEに変えても、普通に見れるが。。 Your browser may not be compatible〜ってのは出るけど。 「The server didn't respond in time for http:// 〜」がよく表示されると思ったら特定のサイトだけだったか・・・ >10/17は一時半分近くエラー続きだったそうだ。 道理で保存されてないのがいくつかあるなと思ったら・・・ >>557 UserAgentで弾いてる訳じゃなくて、ページの構成自体をIEが対応してない形式に変更したんじゃないの? IE使ってないから確認できてないけど >>550 archive.is の拓が直接 archive.orgに取り込めない場合は少し前までなら anonymouse のWebプロキシのURL付けると取り込めたりしたが、 (例:http://anonymouse.org/cgi-bin/anon-www.cgi/http ://e-words.jp/w/%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96.html で取り込む) …今秋から archive.is へのアクセスが暗号通信( https://archive.is/XXXXX )強制にされてしまったんで不可になってしまった。 ( anonymouse.は非暗号アクセス http:// のサイトにしか対応してない ) 10/19あたりもひどいなぁ・・・ きちんと保存されてたはずのものがされてないことに。 最低でも一週間は待てとあれほど まぁ話題が少ないからループするのはしょうがないけど >>46 のことか。 ここのところあまりにもひどくてさ・・・ 一定周期で不安定化するのは もう定期イベントみたいなもの なんか急にやたら長い変なURLになって保存失敗することが増えた URLはバグってるけど少し経ってから元のURLでAPI確認すると取れてるぽい "The server didn't respond in time for (保存URL)." ってエラーメッセージが出ても、後で確認すると取れてることが多かったりする >>572 何を言ってるのか良く判らない、と良く言われるだろw https://archive.org/ まさかのトップページで 500 エラーを返されたわw 復旧はしたが再度保存するのに要求される待ち時間が30分になってる… ちょっと前は20分、去年あたりは10分で良かったのに… /save/で1ページ保存できたっぽいから、もう1ページやったら Unknown Errorになった。 また取れない Unknown Errorを繰り返すようになった cloudfront.netがなぜか全部ブロックされていて、こんな風に表示される Sorry This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more. 会社のプレスリリースなどでcloudfront.net使ってるところは保存できなくなってるわ Wayback Statsによると 24日午後4時〜8時(日本時間25日午前8時〜12時頃)にサーバーダウンして4時間ほどページすら見れなかったらしい アメブロとったらかたつむりの画像かえされたんだけどなんでw これwマウスの上にかたつむり乗ってるのwリアルがダメな人は見ないで http://web.archive.org/web/20201024183048/https ://pbs.twimg.com/card_img/1318252845452374016/A4POgMBd?format=jpg&name=600x314 上にも書いたけどアメブロの魚拓をとったんだよね あとからチェックしたら魚拓自体はとれてたんだけどw謎杉 数日前から変なURLに飛ばされることがあるけど結果的に取れてるんだよ googleに飛ばされたりpbs.twimgに飛ばされたり よく分からん怪しいurlに飛ばされたりしてるな >>584 それここ何日か発生してるバグっぽい。 save nowで保存すると、そのページじゃなくて読み込まれるURLの1個が帰ってくる。 変なURLが帰ってくるとびっくりするけど一応保存はされてる模様。 確認してないけど、もしかしたら一番長いURLが戻ってくるのかもしれない。 そのバグだいぶ前からあった バグったり直ったりしていた AmebloじゃなくてInternet Achieveのほうの不具合なのか Your capture will begin in 15s. またsave nowが混み始めたぞ 本レビューサイト「ブクログ」、2年弱ソースコード上にメールアドレスが表示された状態に https://security.srad.jp/story/20/10/25/1638251/ Noteに続き、今度はブクログのメルアド流出でbooklog.jpまるごとブロックか削除になったそう 結局Wayback Machine頼りじゃなく、自分で保存してInternet Archiveのアカウントでアップロードするのが安全なんだよな excluded表記は削除じゃなくてWaybackMachineのアクセス拒否だって事を願ってる こんなしょうもない事でポンポン消されたらたまったもんじゃない 中国本土で、アメリカのInternet Archive相当の役割をしているサイト、サービスは、どこですか? URLが知りたいです。 >>596 ざっと検索したらそれらしい情報は出てきたが、あなたの欲しい情報が入ってるかは分からん IPLC Launches the Greater China Archival Resources Web Archive(Ivy Plus Libraries Confederation, 2020/9/9) https://ivpluslibraries.org/2020/09/iplc-launches-the-greater-china-archival-resources-web-archive/ Greater China Archival Resources Web Archive(Archive-It) https://archive-it.org/collections/14767 archive.orgは金盾でブロックされてるのか まあ当然っちゃ当然かもしれないけど >>597 ありがとうございます!とても参考になりました。 どうでもいい話だけど 「インターネットアーカイブ」で検索しても1ページ目にすら出ないんだな 「internet archive」だとトップなのに 日本人はあんまり使ってないのかな・・・? >>600 グーグル使うの止めたら? スマホファーストデザインやるようになったぐらいから、 そこらのアフィカスブログが可愛く見えるくらいアフィカス度激高になってるよグーグル >>595 アーカイブを消させるための手法として流用されるかも 下手すると第三者がこういった工作をする可能性も googleキャッシュならまだあるだろうから 保存するなら今のうちだな ここって昔のPCゲームもあるんだな diablo2ゲット お宝見つけても名前は出さない方が無難 こっそり楽しめ >>595 それで合っていると思う 試しにツールを使って、すでにその状態になっているものをここからダウンロードしようとしたら 「403 Forbidden」が出たから だからまた見るにはインターネットアーカイブ側でアクセス許可にされるか それともそれをかいくぐれるツールが出来るかのどっちかしか無いかも ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる