Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ googleに飛ばされたりpbs.twimgに飛ばされたり
よく分からん怪しいurlに飛ばされたりしてるな >>584
それここ何日か発生してるバグっぽい。
save nowで保存すると、そのページじゃなくて読み込まれるURLの1個が帰ってくる。
変なURLが帰ってくるとびっくりするけど一応保存はされてる模様。 確認してないけど、もしかしたら一番長いURLが戻ってくるのかもしれない。 そのバグだいぶ前からあった
バグったり直ったりしていた AmebloじゃなくてInternet Achieveのほうの不具合なのか Your capture will begin in 15s.
またsave nowが混み始めたぞ 本レビューサイト「ブクログ」、2年弱ソースコード上にメールアドレスが表示された状態に
https://security.srad.jp/story/20/10/25/1638251/
Noteに続き、今度はブクログのメルアド流出でbooklog.jpまるごとブロックか削除になったそう 結局Wayback Machine頼りじゃなく、自分で保存してInternet Archiveのアカウントでアップロードするのが安全なんだよな excluded表記は削除じゃなくてWaybackMachineのアクセス拒否だって事を願ってる
こんなしょうもない事でポンポン消されたらたまったもんじゃない 中国本土で、アメリカのInternet Archive相当の役割をしているサイト、サービスは、どこですか?
URLが知りたいです。 >>596
ざっと検索したらそれらしい情報は出てきたが、あなたの欲しい情報が入ってるかは分からん
IPLC Launches the Greater China Archival Resources Web Archive(Ivy Plus Libraries Confederation, 2020/9/9)
https://ivpluslibraries.org/2020/09/iplc-launches-the-greater-china-archival-resources-web-archive/
Greater China Archival Resources Web Archive(Archive-It)
https://archive-it.org/collections/14767 archive.orgは金盾でブロックされてるのか
まあ当然っちゃ当然かもしれないけど >>597
ありがとうございます!とても参考になりました。 どうでもいい話だけど
「インターネットアーカイブ」で検索しても1ページ目にすら出ないんだな
「internet archive」だとトップなのに
日本人はあんまり使ってないのかな・・・? >>600
グーグル使うの止めたら?
スマホファーストデザインやるようになったぐらいから、
そこらのアフィカスブログが可愛く見えるくらいアフィカス度激高になってるよグーグル >>595
アーカイブを消させるための手法として流用されるかも
下手すると第三者がこういった工作をする可能性も googleキャッシュならまだあるだろうから
保存するなら今のうちだな ここって昔のPCゲームもあるんだな
diablo2ゲット お宝見つけても名前は出さない方が無難
こっそり楽しめ >>595
それで合っていると思う
試しにツールを使って、すでにその状態になっているものをここからダウンロードしようとしたら
「403 Forbidden」が出たから
だからまた見るにはインターネットアーカイブ側でアクセス許可にされるか
それともそれをかいくぐれるツールが出来るかのどっちかしか無いかも ttps://analytics0.archive.org/stats/wb.php
日本時間で午後10時50分過ぎから鯖落ちしてる模様 seesaawikiのサイトを取ろうとするとクラッシュしたり挙動がおかしくなる 寄付の表示のところに毎日7億5000万ページ(画像やスクリプトを多分含む)保存してると出てるね コスパティオのページ保存すると変なとこにリダイレクトされて上手く保存できなくなった 寄付の表示がでるようになったり
一昨日くらいにUnknown Error表示でまくりで放置してた分も依然そのままの状態で取れない
なんだかうまく取れたらクリアってゲームやってる気がしてきた・・・ save page nowでやってダメなら時間置いてもう一度やるのが一番早いと思う >>617
変なURLが帰ってくるのは>>582-589で出てるバグなら気にしなくて大丈夫だよ
https://web.archive.org/web/*/の後ろにURLつけて確認してみ こっちで出なくなったと思ったら魚拓で502
おま環? >>615
Archiveteamにwiki専門のグループがあるからそのIRCで頼めば保存してもらえるかも
以前別件でコンタクト取ったときに向こうから保存したい日本のwikiはないかって尋ねてきたこともあるくらいだから積極的に動いてくれると思う
https://archiveteam.org/index.php?title=WikiTeam なんか古いデータどんどん消してる気がする・・・
何年も前から取ってるページなのに2020年7月からしかないとか変だわ 削除以外でもメンテか障害かなんかで
一時的に一部データが閲覧できない場合もあるからな 【Web】Internet Archive、Flashコンテンツをアーカイブ プラグインなしで21年以降も閲覧可能に【Rust】 [少考さん★]
https://asahi.5ch.net/test/read.cgi/newsplus/1605969388/l50 妥当だね
メニューがFlashのサイトとかナビゲーションさえできなくなっちゃうからな MacかiPhoneのSafariで見るとkCF〜のエラーが出るのは何度か再読み込みすれば直る
ダメなら時間おくしかない save page nowから2GB以上のファイルを保存しようとすると「Resource file size is over 2GB.」のエラーが出るようになってる
ちょっと前までは出なかったのに ゲームの修正パッチとか体験版とかだとたまにそのくらい行くな>2GB以上 >>620
残念ながらそのバグではない。
クッキー無いとリダイレクト失敗する仕様になっているぽい curlで保存してるけど、最近は調子良すぎなんだが
20秒ぐらいで保存が終わってタイムアウトも1割ぐらい
タイムアウトでもちゃんと保存されてるし、画像やスクリプト込みでこの時間だから、
以前より早いかも
(100個も画像やスクリプトあるページは無理だが) Unknown Errorが出たら保存し直した方がいいかもな
一ヶ月前のUnknown Error保存分をチェックしてみたら
日付だけ表示されたが中身は保存されてないようだ You have already reached the limit of active sessions
今日2回目の保存なのにこのエラーが出るとか、ふざけすぎでしょw IPアドレス変えてもこのエラー出るので
active sessionsだからサイト全体のセッション数の制限を超えてるということかもしれないが >>637
host規制かそのサイトだけ取れないように規制されてるかじゃね知らんけど >>635
200ページほど/save/で保存した結果、平均3〜5回このエラー出るわ
保存されてないのでエラー出たURLだけやり直し >>639
ぶっちゃけ寄付してなきゃ規制されてても不思議じゃないよ、それ
無料に毒されすぎじゃない?
広告大量になったり、変なスクリプトで経費賄うようになったら嫌だなー 200ページ程度で規制されるわけない、スクリプトなら数分レベル
寄付しろってのはそう そうやって間隔あけずに一気に叩き込むからすぐサーバー落ちるんじゃないのかよ 利用者も多いから負荷は可能な限り抑えて利用すべきではあるな 1日3億ページ保存してるとサイトで書いてあるのに、たった1人が数百ページ保存したぐらいでなんてこともないわw 本来機械化しないことを想定して作られてるんだから、
大量にリクエストしたら通常よりも大きな負荷がかかるかもしれない、くらいのことは想像つかないのかよ
やるならせめて寄付くらいはしろ 1つのIPからの接続回数や間隔が以前よりも制限されているという事実は、
どのような形であれ大量アクセスはInternet Archiveにとって困るってことの証拠じゃないの てか>>645と同じアホが真に受けて俺も俺もとなるのが1番怖い
自制が効かない・寄付もしないゴミに目を付けられたサービスが改悪しまくるのは分かりきってる 数分ってのが10分と仮定しても60秒×10分÷200件=3秒にならん?
間隔短すぎだから間隔を30秒にしろ。 なんだ、自動化できずに必死にキーボード叩いてる無能が騒いでるのか 適当なヘッダ付けて/save/を叩くだけだから、
HTTP通信さえ出来るツール使えばcurlじゃなくて問答無用で自動化できる
でも下手に叩きすぎてサーバ圧迫して結果制限が厳しくなったら元も子もないから、俺はやった事ない >>657
すまんけど何を聞こうとしてるのかよく分からん
その質問って結局「ひとつのサイト全体を自分で保存する機能は提供されてないよ」って事以外何も言ってないように見えるけど ちゃんと下まで読んでなかったわ、>>658は取り消す
少なくとも静的サイトはこの方法で行けるね、wgetのmirrorオプションでURLリストを作るとは上手いこと考えたな ただwgetは、JSとかで動的にコンテンツを取ってくるサイトやFlashが使われたサイトには対応できないから、
この回答の方法ではあらゆる種類のサイトを保存することはできない
でもHTMLとCSSだけで頑張ってるような昔の個人サイトなら問題ない 間隔っていうか、現状同じIPアドレスから5ページまでしか同時保存リクエスト受け付けてくれない。
6ページ目以上は保存処理が終わってないのが残ってると、タイムアウトになって保存されないよ。
自動化以前にウェブサーフィン(死語)中、手動でブラウザから/save/開いて保存したい時でも、状況は同じ。
今はこの制限内でやればいいだけ。 archive teamは数千単位のページを保存する場合はarchive botのIRCで保存依頼するのを推奨してるみたい
> avoid trying to send many thousands URLs; there's Archivebot for that
https://archiveteam.org/index.php?title=Internet_Archive
archive bot
https://archiveteam.org/index.php?title=ArchiveBot 新規に保存するとどうやってもこの画面になってしまう…
ttps://i.imgur.com/7Jip0Y5.png Sorry.
This snapshot cannot be displayed due to an internal error.
さっき初めて出た、保存はされてるがエラーで表示できないという謎のエラー てか、以前は保存終わった後に保存しますか?の表示出たのがこれに変わっただけじゃね
なんかバグってるんだよね Magic Viewer
https://chrome.google.com/webstore/detail/magic-viewer-for-chrome/npkhecbdgglnkjjaiojienebokcjbgmi?hl=ja
chromeの拡張機能を入れて、右クリックして、「すべての画像を見る」をクリックすると外部リンクの画像が自動でアーカイブされる。
サイトによっては、ブラウザのページを数回、再読み込みをする。 前は/save/で保存したページはLive Web Proxyってコレクションに入ってたのに
最近はSave Page Nowコレクション扱いになってるな
10月ぐらいからファイルが増えてないし、Live Web Proxyって引退したのかもしれない
https://archive.org/details/liveweb?sort=-addeddate
このスレでも10月はエラー多かった書き込みあったしな、移行期間だったのだろう 後で取り直したけど取れてないわ
取れてる取れてないの繰り返しにはうんざり
どこが運営してるのかわからないのは限りなく不安だが
もうarchive.todayしかない 過去レスすら読めない人の為に次スレではこれ(>>9)をテンプレに入れた方がいいな 11月分でいまだに反映されてないものも多々あるから
システムいじくってる最中で保存されてないものもあるかもな >>674
スポーツ新聞アーカイブしてるとは一言も言ってないし同一人物とは限らんよ
毎日適当なページを実験用に保存し続けてInternet Archiveの挙動をテストしてる人もいたはずだし お前らがしているのは多分、アイドル・声優のブログのアーカイブだろ アイドルも声優も、ブログどころかウィキペディアの記事すら見たことないわ
偏見すぎ 「curl -Ll ttp://web.archive.org/web/2020/ttp://○○○○.com/[(数字)-(数字)].html(.jpg)」
ttpではなく、httpに修正して
saveではなく、エラー軽減のため西暦の数字で
連番の数字で自動保存される。 エラーさんざんでまくり&数日たって再度見に行くと真っ白のページが保存された形跡
これじゃしばらく試行しながら様子見するしかねえな Fail with status: 503
ばっか表示される あだしまの公式サイトは33回も保存されていて、IAでもちゃんと開けるのにAPIは情報なし。
APIがぶっ壊れたのか。 保存してHrmになってしまうと日付だけ保存&表示されて
以後同一ページを保存してもずっとHrmになってしまう状況が11月から続いている ■ このスレッドは過去ログ倉庫に格納されています