Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ ttps://analytics0.archive.org/stats/wb.php
日本時間で午後10時50分過ぎから鯖落ちしてる模様 seesaawikiのサイトを取ろうとするとクラッシュしたり挙動がおかしくなる 寄付の表示のところに毎日7億5000万ページ(画像やスクリプトを多分含む)保存してると出てるね コスパティオのページ保存すると変なとこにリダイレクトされて上手く保存できなくなった 寄付の表示がでるようになったり
一昨日くらいにUnknown Error表示でまくりで放置してた分も依然そのままの状態で取れない
なんだかうまく取れたらクリアってゲームやってる気がしてきた・・・ save page nowでやってダメなら時間置いてもう一度やるのが一番早いと思う >>617
変なURLが帰ってくるのは>>582-589で出てるバグなら気にしなくて大丈夫だよ
https://web.archive.org/web/*/の後ろにURLつけて確認してみ こっちで出なくなったと思ったら魚拓で502
おま環? >>615
Archiveteamにwiki専門のグループがあるからそのIRCで頼めば保存してもらえるかも
以前別件でコンタクト取ったときに向こうから保存したい日本のwikiはないかって尋ねてきたこともあるくらいだから積極的に動いてくれると思う
https://archiveteam.org/index.php?title=WikiTeam なんか古いデータどんどん消してる気がする・・・
何年も前から取ってるページなのに2020年7月からしかないとか変だわ 削除以外でもメンテか障害かなんかで
一時的に一部データが閲覧できない場合もあるからな 【Web】Internet Archive、Flashコンテンツをアーカイブ プラグインなしで21年以降も閲覧可能に【Rust】 [少考さん★]
https://asahi.5ch.net/test/read.cgi/newsplus/1605969388/l50 妥当だね
メニューがFlashのサイトとかナビゲーションさえできなくなっちゃうからな MacかiPhoneのSafariで見るとkCF〜のエラーが出るのは何度か再読み込みすれば直る
ダメなら時間おくしかない save page nowから2GB以上のファイルを保存しようとすると「Resource file size is over 2GB.」のエラーが出るようになってる
ちょっと前までは出なかったのに ゲームの修正パッチとか体験版とかだとたまにそのくらい行くな>2GB以上 >>620
残念ながらそのバグではない。
クッキー無いとリダイレクト失敗する仕様になっているぽい curlで保存してるけど、最近は調子良すぎなんだが
20秒ぐらいで保存が終わってタイムアウトも1割ぐらい
タイムアウトでもちゃんと保存されてるし、画像やスクリプト込みでこの時間だから、
以前より早いかも
(100個も画像やスクリプトあるページは無理だが) Unknown Errorが出たら保存し直した方がいいかもな
一ヶ月前のUnknown Error保存分をチェックしてみたら
日付だけ表示されたが中身は保存されてないようだ You have already reached the limit of active sessions
今日2回目の保存なのにこのエラーが出るとか、ふざけすぎでしょw IPアドレス変えてもこのエラー出るので
active sessionsだからサイト全体のセッション数の制限を超えてるということかもしれないが >>637
host規制かそのサイトだけ取れないように規制されてるかじゃね知らんけど >>635
200ページほど/save/で保存した結果、平均3〜5回このエラー出るわ
保存されてないのでエラー出たURLだけやり直し >>639
ぶっちゃけ寄付してなきゃ規制されてても不思議じゃないよ、それ
無料に毒されすぎじゃない?
広告大量になったり、変なスクリプトで経費賄うようになったら嫌だなー 200ページ程度で規制されるわけない、スクリプトなら数分レベル
寄付しろってのはそう そうやって間隔あけずに一気に叩き込むからすぐサーバー落ちるんじゃないのかよ 利用者も多いから負荷は可能な限り抑えて利用すべきではあるな 1日3億ページ保存してるとサイトで書いてあるのに、たった1人が数百ページ保存したぐらいでなんてこともないわw 本来機械化しないことを想定して作られてるんだから、
大量にリクエストしたら通常よりも大きな負荷がかかるかもしれない、くらいのことは想像つかないのかよ
やるならせめて寄付くらいはしろ 1つのIPからの接続回数や間隔が以前よりも制限されているという事実は、
どのような形であれ大量アクセスはInternet Archiveにとって困るってことの証拠じゃないの てか>>645と同じアホが真に受けて俺も俺もとなるのが1番怖い
自制が効かない・寄付もしないゴミに目を付けられたサービスが改悪しまくるのは分かりきってる 数分ってのが10分と仮定しても60秒×10分÷200件=3秒にならん?
間隔短すぎだから間隔を30秒にしろ。 なんだ、自動化できずに必死にキーボード叩いてる無能が騒いでるのか 適当なヘッダ付けて/save/を叩くだけだから、
HTTP通信さえ出来るツール使えばcurlじゃなくて問答無用で自動化できる
でも下手に叩きすぎてサーバ圧迫して結果制限が厳しくなったら元も子もないから、俺はやった事ない >>657
すまんけど何を聞こうとしてるのかよく分からん
その質問って結局「ひとつのサイト全体を自分で保存する機能は提供されてないよ」って事以外何も言ってないように見えるけど ちゃんと下まで読んでなかったわ、>>658は取り消す
少なくとも静的サイトはこの方法で行けるね、wgetのmirrorオプションでURLリストを作るとは上手いこと考えたな ただwgetは、JSとかで動的にコンテンツを取ってくるサイトやFlashが使われたサイトには対応できないから、
この回答の方法ではあらゆる種類のサイトを保存することはできない
でもHTMLとCSSだけで頑張ってるような昔の個人サイトなら問題ない 間隔っていうか、現状同じIPアドレスから5ページまでしか同時保存リクエスト受け付けてくれない。
6ページ目以上は保存処理が終わってないのが残ってると、タイムアウトになって保存されないよ。
自動化以前にウェブサーフィン(死語)中、手動でブラウザから/save/開いて保存したい時でも、状況は同じ。
今はこの制限内でやればいいだけ。 archive teamは数千単位のページを保存する場合はarchive botのIRCで保存依頼するのを推奨してるみたい
> avoid trying to send many thousands URLs; there's Archivebot for that
https://archiveteam.org/index.php?title=Internet_Archive
archive bot
https://archiveteam.org/index.php?title=ArchiveBot 新規に保存するとどうやってもこの画面になってしまう…
ttps://i.imgur.com/7Jip0Y5.png Sorry.
This snapshot cannot be displayed due to an internal error.
さっき初めて出た、保存はされてるがエラーで表示できないという謎のエラー てか、以前は保存終わった後に保存しますか?の表示出たのがこれに変わっただけじゃね
なんかバグってるんだよね Magic Viewer
https://chrome.google.com/webstore/detail/magic-viewer-for-chrome/npkhecbdgglnkjjaiojienebokcjbgmi?hl=ja
chromeの拡張機能を入れて、右クリックして、「すべての画像を見る」をクリックすると外部リンクの画像が自動でアーカイブされる。
サイトによっては、ブラウザのページを数回、再読み込みをする。 前は/save/で保存したページはLive Web Proxyってコレクションに入ってたのに
最近はSave Page Nowコレクション扱いになってるな
10月ぐらいからファイルが増えてないし、Live Web Proxyって引退したのかもしれない
https://archive.org/details/liveweb?sort=-addeddate
このスレでも10月はエラー多かった書き込みあったしな、移行期間だったのだろう 後で取り直したけど取れてないわ
取れてる取れてないの繰り返しにはうんざり
どこが運営してるのかわからないのは限りなく不安だが
もうarchive.todayしかない 過去レスすら読めない人の為に次スレではこれ(>>9)をテンプレに入れた方がいいな 11月分でいまだに反映されてないものも多々あるから
システムいじくってる最中で保存されてないものもあるかもな >>674
スポーツ新聞アーカイブしてるとは一言も言ってないし同一人物とは限らんよ
毎日適当なページを実験用に保存し続けてInternet Archiveの挙動をテストしてる人もいたはずだし お前らがしているのは多分、アイドル・声優のブログのアーカイブだろ アイドルも声優も、ブログどころかウィキペディアの記事すら見たことないわ
偏見すぎ 「curl -Ll ttp://web.archive.org/web/2020/ttp://○○○○.com/[(数字)-(数字)].html(.jpg)」
ttpではなく、httpに修正して
saveではなく、エラー軽減のため西暦の数字で
連番の数字で自動保存される。 エラーさんざんでまくり&数日たって再度見に行くと真っ白のページが保存された形跡
これじゃしばらく試行しながら様子見するしかねえな Fail with status: 503
ばっか表示される あだしまの公式サイトは33回も保存されていて、IAでもちゃんと開けるのにAPIは情報なし。
APIがぶっ壊れたのか。 保存してHrmになってしまうと日付だけ保存&表示されて
以後同一ページを保存してもずっとHrmになってしまう状況が11月から続いている news.yahoo.co.jp/bylineから始まるYahooニュースの記事を保存しようとするとこれが表示される
専門家のブログのコピー記事だからブロックしてるのかな
Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more. 録れてる奴もあるみたいだしよくわからんな
繰り返される悲劇はもうウンザリだ 「右直事故」防止に切り札はあるのか!?(佐川健太郎) - 個人 - Yahoo!ニュース
http://web.archive.org/web/20201219152606/https://news.yahoo.co.jp/byline/sagawakentaro/20201219-00213273/
archive.org ? ウェブサイト全体をアーカイブする方法は?
http://web.archive.org/web/20201220090718/https://www.it-swarm-ja.tech/ja/archive.org/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B5%E3%82%A4%E3%83%88%E5%85%A8%E4%BD%93%E3%82%92%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%AF%EF%BC%9F/965342469/
>>686
これArchive Teamが保存したものをWayback Machineに移管したやつだね
Save Page Nowでは取れないけど、外部の人間が取ったものを移管したから結果的に取れてるように見えてる 寄付を煽るためにわざとエラー連発させるように仕込んでるのかな >>684のHrmのままのページは保存し直せば反映されるようになった
放置しとくと日付だけ表示されるHrmのまま 「ふーむ」って言う途中でちょっと舌を丸める感じだと思っている
正確な発音はわからん >>688
Collectionsのところ見たけど、Focused CrawlsとTop DomainsはArchive Teamが収集してるものじゃないよ
ブロックされているURLも移管してるのはそういう仕組みだろうけど
ヤフージャパンはアクセス数多いドメインとはいえ、ニュース系のページは収集してくれないんだなぁ ヤフーニュースはSavePageNowでも取れるよ
ただ一部の記事で何故かBlockListエラーが出る
理由は謎(メールすれば聞けるのかもしれないけど) The capture is estimated to start in xxx minutes
今日はこればっかり The capture is estimated to start in 61 minutes. 改憲などという重要なものをアニメ絵に頼るカス団体は信用しない 寄付した人間のジョブは優先して処理するみたいな仕組みが導入されたらできる限り寄付したい 年収20万ドルのエンジニア雇うだけの金があるのに、金で困ってすらないよ
その割にサーバーはザコだが Job failed.ばかりで全然アーカイブできない ■ このスレッドは過去ログ倉庫に格納されています