Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ 前は/save/で保存したページはLive Web Proxyってコレクションに入ってたのに
最近はSave Page Nowコレクション扱いになってるな
10月ぐらいからファイルが増えてないし、Live Web Proxyって引退したのかもしれない
https://archive.org/details/liveweb?sort=-addeddate
このスレでも10月はエラー多かった書き込みあったしな、移行期間だったのだろう 後で取り直したけど取れてないわ
取れてる取れてないの繰り返しにはうんざり
どこが運営してるのかわからないのは限りなく不安だが
もうarchive.todayしかない 過去レスすら読めない人の為に次スレではこれ(>>9)をテンプレに入れた方がいいな 11月分でいまだに反映されてないものも多々あるから
システムいじくってる最中で保存されてないものもあるかもな >>674
スポーツ新聞アーカイブしてるとは一言も言ってないし同一人物とは限らんよ
毎日適当なページを実験用に保存し続けてInternet Archiveの挙動をテストしてる人もいたはずだし お前らがしているのは多分、アイドル・声優のブログのアーカイブだろ アイドルも声優も、ブログどころかウィキペディアの記事すら見たことないわ
偏見すぎ 「curl -Ll ttp://web.archive.org/web/2020/ttp://○○○○.com/[(数字)-(数字)].html(.jpg)」
ttpではなく、httpに修正して
saveではなく、エラー軽減のため西暦の数字で
連番の数字で自動保存される。 エラーさんざんでまくり&数日たって再度見に行くと真っ白のページが保存された形跡
これじゃしばらく試行しながら様子見するしかねえな Fail with status: 503
ばっか表示される あだしまの公式サイトは33回も保存されていて、IAでもちゃんと開けるのにAPIは情報なし。
APIがぶっ壊れたのか。 保存してHrmになってしまうと日付だけ保存&表示されて
以後同一ページを保存してもずっとHrmになってしまう状況が11月から続いている news.yahoo.co.jp/bylineから始まるYahooニュースの記事を保存しようとするとこれが表示される
専門家のブログのコピー記事だからブロックしてるのかな
Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more. 録れてる奴もあるみたいだしよくわからんな
繰り返される悲劇はもうウンザリだ 「右直事故」防止に切り札はあるのか!?(佐川健太郎) - 個人 - Yahoo!ニュース
http://web.archive.org/web/20201219152606/https://news.yahoo.co.jp/byline/sagawakentaro/20201219-00213273/
archive.org ? ウェブサイト全体をアーカイブする方法は?
http://web.archive.org/web/20201220090718/https://www.it-swarm-ja.tech/ja/archive.org/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B5%E3%82%A4%E3%83%88%E5%85%A8%E4%BD%93%E3%82%92%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%AF%EF%BC%9F/965342469/
>>686
これArchive Teamが保存したものをWayback Machineに移管したやつだね
Save Page Nowでは取れないけど、外部の人間が取ったものを移管したから結果的に取れてるように見えてる 寄付を煽るためにわざとエラー連発させるように仕込んでるのかな >>684のHrmのままのページは保存し直せば反映されるようになった
放置しとくと日付だけ表示されるHrmのまま 「ふーむ」って言う途中でちょっと舌を丸める感じだと思っている
正確な発音はわからん >>688
Collectionsのところ見たけど、Focused CrawlsとTop DomainsはArchive Teamが収集してるものじゃないよ
ブロックされているURLも移管してるのはそういう仕組みだろうけど
ヤフージャパンはアクセス数多いドメインとはいえ、ニュース系のページは収集してくれないんだなぁ ヤフーニュースはSavePageNowでも取れるよ
ただ一部の記事で何故かBlockListエラーが出る
理由は謎(メールすれば聞けるのかもしれないけど) The capture is estimated to start in xxx minutes
今日はこればっかり The capture is estimated to start in 61 minutes. 改憲などという重要なものをアニメ絵に頼るカス団体は信用しない 寄付した人間のジョブは優先して処理するみたいな仕組みが導入されたらできる限り寄付したい 年収20万ドルのエンジニア雇うだけの金があるのに、金で困ってすらないよ
その割にサーバーはザコだが Job failed.ばかりで全然アーカイブできない Sorry
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.
これは今日10回じゃなくて過去24時間に10回の文間違いじゃないの
内容が変わりまくるサイトを保存できなくなった 自分以外の誰かも同じサイト保存してる可能性もあるしな 一覧性は下がるが、とりあえず後ろに適当なパラメーターでもつければどうか。?1とか。
サイト側にとって未定義のパラメーターなら大抵のサイトはパラメーターなしと同じものを返してくるだろう。 例の人は書き込みの中に必ずスポーツ新聞の話を含めるから多分別人 まあ別にスポーツ新聞のアーカイブを手作業で何回取ろうがそれは個人の勝手だから、外野がどうこう言うもんじゃないよ
随分遠回りなことしてるように見えても本人にとっては大事なんだろ、ほっとけ Please email us at "info@archive.org" if you would like to discuss this more.
ってあるんだから
ここで愚痴言うくらいならメール送ったらいいんじゃない? 皆さんに質問です!
アーカイブされたページを全文検索できるようになるまで、
あと何年くらいかかると思いますか? 昔はできてたこともある気がするから負の数じゃないかな undefined is not an object (evaluating 'e.map')
これって保存できてるの? 公開待ち状態みたいだったらしく、1時間後に見たら保存したページが見れるようになった。
マッピングが届いてないとかそんな感じっぽい。 Sorry
Live page is not available: chrome-error://chromewebdata/ Changesの項目消えた?
あんま使ってなかったからいいけどさ 724
今見たら復活してた
タイミングが悪かっただけかな 4日ぐらい前に保存した画像でSaved 2 timesとなってるのに青い丸が出ないが
遅れてるだけなのかこれ >>719
Internet Archive サービス終了までに実現できると思う?
いくら遅くてもいいけど ttps://blog.archive.org/2019/10/23/the-wayback-machines-save-page-now-is-new-and-improved/
ここに載ってる、savepagenow@archive.orgに他人から来たメールをFwdで送ったら
URLを抽出して保存された後に保存済URLが返ってくるのって今も機能してるのか?
メールが返ってこないんだが
ブログ記事の数日後に書かれたコメント欄の時点でメール返ってこねぇって書いてる人いるけども >>662
英語での交渉が得意な人しか使えないじゃん >>730
今時DeepLあたりでも使えばそこまで英語で苦戦することは無いよ
というか英語圏のボランティア団体なんだからこちらが英語に合わせるのは当然のことじゃない? 英語が嫌だったらArchiveTeamの日本支部でも作るしかないよね
まあそうなったとしても誰かが英語で本部とやり取りしないといけない訳だからあんまり意味無いけど おいおい何だよこれ
>>733
>>721-722
反映を待ってればいい、ダメならもう一度撮り直すしかない 次スレの>>1にはアーカイブが取れない問題のQ&A入れないとダメだな エラー文が多すぎて週に1個は新しいのが増えてるからまとめるのめんどくさいわw おまえ今日もう10回とったからダメーっていうのやめて欲しいわ
そもそもエラーだったから取り直してるのはカウントすんなよ archive.isの同じurlの取得間隔が伸びてるっぽい
前にとってから10時間以上経つのに取れない 追記
やっぱり丸一日経たないと同じurlのアーカイブ取得出来なくなってるっぽい 全てのurlかどうかは不明 >>739
>>739
毎日保存してるのに24時間以上たたないと保存できないのは困る
----------
> このサイトにアクセスできませんweb.archive.org で接続が拒否されました。
> ERR_CONNECTION_REFUSED
保存しすぎて個人的に Web.archive.org にアクセス拒否されたかと思ったw
Down for Everyone or Just Me
https://downforeveryoneorjustme.com/web.archive.org
> Web.archive.org Status
> Is web.archive.org down right now?
> It's not just you! web.archive.org is down. Internet Archive 鯖落ち?繋がらないわ >>740
その表示初めて見るけどブラウザ何使ってる? telnet で web.archive.org:80 へ接続を仕掛けても繋がらない。
鯖が死んでるわ。 メンテナンス情報も書いてない。まさか、F5アタックなのか? あ、何ページか保存したら接続エラーの連続だらけになった
まだ完全復活できてない模様 >>747
てかIAは鯖落ちしようが何も言わない
サンフランシスコ時間で朝になったから、今日も@internetarchiveは更新を始めたようだが、
いつも通りだんまりだね。4時間近く止まってたんだから一言欲しいけど >>717
そこにメールしても返信すらないから意味ないよ
送っても誰もメール見てないんじゃね APIのレスポンス増やしてほしいな
せめて落ちてるときは今落ちてるよ的なのを返して欲しい 東京大学総合図書館、Internet Archiveとの連携を開始:同館デジタルアーカイブ資料4,000点以上が対象
ttps://current.ndl.go.jp/node/43304 job failed多すぎて笑う
APIの反映も遅いし job failedは保存されてなくね?
internal server errorは一応されてるみたいだけど あれ?job failedでもThis URL has been already captured 10 times todayが出たな
ということは内部的には取れてるのか・・・?よく分からん Fail with status: 498 No Reason Phrase
なんやこれ >>761
上でも書いてる人いるけど、多分保存できてないと思う
最新から10個前の保存時間から24時間経たないとできない job faildは取れている時と取れていない時があるから困りもの We're sorry ― something's gone wrong.
Our team has been notified.
これしか表示されなくなった
完全にぶっ壊れてる Save Page Nowで保存中に他人が保存したアドレスがたまに表示されてるんだけど、これやばくない?
試しにcurlで/save/から保存するのと同時に、WebブラウザからVPN使って別のIPアドレスにした上でSPNで別のサイトを保存してみたら、
curlで保存中の画像やJavascriptのアドレスがWebブラウザの方に出てきてしまった。
普通に情報流出していてワロタ
このスレでも他人のアドレスが出てくる状態になった報告があるみたいだけど、直す気ないのかな。マジで直したほうがいいと思う。
>>568-570
>>584-589 ここ2週間ぐらい、
archive.todayで、
インスタグラムを保存できなくなってるの 俺だけ?
2週間くらい前までは、インスタグラム保存できてたのに。
他に インスタグラムを保存できる魚拓サイトありますか? ■ このスレッドは過去ログ倉庫に格納されています