Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
archive.org ? ウェブサイト全体をアーカイブする方法は?
http://web.archive.org/web/20201220090718/https://www.it-swarm-ja.tech/ja/archive.org/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B5%E3%82%A4%E3%83%88%E5%85%A8%E4%BD%93%E3%82%92%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%AF%EF%BC%9F/965342469/
>>686
これArchive Teamが保存したものをWayback Machineに移管したやつだね
Save Page Nowでは取れないけど、外部の人間が取ったものを移管したから結果的に取れてるように見えてる 寄付を煽るためにわざとエラー連発させるように仕込んでるのかな >>684のHrmのままのページは保存し直せば反映されるようになった
放置しとくと日付だけ表示されるHrmのまま 「ふーむ」って言う途中でちょっと舌を丸める感じだと思っている
正確な発音はわからん >>688
Collectionsのところ見たけど、Focused CrawlsとTop DomainsはArchive Teamが収集してるものじゃないよ
ブロックされているURLも移管してるのはそういう仕組みだろうけど
ヤフージャパンはアクセス数多いドメインとはいえ、ニュース系のページは収集してくれないんだなぁ ヤフーニュースはSavePageNowでも取れるよ
ただ一部の記事で何故かBlockListエラーが出る
理由は謎(メールすれば聞けるのかもしれないけど) The capture is estimated to start in xxx minutes
今日はこればっかり The capture is estimated to start in 61 minutes. 改憲などという重要なものをアニメ絵に頼るカス団体は信用しない 寄付した人間のジョブは優先して処理するみたいな仕組みが導入されたらできる限り寄付したい 年収20万ドルのエンジニア雇うだけの金があるのに、金で困ってすらないよ
その割にサーバーはザコだが Job failed.ばかりで全然アーカイブできない Sorry
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.
これは今日10回じゃなくて過去24時間に10回の文間違いじゃないの
内容が変わりまくるサイトを保存できなくなった 自分以外の誰かも同じサイト保存してる可能性もあるしな 一覧性は下がるが、とりあえず後ろに適当なパラメーターでもつければどうか。?1とか。
サイト側にとって未定義のパラメーターなら大抵のサイトはパラメーターなしと同じものを返してくるだろう。 例の人は書き込みの中に必ずスポーツ新聞の話を含めるから多分別人 まあ別にスポーツ新聞のアーカイブを手作業で何回取ろうがそれは個人の勝手だから、外野がどうこう言うもんじゃないよ
随分遠回りなことしてるように見えても本人にとっては大事なんだろ、ほっとけ Please email us at "info@archive.org" if you would like to discuss this more.
ってあるんだから
ここで愚痴言うくらいならメール送ったらいいんじゃない? 皆さんに質問です!
アーカイブされたページを全文検索できるようになるまで、
あと何年くらいかかると思いますか? 昔はできてたこともある気がするから負の数じゃないかな undefined is not an object (evaluating 'e.map')
これって保存できてるの? 公開待ち状態みたいだったらしく、1時間後に見たら保存したページが見れるようになった。
マッピングが届いてないとかそんな感じっぽい。 Sorry
Live page is not available: chrome-error://chromewebdata/ Changesの項目消えた?
あんま使ってなかったからいいけどさ 724
今見たら復活してた
タイミングが悪かっただけかな 4日ぐらい前に保存した画像でSaved 2 timesとなってるのに青い丸が出ないが
遅れてるだけなのかこれ >>719
Internet Archive サービス終了までに実現できると思う?
いくら遅くてもいいけど ttps://blog.archive.org/2019/10/23/the-wayback-machines-save-page-now-is-new-and-improved/
ここに載ってる、savepagenow@archive.orgに他人から来たメールをFwdで送ったら
URLを抽出して保存された後に保存済URLが返ってくるのって今も機能してるのか?
メールが返ってこないんだが
ブログ記事の数日後に書かれたコメント欄の時点でメール返ってこねぇって書いてる人いるけども >>662
英語での交渉が得意な人しか使えないじゃん >>730
今時DeepLあたりでも使えばそこまで英語で苦戦することは無いよ
というか英語圏のボランティア団体なんだからこちらが英語に合わせるのは当然のことじゃない? 英語が嫌だったらArchiveTeamの日本支部でも作るしかないよね
まあそうなったとしても誰かが英語で本部とやり取りしないといけない訳だからあんまり意味無いけど おいおい何だよこれ
>>733
>>721-722
反映を待ってればいい、ダメならもう一度撮り直すしかない 次スレの>>1にはアーカイブが取れない問題のQ&A入れないとダメだな エラー文が多すぎて週に1個は新しいのが増えてるからまとめるのめんどくさいわw おまえ今日もう10回とったからダメーっていうのやめて欲しいわ
そもそもエラーだったから取り直してるのはカウントすんなよ archive.isの同じurlの取得間隔が伸びてるっぽい
前にとってから10時間以上経つのに取れない 追記
やっぱり丸一日経たないと同じurlのアーカイブ取得出来なくなってるっぽい 全てのurlかどうかは不明 >>739
>>739
毎日保存してるのに24時間以上たたないと保存できないのは困る
----------
> このサイトにアクセスできませんweb.archive.org で接続が拒否されました。
> ERR_CONNECTION_REFUSED
保存しすぎて個人的に Web.archive.org にアクセス拒否されたかと思ったw
Down for Everyone or Just Me
https://downforeveryoneorjustme.com/web.archive.org
> Web.archive.org Status
> Is web.archive.org down right now?
> It's not just you! web.archive.org is down. Internet Archive 鯖落ち?繋がらないわ >>740
その表示初めて見るけどブラウザ何使ってる? telnet で web.archive.org:80 へ接続を仕掛けても繋がらない。
鯖が死んでるわ。 メンテナンス情報も書いてない。まさか、F5アタックなのか? あ、何ページか保存したら接続エラーの連続だらけになった
まだ完全復活できてない模様 >>747
てかIAは鯖落ちしようが何も言わない
サンフランシスコ時間で朝になったから、今日も@internetarchiveは更新を始めたようだが、
いつも通りだんまりだね。4時間近く止まってたんだから一言欲しいけど >>717
そこにメールしても返信すらないから意味ないよ
送っても誰もメール見てないんじゃね APIのレスポンス増やしてほしいな
せめて落ちてるときは今落ちてるよ的なのを返して欲しい 東京大学総合図書館、Internet Archiveとの連携を開始:同館デジタルアーカイブ資料4,000点以上が対象
ttps://current.ndl.go.jp/node/43304 job failed多すぎて笑う
APIの反映も遅いし job failedは保存されてなくね?
internal server errorは一応されてるみたいだけど あれ?job failedでもThis URL has been already captured 10 times todayが出たな
ということは内部的には取れてるのか・・・?よく分からん Fail with status: 498 No Reason Phrase
なんやこれ >>761
上でも書いてる人いるけど、多分保存できてないと思う
最新から10個前の保存時間から24時間経たないとできない job faildは取れている時と取れていない時があるから困りもの We're sorry ― something's gone wrong.
Our team has been notified.
これしか表示されなくなった
完全にぶっ壊れてる Save Page Nowで保存中に他人が保存したアドレスがたまに表示されてるんだけど、これやばくない?
試しにcurlで/save/から保存するのと同時に、WebブラウザからVPN使って別のIPアドレスにした上でSPNで別のサイトを保存してみたら、
curlで保存中の画像やJavascriptのアドレスがWebブラウザの方に出てきてしまった。
普通に情報流出していてワロタ
このスレでも他人のアドレスが出てくる状態になった報告があるみたいだけど、直す気ないのかな。マジで直したほうがいいと思う。
>>568-570
>>584-589 ここ2週間ぐらい、
archive.todayで、
インスタグラムを保存できなくなってるの 俺だけ?
2週間くらい前までは、インスタグラム保存できてたのに。
他に インスタグラムを保存できる魚拓サイトありますか? インスタビューア的な外部サイトがいくつもあるから
それを介して保存するって方法がある
URLをしっかり記録しておかないと参照できなくなるってのが面倒だけど web.archive.org/save であるべーじを保存できた(3月2日)
保存出来た時に表示されるリンクをクリック
→二月中旬に保存したものに飛ぶ
カレンダーを見ると3月2日に保存マークがある
→それをクリックすると二月中旬に保存したものに飛ぶ
これって3月2日に保存は出来たけど閲覧できない状態ということ? >>770
>インスタビューア的な外部サイトがいくつもあるから
>それを介して保存するって方法がある
回答 ありがとうございます。
「インスタビューア的な外部サイト」でググっていますが、見つかりませんorz。
ちなみにパソコン ユーザーです。
保存ができる、おすすめのインスタビューア的な外部サイトを教えていただければ幸いです。m(_ _)m この保存職人たちの怒りのスレいわく、
ttps://archive.org/post/1105471/pages-refusing-to-save-this-is-asinine
Poster: Hitsmello Date: Nov 29, 2020 10:39am
Also, lately, I've noticed that the "Job failed" only seems to happen if I check the "Save outlinks" AND the "Please email me the results" boxes.
It WILL save properly if I just check "Save also in my web archive" and "Save outlinks". Gee, I wonder why...
ログインしてSave outlinksとPlease email me the resultsにチェックを入れるとjob failedが出ずに保存できるらしい
俺はアカウントから保存して、ファイルに名前が残るのはやだから、試してないけど >>771
反映待ち状態になってるから、数日後に見れるようになったか確認してみて
大抵は24時間、遅くても2日以内に見れるようになるはず
急いでるか保存失敗してそうなら、同じURLなら30分後以降にまた保存できるので再度保存するのもあり This URL has been already captured 10 times today
同じURLで連続10回保存失敗した場合でもこのエラーが出る。
失敗してるのにこれはないだろ。capturedできてねーぞ。 >>772
instagram viewerとかでググって出てきたサイトに投稿を表示させて、その内容を保存するってこと
サイトによって表示される情報量がまちまちだから色々試して使いやすいのを探す必要がある
(例) プロフィール画面
https://web.archive.org/web/20210303101254/https://instastory.net/profile/cristiano
(例) 投稿画面
https://web.archive.org/web/20210303090845/https://instastory.net/post/CL7sxQPgvB6
可能な限りは公式サイトを保存したいところだけど
どうしても無理ならこうするしかないんじゃないかな save画面でキャプチャできたのかリンクが出たからクリックしたらサイトは保存されていませんと出る さっき知ったけど、IAの社員でWayback Machine責任者のマーク・グラハムさんがSave Page Nowや/save/のAPIの仕様説明書を公開してくれた
ttps://webapps.stackexchange.com/a/151360
自動翻訳かけても読む価値あると思う
Save Page Now 2 Public API Docs Draft
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit
https://docs.google.com/document/d/19RJsRncGUw2qHqGGg9lqYZYf7KKXMDL1Mro5o1Qw6QI/edit
Limitationsのところに制限について書いてあるのを拾ってみると
・同じIPアドレスから同時に6ページ以上SPNや/save/で保存すると自動でエラーになる
・10秒でレスポンス戻ってこなかったらタイムアウト
・50秒で保存先URLはタイムアウト
・spn@archive.org宛に保存したいURLのメールを送ると500個まで保存してくれる(俺の経験上結果がエラーだらけになる可能性大なので確実に保存したいなら手動で)
・ログインしてない同じIPアドレスから画像なども含めて1日2万ページ以上は保存リクエストだせない、ログインしてれば制限なし
・ログインしてAPIキーを取得すれば、プログラムから保存するのもできる
この制限に引っかからないようにすれば、大量保存してる人はうまくいくはず
サンプルコードにも失敗したら保存を繰り返すようなコードになってるから、保存エラーが多いのは認識してるんだろう あとこんなのを発見
IAにログインした上で、Googleスプレットシートに保存したいURLを並べて登録すると保存してくれるサービス
https://archive.org/services/wayback-gsheets >>776
ありがとうございます。上手くいきました A snapshot was captured.が出ればとりあえずは様子見でいいんかな
スナップショット等への反応が即時でないが 保存できてもその保存できたページが表示できるまで時間かかってるっぽい?
カレンダーで確かに今日の日付で保存されてるのにそこをクリックしても過去に保存されたページしか出ない
first archiveの場合は成功しましたのリンククリックしても保存されてないになっちゃう >>779
思ってたより全然神サービスだったわありがてー ■ このスレッドは過去ログ倉庫に格納されています