Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ >>733
>>721-722
反映を待ってればいい、ダメならもう一度撮り直すしかない 次スレの>>1にはアーカイブが取れない問題のQ&A入れないとダメだな エラー文が多すぎて週に1個は新しいのが増えてるからまとめるのめんどくさいわw おまえ今日もう10回とったからダメーっていうのやめて欲しいわ
そもそもエラーだったから取り直してるのはカウントすんなよ archive.isの同じurlの取得間隔が伸びてるっぽい
前にとってから10時間以上経つのに取れない 追記
やっぱり丸一日経たないと同じurlのアーカイブ取得出来なくなってるっぽい 全てのurlかどうかは不明 >>739
>>739
毎日保存してるのに24時間以上たたないと保存できないのは困る
----------
> このサイトにアクセスできませんweb.archive.org で接続が拒否されました。
> ERR_CONNECTION_REFUSED
保存しすぎて個人的に Web.archive.org にアクセス拒否されたかと思ったw
Down for Everyone or Just Me
https://downforeveryoneorjustme.com/web.archive.org
> Web.archive.org Status
> Is web.archive.org down right now?
> It's not just you! web.archive.org is down. Internet Archive 鯖落ち?繋がらないわ >>740
その表示初めて見るけどブラウザ何使ってる? telnet で web.archive.org:80 へ接続を仕掛けても繋がらない。
鯖が死んでるわ。 メンテナンス情報も書いてない。まさか、F5アタックなのか? あ、何ページか保存したら接続エラーの連続だらけになった
まだ完全復活できてない模様 >>747
てかIAは鯖落ちしようが何も言わない
サンフランシスコ時間で朝になったから、今日も@internetarchiveは更新を始めたようだが、
いつも通りだんまりだね。4時間近く止まってたんだから一言欲しいけど >>717
そこにメールしても返信すらないから意味ないよ
送っても誰もメール見てないんじゃね APIのレスポンス増やしてほしいな
せめて落ちてるときは今落ちてるよ的なのを返して欲しい 東京大学総合図書館、Internet Archiveとの連携を開始:同館デジタルアーカイブ資料4,000点以上が対象
ttps://current.ndl.go.jp/node/43304 job failed多すぎて笑う
APIの反映も遅いし job failedは保存されてなくね?
internal server errorは一応されてるみたいだけど あれ?job failedでもThis URL has been already captured 10 times todayが出たな
ということは内部的には取れてるのか・・・?よく分からん Fail with status: 498 No Reason Phrase
なんやこれ >>761
上でも書いてる人いるけど、多分保存できてないと思う
最新から10個前の保存時間から24時間経たないとできない job faildは取れている時と取れていない時があるから困りもの We're sorry ― something's gone wrong.
Our team has been notified.
これしか表示されなくなった
完全にぶっ壊れてる Save Page Nowで保存中に他人が保存したアドレスがたまに表示されてるんだけど、これやばくない?
試しにcurlで/save/から保存するのと同時に、WebブラウザからVPN使って別のIPアドレスにした上でSPNで別のサイトを保存してみたら、
curlで保存中の画像やJavascriptのアドレスがWebブラウザの方に出てきてしまった。
普通に情報流出していてワロタ
このスレでも他人のアドレスが出てくる状態になった報告があるみたいだけど、直す気ないのかな。マジで直したほうがいいと思う。
>>568-570
>>584-589 ここ2週間ぐらい、
archive.todayで、
インスタグラムを保存できなくなってるの 俺だけ?
2週間くらい前までは、インスタグラム保存できてたのに。
他に インスタグラムを保存できる魚拓サイトありますか? インスタビューア的な外部サイトがいくつもあるから
それを介して保存するって方法がある
URLをしっかり記録しておかないと参照できなくなるってのが面倒だけど web.archive.org/save であるべーじを保存できた(3月2日)
保存出来た時に表示されるリンクをクリック
→二月中旬に保存したものに飛ぶ
カレンダーを見ると3月2日に保存マークがある
→それをクリックすると二月中旬に保存したものに飛ぶ
これって3月2日に保存は出来たけど閲覧できない状態ということ? >>770
>インスタビューア的な外部サイトがいくつもあるから
>それを介して保存するって方法がある
回答 ありがとうございます。
「インスタビューア的な外部サイト」でググっていますが、見つかりませんorz。
ちなみにパソコン ユーザーです。
保存ができる、おすすめのインスタビューア的な外部サイトを教えていただければ幸いです。m(_ _)m この保存職人たちの怒りのスレいわく、
ttps://archive.org/post/1105471/pages-refusing-to-save-this-is-asinine
Poster: Hitsmello Date: Nov 29, 2020 10:39am
Also, lately, I've noticed that the "Job failed" only seems to happen if I check the "Save outlinks" AND the "Please email me the results" boxes.
It WILL save properly if I just check "Save also in my web archive" and "Save outlinks". Gee, I wonder why...
ログインしてSave outlinksとPlease email me the resultsにチェックを入れるとjob failedが出ずに保存できるらしい
俺はアカウントから保存して、ファイルに名前が残るのはやだから、試してないけど >>771
反映待ち状態になってるから、数日後に見れるようになったか確認してみて
大抵は24時間、遅くても2日以内に見れるようになるはず
急いでるか保存失敗してそうなら、同じURLなら30分後以降にまた保存できるので再度保存するのもあり This URL has been already captured 10 times today
同じURLで連続10回保存失敗した場合でもこのエラーが出る。
失敗してるのにこれはないだろ。capturedできてねーぞ。 >>772
instagram viewerとかでググって出てきたサイトに投稿を表示させて、その内容を保存するってこと
サイトによって表示される情報量がまちまちだから色々試して使いやすいのを探す必要がある
(例) プロフィール画面
https://web.archive.org/web/20210303101254/https://instastory.net/profile/cristiano
(例) 投稿画面
https://web.archive.org/web/20210303090845/https://instastory.net/post/CL7sxQPgvB6
可能な限りは公式サイトを保存したいところだけど
どうしても無理ならこうするしかないんじゃないかな save画面でキャプチャできたのかリンクが出たからクリックしたらサイトは保存されていませんと出る さっき知ったけど、IAの社員でWayback Machine責任者のマーク・グラハムさんがSave Page Nowや/save/のAPIの仕様説明書を公開してくれた
ttps://webapps.stackexchange.com/a/151360
自動翻訳かけても読む価値あると思う
Save Page Now 2 Public API Docs Draft
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit
https://docs.google.com/document/d/19RJsRncGUw2qHqGGg9lqYZYf7KKXMDL1Mro5o1Qw6QI/edit
Limitationsのところに制限について書いてあるのを拾ってみると
・同じIPアドレスから同時に6ページ以上SPNや/save/で保存すると自動でエラーになる
・10秒でレスポンス戻ってこなかったらタイムアウト
・50秒で保存先URLはタイムアウト
・spn@archive.org宛に保存したいURLのメールを送ると500個まで保存してくれる(俺の経験上結果がエラーだらけになる可能性大なので確実に保存したいなら手動で)
・ログインしてない同じIPアドレスから画像なども含めて1日2万ページ以上は保存リクエストだせない、ログインしてれば制限なし
・ログインしてAPIキーを取得すれば、プログラムから保存するのもできる
この制限に引っかからないようにすれば、大量保存してる人はうまくいくはず
サンプルコードにも失敗したら保存を繰り返すようなコードになってるから、保存エラーが多いのは認識してるんだろう あとこんなのを発見
IAにログインした上で、Googleスプレットシートに保存したいURLを並べて登録すると保存してくれるサービス
https://archive.org/services/wayback-gsheets >>776
ありがとうございます。上手くいきました A snapshot was captured.が出ればとりあえずは様子見でいいんかな
スナップショット等への反応が即時でないが 保存できてもその保存できたページが表示できるまで時間かかってるっぽい?
カレンダーで確かに今日の日付で保存されてるのにそこをクリックしても過去に保存されたページしか出ない
first archiveの場合は成功しましたのリンククリックしても保存されてないになっちゃう >>779
思ってたより全然神サービスだったわありがてー 数日にわたって全く保存されなかったやつが今試したら一発で通りやがる
気分屋だなあ またおかしなurlに飛ぶようになった
今回はgoogle系ばかり なんか論文検索始まった
https://scholar.archive.org/
Sci-Hubキラーになるかwww google系の変なurlに飛ぶようになってない?今までもそんなことあった? http://web.archive.org/web/1im_/i.imgur.com/DCiDUjh.png
Save Page Now から保存を完了した後に表示される Visit page のリンク先が
保存したページそのもののアーカイブではなく、
その中の画像だったりスクリプトだったりのアーカイブになることがあるんだよね。
これも一連の異常と関係してるのかな。 >>795そう!それになるんだよ。最近調子悪いんだな…… 念のため記しておくと、こちらでは「保存できない」という問題は起きていない。
確かに保存完了直後には見られないことがあっても、数時間〜数日後には表示できている。
保存完了画面のリンクが別のファイルを指しているので、実際に見てみるには
URL を入れ直さなきゃならないという点は何とかしてほしいと思う。 おかしなurlに飛ばされても後でチェックすると保存はできているな おお、今確認したらちゃんと保存されてた!保存しなおさないといけないと思ったから焦ったよ
教えてくれてありがとう google系だけじゃないぞ、多分アナリティクスのjsファイルURLが帰ってくることがあるからそう言ってるだろうけど
例えばある人のfc2ブログの記事を保存したら帰ってきたのはそのページで読み込まれるcssやjsファイルだったし Live page is not available:が出たけどちゃんとセーブされてるのもあるな 「おかしなurlに飛ばされる」ってのは結局
物事をきちんと説明できない池沼が騒いでいただけなのか? 保存して本来表示されるべきページではないurlが表示されている事を報告しているものを
池沼呼ばわりとはどういう了見かな? 韓国人・朝鮮人式に考えれば良いのですよ。
行先の違うリンクを確認もせずにクリックして、勝手に飛んで行ったのであっても、
チョンにとっては「自分は常に正しい、悪いのは他人」ですから
飛ばされたことになっちゃうんですよ。 Job failedは無くなったけどエラー自体はあんまり変わってないな
ページが存在するのにLive page is not availableが出たりするし 全く意味がわかってないアホがいるようだ
まあ今はあの現象は直ってるようだがな あーページにぐぐる地図が埋め込まれてるとおかしくなるな なるほど あんま騒ぎになってないがなんでだろ
ガラケーからだけエラーが頻発かと思えば違うんだね Live page is not available 案の定エイプリルフールページで殺到してるのか重いな archive,todayってURL保存した後にzipでDL出来るみたいだけど
攻略サイト保存したらちゃんと階層や画像も一括でまとめてzipでDL出来んの? This page is not available on the web/because of server error がでてこんにゃろと思ってたら
いきなりロードされて保存済みページが表示されたりがあるな なんかYahooニュースのURLを保存するとこれが出たりする
ブロックリストに入れるような記事かこれ?
This URL is in our block list and cannot be captured.
Please email us at "info@archive.org" if you would like to discuss this more. 特定個人が発信する政治的記事の過去の言質を取られないようにするためと思われる
主にコロナ関連で もしあれだったら5chのニュースキャップなどでニューススレ立ててそっちを保存するか
yahooなら大抵二次なので一次ソースをたどってそっちを保存 同じドメインのサイトを一括で保存してDL用にZipでまとめてくれるサイトってねーの? ウェブ魚拓の方なんだけど取得できる時とできない時の条件の違いがよく分からんわ >>825
うちウェブ魚拓いくら待ってもロボット拒否でbanされたわw twitterぜんぜん保存されてないな。万単位のフォローがいる垢でも保存されてなかったりする >>829
Web魚拓はReCaptchaのマークが右下に表示されてから12秒くらい待ってボタン押すと保存できるはず。
長く待ちすぎるとロボット拒否される スマートフォンでアーカイブしたものをスマートフォンで見ようとすると見れないが3Gガラケーでは見れる謎 俺が対策書いた途端にWeb魚拓の仕様が変わって草。
このスレ見てる誰かがスクリプトでも走らせてるのか ■ このスレッドは過去ログ倉庫に格納されています