なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ 2名無しさん@お腹いっぱい。2020/04/02(木) 02:12:07.12
3名無しさん@お腹いっぱい。2020/04/03(金) 06:21:50.54
保守しよう
保存したはずなのに消えてる!って質問よくされてるから
その辺の事とか?
7名無しさん@お腹いっぱい。2020/04/10(金) 15:59:46.20
保守
>>5
それいいね、こんなところだろうか
少し長すぎたかも
Q. 保存したはずなのに見れない!どういうこと?
A. Internet Archiveはアーカイブ量の増加ペースの速さにサーバが追いついておらず、不安定なことが多いです。安定するタイミングを待ちましょう。
またWayback Machineは、ページの保存作業を担当するクローラ部分(Heritrix)と、保存したページの保管・記録・表示を担当するビューワー部分(Wayback)の別々な2つのソフトウェアを組み合わせて動いています。
なので、保存したはずのアーカイブが表示されなくなっていても、クローラ部分がちゃんと動いていたのならアーカイブはちゃんと保存されています。サーバが安定するのを待ちましょう。 13名無しさん@お腹いっぱい。2020/04/15(水) 21:01:13.80
Archive.st - Save The Internet
いま試してみたらヤフーニュースの魚拓が取れるみたいだぞ。
本日1回目のSaveでいきなりToo Many Requests
400 Bad Request
Request Header Or Cookie Too Large
閲覧のほうでToo Many出すのはやめて欲しい
使い勝手が悪い
19名無しさん@お腹いっぱい。2020/04/16(木) 17:38:40.11
20名無しさん@お腹いっぱい。2020/04/21(火) 18:00:24.40
Internet Archive にアーカイブされたページを、
全文検索する方法ってないですか?
21名無しさん@お腹いっぱい。2020/04/23(木) 17:18:11.04
homepage2.nifty.comがみれない
23名無しさん@お腹いっぱい。2020/04/24(金) 08:26:30.95
24名無しさん@お腹いっぱい。2020/04/25(土) 13:24:52.15
ブロックされて見れません
どうしたらいいですか
26名無しさん@お腹いっぱい。2020/04/27(月) 13:25:21.03
アーカイブされたサイトのホームページだけでなく
全文で全サイトを検索することってできますか?
29名無しさん@お腹いっぱい。2020/04/28(火) 12:32:34.74
savingの読み込みから進まんね
と思ったら何分か経って完了したわ
なんでか分からないけどFirefoxだと/web/2/とか/save/が使えないのに
Google Chromeだと使えるっぽいんだよな。昔はFirefoxでも使えた。
最新版に更新してアドオン切っても駄目とかどうなってんだ。
> Firefox 75.0 64bit Firefoxは最新バージョンです
> Google Chrome は最新版です バージョン: 81.0.4044.129(Official Build) (64 ビット)
Firefoxで使えてる人いる?
>>38の件の追記、何故か/web/2/の方だけ復活した。
/save/は使えないまま。開くと真っ白なページが出てそれ以上何も起きない。 40名無しさん@お腹いっぱい。2020/05/11(月) 18:37:29.02
This snapshot cannot be displayed due to an internal error.
って出るサイトは無理?
42名無しさん@お腹いっぱい。2020/05/13(水) 08:25:33.17
homepage2.nifty.comは1と3はできるのにどうして2だけ見れないの
>>44
どーせスポーツ新聞のサイトだろ、保存してるのって 保存したものの特に重要なものはリスト化してチェックしてるが取りこぼしはないな
しかし反映の遅いものは一週間以上かかる場合もあった
>>44
archive.today は他にもドメインがあるのに
わざわざ .vn なんか持ち出してくるとか笑える
ベトナム共産シンパかよ 54名無しさん@お腹いっぱい。2020/05/22(金) 07:29:19.83
ヤフーニュースのスクリーンショット取れなくなった?
Internet Archiveってサイト保存したらどのIPが保存したとかも記録されんの?
>>55
どの方法でアーカイブが行われたのかも記録されているから、
おそらく IP も残っているんじゃないかねぇ。
ただ、アーカイブを読み出したときのレスポンスヘッダを見る限りでは、
その IP がアーカイブ閲覧者に漏れているような感じはしない。
あともう一つ、Archive.is がやっているような
リクエスト元 IP のアーカイブ対象サーバへのお漏らしは
Internet Archive では起きていない。 >>57
しっかり書いてありますね。勉強になります。 59名無しさん@お腹いっぱい。2020/05/24(日) 17:36:51.34
ページの全文検索って募金が終わらないとできないの?
60名無しさん@お腹いっぱい。2020/05/26(火) 17:22:56.02
Twitterでたまにjsonが取れる現象なんとかならないのかね
>>63
別サイトのページだが俺もそれ多い
全部じゃないけど… >>62
自分でパーサなり何なり通さないと読めないから言うほど便利じゃないぞ
それにWayback Machineを使う場合、jsonが欲しい時よりもhtmlとして描画された状態のアーカイブが欲しいことの方が多い Internet ArchiveってURLで保存する方法とは別に
htmlソースコピーで保存する方法も出来るようにすればいいのに
当然独自URL生成する必要性も出てくるけど
ツイッターがInternet Explorerからの閲覧をできないようにしたらしく、その影響でツイッターのアーカイブがとれなくなってしまったんだけどどうしたらいいだろう?
今までInternet Explorerからならツイッターのアーカイブがとれたんだけど…他のブラウザからじゃアーカイブできないのよ困った
試してないけどmobile.twitter.comもだめなん
>>74
今ためしてみたらmobileの方でならアーカイブできたわ
ありがとう
でもなんでまたツイッターは急にIEからの閲覧はじくようになったんだろう? >>75
よく分からないけどアーカイブしようとすると「このブラウザは現在サポートされていません」て出てくる
調べたら最近ツイッターがIEから閲覧できないようにしたらしいって言われてたから >>75
今そのURLから保存してみたらmobileじゃなくてもアーカイブできたわ
どうもありがとう 79名無しさん@お腹いっぱい。2020/06/06(土) 15:33:25.33
Internet Archive ってなんで全ページ検索できるようにしないの?
80名無しさん@お腹いっぱい。2020/06/06(土) 15:33:25.70
Internet Archive ってなんで全ページ検索できるようにしないの?
すみません
ツイッター保存してるとけっこう頻繁に.jsonてURLについて謎の文字化けみたいになってしまうんですが、これはいったい…?
どうしたらいいんだろう
>>82
ちょっと前からたまに起きる現象、原因は分からない・・・
面倒だけどちゃんと取れるまで取り直すしかない Save Page Nowにあるこのチェックは何の意味があるの
>Save error pages (HTTP Status=4xx, 5xx)
しらんけど
例えば「404 Not Found」だけのページだった場合に
「そこにはなにもなかった」ってことにするか、
それとも「404 Not Foundがあったのだ」ってことにするかだと思う
>>83
どうも
取り直せばいけるなら何度かトライしてみます >>79
昔一度やったことあるけど情報量があまりにも多過ぎて重すぎてまともに検索できなかったとか見た
全文検索できたら本当にいいんだけど現時点では無理ぽい… <title>だけでも検索できるとめちゃ便利なんだけどな
アーカイブってエロサイト保存した場合動画も保存されんの?
何か前にあったような気もするが
フェアユースだしな
Internet Archiveが公開してる電子書籍について出版社から訴えられたとかじゃなかったか
Gigazineだかどっかのネットニュースに出てたね
電子書籍って保存出来るんなら無料で見れるやつじゃないの?
こっちは拾える
ttp://archive.fo/
101名無しさん@お腹いっぱい。2020/06/14(日) 15:05:21.28
インターネット初心者です。
質問なのですが、save page nowでページをアーカイブした場合、Internet archiveの説明ではIPアドレスを保持しないため匿名で保存できるとなっているのですが本当でしょうか。
また、save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。(すでに削除されていて、今は見ることができずアーカイブもそれまでされていないようなページの場合)教えて頂きたいです。無知ですみません。
>>99
自分も今日いくらやっても連続してツイートのアーカイブに失敗するから、自分の環境が悪いのかと思ったけどこれは…… >>101
・IPアドレス:>>55-57を参照
・過去のページ情報:
「save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。」
その認識で合ってる。SPNは「現時点でのページをアーカイブする」ことしか出来ない。
過去のページをアーカイブできる技術はないし、するにはタイムマシンが必要。
現在削除済みでアーカイブも残っていないページは諦めよう 104名無しさん@お腹いっぱい。2020/06/14(日) 17:48:04.05
「ツイッター魚拓」とかいう国産サービスができたらしいが。
105名無しさん@お腹いっぱい。2020/06/14(日) 18:09:23.85
>>103
ご回答ありがとうございます。それでは、自分が○月×日にしかアーカイブしていないのにそれ以前のページの情報が出てくるということは
、他の誰かが○月×日以前にアーカイブしたということでよろしいでしょうか? >>105
Internet archiveは自動で色んなサイトをクロールして定期的にアーカイブして回ってるから別に誰かが保存したわけじゃなくて自動でアーカイブされてた可能性が高い
というかわざわざ手動でアーカイブするマニアなんてここの住人位しかいなそうだしほとんど自動取得 107名無しさん@お腹いっぱい。2020/06/14(日) 18:43:23.66
>>106
では、○月×日以前の情報は私がアーカイブしたものではないということでいいんでしょうか? 109名無しさん@お腹いっぱい。2020/06/14(日) 20:22:26.52
>>108
また質問なのですが、Twitterの動画をアーカイブした際、機種の差(Androidやios,PC)で見ることができないことってあるんですか? >>104
アレはスクショ撮ってimgurに上げるだけの代物で、セッション情報の類は一切保存されないらしいから、
アーカイブサービスとしての信頼性はゼロに等しい(中傷書き込みの訴訟でも多分証拠として認められないんじゃないだろうか)
ただTwitterではやたらバズったから、固定ユーザーは一定数つくかもね >>109
ツイッターの動画は保存できなかったと思うが… 113名無しさん@お腹いっぱい。2020/06/15(月) 06:39:57.00
114名無しさん@お腹いっぱい。2020/06/15(月) 06:41:39.22
>>110
> TweetSave - Save tweets with a click
> https://tweetsave.com/
Tweets are saved on TweetSave.com and also get mirrored to WayBack and Archive.is
とあるな。
これは使えるかもしれない。 115名無しさん@お腹いっぱい。2020/06/15(月) 06:43:57.13
tweetsaveは不安定すぎて使い物にならなかった
118名無しさん@お腹いっぱい。2020/06/15(月) 07:26:47.37
以前はわからんが、今はまあまあ安定しているみたいだよ。
ちょっと試してみて。
119名無しさん@お腹いっぱい。2020/06/15(月) 07:57:49.97
120名無しさん@お腹いっぱい。2020/06/15(月) 09:06:38.20
>>103
This page is available on the web!でも一緒ですか? 122名無しさん@お腹いっぱい。2020/06/15(月) 12:01:07.51
>>121
うろ覚えの記憶ですが、3ヶ月位前にhttps://video.twimg.com...のページを探していて見つからず、This page is available on the web!となって訳も分からないでアーカイブしてしまい、その日のアーカイブでは黒い画面で動画が再生されず見れなかったのですが、なぜかカレンダーに一年程前のアーカイブが現れてそれでは動画を見ることができました。3ヶ月程前なので記憶が曖昧なのですがこういうことってありえますか? 123名無しさん@お腹いっぱい。2020/06/16(火) 16:07:46.24
>>121
それでは、Android(chrome,Firefox)で再生できなかったものは他の端末、ブラウザなどでも再生できないということでしょうか? 124名無しさん@お腹いっぱい。2020/06/17(水) 09:33:18.63
ログインしなくてもツイッター保存できますか?
JSONで保存されるか成功したかと思ったらこうなって保存されない……
Sorry, that page doesn’t exist!
Why not try a search to find something else?
日テレNews24もキャプチャできないっぽい
Todayならできたのでそっちで取る
なんか調子悪い?
ツイッター全然とれなくなったし他のサイトでもちょくちょくエラー出る
127名無しさん@お腹いっぱい。2020/06/18(木) 09:37:49.00
>>125
基本的に取れる魚拓は複数でとるようにしてるんだけどTwitterの魚拓が現状二つだけになってしまって困る……
しかも片方は突然不安定になって一ヶ月まともに使えないこともあるからなー Twitterが取れなくなったのはTwitter側の仕様変更のせいじゃないかな
129名無しさん@お腹いっぱい。2020/06/19(金) 00:13:10.75
でも15日に取ってる人がいるんだよなー
>>131
それ自分もなった
しばらく時間置いてからもう一度保存したら問題なく取れたよ 自分もNot Foundになって5ちゃん含め何一つとれなくなった…
検索してからThis page available on the webからならとれた
でもそれ以外からだと即Not foundが出るだけで一切とれない
なんなんだ
検索からの「This page available on the web」は直接保存の/save/http〜なんだな。
Save page nowの方の「This page available on the web」が機能してないのか。
137名無しさん@お腹いっぱい。2020/06/20(土) 13:40:09.97
お、取れた
情報thx
ツイッター一応とれるようになったのもあるけど
頻繁にSorry that page doesn't exist!やエラーになって取れない事の方が多い…
アーカイブって動画のURL直入力したら保存されるの?
ものによってはとれる事もあるけど基本とれないと思った方が良い
143名無しさん@お腹いっぱい。2020/06/22(月) 14:27:28.61
保存は複数の鯖から暇している鯖が取りに行くんだけど
ロシア語、英語、ドイツ語などランダムで取られていたから経由する鯖が更新されてないと取れないと予想
144名無しさん@お腹いっぱい。2020/06/23(火) 15:16:09.68
>>142
> まあやり直してたら3回目位でとれたけど
なにげにお役立ち情報 _φ(・_・メモメモ >>57
これ保存に利用したIPアドレスは暗号化されて運営側も解読無理って事? 147名無しさん@お腹いっぱい。2020/06/23(火) 23:06:54.24
自分はあ複数保存したいからこっちも保存したいだけで合計3箇所で保存してる
Web魚拓はブロックされるようになった
スポーツ新聞ほんと好きだな
取るのは勝手だけど常軌を逸した取り方だと思う
>>151
本当は取れてるんだろ?
嫌がらせスクリプトも一緒にw 取れないという前に少しは過去ログ読んでくれと言いたくなる
154名無しさん@お腹いっぱい。2020/06/25(木) 13:17:04.71
156名無しさん@お腹いっぱい。2020/06/26(金) 10:45:18.41
SAVE完了でスナップショット見に行こうとすると昔の日付にリダイレクトされるの困るな
アドレス切り張りして今日の日付にしてもダメ
パーツのアドレスで叩いたら今日の日付で出てくるからひとまずはよしとすべきか
いつもの調子が悪い周期に入ったかな
APIも不安定
5ちゃんも全然とれない
時間あけて何度もトライしても時々とれるだけでほとんどダメ…
>>160
それ取得者の環境に左右されるからあんまり使いたくないんだよね Hrmになって取れてなかったと思っても
後で検索するとちゃんと取れてることも多いな
Hrm連発でも3回ほどチャレンジしとくと高確率で取れてた
取れない問題については>>1のテンプレに含めるべきだな
インデクシングとアーカイブは別々のレイヤーで処理されてるから、
一見取れてないように見えても実は取れてることが多い ここ数日のは反映がかなり遅いだけでちゃんと取れてるね
167名無しさん@お腹いっぱい。2020/07/01(水) 10:10:10.27
>>21
>>42
dion.ne.jp
biglobe.ne.jp
jcom.co.jp
も見れないな 168名無しさん@お腹いっぱい。2020/07/01(水) 11:23:57.89
169名無しさん@お腹いっぱい。2020/07/01(水) 16:43:58.70
雑多なまとめサイトすぎて好きじゃなかったな
雑多なまとめも多いけど、これを個人サイト的に使ってる人も割といるんだよね
そういう人の書いた良質なページが消えるのは困る
閉鎖される予定のサイトってnaverまとめ以外何かある?
173名無しさん@お腹いっぱい。2020/07/01(水) 20:31:56.99
>>168
ヤフーと合併予定でその事業整理過程で精査されてしまったね
まとめサイトのネガティブイメージとかコンプラとかで嫌われる理由はいくらでもあるが NAVERまとめ、サラッと見た感じだと1ページ目は取ってあるけど
2ページ目以降が無いっていういつものパターンが多いな
>>171
知らなかった
いろいろな使い方があるもんだ 177名無しさん@お腹いっぱい。2020/07/02(木) 22:52:12.91
最近のサイトはスマホ用とPC用の画面分けてるが
アーカイブってPC用しか保存されんの?
スマホのUAでアクセスしたらスマホ用が保存されんじゃないの知らんけど
Googleが10年以上前のサイトはもう検索結果に出すのやめたそう
やっぱページ膨大だと検索きついのか…
にしても10年より前の情報にはアクセスする手段が無くなるってすごい損失な気がするが
10年以上前のサイトはそれ専用Googleとか検索エンジン用意すりゃいいのに
>>179
期間指定すれば普通に検索できるって聞いてたけど違うの? 182名無しさん@お腹いっぱい。2020/07/04(土) 15:07:25.27
>>179
> にしても10年より前の情報にはアクセスする手段が無くなる
他の検索エンジンなら大丈夫 Internet Archiveはgoogleみたいにキーワード検索出来るようにすればいいのに
186名無しさん@お腹いっぱい。2020/07/04(土) 17:08:23.67
>>184
鯖に負担かかりすぎてえらいことになりそう 検索機能の話もテンプレ入れた方が良さげだな
数年前に一度全文検索機能が入ったことがあったんだけど、検索対象となるデータの量があまりに急速に増えて追いつかないとかですぐ無くなったんだよ
検索エンジンってサーバリソースを大量に必要とするから、ギリギリの状態でサーバ動かしてる現状のIAではまず無理なんじゃないだろうか
検索したいならInternet Archiveに金落とせ、話はそれからだ
金落とす金額が鯖代と維持費込みじゃないと無理だろうな
194名無しさん@お腹いっぱい。2020/07/05(日) 00:41:08.37
一つのURLに重複保存される画像・動画をAIで認識して削除したら、容量の削減になるのに
>>194
単にコンテントボディをバイナリ比較すれば良いだけの話なのに AI を使うとか
こんなんじゃ、IA のレスポンスヘッダを含めて丸ごと保存する価値が解る訳も無いなw そんな用途のためにわざわざAI使ったりしないだろうと思うけどそこは置いておいて、
AI動かすのにだって大量のサーバリソースは必要なんだよ
本末転倒
普通に考えて重複保存じゃなくて差分を保存してると思うんだけど・・・
アーカイブ見てるとどう考えてもまったく同じ内容のページを何回も重複して保存してるのよくあってサーバーの容量がもったいないなと思う事はよくある
特に自動クロールでとってるであろうサイトのメインページなんて毎日何百ページ位も同じ画面とり続けてたりする
全く同じなら容量変わらなくね?
タイムスタンプが更新されるだけでは
まぁWayBackの仕組みが分からないので断言は出来ないけど
最近アーカイブしても存在してないって言われることが多くなったから
archive.today使ってる
同じurlのzipで古い物は破損していて
それより新しい物は正常だった事がある
バイナリデータで1バイトか2バイトか3バイトか忘れたけどファイルの最後にブランクデータが追加か削除されたせいで破損扱いになってる
バイナリエディタで00を増減すれば大丈夫だよ
googleもmetaタグを元に表示してるだけだし
Internet Archiveも最低限の情報だけ検索表示出来るようにすればいいのに
>>203
2000 年代の古いアーカイブを漁っていたりすると、
中身が数メガバイトでちょん切れてしまっているものがかなりある。
古い Microsoft のバイナリ等で良く出くわす。
データ化けは見たことが無い。
おそらく、IA は Content-Length ヘッダの値と
コンテントボディの実サイズとの整合をチェックしていない。
何か巨大ファイルをアーカイブさせて、それが正しく保管できたか調べたい場合は
実際に当該アーカイブを最後まで読み出すしか無い。
>>204
それは昔のアーカイブ出力段の問題ではなかったか。
コンテントの末尾 1 バイトが \x00 だと、それが欠ける。
2011 年あたりの大改変の後は見たことが無い。
>>201
タイムスタンプだけかw
アーカイブ時のサーバ側のシステム時計の値 (たまにズレてる奴がいる)、
使用されていたサーバソフトウェアの名前、
読み出したファイル自身のサイズやタイムスタンプ、
ETag のような識別子、
その他サーバが垂れ流した、ありとあらゆるものを
そのまま丸ごと保存してるんだよ。 207名無しさん@お腹いっぱい。2020/07/06(月) 20:56:53.08
ガチでTwitterからツイートをアーカイブするなと圧力受けてんのか?
このスレ読んで何回やってもアーカイブできんぞ
Tweetsaveもタイムアウトばっかで保存できん
Tweetsaveは半年前に比べたら生きまくってるよ
半年前までは1ヶ月まともに動かないとかあったし半月は当たり前に動かなかったわ
>>207
最近出版業界から訴えられたから有り得る話だな >>208
save用ページから保存しないと今のところ無理で
それも失敗が多い もう全部テンプレに書いた方がいいんじゃね?
話題が無限ループしてる
もともと話題も少ないからな
保守してると思えばいい
最近TwitterがJob failedになって全然保存できない…
Tweetsaveで保存してもIAにはアーカイブされない
やっぱり圧力掛かってんのかな
誰も問題にしないのが驚きだけど
Tweetsaveからのはすぐに保存されてる印象が無いな
Job failedになっても検索すると出てくるから一応保存されてるっぽい
Twitterじゃない普通のウェブサイトを保存しようとしても
保存できたと思ってクリックしたら404 not foundが出てアーカイブされてませんと出る
10分待たないと再保存できない
10分経ったから同じサイトをやってみようとしても404としか出ない
Twitter、いくつかアーカイブして実験したけど
Job failedやtask limitになっても取れてるっぽい
しばらくしてから確認したらカレンダーに反映されてた
/save/がNot FoundやらBad Gatewayになるけど少したってAPIを見ると保存されていたりなかったりする。どうなってんだ
>>202
俺も使ってる
web.archiveも併用してるけど取得失敗が多くなってきた
いまも取得を試みたがNot Foundだ なんかこのスレの雰囲気って気象板にある地域の天気スレに似てる気がしてきた
>>229
ちょっと笑った
そのスレは知らないけど確かに似たところはあるかもね
しかし天気と違ってInternet Archiveの調子は予測できないのが アーカイブ(Heritrix)とインデクシング(Wayback)は別々のソフトウェアで分担して動いてるから、
反映されてないように見えても実は取れてることが多いんだよと何度言ったら
どちらの調子の悪い時もあるからな
裏で取れてると思い込んでたら取れてなかったじゃ話にならん品
電子コミックとか一時無料になる場合あるけど
ああいうの保存出来ないの?
出来るか否かは試すしかない
有料サイトのはリスクありそうだから試さないけど
仮に取れてもサイト側が削除申請出せば消せるしね
10年くらい前の話だけど、二次創作小説専門サイトが著作権の問題で閉鎖になった時、
Wayback Machineに残ってたアーカイブもまとめて全部削除されちゃったんだよね
236名無しさん@お腹いっぱい。2020/07/13(月) 15:07:19.26
自分で保存するのが確実だね
保存したマンガのファイルを自分でInternet Archiveにアップロードするという手も一応ある(IAのアカウント登録が必要なはず)
アメリカではフェアユース関連でその辺が緩いのかは知らないが、
マイナーな日本漫画の英訳版zipがアップされてる事も時たまあるよ
日本からこれをやって捕まったという話は聞いたことがないけど、お勧めはしないし止めておいた方が無難
補足しておくとInternet Archive上の漫画etcが全部グレーゾーンな訳ではなくて、
著作権者の許諾を得て大っぴらに収録されてるものもかなり多い
ttps://togetter[.]com/li/1559186
これをアーカイブすると一瞬表示できたかと思ったら「ERR_HTTP2_SERVER_REFUSED_STREAM」と出る
最新版をアーカイブできたと思ったら数年前のアーカイブに強制リダイレクトされる
>>243
最新版のインデクシングが完了してないとそうなる事がある
しばらく(数時間〜数日)待ってからもう一度閲覧できるか確認するといい >>241
こういうのってIA側が出版社に表示使用料払ったりしてんの? >>245
上に貼ったやつの場合は許諾を得てるようだからおそらく使用料も払われてるとは思うが、
出版社から訴訟起こされたなんて話もつい最近あったし、よう分からん 版権の所在がもうつかめない作品もゴロゴロでてくるから
基本無許可だろ
やっぱりtogetterはダメだな
意図的にアーカイブ出来ないように設定されてんのか?
どうしてもIAに入れたいなら
他のサイトでアーカイブ→そのアーカイブをIAでアーカイブ
すればいい
>>253
できなくない?他のどの魚拓サイトのURL入れてもNGになって無理なんだけど todayは運営元が不明な時点でいつ消えてもおかしくないので
あくまで気休め用
todayもウェブ魚拓も固定回線からのアクセスをブロックするようになった気がする
分からん
自分の場合、todayに固定回線でアクセスすると
「Access to this website is blocked Plume」ってメッセージが出てくるようになった
ウェブ魚拓はHTTP 511エラーを吐いてくる
これまではInternet Archiveと使い分けてたんだけど、こうなるとInternet Archiveで色々保存しないといけなくなるな
俺はarchive.todayは問題なく使えてる
Wayback Machineは繋がらなかったり取りこぼしが結構あって残念
後日見返しても取れてないし
いまも繋がらない…
Unknown Error
502 Bad Gateway
todayのCloudflareうぜええ
てかなんでこいつはいつまでもreCAPTCHAのままなんだよ
Cloudflare「もどき」しか見ないなw
保存失敗していたと思ったら1日やら何時間も経ってからやっと反映された
そろそろ限界が近いのだろうか?
それは普通だが4月に保存したものがいくつか保存されてなかった
何事も一期一会、保存などという邪道なものに頼ろうとするな
275名無しさん@お腹いっぱい。2020/07/24(金) 22:49:38.35
503が出てアーカイブされてるかどうかすら確認できなくなってる
>>278
done!が出るまで何度もやらないと、魚拓検索ではweb.archive.orgで取れてる扱いでも取れてない
んで失敗してるうちに待ち時間が10分近くとかに増えていくから、合計だと何分かかるか分からない
消えちゃ困るフリーソフトとかぐらいしか、そんだけ待って取る価値ないわな
archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ >>280
> 失敗してるうちに待ち時間が10分近くとか
手作業でやってるんだw >>281
ソフトかスクリプトかなんかあるの?
他の作業しながら進捗チラ見してる感じだわ >> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いやそりゃBANされるだろ
サーバ動かすのだってタダじゃないんだよ
自分がアーカイブサイト運営してたとしてもそれはしばらくアク禁にするわ
>>284
だったら最初から制限事項を表示しろって話
騙し討ちみたいなもんじゃん
別に不正アクセスしたわけじゃないし、dos攻撃みたいに明らかに悪意あるように見えるほど高速でもないんだし IAってスクリプトとか保存しないように設定出来れば
保存容量や表示軽く出来そうなのに
どうしてもアーカイブできないサイトはページ丸ごとスクショしてそれをどっかにあげてアーカイブすればいいか
でも大きなスクショ劣化なしであげられるとこってなかなかないよね
どっかあるかな?
Tweetsaveも不安定過ぎる
アーカイブ化を妨害したい勢力が暗躍してんだな
クラウドフレア依存が不安定の原因に思えてくる
IAは違いそうだが
スクショって画像化の事言ってんの?
そんな事するくらいならWebページ保存ソフト使えよ
>>292
アーカイブ化を妨害したい勢力なんじゃねw
自演やる奴ほど自演疑うみたいな 295名無しさん@お腹いっぱい。2020/07/28(火) 06:39:39.83
Internet Archive以外はいつサービス終了するか分からない
ローカルやログインして自分しか見れない所にアーカイブしても意味ない
298名無しさん@お腹いっぱい。2020/07/29(水) 03:33:40.66
Internet Archiveも見れないURLあるからなあ
> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いっぺんにそんな数ひろったことないな
やるねえ
>>300
不良(品)の武勇伝(悪行)みたいなもんよ 500 Internal Server Error
>>298
保存しても強制的に
Sorry.
This URL has been excluded from the Wayback Machine.
になってしまうサイトあるよな それはサイト側がIAに連絡して保存しないようにして貰っただけ
>>302
最近よくこれになる
10分待ってまたやるとできることも多いけど International Server Errorはつなぎなおすと動くことも多い気がする
>>307
> つなぎなおすと
繋ぎ直しで IP が変わったことが効いてるのか、ただ少し時間を空ければ良いだけなのか、
どっちなんだw つなぎなおすとはしいたけ押して更新することだと思ってた・・・・
>>297
archive.todayってやばいの?
>>280 を読む限りちゃんとリソースに見合った制限をかけてるようだし
削除に応じないからいつか陥落しそうってこと?
2行目は???
アーカイブしてもそれを共有せずアクセス不能な場所にのみ保管していても仕方ないってこと?
自分以外からも見れるようにすりゃいいじゃん 確かに保存されたページが閲覧できているのに、APIの方では保存されていないかのような
表示になっていることもあるんだな。単にAPIの調子が悪いのか
312名無しさん@お腹いっぱい。2020/07/30(木) 07:36:04.75
313名無しさん@お腹いっぱい。2020/07/30(木) 07:40:56.06
あー、すまん。
これは自分がページを指定して魚拓とることはできないのか。
Sorry.
This URL has been excluded from the Wayback Machine.
この文が出るサイトはどんな方法でも保存はおろか閲覧すらできないんでしょうか
>>310
archive todayってどこの会社が運営してるのか資金はどうしてるのかも分からないし比較的最近できた歴史もサイト
36年の歴史があって米国政府も利用してて組織内部まで公開してるInternet archiveとは信頼度が違う
WebrecorderやSingleFileZは共有機能あるの?見た感じ個人向けのキャプチャソフトみたいだけど 途中で送信してしまった
連投失礼
なのでもともと保存されていたものも当然見れなくなる
>>314
biglobeなんかも2年ほどそうなって見られなくなってその後復活した
内部的にはちゃんと保存されてるんだろうな 期間とか決まってるわけじゃない
homepage2.nifty.comなんかも昔は見られたが
もうずっと見られないしな
321名無しさん@お腹いっぱい。2020/07/30(木) 21:03:12.09
>>310
アーカイブって「データが改変されていないこと」が保証されてなきゃいけないんだよ
だから単に「自分以外からも見えるようにすればいいじゃん」って問題ではない archive.todayは誰がどこでどういう風に運営してるのかまるで分からない(=いつデータが全て消し飛ぶか分からない)という怖さがある
だから自分はarchive.todayを可能な限り使わないようにしてるし、運営体制が公開されてるInternet Archiveを信用してる
「データが改変されていないこと」を保証するのって結構厄介で、
Internet ArchiveはWARC形式っていうWebアーカイブ専用フォーマットを使って保存してるくらい
archive.todayやウェブ魚拓はその辺が全く公開されてない
スクショなんて論外だよ(ブラウザの開発者機能で画面表示を書き換えた上でスクショされたらどうしようもないから)
用途にもよる
単に面白いサイトだから残したい程度ならどこでもいい訳だし
何かの証拠として残すんなら信頼高いアーカイブの方がいいしな
通常はそこまで手間じゃないんだから両方やっとけ
自分は3つやってる
証拠だろうと面白いサイトだろうと消えてほしくないからアーカイブする訳だから、
自分は信頼性の高さを重視して何でも基本的にInternet Archiveのみを使っている
archive.todayではIAで保存できなかったものと、特に証拠として残したいものを保存してる(削除申請が通りにくいため)
ウェブ魚拓は「申請が来たらすぐ消している」という運営のインタビューを見てから一切使わなくなった
今のIAは激烈不調で信頼できるとはとても言えんがな
332名無しさん@お腹いっぱい。2020/07/31(金) 07:54:38.33
全ページ検索ってまだできない?
そんなに機密情報とか簡単に検索されたくない?
自分の主張は正当化されるべきと信じ込んでる・とりあえず何でも陰謀論に結び付けるとか数え役満だな...
Internet Archiveにそんなサービスやってる余裕ないんだよ、一時期やってたけど処理が追いつかなくてすぐ廃止になったって前にも誰かが言ってただろ
そもそも最近のInternet Archiveは一枚もキャプチャ出来ない日がずっと続いてる
BANか時間帯か何が原因か知らんけど、VPNで時間帯変えても無理
いやキャプは内部的に出来てるけど反映されるのが3日4日かかってるっぽい
>>336
そなの?取れてないと思って同じページ数回取り直しちゃったわw
urlで検索すると取れてる扱いなのに、開くと取得ページに一枚もないって出てるし 500 Internal Server Error
502 Bad Gateway
520 Unknown Error
今日は特におかしい
何だこの三役揃い踏みは
200以外でリトライし続けるようなスクリプト組んでるけどもう三日間は1ページも保存できてないし
1年間以上定期的にツイッターで保存していたせいかtodayはBANされてるなぁ
どうやっても404になるわ
使える串探すか
自分はsave page nowのフォームから保存すると毎回問題なくいけてる(少なくともここ一週間くらいは)
spnフォーム保存時の通信を覗いて、処理をスクリプトに落とし込むというのも不可能ではないのでは
いろいろやってみたけど、俺の結論
7月後半ぐらいから/save/の後ろのURLつけて保存しようとすると、そのページにある画像とかも一部保存もしくはURLを確認しに行く(保存はされない)ように設計が変わったようで、
そのせいでページに張り付いてる画像やスクリプトファイルが多いブログを保存する時は特に時間かかりまくってる
スクリプトで保存してる場合、ヘッダーにno-cacheやetagが出てきたら、それは保存失敗
ブログやニュースサイトの画像URLやスクリプトURLの過去の履歴を見ると、
1日以下の短期間で何十回も何百回も保存してるのを7月以降たくさん見かけるのはこのせいだと思う
Internet Archive側のアーカイブシステムの改悪だ、保存が遅くなる一方だよこれ
その保存しない確認ってのは一体何の意味があるんだろう
本来ならInternet archiveをメインに使いたいところだが、いかんせん取れないままではなぁ
サイトに繋がるだけじゃ意味がない
337や339のレスと同じ結果ばかりで、もう一週間くらい取れてないから渋々archive.todayメインに切り替えてる
いざとなったらspnフォームのHTTP通信解析してcurlで直接叩けばいいやと思ってるから特に気にしてない
Tweetsaveもタイムアウトなどクラウドフレアのエラーばっか出て心折れそう
Tweetsaveは年間通して繋がらないことは頻繁にあるからもう慣れた
>>351
1年前はcurlで1分間400回ぐらいはエラーなしで保存できたんだよな
今は10回やって2〜5分休むを繰り返すしかできない
もちろん串刺すかIPアドレス変えれば無限にできるけど、遅すぎる >>355
1分間400回とかそれは多すぎるよ、逮捕者が出た岡崎図書館事件ですら1回のアクセス毎に2秒の間隔を置いてたくらいなのに
みんながそんなことやりすぎたからアクセス回数の制限入ったんじゃないの?
万が一訴えられた時のことも考えて、どんなサイトでも1回のリクエスト送ってから最低1秒空けるのが不文律 どうしても早く保存したいなら自分で保存対象サイトにwgetを走らせて、
そこからInternet Archiveのmetadataとしてアップロードすりゃいい
Wayback Machineには収録されないが、早くやりたいんならそれくらい我慢しなきゃ仕方ないだろ
>>355
何をそんなに保存するものがあるのか興味あるわ
IAからしたら負荷かけまくりの悪質荒らしと変わらんな ナニコレ
ttps://i.imgur.com/eYAu2fb.png
なぜかTweetsaveを素早く庇う奴が常駐してる
不思議だ
>>356
その辺の画像多用のブログをsave nowで保存するだけで画像やスクリプトで200のURLを一気に保存するんだが
考えてみればsave nowの方がサーバーに優しくないんだよ save page nowのリンク先保存は読み込まれる数に制限あるぞ
庇ってるか?
年間通して続いてるから事実を言っただけだ
改善する希望なんて持てないしさ
368名無しさん@お腹いっぱい。2020/08/03(月) 16:32:26.47
保存するのは芸能人のブログとかじゃないの
芸能人の画像をPCに保存にしないでIAを、クラウド代わりにする。
検索がfailed to fetchになってしまって全然できない…
save pageボタン押してもなかなか画面が変わらなくて
最後は502 Bad Gateway表示ばっかり
SPNは復帰
/save/は502 Bad Gateway
The capture is estimated to start in 600 minutes.
昨日ぐらいからSave Page Nowでこんな表示出てくるんだけど、あと10時間も待ってないといけないわけ?
いい加減にサーバー増強しろよ。。
Tweetsaveについて知らないニワカが落ちてると叩くのは
サービスを潰しかねない迷惑行為なのでやめてもらいたい
今Save Nowに突っ込んだら680分待ちでワロタ
そもそもいつからTweetsaveがInternet Archiveの傘下に入ったんだ?
ウェブアーカイブ総合スレでやれ
Internet Archiveも資金繰りが厳しいらしいからな
サーバの重さに文句言っていいのは寄付した人間だけだろ、自分は寄付してないから当然言えない
IA目線になる必要はない
向こうにクレームつけてるワケでなし
Internet archive取得できないな
Saving..のままだ
379名無しさん@お腹いっぱい。2020/08/04(火) 17:50:56.70
なんでこんなんなっちゃったんだ
380名無しさん@お腹いっぱい。2020/08/04(火) 18:13:31.23
国外のニュースサイトとかじゃあまり話題にしないな
The capture is estimated to start in 264 minutes.
382名無しさん@お腹いっぱい。2020/08/04(火) 20:45:36.63
ここに書いてもしょうがないかしらんが
サイト撤去跡などでリダイレクトされるやつのリダイレクトが早すぎて
結局アドレスバーに直打ちしないと目当てのサイトを探せないのは何かなあ
FirefoxなんでYahoo!BlogならRedirectorで/web/2/に飛ばしてるよ
多分クロームにも似たような拡張あるだろう
>>378
自分もこれ…savingのまま一向に動かない
検索しても取れてない… /save/
520 Unknown Error
failed to archive the URL. specifics of failure is unknown
520エラーでも数日後に見ると保存されるケースとされてないケースがあってよくわからん
保存されるケースだけなら困らないが
されてないケースがあるから困る
キャプチャまでの待ち時間がとんでもない事になってるけど
あれってタブ閉じるとダメなのかな?
内部的には処理待ち行列に入ってるとかならいいんだが
The capture is estimated to start in 0 minutes.
今待ち時間0分になってる
save/でもすぐに保存されてるし、やっと緩和したかな
これが続けばありがたいんだが
保存待ち状態もAPIで判別可能ならもっといいんだけどな
平常通りと言いたいとこだけど、上部の棒グラフみたいな外観のリンクがバグってる
396名無しさん@お腹いっぱい。2020/08/09(日) 01:14:41.21
24h後に再度試してもスナップショットがThis page is available on the web!になるな
お 保存成功
>396になった分はノーカンだから相当な足止めだな
なんだこれ気持ちわりいw ほぼノータイムで保存されたw
The same snapshot had been made 1 minutes and 3 seconds ago.
We only allow new captures of the same URL every 20 minutes.
401名無しさん@お腹いっぱい。2020/08/11(火) 17:42:27.57
わお
同じURL保存の待ち時間が20分になったな
jsonになってしまう事も結構あるのにこれはつらい…
IPアドレス変えたりsave nowとアドレスバーにsave直打ちとかで同じかどうかも判定変わるから
いろいろ試せば1分未満でも再保存できる場合もあるよ
x-archive-wayback-runtime-error: WaybackException: java.lang.IllegalStateException: Payload size does not match content-length!
ここ数日このエラー多すぎ
todayスマホからアクセスするとCAPTCHAの無限ループなんだけどこれって俺だけ?
俺もなるわ
どうやらユーザーエージェントでブロックしてるらしい
別のブラウザアプリ使えば回避できる
411名無しさん@お腹いっぱい。2020/08/14(金) 18:35:19.64
無限リキャプチャなんだこれ…って思ったら同じ人がいて安心した
保存されてたはずのページが今日確認したらされてなかったことに・・・
特に今年7月あたりがひどい。
以前はちゃんと保存されて見れてたのなら、サイト運営者からの削除申請があったとかでもない限りは一時的なトラブルだから待ってれば直る
保存直後は問題なく見れるが数日後は無くなってるのが多いね
保存失敗したならちゃんと失敗したとエラー表示出して欲しい
>>418
見られなくなるのは一時的で数日後にはちゃんと見えるようになる
urlをブクマして確かめてみろ URLから日付を選ぶページで保存元(Reason:)がNo Collection Infoって表示が出てるのは時間かかってるっぽい
保存されたらlivewebかsave-nowになるはず
>>418
単にインデクシング階層で情報の表示に失敗してるだけで、サーバ内部にはちゃんと保存されてる
待ってれば直る noteのIP漏洩事案だけど、Wayback MachineのアーカイブのソースにIP情報が残ってる記事が結構あるらしい
削除申請が出される可能性があるから、noteのアーカイブを取ったことのある人は改めて保存し直しておくことを推奨
IA側がIPアドレスは個人情報じゃないので削除却下と行ってきたらどうすんの?
個人的には今回の件どうでもいいと思ってるし、note運営がどうこういう話じゃないしな
IPアドレスはEUの一般データ保護規則で個人情報とされてるからIA側が却下する可能性は微妙
もちろんnote運営を介さないと削除申請は出せないはずだけど、
某自主制作コミュニティで「note運営に働きかけて記事のアーカイブを削除してもらおう」
って動きがあったのを見かけたものだから念の為と思ってね
運営に言わずに自分や自社のブログを消したいなら自分で削除依頼出せばいいのにな
初めっからやる気なさそう
今気付いたんだけど、削除申請を受けてWayback Machineから恒久的に削除されたサイトでも
スクリーンショット機能を使えば普通に保存・閲覧出来るんだな
(つまりスクリーンショットはWayback Machine削除申請の影響を受けない?
単にスクリーンショット機能実装以前に削除されたからかもしれないけど)
既出ならすまない
× スクリーンショット機能実装以前に削除されたから
○ スクリーンショット機能実装以前に削除されたページだったから
>>425
Internet Archiveの削除申請は「自分がそのサイト本体の管理者であることが確実にわかる証拠」を提示しないといけない
だから多分自力じゃ厳しいと思う 削除申請してる時間あるならルーター再起動するなりすればいいだけじゃないんかね…
ipバレてビビるとか古のネット民じゃないんだから
>>426
スクショ機能なんて使う場面ないだろと思ってたけどそういう使い道があったか 普通のサイト保存→
HTML/CSS/JSなどを実行した結果のデータやアクセス日時などの情報を、WARCファイルという専用フォーマットにまとめて保存する。WARCの表示には専用のビューワが必要
スクリーンショット→
ページのスクリーンショットを撮った画像ファイルを保存する。やってることはスマホやパソコンのスクリーンショットと違いはない
要は保存する方法が全く違う
>>434
URLの先頭にarchive.orgのものが付く以外は普通のURLと変わらないので分かる 表示中のアーカイブサイトのどこを押せばサイト内容まとめたWARCファイルとやらをDL出来んの
別にわざわざWARC落とさなくても、ブラウザのWayback Machineで表示されてるのがWARCの内容だぞ
アーカイブされたサイトはWARCファイルとしてまとめられ、Internet Archiveのサーバに保存される
Wayback Machineは、サーバ内のWARCを呼び出してブラウザで見れるように適切に変換しているだけ
/save/の保存制限ってここ数日は緩和されてる?
時間なかったのでダメ元で何ページか同時に/save/の後ろにURLつけてブラウザで開いてみたら
去年の後半以降からずっと出てた「制限に達したから5分待ってください」のエラーが全く出ずに保存できた
保存時に画像やスクリプトファイルで待たされるのは
去年の快適だったころとは比べてまだ元通りではないけど、ちょっとストレス減った
442名無しさん@お腹いっぱい。2020/08/30(日) 19:59:54.58
ローカルhtmlにsave/httpのリンク複数貼って
それ一斉に開いたらちゃんと保存されてんの?
443名無しさん@お腹いっぱい。2020/08/30(日) 20:07:43.20
444名無しさん@お腹いっぱい。2020/08/30(日) 20:35:37.14
>>442
されてると思う
まとめて大量にするとToo Many Requestsエラーで漏れがでる可能性はあるけど >>423みたいな懐疑的意見もあったけど、個人的には予想通りの措置って感じだな...
robots.txt見たらia_archiverとmegalodonをブロックしてた robots.txtでブロックしてようがIAのバグで保存しちゃう方法はあるので、
Noteがサービス終了してrobots.txtの規制解除まで見るのだけはお預けだね
サービス終了しても解除されない場合があるからそんなに楽観的には見れないな...
そういうサイトはおそらくメールの申請で、Wayback Machineから恒久的に削除されてるんだと思われる
excludedって削除じゃなくて除外処置じゃないっけ?確証は持てないけど
復活したアーカイブは見たことあるけどそのままの例は知らないので教えて欲しい
自分が知ってる例は、URLは忘れてしまったけど、
だいたい10年近く前に閉鎖された版権作品の二次創作小説投稿サイトだった
2, 3年前にそのサイトのアーカイブをWayback Machineで見ようとしたんだが、
"このサイトはWayback Machineから削除されました"というような内容のエラーメッセージが出て見れなかった
>>448
IAに除外要請を出しておいて、サービス終了時に再度
「うち辞めるから、もう見せても良いですよ」とか通知する奴が居たらアホだなw
実際に削除してるのか、単に非表示フラグを立ててるだけなのかは知らんけど。 心配しなくとも炎上させたいネットストーカーされてるところは他で流出するがな
5chや通販サイト等のクレカ含めた個人情報しかり
ここに挙がらないアーカイブサイトで取った魚拓はまだ残ってるし
マイナー過ぎていつ消えるか分からないけど晒すと使えなくなるから輸出してるが証拠能力が下がるのが悩み
スクショはアーカイブデータとして見ると微妙なのがね・・・(単に見る分には良いけど)
全く取れないよりはましだけども
アーカイブ見ようとすると時々出る。いつも出るわけではない。更新で解決するときとしないときがある。
> ページの自動転送設定が正しくありません
> web.archive.org への接続中にエラーが発生しました。
> Cookie を無効化したり拒否していることにより、この問題が発生している可能性もあります。
すみません、どなたかスクリーンショットでのアーカイブのやり方を教えていただけませんか?
ぐぐっても分からずじまいでしたので
よろしくお願いいたします
Sorry.
This snapshot cannot be displayed due to an internal error.
noteってアーカイブできない?
いくらやってもHrmになっちゃう
>>463
Sign in to use extra features: "Save outlinks", "Save screen shot" and "My web archive".
中学英語でも十分理解できる文章だと思うけどねぇ。
homepage2.nifty.comってWayback Machineで非表示になってるのか...
↑これどうにかならいあのんかな
niftyのhomepageなんてもう終わってるのに
Wayback Machineで非表示になってるサイトでも、
自前でクローラ動かしてWARC作ってInternet Archiveにアップロードすれば一応アーカイブを残すこと自体は出来るんだけどね...
APIを活用した支援ソフトを作ることや、WARCファイルの取り扱い方を幅広い人に周知することが重要になりそうだ
469名無しさん@お腹いっぱい。2020/09/08(火) 14:39:27.94
Save outlinksがアカウント必須になったのってどういう事情なのかね
やっぱり容量が逼迫してるから?
>>469
容量というかアーカイブ先サイトへのDOS攻撃っぽくなっちゃうからじゃね?
前は同一URLの保存間隔すら無かったし >>470
本は流石に日本の著作権法上難しいからスキャンして上げる勇気はないな 474名無しさん@お腹いっぱい。2020/09/09(水) 16:24:22.16
>>471
以前はリンク先辿るのは50個までって制限あった気がするけど今やったら58個辿った
もしかして50個制限を解除する代わりに相手先に過負荷を懸念してアカウント必須にしたんかね >>475
アップロード操作が日本で行われる以上は、
フェアユースを認めていない日本法が絡んでくる。 >>476
そのうち海外でも違法になるし、削除対象になるな。 多分中国人なんだろ
例の国家保安法みたいに、国外での行為も国内で処罰対象になるとか言うやつ
著作権法は「送信元の国」と「送信先の国」どちらの法律を適用するかで見解が分かれること自体は事実だから、あながち間違ってるわけでもない
合ってるわけでもないのが微妙な点だけど
482名無しさん@お腹いっぱい。2020/09/16(水) 19:20:01.19
今ってYahoo知恵袋アーカイブできるようになってるんだね
昔はできなかった記憶
Temporarily Offline
The Internet Archive's sites are temporarily offline.
We apologize for the inconvenience.
486名無しさん@お腹いっぱい。2020/09/20(日) 07:21:40.11
>>473
あとはフリーのWeb小説やWeb漫画だね pixivって閉鎖はされなそうだけど、作品は自主削除が多発するしな。
epubファイルをアップロードすると、その場で、ページをめくって内容を確認できるようになった。
便利。
pixivをWayback Machineでアーカイブすると英語版が保存されるんだよね
Internet Archiveのサーバがアメリカにあるためだと思われる
こっちの環境だけかな?
今朝から新規の保存をしても反映されない様で…
We can't retrieve all the files we need to display that page. Please try again later.
今朝からこのエラーばっかり、時間置いても同じエラー出る
俺も保存できてない。
APIもShow Allも反応なし
ブログから
Cloudflare and the Wayback Machine, joining forces for a more reliable Web
ttps://blog.archive.org/2020/09/17/internet-archive-partners-with-cloudflare-to-help-make-the-web-more-useful-and-reliable/
クラウドフレアと連携
簡単な要約
クラウドフレアのAlways Onlineサービスを使っているサイトは、サイトが鯖落ちしてるときにIAで保存されてるページを表示かもしれない
それとは別にIAに保存されていないURLの場合、システムで自動的に保存するかもしれない
ようやく新規の保存が通るようになった…
この後どうなるかわからんけど…
>>498
余計な事どころか
ここでチマチマ取ってるより遥かに重要 てか、去年の同じ時期にも保存できなくなってたような
9月20日に保存できなかったのを覚えてる
4GB超の更新ファイルを保存しようとしたら、2GBでカットされちゃったんだけど
ファイルの上限あるのかな。問題になりそう。
SPNで保存後、Visitの後ろに表示されるリンクがデタラメで不安になる
保存直後、即時反映される場合と一日経っても反映されない場合があって、差が激しい。
質問です
ログインしなければ見れない記事などは
どうすればアーカイブできるのでしょうか?
単にバックアップしてもログイン画面が表示されるだけなのです
>>507
基本的にログイン必須のページはアーカイブ出来ない
リクエストを工夫すれば取れるかもしれないけど、それ系のプログラムの知識が必要 OAuthも無理だろうしSPNでログインが必要なページは事実上無理じゃないかな
ログインするページは魚拓出来ないのですね・・・
ご回答ありがとうございました。
そもそもパスワード等を知らない「アカの他人」には見えないようになっているページを
どうして Internet Archive という「他人」に保存させようとするんだ?
リテラシーが崩壊してるわw
「リテラシーが崩壊してるわw」では済まされないくらい重要な問題なんだけどな
例えば学術論文リポジトリはログインしないと閲覧出来ない場合も多くて問題になってたりする
「ログインしないと入れないページ」は深層ウェブというものの一つでもあるんだけど、
ディープウェブのWebアーカイブをどうやってやっていくべきかというのは割と難しい課題なのよ
ログインしないと入れないページは、ちゃんとした理由があるからこそ閲覧に制限がかかってる
でもそれと同時に、ちゃんとした理由があってログインしないと入れないページをアーカイブしたい場合というのも往々にしてあるわけ(上で挙げた学術論文リポジトリはその一例)
とは言え、いくらアーカイブする必然性があってもだからと言ってアクセス制限を無視して良いわけではないし、両者の兼ね合いは結構難しい
ともかくこういうのを単なるネットリテラシーの問題として済ますのは良くない
理由は何であろうが、ログインを要求してるんだから
それ以上は IA 側の知った話じゃないよ
「知った話じゃない」ってのは
「関心を持って注視しているが現時点では対応していない」状況にぴったりな言葉じゃないと思う
>>515
自分でローカルに保存すればいいじゃん
なんだかんだ言って天災・過失で自前バックアップ死ぬよりも、ネットの方が通報も含めて明らかに先に死ぬし 519名無しさん@お腹いっぱい。2020/10/04(日) 17:10:59.85
>>515
言ってることがただの自己中だってことに気付けよ >>521
その兼ね合いが難しいって話よ
そもそもウェブアーカイブ自体著作権法スレスレのものだし、保存される側の都合を完璧に守るのは無理だと自分は割り切ってる ウェブアーカイブが単純にローカルで保存しとけば済む話だったらInternet Archiveという団体は存在しえない
保存する側とされる側の都合の兼ね合いは「自己中」で一蹴せず、ちゃんと考えていかなきゃいけないシリアスな問題だと思うよ
自己中呼ばわりやら草生やしたりやらしてる方は
何か恨みでもあるんかってくらい食い付いてるしな
感情論で殴ってるだけだから話自体に説得力ないし
>>522
正義マンがポリコレ棒めっちゃぶんぶんしてるのに似てる
なんでルール守れないゴミ自己中のくせに被害者面してんの?
やべーわ
それで管理人がサイト更新意欲なくなっても
俺は悪くない!
とか宣うんだろw 529名無しさん@お腹いっぱい。2020/10/05(月) 17:14:59.29
おもしれー
もっとやれ
もっとやれって言われた以上この話題は無視するか
ここはTwitterのリプライかよ、くだらない
ルールに従えとしか言えないな
考えていかなきゃいけない問題だとは思うが、ここで議論する意味は無い
533名無しさん@お腹いっぱい。2020/10/15(木) 08:59:33.08
昨日ぐらいから/save/の後にURLつけると520エラーばっかりなんだが
保存すらされてない
Sorry
Cannot start capture
Cannot start capture
これ俺以外もなってたのか
おま環じゃなくてよかった
>>534
Unknown Error
failed to archive the URL. specifics of failurte is unknown >>538
×failurte
○failure
手打ちしたら余計なものが混入してた ここ何周か archive.st が取得完了してもアーカイブされない不具合なままだ……
とりあえず今の所は/save/もSPNも保存できるね
直ったかな
546名無しさん@お腹いっぱい。2020/10/17(土) 15:39:48.96
アーカイブが存在しなければ保存するみたいな選択項目があればもう少し容量削減できそうなのにな
このスレにかつて居たスポーツ新聞野郎がキチガイ扱いされたのは、
個々のニュースではなくサイトのトップとか一覧とかのアーカイブに固執してたから。
>>546
isみたくトップからやり直さないと何年も前のアーカイブ開くだけで取り直すか聞かないのもウザイけどな >>547
あの人最近見かけないけど今どうしてるのかね
トップページや一覧ページの保存だけに血道を上げている様子は、正直言って病的というか空恐ろしいものがあった
他のスレ住人に何を言われてもほぼ反応なしで、何だか自分の世界に入り込んでるみたいだったね
彼は未だにスポーツ新聞のトップページを毎日手動で保存し続けているんだろうかね archive.isでとった魚拓をinternet archiveで保存すると
できるのとできないのがあるんだけど
違いはなんだろう
あ、時間おいて再度やったら保存できたのもあるから単にサーバー側の不具合かも
ずっと見られなくなってたtripod.com系のサイトがいつの間にか見れるようになってた
あとIEで見れなくなった
印刷プレビューはIEが一番使いやすかったのに…
IE排除は英断というか当たり前だと思う
開発元のマイクロソフトもとっくにサポートやめて「代わりにEdge使ってね」ってしつこいくらい宣伝してたし...
運営側にとってはIEってセキュリティホールも仕様の古さも色々と面倒で、本当に悩みの種なんだわ
Internet Archiveに限らずIEでの閲覧を想定しないサイトは今後どんどん増えていくだろうし、
悪いこと言わないから他のブラウザに乗り換えた方が良いよ
というか、これはあくまで個人的な感想だからつもりはないけど、
IEの印刷プレビューって言うほど使いやすいかな?
Chromeに印刷プレビュー機能がなかった10年前じゃあるまいし
UserAgentをIEに変えても、普通に見れるが。。
Your browser may not be compatible〜ってのは出るけど。
「The server didn't respond in time for http://〜」がよく表示されると思ったら特定のサイトだけだったか・・・
>10/17は一時半分近くエラー続きだったそうだ。
道理で保存されてないのがいくつかあるなと思ったら・・・ >>557
UserAgentで弾いてる訳じゃなくて、ページの構成自体をIEが対応してない形式に変更したんじゃないの?
IE使ってないから確認できてないけど 10/19あたりもひどいなぁ・・・
きちんと保存されてたはずのものがされてないことに。
最低でも一週間は待てとあれほど
まぁ話題が少ないからループするのはしょうがないけど
>>46のことか。
ここのところあまりにもひどくてさ・・・ 一定周期で不安定化するのは
もう定期イベントみたいなもの
なんか急にやたら長い変なURLになって保存失敗することが増えた
URLはバグってるけど少し経ってから元のURLでAPI確認すると取れてるぽい
"The server didn't respond in time for (保存URL)."
ってエラーメッセージが出ても、後で確認すると取れてることが多かったりする
572名無しさん@お腹いっぱい。2020/10/25(日) 12:49:20.36
とうとうエラーでサイト見れなくなったか?
>>572
何を言ってるのか良く判らない、と良く言われるだろw 復旧はしたが再度保存するのに要求される待ち時間が30分になってる…
ちょっと前は20分、去年あたりは10分で良かったのに…
/save/で1ページ保存できたっぽいから、もう1ページやったら
Unknown Errorになった。
また取れない
Unknown Errorを繰り返すようになった
cloudfront.netがなぜか全部ブロックされていて、こんな風に表示される
Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.
会社のプレスリリースなどでcloudfront.net使ってるところは保存できなくなってるわ
Wayback Statsによると
24日午後4時〜8時(日本時間25日午前8時〜12時頃)にサーバーダウンして4時間ほどページすら見れなかったらしい
アメブロとったらかたつむりの画像かえされたんだけどなんでw
これwマウスの上にかたつむり乗ってるのwリアルがダメな人は見ないで
http://web.archive.org/web/20201024183048/https://pbs.twimg.com/card_img/1318252845452374016/A4POgMBd?format=jpg&name=600x314
上にも書いたけどアメブロの魚拓をとったんだよね
あとからチェックしたら魚拓自体はとれてたんだけどw謎杉
数日前から変なURLに飛ばされることがあるけど結果的に取れてるんだよ googleに飛ばされたりpbs.twimgに飛ばされたり
よく分からん怪しいurlに飛ばされたりしてるな
>>584
それここ何日か発生してるバグっぽい。
save nowで保存すると、そのページじゃなくて読み込まれるURLの1個が帰ってくる。
変なURLが帰ってくるとびっくりするけど一応保存はされてる模様。 確認してないけど、もしかしたら一番長いURLが戻ってくるのかもしれない。
そのバグだいぶ前からあった
バグったり直ったりしていた
AmebloじゃなくてInternet Achieveのほうの不具合なのか
Your capture will begin in 15s.
またsave nowが混み始めたぞ
結局Wayback Machine頼りじゃなく、自分で保存してInternet Archiveのアカウントでアップロードするのが安全なんだよな
excluded表記は削除じゃなくてWaybackMachineのアクセス拒否だって事を願ってる
こんなしょうもない事でポンポン消されたらたまったもんじゃない
中国本土で、アメリカのInternet Archive相当の役割をしているサイト、サービスは、どこですか?
URLが知りたいです。
archive.orgは金盾でブロックされてるのか
まあ当然っちゃ当然かもしれないけど
>>597
ありがとうございます!とても参考になりました。 どうでもいい話だけど
「インターネットアーカイブ」で検索しても1ページ目にすら出ないんだな
「internet archive」だとトップなのに
日本人はあんまり使ってないのかな・・・?
>>600
グーグル使うの止めたら?
スマホファーストデザインやるようになったぐらいから、
そこらのアフィカスブログが可愛く見えるくらいアフィカス度激高になってるよグーグル 603名無しさん@お腹いっぱい。2020/11/05(木) 14:53:16.09
半角無理そう?
604名無しさん@お腹いっぱい。2020/11/05(木) 14:55:42.77
>>595
アーカイブを消させるための手法として流用されるかも
下手すると第三者がこういった工作をする可能性も 605名無しさん@お腹いっぱい。2020/11/05(木) 16:20:41.64
sakura03鯖のログって全損なんかな
googleキャッシュならまだあるだろうから
保存するなら今のうちだな
ここって昔のPCゲームもあるんだな
diablo2ゲット
お宝見つけても名前は出さない方が無難
こっそり楽しめ
>>595
それで合っていると思う
試しにツールを使って、すでにその状態になっているものをここからダウンロードしようとしたら
「403 Forbidden」が出たから
だからまた見るにはインターネットアーカイブ側でアクセス許可にされるか
それともそれをかいくぐれるツールが出来るかのどっちかしか無いかも ttps://analytics0.archive.org/stats/wb.php
日本時間で午後10時50分過ぎから鯖落ちしてる模様
seesaawikiのサイトを取ろうとするとクラッシュしたり挙動がおかしくなる
寄付の表示のところに毎日7億5000万ページ(画像やスクリプトを多分含む)保存してると出てるね
コスパティオのページ保存すると変なとこにリダイレクトされて上手く保存できなくなった
寄付の表示がでるようになったり
一昨日くらいにUnknown Error表示でまくりで放置してた分も依然そのままの状態で取れない
なんだかうまく取れたらクリアってゲームやってる気がしてきた・・・
save page nowでやってダメなら時間置いてもう一度やるのが一番早いと思う
こっちで出なくなったと思ったら魚拓で502
おま環?
622名無しさん@お腹いっぱい。2020/11/21(土) 14:12:11.95
なんか古いデータどんどん消してる気がする・・・
何年も前から取ってるページなのに2020年7月からしかないとか変だわ
削除以外でもメンテか障害かなんかで
一時的に一部データが閲覧できない場合もあるからな
625名無しさん@お腹いっぱい。2020/11/22(日) 01:23:53.80
妥当だね
メニューがFlashのサイトとかナビゲーションさえできなくなっちゃうからな
MacかiPhoneのSafariで見るとkCF〜のエラーが出るのは何度か再読み込みすれば直る
ダメなら時間おくしかない
save page nowから2GB以上のファイルを保存しようとすると「Resource file size is over 2GB.」のエラーが出るようになってる
ちょっと前までは出なかったのに
ゲームの修正パッチとか体験版とかだとたまにそのくらい行くな>2GB以上
>>620
残念ながらそのバグではない。
クッキー無いとリダイレクト失敗する仕様になっているぽい curlで保存してるけど、最近は調子良すぎなんだが
20秒ぐらいで保存が終わってタイムアウトも1割ぐらい
タイムアウトでもちゃんと保存されてるし、画像やスクリプト込みでこの時間だから、
以前より早いかも
(100個も画像やスクリプトあるページは無理だが)
Unknown Errorが出たら保存し直した方がいいかもな
一ヶ月前のUnknown Error保存分をチェックしてみたら
日付だけ表示されたが中身は保存されてないようだ
You have already reached the limit of active sessions
今日2回目の保存なのにこのエラーが出るとか、ふざけすぎでしょw
IPアドレス変えてもこのエラー出るので
active sessionsだからサイト全体のセッション数の制限を超えてるということかもしれないが
>>637
host規制かそのサイトだけ取れないように規制されてるかじゃね知らんけど >>635
200ページほど/save/で保存した結果、平均3〜5回このエラー出るわ
保存されてないのでエラー出たURLだけやり直し >>639
ぶっちゃけ寄付してなきゃ規制されてても不思議じゃないよ、それ
無料に毒されすぎじゃない?
広告大量になったり、変なスクリプトで経費賄うようになったら嫌だなー 200ページ程度で規制されるわけない、スクリプトなら数分レベル
寄付しろってのはそう
そうやって間隔あけずに一気に叩き込むからすぐサーバー落ちるんじゃないのかよ
利用者も多いから負荷は可能な限り抑えて利用すべきではあるな
1日3億ページ保存してるとサイトで書いてあるのに、たった1人が数百ページ保存したぐらいでなんてこともないわw
本来機械化しないことを想定して作られてるんだから、
大量にリクエストしたら通常よりも大きな負荷がかかるかもしれない、くらいのことは想像つかないのかよ
やるならせめて寄付くらいはしろ
1つのIPからの接続回数や間隔が以前よりも制限されているという事実は、
どのような形であれ大量アクセスはInternet Archiveにとって困るってことの証拠じゃないの
てか>>645と同じアホが真に受けて俺も俺もとなるのが1番怖い
自制が効かない・寄付もしないゴミに目を付けられたサービスが改悪しまくるのは分かりきってる 数分ってのが10分と仮定しても60秒×10分÷200件=3秒にならん?
間隔短すぎだから間隔を30秒にしろ。
なんだ、自動化できずに必死にキーボード叩いてる無能が騒いでるのか
653名無しさん@お腹いっぱい。2020/12/09(水) 15:52:40.47
curlでの保存方法、教えて
適当なヘッダ付けて/save/を叩くだけだから、
HTTP通信さえ出来るツール使えばcurlじゃなくて問答無用で自動化できる
でも下手に叩きすぎてサーバ圧迫して結果制限が厳しくなったら元も子もないから、俺はやった事ない
656名無しさん@お腹いっぱい。2020/12/09(水) 17:53:20.92
curlじゃなくても
657名無しさん@お腹いっぱい。2020/12/09(水) 19:40:19.27
>>657
すまんけど何を聞こうとしてるのかよく分からん
その質問って結局「ひとつのサイト全体を自分で保存する機能は提供されてないよ」って事以外何も言ってないように見えるけど ちゃんと下まで読んでなかったわ、>>658は取り消す
少なくとも静的サイトはこの方法で行けるね、wgetのmirrorオプションでURLリストを作るとは上手いこと考えたな ただwgetは、JSとかで動的にコンテンツを取ってくるサイトやFlashが使われたサイトには対応できないから、
この回答の方法ではあらゆる種類のサイトを保存することはできない
でもHTMLとCSSだけで頑張ってるような昔の個人サイトなら問題ない
間隔っていうか、現状同じIPアドレスから5ページまでしか同時保存リクエスト受け付けてくれない。
6ページ目以上は保存処理が終わってないのが残ってると、タイムアウトになって保存されないよ。
自動化以前にウェブサーフィン(死語)中、手動でブラウザから/save/開いて保存したい時でも、状況は同じ。
今はこの制限内でやればいいだけ。
662名無しさん@お腹いっぱい。2020/12/12(土) 02:57:25.07
新規に保存するとどうやってもこの画面になってしまう…
ttps://i.imgur.com/7Jip0Y5.png
Sorry.
This snapshot cannot be displayed due to an internal error.
さっき初めて出た、保存はされてるがエラーで表示できないという謎のエラー
てか、以前は保存終わった後に保存しますか?の表示出たのがこれに変わっただけじゃね
なんかバグってるんだよね
669名無しさん@お腹いっぱい。2020/12/16(水) 20:02:08.13
後で取り直したけど取れてないわ
取れてる取れてないの繰り返しにはうんざり
どこが運営してるのかわからないのは限りなく不安だが
もうarchive.todayしかない
過去レスすら読めない人の為に次スレではこれ(>>9)をテンプレに入れた方がいいな 11月分でいまだに反映されてないものも多々あるから
システムいじくってる最中で保存されてないものもあるかもな
>>674
スポーツ新聞アーカイブしてるとは一言も言ってないし同一人物とは限らんよ
毎日適当なページを実験用に保存し続けてInternet Archiveの挙動をテストしてる人もいたはずだし 677名無しさん@お腹いっぱい。2020/12/18(金) 00:36:49.29
お前らがしているのは多分、アイドル・声優のブログのアーカイブだろ
678名無しさん@お腹いっぱい。2020/12/18(金) 01:28:46.93
504とか503で何のアーカイブも見られん
アイドルも声優も、ブログどころかウィキペディアの記事すら見たことないわ
偏見すぎ
680名無しさん@お腹いっぱい。2020/12/19(土) 23:30:14.53
「curl -Ll ttp://web.archive.org/web/2020/ttp://○○○○.com/[(数字)-(数字)].html(.jpg)」
ttpではなく、httpに修正して
saveではなく、エラー軽減のため西暦の数字で
連番の数字で自動保存される。
681名無しさん@お腹いっぱい。2020/12/20(日) 03:27:16.25
エラーさんざんでまくり&数日たって再度見に行くと真っ白のページが保存された形跡
これじゃしばらく試行しながら様子見するしかねえな
682名無しさん@お腹いっぱい。2020/12/24(木) 21:46:55.38
Fail with status: 503
ばっか表示される
あだしまの公式サイトは33回も保存されていて、IAでもちゃんと開けるのにAPIは情報なし。
APIがぶっ壊れたのか。
保存してHrmになってしまうと日付だけ保存&表示されて
以後同一ページを保存してもずっとHrmになってしまう状況が11月から続いている
news.yahoo.co.jp/bylineから始まるYahooニュースの記事を保存しようとするとこれが表示される
専門家のブログのコピー記事だからブロックしてるのかな
Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.
archive.org ? ウェブサイト全体をアーカイブする方法は?
http://web.archive.org/web/20201220090718/https://www.it-swarm-ja.tech/ja/archive.org/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B5%E3%82%A4%E3%83%88%E5%85%A8%E4%BD%93%E3%82%92%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%AF%EF%BC%9F/965342469/
>>686
これArchive Teamが保存したものをWayback Machineに移管したやつだね
Save Page Nowでは取れないけど、外部の人間が取ったものを移管したから結果的に取れてるように見えてる 689名無しさん@お腹いっぱい。2020/12/30(水) 16:01:54.23
寄付を煽るためにわざとエラー連発させるように仕込んでるのかな
>>684のHrmのままのページは保存し直せば反映されるようになった
放置しとくと日付だけ表示されるHrmのまま 「ふーむ」って言う途中でちょっと舌を丸める感じだと思っている
正確な発音はわからん
>>688
Collectionsのところ見たけど、Focused CrawlsとTop DomainsはArchive Teamが収集してるものじゃないよ
ブロックされているURLも移管してるのはそういう仕組みだろうけど
ヤフージャパンはアクセス数多いドメインとはいえ、ニュース系のページは収集してくれないんだなぁ ヤフーニュースはSavePageNowでも取れるよ
ただ一部の記事で何故かBlockListエラーが出る
理由は謎(メールすれば聞けるのかもしれないけど)
The capture is estimated to start in xxx minutes
今日はこればっかり
The capture is estimated to start in 61 minutes.
改憲などという重要なものをアニメ絵に頼るカス団体は信用しない
寄付した人間のジョブは優先して処理するみたいな仕組みが導入されたらできる限り寄付したい
年収20万ドルのエンジニア雇うだけの金があるのに、金で困ってすらないよ
その割にサーバーはザコだが
Job failed.ばかりで全然アーカイブできない
Sorry
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.
これは今日10回じゃなくて過去24時間に10回の文間違いじゃないの
内容が変わりまくるサイトを保存できなくなった
自分以外の誰かも同じサイト保存してる可能性もあるしな
一覧性は下がるが、とりあえず後ろに適当なパラメーターでもつければどうか。?1とか。
サイト側にとって未定義のパラメーターなら大抵のサイトはパラメーターなしと同じものを返してくるだろう。
例の人は書き込みの中に必ずスポーツ新聞の話を含めるから多分別人
まあ別にスポーツ新聞のアーカイブを手作業で何回取ろうがそれは個人の勝手だから、外野がどうこう言うもんじゃないよ
随分遠回りなことしてるように見えても本人にとっては大事なんだろ、ほっとけ
Please email us at "info@archive.org" if you would like to discuss this more.
ってあるんだから
ここで愚痴言うくらいならメール送ったらいいんじゃない?
718名無しさん@お腹いっぱい。2021/01/16(土) 16:38:22.29
皆さんに質問です!
アーカイブされたページを全文検索できるようになるまで、
あと何年くらいかかると思いますか?
昔はできてたこともある気がするから負の数じゃないかな
undefined is not an object (evaluating 'e.map')
これって保存できてるの?
公開待ち状態みたいだったらしく、1時間後に見たら保存したページが見れるようになった。
マッピングが届いてないとかそんな感じっぽい。
Sorry
Live page is not available: chrome-error://chromewebdata/
Changesの項目消えた?
あんま使ってなかったからいいけどさ
725名無しさん@お腹いっぱい。2021/01/22(金) 16:01:35.20
724
今見たら復活してた
タイミングが悪かっただけかな
726名無しさん@お腹いっぱい。2021/01/22(金) 16:51:49.89
4日ぐらい前に保存した画像でSaved 2 timesとなってるのに青い丸が出ないが
遅れてるだけなのかこれ
727名無しさん@お腹いっぱい。2021/01/22(金) 22:31:31.69
>>719
Internet Archive サービス終了までに実現できると思う?
いくら遅くてもいいけど ttps://blog.archive.org/2019/10/23/the-wayback-machines-save-page-now-is-new-and-improved/
ここに載ってる、savepagenow@archive.orgに他人から来たメールをFwdで送ったら
URLを抽出して保存された後に保存済URLが返ってくるのって今も機能してるのか?
メールが返ってこないんだが
ブログ記事の数日後に書かれたコメント欄の時点でメール返ってこねぇって書いてる人いるけども
>>662
英語での交渉が得意な人しか使えないじゃん >>730
今時DeepLあたりでも使えばそこまで英語で苦戦することは無いよ
というか英語圏のボランティア団体なんだからこちらが英語に合わせるのは当然のことじゃない? 英語が嫌だったらArchiveTeamの日本支部でも作るしかないよね
まあそうなったとしても誰かが英語で本部とやり取りしないといけない訳だからあんまり意味無いけど
おいおい何だよこれ
次スレの>>1にはアーカイブが取れない問題のQ&A入れないとダメだな エラー文が多すぎて週に1個は新しいのが増えてるからまとめるのめんどくさいわw
おまえ今日もう10回とったからダメーっていうのやめて欲しいわ
そもそもエラーだったから取り直してるのはカウントすんなよ
738名無しさん@お腹いっぱい。2021/02/14(日) 16:09:56.27
archive.isの同じurlの取得間隔が伸びてるっぽい
前にとってから10時間以上経つのに取れない
追記
やっぱり丸一日経たないと同じurlのアーカイブ取得出来なくなってるっぽい 全てのurlかどうかは不明
>>739
>>739
毎日保存してるのに24時間以上たたないと保存できないのは困る
----------
> このサイトにアクセスできませんweb.archive.org で接続が拒否されました。
> ERR_CONNECTION_REFUSED
保存しすぎて個人的に Web.archive.org にアクセス拒否されたかと思ったw
Down for Everyone or Just Me
https://downforeveryoneorjustme.com/web.archive.org
> Web.archive.org Status
> Is web.archive.org down right now?
> It's not just you! web.archive.org is down. Internet Archive 鯖落ち?繋がらないわ
>>740
その表示初めて見るけどブラウザ何使ってる? 743名無しさん@お腹いっぱい。2021/02/15(月) 19:52:03.70
wayback machineぶっ壊れた
telnet で web.archive.org:80 へ接続を仕掛けても繋がらない。
鯖が死んでるわ。
747名無しさん@お腹いっぱい。2021/02/15(月) 22:21:55.65
メンテナンス情報も書いてない。まさか、F5アタックなのか?
あ、何ページか保存したら接続エラーの連続だらけになった
まだ完全復活できてない模様
>>747
てかIAは鯖落ちしようが何も言わない
サンフランシスコ時間で朝になったから、今日も@internetarchiveは更新を始めたようだが、
いつも通りだんまりだね。4時間近く止まってたんだから一言欲しいけど >>717
そこにメールしても返信すらないから意味ないよ
送っても誰もメール見てないんじゃね APIのレスポンス増やしてほしいな
せめて落ちてるときは今落ちてるよ的なのを返して欲しい
755名無しさん@お腹いっぱい。2021/02/17(水) 23:26:58.40
東京大学総合図書館、Internet Archiveとの連携を開始:同館デジタルアーカイブ資料4,000点以上が対象
ttps://current.ndl.go.jp/node/43304
job failed多すぎて笑う
APIの反映も遅いし
job failedは保存されてなくね?
internal server errorは一応されてるみたいだけど
あれ?job failedでもThis URL has been already captured 10 times todayが出たな
ということは内部的には取れてるのか・・・?よく分からん
Fail with status: 498 No Reason Phrase
なんやこれ
>>761
上でも書いてる人いるけど、多分保存できてないと思う
最新から10個前の保存時間から24時間経たないとできない job faildは取れている時と取れていない時があるから困りもの
We're sorry ― something's gone wrong.
Our team has been notified.
これしか表示されなくなった
完全にぶっ壊れてる
Save Page Nowで保存中に他人が保存したアドレスがたまに表示されてるんだけど、これやばくない?
試しにcurlで/save/から保存するのと同時に、WebブラウザからVPN使って別のIPアドレスにした上でSPNで別のサイトを保存してみたら、
curlで保存中の画像やJavascriptのアドレスがWebブラウザの方に出てきてしまった。
普通に情報流出していてワロタ
このスレでも他人のアドレスが出てくる状態になった報告があるみたいだけど、直す気ないのかな。マジで直したほうがいいと思う。
>>568-570
>>584-589 769名無しさん@お腹いっぱい。2021/03/01(月) 20:37:48.02
ここ2週間ぐらい、
archive.todayで、
インスタグラムを保存できなくなってるの 俺だけ?
2週間くらい前までは、インスタグラム保存できてたのに。
他に インスタグラムを保存できる魚拓サイトありますか?
インスタビューア的な外部サイトがいくつもあるから
それを介して保存するって方法がある
URLをしっかり記録しておかないと参照できなくなるってのが面倒だけど
771名無しさん@お腹いっぱい。2021/03/02(火) 14:01:49.74
web.archive.org/save であるべーじを保存できた(3月2日)
保存出来た時に表示されるリンクをクリック
→二月中旬に保存したものに飛ぶ
カレンダーを見ると3月2日に保存マークがある
→それをクリックすると二月中旬に保存したものに飛ぶ
これって3月2日に保存は出来たけど閲覧できない状態ということ?
772名無しさん@お腹いっぱい。2021/03/03(水) 13:37:44.10
>>770
>インスタビューア的な外部サイトがいくつもあるから
>それを介して保存するって方法がある
回答 ありがとうございます。
「インスタビューア的な外部サイト」でググっていますが、見つかりませんorz。
ちなみにパソコン ユーザーです。
保存ができる、おすすめのインスタビューア的な外部サイトを教えていただければ幸いです。m(_ _)m この保存職人たちの怒りのスレいわく、
ttps://archive.org/post/1105471/pages-refusing-to-save-this-is-asinine
Poster: Hitsmello Date: Nov 29, 2020 10:39am
Also, lately, I've noticed that the "Job failed" only seems to happen if I check the "Save outlinks" AND the "Please email me the results" boxes.
It WILL save properly if I just check "Save also in my web archive" and "Save outlinks". Gee, I wonder why...
ログインしてSave outlinksとPlease email me the resultsにチェックを入れるとjob failedが出ずに保存できるらしい
俺はアカウントから保存して、ファイルに名前が残るのはやだから、試してないけど
>>771
反映待ち状態になってるから、数日後に見れるようになったか確認してみて
大抵は24時間、遅くても2日以内に見れるようになるはず
急いでるか保存失敗してそうなら、同じURLなら30分後以降にまた保存できるので再度保存するのもあり This URL has been already captured 10 times today
同じURLで連続10回保存失敗した場合でもこのエラーが出る。
失敗してるのにこれはないだろ。capturedできてねーぞ。
777名無しさん@お腹いっぱい。2021/03/04(木) 17:47:00.70
save画面でキャプチャできたのかリンクが出たからクリックしたらサイトは保存されていませんと出る
781名無しさん@お腹いっぱい。2021/03/05(金) 18:13:28.08
>>776
ありがとうございます。上手くいきました A snapshot was captured.が出ればとりあえずは様子見でいいんかな
スナップショット等への反応が即時でないが
保存できてもその保存できたページが表示できるまで時間かかってるっぽい?
カレンダーで確かに今日の日付で保存されてるのにそこをクリックしても過去に保存されたページしか出ない
first archiveの場合は成功しましたのリンククリックしても保存されてないになっちゃう
>>779
思ってたより全然神サービスだったわありがてー 788名無しさん@お腹いっぱい。2021/03/09(火) 01:33:30.80
ページによって挙動が違うのがなんとも
数日にわたって全く保存されなかったやつが今試したら一発で通りやがる
気分屋だなあ
またおかしなurlに飛ぶようになった
今回はgoogle系ばかり
google系の変なurlに飛ぶようになってない?今までもそんなことあった?
794名無しさん@お腹いっぱい。2021/03/10(水) 21:25:03.54
796名無しさん@お腹いっぱい。2021/03/11(木) 00:11:38.24
>>795そう!それになるんだよ。最近調子悪いんだな…… 798名無しさん@お腹いっぱい。2021/03/11(木) 15:47:38.66
念のため記しておくと、こちらでは「保存できない」という問題は起きていない。
確かに保存完了直後には見られないことがあっても、数時間〜数日後には表示できている。
保存完了画面のリンクが別のファイルを指しているので、実際に見てみるには
URL を入れ直さなきゃならないという点は何とかしてほしいと思う。
おかしなurlに飛ばされても後でチェックすると保存はできているな
801名無しさん@お腹いっぱい。2021/03/11(木) 18:44:03.64
おお、今確認したらちゃんと保存されてた!保存しなおさないといけないと思ったから焦ったよ
教えてくれてありがとう
google系だけじゃないぞ、多分アナリティクスのjsファイルURLが帰ってくることがあるからそう言ってるだろうけど
例えばある人のfc2ブログの記事を保存したら帰ってきたのはそのページで読み込まれるcssやjsファイルだったし
Live page is not available:が出たけどちゃんとセーブされてるのもあるな
「おかしなurlに飛ばされる」ってのは結局
物事をきちんと説明できない池沼が騒いでいただけなのか?
保存して本来表示されるべきページではないurlが表示されている事を報告しているものを
池沼呼ばわりとはどういう了見かな?
806名無しさん@お腹いっぱい。2021/03/15(月) 08:05:56.29
韓国人・朝鮮人式に考えれば良いのですよ。
行先の違うリンクを確認もせずにクリックして、勝手に飛んで行ったのであっても、
チョンにとっては「自分は常に正しい、悪いのは他人」ですから
飛ばされたことになっちゃうんですよ。
Job failedは無くなったけどエラー自体はあんまり変わってないな
ページが存在するのにLive page is not availableが出たりするし
全く意味がわかってないアホがいるようだ
まあ今はあの現象は直ってるようだがな
あーページにぐぐる地図が埋め込まれてるとおかしくなるな なるほど
あんま騒ぎになってないがなんでだろ
ガラケーからだけエラーが頻発かと思えば違うんだね
813名無しさん@お腹いっぱい。2021/03/24(水) 20:24:38.95
twitterでjsonとられる現象減ったね
Live page is not available
815名無しさん@お腹いっぱい。2021/04/01(木) 09:36:27.49
案の定エイプリルフールページで殺到してるのか重いな
archive,todayってURL保存した後にzipでDL出来るみたいだけど
攻略サイト保存したらちゃんと階層や画像も一括でまとめてzipでDL出来んの?
818名無しさん@お腹いっぱい。2021/04/05(月) 16:29:25.73
819名無しさん@お腹いっぱい。2021/04/07(水) 05:09:08.66
This page is not available on the web/because of server error がでてこんにゃろと思ってたら
いきなりロードされて保存済みページが表示されたりがあるな
なんかYahooニュースのURLを保存するとこれが出たりする
ブロックリストに入れるような記事かこれ?
This URL is in our block list and cannot be captured.
Please email us at "info@archive.org" if you would like to discuss this more.
特定個人が発信する政治的記事の過去の言質を取られないようにするためと思われる
主にコロナ関連で
822名無しさん@お腹いっぱい。2021/04/16(金) 07:10:27.48
もしあれだったら5chのニュースキャップなどでニューススレ立ててそっちを保存するか
yahooなら大抵二次なので一次ソースをたどってそっちを保存
同じドメインのサイトを一括で保存してDL用にZipでまとめてくれるサイトってねーの?
ウェブ魚拓の方なんだけど取得できる時とできない時の条件の違いがよく分からんわ
828名無しさん@お腹いっぱい。2021/04/20(火) 01:48:29.85
最近またjob failed出るようになったな
>>825
うちウェブ魚拓いくら待ってもロボット拒否でbanされたわw 830名無しさん@お腹いっぱい。2021/04/20(火) 21:36:13.88
twitterぜんぜん保存されてないな。万単位のフォローがいる垢でも保存されてなかったりする
>>829
Web魚拓はReCaptchaのマークが右下に表示されてから12秒くらい待ってボタン押すと保存できるはず。
長く待ちすぎるとロボット拒否される スマートフォンでアーカイブしたものをスマートフォンで見ようとすると見れないが3Gガラケーでは見れる謎
俺が対策書いた途端にWeb魚拓の仕様が変わって草。
このスレ見てる誰かがスクリプトでも走らせてるのか
最新のブラウザ使ってても「お前のブラウザ古いぞ」的な警告文(黄色)出るの俺だけ?
835名無しさん@お腹いっぱい。2021/04/25(日) 18:05:22.97
インターネット官報誰も保存してない
アカウント作成時の捨てアド排除が始まってるなぁ
二ヶ月前はこんなこと無かったのに
>>830
ちょっと違うけど20年近く続いてる個人サイトとか、あとベテラン作家のブログが保存されてたのにサイトの方は自分が作業するまでアーカイブに無かったってことはあったな
(後者は今のサイトが出来てから2年ぐらいしか経ってなかったのもあるんだろうけど) Twitterのアーカイブは殆どArchive Teamのやつだから
ユーザーページは取られてないけど個別のツイートは殆ど取られてるはず
ページが存在するのにLive page is not availableになるのいい加減にしてくれ
841名無しさん@お腹いっぱい。2021/05/04(火) 08:19:29.48
アカウントの Mailing Lists Settings の項目が増えたな。
Stay up to date with what’s happening at the Internet Archive by signing up for our free newsletters.
□ Best of the Archive: Useful resources, unique stories, and fun finds from our collections
□ Monthly Updates: A snapshot of the main news stories about the archive each month
□ Event Notices: Invitations to and news about our events
□ Donor Communications: Messages for and about our generous supporters
どれも要らないけどw
843名無しさん@お腹いっぱい。2021/05/05(水) 11:05:32.13
インスタ保存したいんだけどできないね
>>843
インスタはちょっと前から出来なくなった
個別の画像URLを抽出して保存は出来る Save screen shotにチェック入れても取られないときあるな
後から取られてるんだろうか?
ちなみにその個別画像urlテンプレ
https●:●//www.●instagram.●com/p/11桁のインスタ画像個別の英数/media/?size=l
こっちもほぼsavescreenshotが機能してない
裏で取れてたりするんかね
たまにyoutubeの動画がアーカイブされてるけど手動で取る方法はないんですかね?
APIの情報も信用できないし、どれが取れていて どれが取れていないかは
結局自分たちの目で見て確認するしかないという現状。
保存の確認のためにWayback Machine Availability APIを使ってみたけど、
保存されてるURLでもスナップショット無しだと返ってくる
壊れてるなこれw
852名無しさん@お腹いっぱい。2021/05/08(土) 17:02:12.53
>>852
おお、ありがとうございます
保存までに時間が掛かるんですね 855名無しさん@お腹いっぱい。2021/05/09(日) 02:38:40.84
>>844
画像のアドレスの仕様にもよるがしおりをつけておかないと後で検索のしようがなくなりがちなやつ
imgurの画像とかも保存自体は出来るがどこの何の画像なのかはどこかに記載されてないとカオスに >>852
それ動画ページが見れるだけで動画自体は保存されないんじゃないの? 858名無しさん@お腹いっぱい。2021/05/09(日) 04:48:52.27
>>858
消されてない動画の場合、見るたびにそっちを取りに行ってる可能性がある
まぁ自分も詳しくないので詳しい人いたら教えてほしい >>859
保存された動画を再生してるみたい
動画のソース
http://web.archive.org/web/20170214133548oe_/https://r4---sn-n4v7sne7.googlevideo.com/videoplayback?ipbits=0&mm=31&mn=sn-n4v7sne7&ratebypass=yes&expire=1487100946&signature=CA5A22657FBABB6AE773DB9B798B5BA86AE9B362.763F505CD7B9A750710077F92F766E70F1A57187&requiressl=yes&sparams=dur%2Cid%2Cinitcwndbps%2Cip%2Cipbits%2Citag%2Clmt%2Cmime%2Cmm%2Cmn%2Cms%2Cmv%2Cpl%2Cratebypass%2Crequiressl%2Csource%2Cupn%2Cexpire&ms=au&mt=1487079325&upn=NGplNw4c3TQ&mv=m&dur=291.108&pl=20&itag=22&key=yt6&ip=207.241.229.47&lmt=1472445730364669&mime=video%2Fmp4&id=o-ADUZW6CaxfO1uC---vHzDaHvx1GQWxmO717IBgPDVTS0&source=youtube&initcwndbps=2738750&signature= Youtubeの動画とかもちゃんと保存されんのか……
YouTubeは定期的に仕様変更してるからIAがそれに対応していくのは難しいらしい
だから昔のページだと動画が保存されてるのもあるけど今はされてない
またサーバーが落ちたのか繋がらないな
archive.orgの方は接続出来るみたいだが…
ttps://archive.org/stats/
日本時間で14時20分すぎから鯖落ち中らしい
web.archive.org までは到達できている。また内部のネットワーク障碍か。
なんか今日はIAの調子やたらいいな
これまで表示されなかったスクショなんかもちゃんと取れてるし
869名無しさん@お腹いっぱい。2021/05/11(火) 15:27:21.28
Youtubeは少なくとも今年1月にとった分は動画まで保存できてたから、時間が経てば取れると思う。
871名無しさん@お腹いっぱい。2021/05/14(金) 18:54:25.52
waybackmachine使っただけで訴えられた事例とかあるの?
873名無しさん@お腹いっぱい。2021/05/15(土) 00:54:51.91
429エラーでもこれはお手上げ
876名無しさん@お腹いっぱい。2021/05/17(月) 10:22:21.67
Cannot get status of 16進数(32桁)というのが出る
保存日時の情報は記録されているけれど、外部リンク調査日時の記録はされていないんだろうな。
これも記録してあればいいのに。
なんではてなブログアーカイブするとfacebookなんちゃらになるんだ
ツイッターも意味不明な表示になったがちゃんと正式urlでアーカイブされてた
サイト内のzip落としたらUAが表示される某サイトで
二度Sorry出したら二度ともUAが表示されていたから保存されてはいるようだ
Cannot save Internet Archive URLs!
今日はこのエラー連発で1時間後にやり直したらできたり不安定すぎる
保存できなかった理由も書いてない
Twitterで特定のアカウントだけexcludedってあるんだな
本人が申請したっぽいけど
ハイパーリンクの情報は当然持ってるとして各ファイルの被リンク情報はなくてもやっていけるんだろうかと少々心配になる
ビッグデータとして利用する客が考えればいいことか知らんが
そもそも今のIAはとにかく情報を溜め込むことだけ考えてそれをどう活用するかは今後次第って感じじゃないかなあ
現状のsaveだけでもサーバー不安定になるレベルで常にやってるし(それでも全然間に合ってなさそうなのが怖いが)
URLで検索してアーカイブ一覧を表示しようとすると次のエラーが出るのだけど
混雑で検索エンジンが止まってるだけかな
The search engine encountered the following error: invalid or no response from Elasticsearch
887名無しさん@お腹いっぱい。2021/05/25(火) 04:48:03.82
>>507
ページ全体は無理だが画像などバラのパーツは個別に保存が可能だったりすることもある
ザル運営のブラウザゲームなどはありがち Cannot fetch the target URL due to system overload.
ナニコレ
>>888
> due to system overload
そういうことだろ 891名無しさん@お腹いっぱい。2021/05/25(火) 23:05:34.28
オーバーロードはなろう系で唯一お薦めできる作品
最近データベースの入れ替えでもしてるの?
Explore more than X billion web pages saved over time
のXが一瞬半分になったり変動がすごい
894名無しさん@お腹いっぱい。2021/05/26(水) 18:10:11.99
This snapshot cannot be displayed due to an internal error.
895名無しさん@お腹いっぱい。2021/05/26(水) 21:05:39.01
回復したかな
system overloadが出ても/*/の後にURLつけると保存できてることがあるので、
一応確認してみるのおすすめ
>>899
> ジオシティーズみたいな普通のホームページサービスだったみたいだけど
ワロタ ジオシティーズやトクトクは普通だけどフリーティケットシアターは普通じゃない的な
/*/はFail with status: 498 No Reason Phrase
なるべく円高米ドル安の時に寄付したほうがいいんだろうな。
batchのページ開いてもトップに飛ばされてしまうようになった
swfのあるページの取得厳しいんだっけ
Cannot fetch the target URL due to system overload.がでる
todayのほうで試したらプロセスが空白で進行せず
megarodonは見かけ上はとれてるがソースからswfの現物アドレスを消して保存してるっぽい
ファイル固有の問題だろうか
デバッガでは開けるんだが
swfってただのファイルじゃないの
どうしてそんなことが起こるのですか
We only allow new captures of the same URL every 45 minutes.
激遅の/save/で行けたりしない?>swf
保存できても表示が更新されないので本当に保存されているか未確認だけど
ファイル1個だけなら画像の確認とかやらないから拡張子関係なく超高速で保存できるはずだけど
Cannot fetch the target URL due to system overload.
出すぎ
915名無しさん@お腹いっぱい。2021/06/02(水) 04:57:26.97
>>910
個別のswfのアドレス投げ込んだら保存できたからひとまずはいいことにする
開くときは開けるアドレスを知ってないとあかんね
デバッガだと「swfを置いてるページ」では開けないんでarchiveのソースに書かれてる現物のアドレスを掘り出してデバッガに渡すまでしないと開かない
(開けるのは確認できた)
>>911
なんかアナウンスされてたよね archiveのswf全部を勝手にブラウザ上で再生してくれるようなものを期待しちゃうけど
そこまでするのは結構大変なはず 3Gガラケーの本体自体にフラッシュの再生機能付いててアーカイブ含め見れるが画面が小さいのがあかんな
ガラケー向けの時計フラッシュまちうけフラッシュは本体が壊れない限り確実に永遠に見れるけどペリーのピアノ講師ネタとか永遠に失われそう
SPNを保存されたかの確認に使うというわけ分からん状況になってる。
誰かが過去に保存したであろう複数ページの記事が途中歯抜けで保存されているのを見かけた。保存失敗か?
元の記事はもう見れないから補完してあげることもできなかった。
918名無しさん@お腹いっぱい。2021/06/02(水) 14:54:32.98
twitterの保存だけやけに時間かかるんだけど
919名無しさん@お腹いっぱい。2021/06/09(水) 00:42:55.87
「Ruffle」というchrome拡張機能使えばFlash見れるよ
920名無しさん@お腹いっぱい。2021/06/09(水) 01:11:29.08
Sorry
You have already reached the limit of active sessions
↑
先週からエラー出まくり
なんかリファラー変更ができなくなったっぽいんだけど俺環?
ブラウザが (IA のヘッドレスブラウザも含めて) リファラを送らなくなったとか
そういう話じゃ無くて?
マジか。じゃ もうリファラ必要なサイトは保存できなくなったのか
925名無しさん@お腹いっぱい。2021/06/09(水) 18:29:55.92
制限するぐらいなら、有料化しろよ
そうそう、IA のアーカイブはサーバのレスポンスヘッダが丸ごと保存されていることに留意。
つまり Set-Cookie でクッキーが返されていた場合、それも保存されているという事。
ログイン管理にクッキーを利用しているサイトで、アーカイブのデータを利用して
誰かに勝手にログインされるという事も起こりうる。
また繋がらなくなった?
保存しようとしても503やら404の画面になるんだけど…
最近、頻繁に使うようになったけど、今繋がらないみたいだね。
だいたいどれくらいで復帰するんだろうか?
1日2日はかかるかな?
親切な表示が出るようになってる
You may close your browser window and the page will still be saved.
>>939
Due to a planned power outage, our services will be reduced on Tuesday, June 15th, starting at 8:30am PDT until the work is complete. We apologize for the inconvenience.
この程度の英文すら機械翻訳使わなきゃ読めない低能 人は上から目線で間違いを訂正するときに性行為より快感を感じるらしい
The capture is estimated to start in 120 minutes. You may close your browser window and the page will still be saved.
うっかりログインし忘れるとこれだわw
523分待ちだったわ 撮ってくれるんならまあいいけど
>>899
members.jcom.home.ne.jpも This URL has been excluded from the Wayback Machine.になるね 1085分、てかアカウントでログインして保存しようとしてもこの表示出るじゃん
アカウント作った意味ないわ
待ち時間が一度表示されてしまうと、その後ログインして
同じURLの再保存を試みても待ち時間が延びるだけ。
952名無しさん@お腹いっぱい。2021/06/20(日) 12:42:15.80
保存は匿名で出来るんですか?
まだログインしないと待ち時間が出る状態なの?
ご愁傷様w
今は直ってるな
というか別に待ち時間があっても後で保存されるんだから良くね?
伊是名夏子のブログのアーカイブを見ようとすると
6月初めぐらいからThis URL has been excluded〜が出るようになってるんだけど、
非表示化か削除依頼出したみたいだねこれ。
956名無しさん@お腹いっぱい。2021/06/21(月) 10:45:02.62
アーカイブのアーカイブが必要になりそう
archive.is 自体が消えてしまったりしないの? という話が。
Cannot get status of spn2-2afbf2c51be876410f7a78331b331ea74cd21c67-5a282757
>>953
ログインしてても普通に待ち時間表示出るけど、時間帯によって変わったりするの? >>952
>>57
問題なのは関連付けされてる場合はログインしている時のメールアドレスやユーザ名、ログイン関係なくハッシュ化したIPアドレスやUserAgent部分がWARCファイルの名前フィールド部分に保存される可能性がある。
気になるなら保存するときだけUserAgentやIPアドレス変えたり保存するページごとに別ければいい。 何度許可してもログインしなおしてもBatchのArchive URLsに入れない
Batch入れないけど、騒いでるの俺だけっぽいから俺環なのか
皆さん自前でバッチ処理しているから使ってない、に一票
966名無しさん@お腹いっぱい。2021/07/12(月) 07:09:59.53
あるWEBサイトの一部が消えているのだけれど、
インターネットアーカイブでも履歴が残っていないことがある
忍者とかいうブログサイトを使っているのだが、
あそこって削除した画像とかの履歴を残さないようにする機能とかあるのだろうか
967名無しさん@お腹いっぱい。2021/07/12(月) 16:06:59.65
>>966
他の魚拓サイトにも残ってないの?まあブログはアーカイブされてないことが多いからなぁ。 忍者って昔やたらボット除けに精を出してた所じゃないか
って今時の人は知らんのか
で、もうそろそろ次スレテンプレの話題でも
969名無しさん@お腹いっぱい。2021/07/12(月) 23:07:03.45
ツイッターのアーカイブ保存、回収の法則テンプレに入れようぜ。
アーカイブ保存は
mobile.ツイッター.com
でなければならないが
回収web.archive.org/web/9999/はmobile.を外さなきゃならない
ってこれガラケーだけ?
普通にTwitterをアーカイブすればmobileは付かないと思うんだが・・・
それは置いといて>>5とかの話は入れたほうが良さそう Hrm.
The Wayback Machine has not archived that URL.って出るサイトは
どうやってもみれないんですか?
>>974
アーカイブしてないからそもそも保存されてない ttps://wiki.archiveteam.org/images/e/e6/Archiveteam.jpg
archiveteamが保存した一部のスナップショットを見ると、この「俺たちが保存したぜ」画像のURLを読み込むから、
誰がどのページを見たかarchiveteamのウィキサイトに情報が漏れるんだけど、ただのスパイじゃねーか。
Internet Archiveの人は誰も気付いてないのかなこれ。
と、自分でスクリプトを組んでアーカイブできない無能が文句を垂れております。
>>977
個人がアップロードしたWARCファイルは扱ってないじゃん
結局のところ制限引っかからないように/save/にURL投げるコードしか組めんよ
何も知らない無能はお前だ そのレベルの情報を気にするなら個人でproxyなりVPNなり使えばいいのでは
なぜArchiveTeamだけを気にしてるのかは知らんが
980名無しさん@お腹いっぱい。2021/07/19(月) 22:59:58.68
>>976
ほんまや
About this captureの説明のところに埋め込んであった
でもブラウザの挙動はCSPで読み込みブロックってなってるから
インターネットアーカイブ側の対策でデータは送信されてない感じかね インターネットアーカイブが25歳になったら、知識がすべての人にとってよりアクセスしやすくなった極めて重要な瞬間を経て、戻る方法から進む方法への旅にあなたを招待します。
アレクサンドリア図書館からヨハネスグーテンベルクによる印刷機の発明まで。
情報への権利の第一修正の保証からワールドワイドウェブの作成まで、知識へのアクセスは常に建設者と夢想家のおかげでした。
さて、ブリュースター・ケールという若いコンピューター科学者がデジタル時代の「すべての図書館」を建設することを夢見ていた1996年にさかのぼります。
人類の出版されたすべての作品を含み、一般に無料で、時代を超えて非営利団体として構成されたライブラリ。彼はこのデジタルライブラリをインターネットアーカイブと名付けました。
その使命は、すべての人に「すべての知識への普遍的なアクセス」を提供することです。
この25年のマイルストーンに関するブリュースターの考察を読む
バーチャルセレブレーションに参加する
あなたが世界のどこにいても、私たちと一緒に祝いに来てください。
ウェイバックからウェイフォワードへ:25のインターネットアーカイブ
星を目指して到達したビルダーと夢想家との仮想の旅。
10月21日木曜日午後6時PT(午後9時ET)
YoutubeのURL取ったら下のメッセージが出た
It may take a few days for YouTube videos to become available for playback.
動画もアーカイブされてるってことでいいのかな?
984名無しさん@お腹いっぱい。2021/07/24(土) 13:53:59.14
Youtubeを保存したいなら手動保存が望ましい。クローラーの保存だと再生できないケースあり。
<title>だけでも検索できるといいんだけどなあ
989名無しさん@お腹いっぱい。2021/08/01(日) 16:10:13.05
991名無しさん@お腹いっぱい。2021/08/01(日) 18:27:20.02
それはしゃーない
992名無しさん@お腹いっぱい。2021/08/01(日) 19:07:49.48
次スレたのんます
Tor clients have already done 200,000 captures today. Please email us at "info@archive.org" if you would like to discuss this more.
とか出てきたんやけど・・・
Tor使ってないのに俺も今日初めてそのエラーが出てきた
9時過ぎたので、一応リセットされて表示されなくなったが、
毎日これが出たら困るな、特に朝保存したい場合は
997名無しさん@お腹いっぱい。2021/08/13(金) 19:21:46.35
IAの中の人はTorがどういうものか分かってないらしいw
【 html化されたこのスレを読んでいるお前へ 】
おい、お前。そう、お前だよ。
「このスレおもろいから見てみ」「2ちゃんの歴史に残る名スレだぜ」とか言われてホイホイと
このhtml化されたスレを見にきた、お前のことだ。
どうだ?このスレおもしれーだろ。
でもな、お前はこのスレを読むだけで、参加することはできねーんだよ。
可愛そうにな、プププ。
俺は今、ライブでこのスレに参加してる。
すっげー貴重な経験したよ。この先いつまでも自慢できる。
まあ、お前みたいな出遅れ君は、html化されたこのスレを指くわえて眺めてろってこった。
10011001Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 498日 18時間 48分 6秒
10021002Over 1000Thread
5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php