Internet Archive総合 (web.archive.org) #5
【QA】
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
Q.寄付したいんだけど?
こちらから金額,一度きりか毎月か,送金方法を選んで寄付してください
https://archive.org/donate
Q.すぐに保存したい場合は?
Save Page NowにURLを入力して「SAVE PAGE」ボタンを押す
https://web.archive.org/save/
Q.アカウント作ったらなんかいいことあるの?
A.ページのスクリーンショットを保存したり、ページの全てのリンク先を保存できる「Save outlinks」という機能が使える
Q.spn@archive.orgにメールでURLを送ったら保存されるの?
A.1週間後に保存完了のメールが届いたり、何も戻ってこない失敗した場合があるので、確実に保存したいなら辞めたほうがいい Q.インスタのURLが保存できないんだけど
A.ログインしないとコンテンツが表示されない仕様になったので保存自体が無理になってます
Q.robots.txtでia_archiverをDisallowしても無視されるの?
A.中古ドメインでサイト見れなくするやつのせいでrobots.txtを見ない仕様になったので無視されることも従うこともある。保存できることもあるので確認してみたほうが早い
Q.鯖落ちしてる?
A.ここで鯖状態を見れる
https://analytics0.archive.org/stats/wb.php
https://archive.org/stats/
Q.Temporarily Offline The Internet Archive's sites are temporarily offline. We apologize for the inconvenience. って何?
A.たまにメンテやってサイト見れなくなることがあるので、待ちましょう。ツイッター(@InternetArchive)でメンテ予告は発表しています
Q.Save Page Nowの制限などの仕様は?
A.ここを参照
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit
Q.Save Page Nowで保存完了しても保存されたページが表示されないんだけど
A.完全にページが見れるようになるのと、/*/のページ一覧やカレンダーに反映されるまで時間かかるので最大数日待ってください
ほとんどは数分後には見えるようになってるはず、もしくはウェブブラウザのキャッシュを削除するといいかも Q.「The capture is estimated to start in XX minutes.」って何?
A.Save Page Nowの保存サーバーの空きがなくて保存処理に時間がかかってる状態、急いでなければあとでやるのも手
Q.The same snapshot had been made XX minutes and XX seconds ago. We only allow new captures of the same URL every XX minutes.
A.同じURLを短期間の間に何度も保存できない仕様になっています、誰かが数分前に保存したか、自分で保存したときに一部の画像がかけて保存されている状態でも表示されることがあります
気になるなら1時間後ぐらいにもう一度保存してください
Q.The server didn't respond in time for https://(保存しようとしたURL)
A.極端にページの返答が遅いサイトを保存しようとするとこの表示が出ます、何度かやれば保存できることもあります
Q.「You have already reached the limit of active sessions」が出た
A.同じIPアドレスからの同時保存制限に引っかかってる状態。2021年5月24日以降はログインしていないユーザーは同時保存は3個まで。1分ほど待てば制限解除される
Q.「This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.」が出た
A.1日に同じURLは10回まで保存できる制限に達したので、また明日(UTC) Q.「This URL has been excluded from the Wayback Machine. 」って何?
A. robots.txtのブロックや、サイトの運営者や著作権者がドメインやこのディレクトリごと非表示化の申請をした可能性があります、
ただしURLの保存はできますし、将来的にブロックが解除されて見れるようになる可能性もあります
Q.「Cannot get status of spn2-乱数」のエラーは何?
A.Save Page Nowで保存中にサーバーの状態が取得できなかったときのエラーで、/*/で保存されているか確認して、されてなければもう一度保存してください
Q.「404 Not Found」のエラーは何?
A.サイトが存在していてもこのエラーが出ることがあります。その場合は時間あけて一度保存してみましょう
Q.「Sorry Job failed」が出た
A.このエラーが出たとしても一部画像やスクリプトファイルが欠けた状態でページ保存できていることがありますので、/*/で確認してみてください
保存できてない場合はやり直してください アーカイブ済のURL一覧を出力する方法
1. http://web.archive.org/cdx/search/cdx?url=example.com*&output=txt にアクセス
2. example.comのところをアーカイブしたページのトップページURLに変える。*を誤って消さないようにすること
3. 大量のテキストが出るので全選択してコピー
4. Excel立ち上げてCtrl+Aで全選択して貼り付け
5. 「テキストから列へ」を選んでスペースを基準にセルを区切る
6. セル列のアルファベット文字をクリックしたらその列が全選択になるからURLの列をコピーしてテキストエディタに貼り付けるなりする
同じURLでも保存した時間分の数書いてあるから置換ツールで重複した行を消すこと
IAのURLsでは10000個までしか表示できないがこの方法使ってアーカイブされたURLの正確な総数がわかるはず
WEB版のExcelだと貼り付け時に容量オーバーで受け付けてくれないことがあるからその場合はLibreOffice Calcでも使えばいい
LibreOfficeの場合貼り付け後、表全体の全選択を解除し、1回セルAをクリックしてセルAを全選択した後、データ→テキストから列へ を選ぶことでセル分け可能
引用元: https://exposureninja.com/blog/extract-urls-archive-org/
https://mevius.5ch.net/test/read.cgi/esite/1628793497/332 >>1おつ
Internet Archive総合 (web.archive.org) #2
https://mevius.5ch.net/test/read.cgi/esite/1475246713/5
5 名前:名無しさん@お腹いっぱい。[sage] 投稿日:2016/10/01(土) 04:24:53.46
テンプレのQ&A二件、まだそんなやり方が通用すると思ってる奴いるの? todayだとヤフーニュースが保存できなくなってる
だからInternet Archiveで保存することが増えた
慶応vs横浜だけじゃない…甲子園目指す球児とファンを悩ます高校野球「パイア問題」とは?
news.yahoo.co.jp/profile/comments/55eb7cbd-6f69-41ed-ab91-6d7a3ebd5d16 私も19年前鹿児島県大会の夏、三塁塁審の誤審により三点本塁打となり高校野球を終えました。
主将を務めていた私は何度も三塁塁審へ抗議にいきましたが、塁審は「私が間違う訳がない」の一点張り。
その日に放送されたニュースでもしっかりファウルである映像が映し出されましたが判定が覆ったわけでもなく、
むしろその誤審をした審判は今や鹿児島県高野連の審判長まで登り詰めております。
ただ試合後主審の方が私を呼び出し、「審判も人間だから間違うときもあるからね」と声を掛けられました。
誰が見てもわかる誤審であっても審判長にまで登りつめるためには誤審を認めるわけにはいかない、
審判の方々も会社と一緒でそういったなかでされていて大変なのかもしれないとこの歳になって少しわかってきました。
todayでも↑のコメントを保存したかったなあ… 盲人でも野球の審判を業務として行えるという実例ですね twitterのプロフィールはwaybackmachineで保存できなくなった
個別のツイートは保存できるけど、コメント欄は保存できないし、いろいろ改悪されたなあ tubeupでひたすらサムネイルだけ上げてる奴って何が目的なんだ?
他の人がアップロード出来なくなるから普通に迷惑なんだが ニコニコとかYouTubeってarchiveで保存しても動画再生出来ないの? >>16
自分は魚拓サイト初心者だから専門的な知識とかは余り持ってないけど
IAやtodayでは動画サイトの動画は恐らく保存されないと思う
>>16 >>17
IAはYouTubeだけ特別に動画も保存される仕様になってる >>14
今はプロフィールも保存できるね(ログインしなくても閲覧出来る)
方針コロコロ変えすぎでわけが分からないよイーロン 動画サイトが動画直リン保存すればいける場合もあんのか またTwitterのプロフィール取れなくなってるわ
あのさぁ・・・ あれ?また取れるようになってるな
非ログイン状態でも見れるプロフィールと見れないやつがある?
条件が分からん なんかtwitterのプロフィール保存すると、過去ツイがランダムに表示されるだけで、最新のツイートが保存されてない。
もう訳わからんわw archive.orgって画像複数を一括保存とか出来る?
いちいち一つずつURL入力保存しないといけないの? >>24
Have you ever wanted to archive all the web pages linked from an email message?
Well, you are in luck because now you can forward that email to savepagenow@archive.org”
and after a few minutes you will get an email back filled with Wayback Machine playback URLs. >>7
>
> サイトの仕様で取れないもの
> https://ch.dlsite.com/matome 記事本文が取得不可、todayなら取れる
> https://www.pixiv.net/ 投コメのみ取得可、todayなら取れる
>
↑今春までならtodayで取った完全アーカイブをarchive.orgへ再取り出来たんだが拒否URLにされたのか弾かれるようになってしまった。。
>>29
終了告知から終了まで1か月もないとはひどいサービスだな Sheetsのbatch処理ここ数日ずっとqueuedのままや
そんなに使ってる人おるんか archiveってpornhubとかエロ動画直リン保存ってしていいの? >>31
日本語記事も出た
ソニーら音楽各社、著作権侵害でInternet Archiveを提訴。SPレコード2749作品以上をデジタル化・公開
https://www.techno-edge.net/article/2023/08/13/1742.html >>33
internet archiveの規約を見た感じ特にルールは設けられてなさそうだけど、
archive teamによるとコンテンツが削除されたり、アカウントが凍結されたりする可能性はあるらしい
余談だけど、archive teamは元々ポルノはネット上で最も分散保存されているコンテンツだからアーカイブしないという方針だったんだけど
wikiの編集履歴確認したら、今年8月からは通常のコンテンツと同様の扱いにするという方針に切り替えたっぽいな
https://wiki.archiveteam.org/index.php/Porn 最近フラッシュのページのアーカイブ見るとruffleっていうSWFエミュレータが起動してフラッシュを再生してくれるようになったな xtubeの動画のアーカイブもなんとかなりませんか
どうせどっかにあるんだろ SPN2のAPIのドキュメントに、「anonymous user」って表記があるんだけど、anonymous でAPI叩くには何を指定すれば良いの?
authorizationヘッダを付けずにAPI呼ぶと、
"You need to be logged in to use Save Page Now."
ってエラーになっちゃう。
anonymousの制約で十分だから、APIキー無しで使いたいんだけどな >>39
それ、応答を HTML でも返せるところを
Accept ヘッダでわざわざ JSON 形式を要求すること自体が要アカウントっぽいんだよね。
どーしてまたそんな所に匿名ユーザ制限が入ってるのかは解らんけど。 現状のSPN2APIはよく分からん仕様が多くて「痒い所に手が届かない」感じなので
あまり深く考えない方がいい ヤフー知恵袋、SPNだと取れるのにoutlinksの方だけエラーになってるぽいな ここ最近自動でアーカイブされてないこと多いよな。
御叱りでも受けたか? ここ数日やけに接続エラーが起きてると思ったらこれなんだよね。
スクリプトは当面 HTTP へ切り替えるかぁ。
>>45
道理で最近つながりづらいことが多いと思ったら・・・
俺環だけではなかったのか 久々に SPN2 API のドキュメントを見返していたら、
/save/ に新設のパラメータがあることに気づいたぁ。
use_user_agent=<XXX>
Use custom HTTP User-Agent value when capturing the target page.
2022-07-28 日付けの版で追加されてたのね。 Sorry Job failed
と表示されるarchive.orgのページが保存される謎バグに遭遇して笑った
ただの表示バグだと思いたい Atwikiってspn で取れなくなってる?
エラー吐いてる と、何のエラーか説明すらできない言語障碍児が申しております。
おま環じゃなかったか
アニオタwiki消えそうだから保存しようとしたんだけどなー
Archiveboxで自分でwarc取るしかないか
センキュー HTTP status=403
atwiki側が意図的に排除してる
エラー吐いてる、だけじゃ何もわからんな atwikiって前は取れた気がするけど
方針変えたのか? Googleだとなぜかhttpの方がインデックスされてるせいで繋がらないな
というかいい加減httpからhttpsに転送するようにして欲しい Internet Archive総合 (web.archive.org) #4
https://mevius.5ch.net/test/read.cgi/esite/1628793497/975
975 名前:名無しさん@お腹いっぱい。[] 投稿日:2023/07/24(月) 07:55:27.47
放置してたらURL8万行分集めてて、もう飽きたからこれアーカイブしてdatアーカイブやめます
保存されるやつみたら文字化けしてるし意味あるのかなといった感じでもある
普通の過去ログやる方が有意義におもう
↑エアプ野郎w http://homepage2.nifty.com/J-R/enjoy%20pich.htm
↑のアーカイブを見ようと思ったら「This URL has been excluded from the Wayback Machine.」となってて、つまり除外設定されてるんだけど
これの理由(誰が、いつ申請したか)を知る事って出来る?
禁止しているドメインの一覧は多分↓なんだろうけど、このページ自体は2019年くらいから作られるし、リストに追記される理由とか何も書いてないから詳しくがわからん
https://wiki.archiveteam.org/index.php/List_of_websites_excluded_from_the_Wayback_Machine
個人が作るHPスペースをまるごと除外設定するのが通るのは、インターネットアーカイブの目的としてもちょっと勘弁して欲しいなあ
個人HPこそ後世に残したい >>56
> 保存されるやつみたら文字化けしてるし
テキストエンコーディング変換前のファイル見れるだろ >>58
多分このことじゃね?
https://web.archive.org/web/20230711093514/https://agree.5ch.net/operate/dat/1608930977.dat スクリプト回してるのにim_とかid_とか知らないって嘘くせぇ
https://web.archive.org/web/20230711093514im_/https://agree.5ch.net/operate/dat/1608930977.dat >>57
理由は公開されないけど基本的にサイトの管理者が除外申請した場合だね
確かにアーカイブの目的には反してるが、ここをしっかりしないと著作権侵害で突かれる可能性があるので
あとexcludedであってdeletedではないのでIAには残ってるはず、オンラインでアクセス不可になるだけ YouTUbeの再生ページがアーカイブされるの遅過ぎだろ。
何やってんだよインターネットアーカイブに保存する人は!全然チェックされてないじゃん!
やる気あんのか?寝てたのか?
どうして誰も保存しないんだ?自動アーカイブはどうした?
https://www.youtube.com/watch?v=jjZEQ9Nocp4
https://www.youtube.com/watch?v=lnlyZlIRO1U YouTubeの再生ページがアーカイブされるのがかなり遅いケースがもう10か月以上も続いている。
公開から10時間後とか。
自動アーカイブはどうしたのか? 5chをアーカイブしてもエラーページになる事が増えたなぁ
重くなってるのか? 一番上に書いてあるvideoとかmusicってなんですか?
いろいろありますけど保存してもいいんですかね? 昔と違い私的理由で使う人が多すぎて
ゴミ集積場化が止まらない archive.today繋がらない
おま環?
>>66
たとえばどんなサイトの事言ってるの? >>64
同感
たとえば「【文春砲】令和の米騒動、現場写真がリークされる」というスレッドも
8月31日の11:32:22は保存できているのに、それ以降はエラーが起きて保存されていない
web.archive.org/web/20230000000000*/https://nova.5ch.net/test/read.cgi/livegalileo/1693474206 もう「なんでも実況(ガリレオ)」板のスレは過去ログの魚拓とれないのかもな
【悲報】安倍晋三語録、「同意」を表すものが存在しない
nova.5ch.net/test/read.cgi/livegalileo/1693837620
IAではserver errorとなるしアーカイブトゥデイでも「Not Found (yet?)」となる → archive.is/I6WEN >>71
nova.5ch.net は 7 月から継続的に DDoS 攻撃を受けているサーバのうちの一つ。
その対応で、おそらく日本以外の IP 向けに L4 レベルのアクセス制限を掛けている。
https://agree.5ch.net/test/read.cgi/operate/1673084281/16- >>73
なるほど
確かにエラーが起こるのはnovaが多かったな
永久に解除されない、なんてことにならなきゃいいが・・・ 【悲報】17歳の上玉白人美少女ちゃん、交通事故の罪で終身刑を言い渡される
nova.5ch.net/test/read.cgi/livegalileo/1693978274
このスレもサーバーエラーで魚拓とれなかったからグーグルのキャッシュ経由で魚拓とった
archive.li/pGUd4 家のWi-FiでCONNECTION REFUSEDしか出ないから試しに携帯回線につなぎ替えたら普通に繋がった。
手動で取ってただけでアク禁にされたのか >>76
それ、一週間前にうちもやられた。
仕方なく筑波 VPN 挿して、同じようにガンガン回したけどそっちは止められることが無かった。
何が引っ掛かったのか、全くもって判らん。 前スレのころ20分ぐらいつながらないことがあったが、
それ以上に長くつながらない・・・ twitter、じゃなくてX取れなくなってるな
個別のポストはtodayの方で辛うじて取れるが twitterで良くね
Xとか勝手に名称変えたアホ以外誰も言ってねえわ ジャスコ、ダイエー、サティ、ダイヤモンドシティ、イオン、 前スレ955への返信だがグーグルキャッシュなどを経由すれば
好き嫌いドットコムのコメント欄も魚拓とれる場合がある
webcache.googleusercontent.com/search?q=cache:syMmr8fOqbkJ:https://suki-kira.com/people
/result/%25E3%2582%2586%25E3%2581%259F%25E3%2581%25BC%25E3%2582%2593 >>76
アク禁にされたっぽい
保存はやってなかった、心当たりがあるのは多数の保存済みアーカイブを一斉に開いただけ ツイートと付随する動画像をCSVでまとめて落とせる国産ツールない?
イーロンになってからアーカイブサイトにいれるだけじゃ不安だから、自前で持っておいて必要に応じてアップできるようにしたい Batch process Google Sheetsがabort出来ないバグ何とかしてくれ
相手側に負荷がかかってたらどうすんだよ 5ちゃんも有料化云々でヤバそうだし
スレアーカイブしといた方が良さそうだな…
そろそろ消えそうな予感 いつ復旧するかなー
Attempts to archive this video failed.
はなんなんだよ savepagenowを実行したあとにgoogleのサポートページ?に飛ばされるのはどういう仕様? twitterの記録取れなくなるのは将来に禍根を残すと思うわ。
数百年後に歴史を振り返った時にSNSは史料的な価値があると思う。 今のツイッターって?failedScript=vendorつけても無理になったの? teacup. byGMOレンタル掲示板あんま残ってねえな Sorry
Cannot resolve host ipv6.icanhazip.com.
IPv6 の名前解決ができなくなってる Wi-Fiに切り替えたら繋がった。
どうやらアク禁らしい。
普通に閲覧してただけだし、何も心当たりないんだけど… >>106
えっ、そうなの?
とりあえず今はアク禁解除されたっぽいけど、
アク禁になる条件って、短時間にたくさん見るとか? 人間レベルの閲覧でアク禁になるなんて聞いたことないが
ただの勘違いじゃないの? 画像が大量にあるページでそのほとんど取れてなかったりするとすぐ開けなくなる >>109
> 画像が大量にあるページでそのほとんど取れてなかったり
その取れてない画像、全て/save/にリダイレクトされてるから
結果として大量にアーカイブ要求を発行することになるんだよね
んで、その時にアーカイブされるのは3つ程度であとは全て429エラー
運が悪いとそのままアク禁 >>99
過去ログについては一応、2chSCへも殆どがミラーされてるはずだけどな…。 油断は禁物
あとpink系は全部だめ
5ch新設板系も全部だめ scはクロールされてるなと思って後で確認すると途中でクロールが止まってそのままというのがかなりある
こういう状態になるとクロール再開しないケースが多く5ch側が飛んだ時に頭のほうしか控えが取れてなかったりする 過去ログ、今年中は見れない可能性あるらしいな・・・
0119Ace ★
2023/10/13(金) 09:40:26.65ID:CAP_USER
過去ログについてですが、現状はアーカイブ圧縮状態で
展開再配置は相当に時間がかかる見込みです。
完了は年を越す可能性もあります。
https://agree.5ch.net/test/read.cgi/operate/1697113482/119 たまに総アーカイブ数が294 billionって表示されるの何なんだ? >>112
一応なんG板とか、2014年春以降に新設された板でもSC側のbbsmenu一覧ページに追加されてないだけで、
[ http://tomcat.2ch.(えすしー)/livegalileo/ ]
…の鯖名から開けばアーカイブされてたりするけど、PINKともども最近の過去ログについては本鯖のモノが未だ活きてる。 >>107-108
残念ながら自分も・・・
前は20分ぐらいつながらなかったのが、
最近は締め付けが厳しくなりそれでは済まないレベルに >>107-108
残念ながら自分も・・・
前は20分ぐらいつながらなかったのが、
最近は締め付けが厳しくなりそれでは済まないレベルに こんなのがいつのまに
2022年11月18日 23時00分レビュー
無料&広告なしで個人サイトを作成できるGeocities風サービス「Neocities」を使ってみたよレビュー
https://gigazine.net/news/20221118-neocities-free-website/ 利用者の多いコンテンツの生殺与奪を特定小数人が握ってるのは危なっかしいよな
ttps://hayabusa9.5ch.net/test/read.cgi/mnewsplus/1698901347/
まあつべはバックアップを隠し持ってそうだけど こんな金になりそうなもん手放さねえだろうし 一般人が直に利用できないだけで 日本の書籍が著作権ありのもたまにいいのがアップされてたのが、騒動以後いっこもアップされなくなったなあ
結構暇つぶしにいいのに 質問です
・今開いているサイトの魚拓をワンクリックで取る方法はありますか?
(いちいちInternet Archiveのサイトを開いてコピーしたURLをペーストして決定を押すのがちょっと面倒です
)
・サイト全体(orサイトの複数ページ)を自動で保存してくれる機能はありますか? アクティブチームw
どうしてもすぐにアーカイブしたい動画があるならtubeupを使って自分でうpするか
Yt-dlpを使ってメタデータを含めてローカルに落とすのが理想や! ArchiveTeamは特定の動画(削除の危機がある, ニュース, 政治etc)に限定して保存してるから、保存したい動画は手動保存する必要がある
リソースは有限だからね
↓詳細
https://wiki.archiveteam.org/index.php/YouTube#Scope Wayback Machineに保存されてるそこそこ古めのページを表示すると、一部の画像が表示されない事ってよくあるよね。
あれって何でああなってるの?たとえば以下のページなど。
https://web.archive.org/web/20021017173116/http://www.namco.co.jp/home/cs/lineup/mrdriller/page01.html
このページは2002年保存だけど、比較的新しい2010年とかに保存されたページでも同現象になってたりする。
当時保存した人も、ちゃんと保存できてるか確認して、当時は問題なく表示されてたんだと思う。
今俺たちが保存してるサイトも、10年後には画像がところどころ抜け落ちて不完全な状態になるのかと不安。 >>134
そもそも Internet Archive でヘッドレスブラウザを実装したのがほんの数年前のことで、
それまでは指示された単一のファイルをアーカイブするだけだったから。
アーカイブされた HTML をクライアント側のブラウザで表示したときに
個々の画像等の保存リクエストが Internet Archive へ発行されるような実装が
なされたこともあったが、それ自体も 2010 年代中盤だったはず。 そうかなぁ?
俺はInternet Archive側にある画像ファイルが何らかの理由で勝手に消滅したと思ってる。
以下のサイトとかもそう。画像が1つも保存されてないのはおかしいだろ。
https://web.archive.org/web/20131007222449/http://www.spike-chunsoft.co.jp/fr/index.html >>137
それ Alexa のクローラが保存したアーカイブだしw
昔のエッチサイトで自分が見たいところだけ抜け落ちてる悲しみ(´・ω・`) IAのアーカイブって色んな団体のアーカイブがまとまったものだからな、SPNなんてごく一部だよ
画像も収集してる団体もあれば、HTMLだけを取得してる団体もあるのでアーカイブ次第
例えばウェイバックマシンを使ってるとよく目にするCommon Crawlはほぼ画像が取得されてない 確実に保存したい時は
InternetArchiveとArchive.todayどっちもアーカイブしてるわ
それで大体残ると思うけどどうだろ >>141
それで精度だったり保存量にばらつきがあるんすね ここ最近自動アーカイブがされてないようだけど一体どうしたんだ? えっ?年齢認証のページも保存できたの?初めて知った。
以前、以下のページを保存したかったけど諦めたんだ。
https://www.konami.com/games/pcemini/jp/ja/
もしこのページ保存できるなら、上部メニューの8ページほど保存しといてほしい。もしくはそのAPIの使い方を具体的に教えてほしい。
まだ誰も上手く保存できてないみたいだし。 >>149
確認できたわ、ありがとう!
Internet Archiveを極めてるね! If something goes wrong please click here to send us an error report.
ってやつ、下じゃなくて上に配置してくれないかな・・・
何回誤送信したか分からん twitter保存できないことが最近増えてるみたいだけど、archivetodayでも保存できない場合は、cacheリンクをぶち込むと保存できるでー twitter以外の保存できないサイトも、
https://webcache.googleusercontent.com/search?q=cache:保存したいリンク
をWabackmachineに入れればキャッシュを保存できる。 リダイレクトページを保存して過去のアーカイブ上書きして使いづらくする問題
なんで放置されてんだよ! 俺も基本nitterキャプってるなTwitter取得する時は "The requested video has been archived but is not currently available for playback."と"Attempts to archive this video failed."が出たときが一番ダルい イーロン・マスクのせいで、1tweetごとにarchiveしないといけなくなったけど、
より問題なのは、tweet群が本人の削除やアカウント停止などで消されてしまったら、
archiveがあってもtweet同士のつながりがわからなくなること。
以前はtweetを1カ所か何カ所かwayback machineで押さえれば、スレッド丸ごとarchiveできたのに。 何度保存しても「Hrm. The Wayback Machine has not archived that URL.」が出続ける。 >>160
ほんとゴミだよな
戻してくれないもんかね… >>161
> 何度保存しても
数日後、その何度も保存したのが一斉にカレンダーに登場するパターンw SPNって一日1000ページ保存が上限なのか。初めて引っかかった。outlink込みでやってたからか。
あと最近頻繁にログアウトしてしまうんだけどこれも不具合なのかな。 どっとうpろだ.orgサービス終了かよ
知らなかった 忘れた頃に消えてくれるからお世話になったなぁ・・・
長いことおつかれさんでした 普段は「Not Found」が出ても何遍か更新すると正常に戻るが、今は何遍更新しても・・・ マジか。保存対象URL側に問題あるのかと諦めて魚拓で済ましたけどIA側の問題だったのか URL側の場合は「Not Found」というか普段から「このURLは保存不可」的なのが出るが、
今はどのサイトを入力しても「Not Found」 JSON で user status を得ようとしても 503 が返る
逝っちゃってるねぇ
https://web.archive.org/save/status/user 今日朝からnot foundだったから来てみたらおま環じゃなかったか ようやくできるようになったが、4時間待ち(待ち時間は環境によるだろうが) 復活したけど、これじゃ今日のページ存できないな
The capture will start in ~7 hours, 39 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved. 待ち時間未明よりは減ってるが、まだ1時間待ち(環境によるだろうが)
ただし、PDF絡みの取得は問題なし ページを保存しようとしたら
The capture will start in ~3 hours, 5 minutes because our service is currently overloaded. You may close your browser window and the page will still be saved.
と言われて、まだ終わらないけど、MP4動画単体を保存したら瞬時に保存された。
2023/12/03(日)19:39:14
URL: https://video.twimg.com/amplify_video/1727180400236417024/vid/avc1/1280x720/WJL1FSGpy8aLWnvc.mp4
Job: https://web.archive.org/save/status/spn2-a3a61ee7a77e38b016777f4e7c9b1139d337b0d8 [success][0.29s][初]
成功: https://web.archive.org/web/20231203103915/https://video.twimg.com/amplify_video/1727180400236417024/vid/avc1/1280x720/WJL1FSGpy8aLWnvc.mp4 - 2023/12/03(日)19:39:15 >>183
.jpg とか .png とか .zip とか、ヘッドレスブラウザでレンダせず
ファイル単体を保存するだけで済むものはそんな感じ。
.pdf も outlinks の走査はされるけど何故か速い。 でた蔵の過去のテレビ番組のアーカイブ2022年12月以前の削除されちゃったんだな、最悪
gooといい価格コムといい削除するなら最初から公開しなきゃいいのに
NHKも一時期過去の番組表見れないようにしてたし何の目的なんだろうな
維持するのも金がかかるのかねえ 更新終了および閉鎖のお知らせ
2017年7月より更新を続けてきたウェブメディア「wezzy」ですが、2023年12月31日をもって更新を終了する運びとなりました。長年のご愛読ありがとうございました。
2024年3月31日にサイトの完全閉鎖を予定しております。
https://wezz-y.com/archives/95862 更新終了および閉鎖のお知らせ
2017年7月より更新を続けてきたウェブメディア「wezzy」ですが、2023年12月31日をもって更新を終了する運びとなりました。長年のご愛読ありがとうございました。
2024年3月31日にサイトの完全閉鎖を予定しております。
https://wezz-y.com/archives/95862 こんな糞重いクルクルクルクルしてるだけのゴミクズサイト
すでに2億円も寄付されてるの糞受けるな
裏金アベノイミン党みたいな連中だ Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.
saveできない
また逝ってるのかな やっと復旧した
┃ 午前9:18 ・ 2023年12月6日
┃ https://twitter.com/textfiles/status/1732192819098292677
┃ Jason Scott @textfiles
┃ Power has gone out at the @internetarchive primary datacenter; waiting for it to return.
┃ 午前10:04 ・ 2023年12月6日
┃ https://twitter.com/internetarchive/status/1732204429066289608
┃ Internet Archive @internetarchive
┃ Sorry, http://archive.org and http://openlibrary.org will be back in a few,
┃
┃ but a short term power outage was long enough to make recovery take a little while.
┃
┃ We apologize.
https://twitter.com/thejimwatkins あ゙あ゙あ゙あ゙あ゙ーーー
ここ何日か>>195のような表示がそのときそのときで出たり出なかったり
取得そのものができないよりは増しとはいえ・・・ >>196
やっぱそうだよね、自分の環境のせいかと思ってたけど 11 時間 42 分経過、結局アーカイブされてなかったからリクエスト発行し直した。
てゆーか 10 時間とか 20 時間とか言われても、数分後に同じ URL のアーカイブを
再リクエストしたらタイミングによってはすぐ保存してくれることもあるので
こういう時はやり直すのが正解だと理解することにした。 緑色の一日おき程度に取得した不完全なのを見かけるけどこういう事象の跡なのね Save outlinksで取得出来るページ数減らされてる… まあここ最近、調子悪いからな。
しばらくすれば元に戻るかも。 Sorry
You cannot make more than 100 captures per day. Please email us at "info@archive.org" if you would like to discuss this more. なんかめちゃスムーズにspnリクエスト送れるようになってる
昨日ぐらいまでめっちゃ糞詰まり起こしてたのに >>205
アカウント作れよ、上限が 300 倍に増えるぞ
てゆーか登録ユーザの daily_captures_limit の値、30000 まで減ってるのな
Sorry
Job failed
ってIAの画面がアーカイブされてる?ときって失敗ってことなんかな >>208
自分の経験ではアーカイブできてる事も失敗してる事もある
そういう時は web.archive.org/web/2/ に対象の URL を付けて
最新のアーカイブを表示させてみてる せっかく>>206と思ったら今度は・・・
今までの1割とは落差がでかい 何回やってもどのサイトでもsorryになって保存できない ろくに英語も読めないのにここでアーカイブ取ろうとしてるからだよ ?
日本語のサイトしか保存した事ないけど…
つか1日100件なんて保存してないのに⇓が出る
前にキャッシュcookie消去したらarchiveでの履歴も消えちゃったから消すの嫌なんだけどなあ
Sorry
You cannot make more than 100 captures per day. Please email us at "info@archive.org" if you would like to discuss this more 100件も取得してなくても出るとか・・・ますます謎 >>214
> 2023/12/13(水) 08:59:55.49
カウンターがリセットされる時刻の 5 秒前w
昨日の分も一緒にカウントされてるんじゃないの >>215
214だが、>>213と同一ではない
こっちは100件超えてたからまだしも、>>213のようなこともあると驚いたまで >>207
同時実行可能なセッション数も微妙に調整してますね
2023/02/18(土) {"available":6,"daily_captures":0,"daily_captures_limit":100000,"processing":0}
2023/08/21(月) {"available":6,"daily_captures":0,"daily_captures_limit":80000,"processing":0}
2023/09/06(水) {"available":6,"daily_captures":0,"daily_captures_limit":70000,"processing":0}
2023/09/29(金) {"available":8,"daily_captures":0,"daily_captures_limit":70000,"processing":0}
2023/11/23(木) {"available":8,"daily_captures":0,"daily_captures_limit":50000,"processing":0}
2023/12/12(火) {"available":7,"daily_captures":0,"daily_captures_limit":30000,"processing":0} 「日付」が切り替わってカウント数が0に戻るのは日本時間朝9時です 無いね
ページ内で使われてる画像なんかには送られてるみたいだけど nitter.net保存できなくなってる。
nitter.czならtodayの方で保存できるが Twitterはもう保存できなくなったのか?
保存した後、だいぶ経ってから保存されているはずの日付を見に行ったら中身が何もない。
そういうのばかり。 Twitter側の仕様変更のせいで見た目はアーカイブできなくなった
ソースを見るとツイート内容はアーカイブされてるっぽい 本家のtwitter.comも、nitter.netもウェイバックマシンでは保存できなくなってる。
今は、nitter.czをarchive.todayの方にぶち込むしか方法がない。 今でも更新続ければ保存はできるけど、数日待たないとできなかったりで安定はしない 登録しても制限をかけるなら、有料プランを導入してくれ 最近すこし保存しようとして更新するとすぐアク禁されて駄目だわ アク禁ってされたことないんだけど、どんな表示でるんだ アク禁ってされたことないんだけど、どんな表示でるんだ >>231-233
相手サーバが無反応になる
何も返らないからブラウザ組み込みのエラーメッセージが出る 2〜3秒に1回位のアクセスに抑えておけばまずアク禁はされないと思うが アーカイブチームの皆さんは自分の事しか考えてないの?
あれだけ顧客第一つったろ! >>236
アーカイブチームって覚えられたんだw
すごいね 次はアーカイブチームとインターネットアーカイブは無関係って事を覚えような https://archive.is/rt7gI
Archive.org is DOWN for everyone. SPNとSPN-outlinksで結果が変わるの謎過ぎるな
SPNだと取れるのにoutlinksの方はエラーが出るサイトがたまにある
わざわざ別の環境使ってるのか? 一時間くらい前、ぐるぐるアイコンを表示したままリロードを繰り返す状態だったな。 アーカイブ開こうとすると実アドレスの方に飛ばされる症状が出てる
アーカイブに保存された形跡はある ただこれも保存済みアドレスが検索で出たりでなかったりがある 相変わらずこの時間帯の Tor 経由でのアーカイブは厳しいw
あと 15 分待つか
既出だったらスマン
アーカイブされたページ自体をユーザ側のアクションで検索エンジンのインデックスに登録することって可能なんかな
検索してみるといくつかの日本のサイトのアーカイブがGoogleにインデックス登録されてるんだよな
でもWaybackが自分でクロール申請したはずはないから何か方法があるんじゃないかと思ってる
例えば自分で立てたサイトにアーカイブへの直リンクを貼っておいて、自分のサイトをインデックス登録してリンク先をクロールさせるとか うまいことpixivのアーカイブ取る方法はないものか うーむ
特定のホストにて、各 URL につき「一時間以上空けろ」ではなく
「一日一回のみアーカイブ可」ということか。
ちなみにホスト名は www.sqlite.org。
昔このスレに居たスポーツ新聞野郎なら発狂してる事案w >>18によるとYouTubeは動画も保存される仕様とのことだけど
その仕様になったのは最近?
6~7年前にアーカイブされたYoutubeページに辿り着いたら
動画部分は保存されていなかった ログインしても数個取るとすぐログアウトさせられるのはおま環? クッキーを消した、有効期限切れ (一年間)、それ以外の原因でのログアウトは無いな。 >>254
動画によって保存されてたりされなかったりする、基準は分からん
why:のところにyoutubecrawlが無いスナップショットは動画が保存されてない 初めて目にしたかも
IAで、ディレクトリ内のファイル名に対して検索をする方法ってある? IAで、ディレクトリ内のファイル名に対して検索をする方法ってある? >>263
リプありがとうございます。
せっかく教えてくださったのに、自分の説明が足らなくて分からなかったのですが、やりたいことはこんな感じです
たとえば、↓のshow allを開くとディレクトリ内のコンテンツが表示されますが
その中のG71-VNW1013.isoを検索して見つける事はできますか?
ttps://archive.org/details/msi-afterburner-driver-and-utility
ttps://archive.org/search
に入力して検索をした場合、タイトルや説明欄しか拾わないので
どうしたものかと思っていました ファイル名での検索が可能なら、例えばこんなアップロードは
もっと閲覧数が増えているのではないかと思います。
https://archive.org/details/vps0000000000020160306 >>265
そっか…ありがとうございましたm(_ _)m 検索システムはもっと強化してほしいよなぁ
一度も閲覧されてない化石と化したアーカイブとか大量にありそう
まぁあまり強化するとDMCA案件が増えそうなので悩ましいけど ログインしても同時保存制限厳しい…(4つまで)
あと、一気にまとめて取得する方法ってないの?一個一個やってると面倒臭い >>268
savepagenow@archive.org に電子メールを送信/転送するとメール中のURIをアーカイブした結果のメールが数~数十分後に返信されてくる 「ウェブ魚拓」や「archive.today」では保存できるのに「wayback machine」ではできないということは、
Xは「wayback machine」を嫌がっているということか?
ウェブ魚拓
https://megalodon.jp/
archive.today
https://archive.md/ >>272
保存した日付のところを見に行った?
たとえばこれ。
Saved 1 time January 13, 2024.
https://web.archive.org/web/20240000000000*/https://twitter.com/BasedMikeLee/status/1745945126793626064
https://megalodon.jp/2024-0117-2350-04/https://twitter.com:443/BasedMikeLee/status/1745945126793626064
https://archive.md/clxnV
https://twitter.com/thejimwatkins 「保存」は出来てるよ、表示が崩れてるだけ
CTRL+Uでソースを見ればツイート内容は保存されてるのが分かる https://web.archive.org/web/20240117173332/https://twitter.com/googlejapan/status/1747091305128477149
これなんかは動画まで含めてちゃんと取れたことを確認した
https://twitter.com/thejimwatkins インターネットアーカイブのブログ、ずっと同じ糖質に粘着されてるの笑う
それでも削除しないのは流石だがw スラドのアーカイブを取ろうと思ったら、このサイト記事一覧ページって無いのか?
ajaxでmore moreで辿るしか無いんだろうか・・・
もう終わりだよ おっとそれは一昨日だったw
PC を UTC タイムゾーンで動かしているのでうっかり・・・
>>273
https://web.archive.org/web/20240126113327/https://twitter.com/s96shiho/status/1723541214925029490
これもそうだけど、スマホでなら見られるのにPCだと見られないのはなぜだろうか?
>>275
それはPCでも見られた。
https://twitter.com/thejimwatkins >>279
すごい、ありがとう!
そのURLは気付かなかった。
しかし、ページングは無さそうだから1日1リクエストとしても日記タレコミ記事で3*365*年数 か・・・。 月曜日に発表があって週末が1回しかないって急すぎるよ。
しかもスラドってコメント欄がperlのajaxで読み込んでるからアーカイブだとまともに表示できないだろうし savepagenow@archive.org に取得したいページのURL送ったんだけど、ほとんどError! Capture timed outになる・・・
これってサーバー重くて失敗したのかな? Save Page Now browser crashed
なんかエラー吐いて来るね・・・
取れてる奴もあるけど違いがわからん それ Linux バイナリをアーカイブさせると良く出くわすな。
force_get=on を指定すると問題無く行けてるから、おそらく
コンテンツをヘッドレスブラウザでレンダしようとして失敗してるんだと思う。 Srad はアーカイブチームが動いてるって見たけど
個人でバックアップしている人もおるんか スラド閉鎖撤回したな
まぁ不安定な状況である事には変わらないからアーカイブはした方が良い The capture will start in ~1 hour, 1 minute because our service is currently overloaded.
また1時間後とか言われるようになっちゃった・・・ 個人的に巡回ソフトでアーカイブ出来てたシンプル極まりない頃が懐かしい Save Page Now browser crashed
ヤフオクのページを取得しようとすると出る アーカイブしても画像が保存されないのキツイな
昔から収集方法変えてないみたいだけど
運営陣は変えるつもりないんだろうか
色々相性問題とかあって変えられないのかな? 【2020 年頃まで】
画像の保存は完全にユーザ任せ
(クローラを使っていたり、或いは
普通のブラウザでも保存開始後にすぐ閉じたりすると保存されない)
【それ以降】
ヘッドレスブラウザを実装、ある程度の画像は同時にアーカイブできるようになった
>>293 の言う昔って、いつの話よ? 動的サイトを取ろうとして取れないと勘違いしてるパターンじゃない?
画像は4年前から取れてるし、最近だと自動でアウトリンクまで辿ってくれるようになってるが Tor を使っていると、本当にいろんな体験ができるw
この時の出口ノードは 🇳🇴 185.243.218.61。
Google検索のキャッシュリンクが廃止で過去のページが閲覧不可に
https://pc.watch.impress.co.jp/docs/news/1566730.html
>Googleは、検索結果ページで利用できたWebページのキャッシュへのリンクを削除した。
これまで検索結果の各Webページのキャッシュにアクセスできるリンクが用意されており、Webページの過去の状態や削除される前の状態などが確認できたが、このリンクが削除されたかたち。検索演算子「cache:」を使ったアクセスはまだ行なえるが、将来的にはこちらも利用できなくなる予定だという。
これにともないGoogleでは、キャッシュへのリンクに代わって、Internet Archiveへのリンクを追加したいとも考えているという。 オープンになったことで話題のBlueskyはarchive.todayで昔のTwitterみたいにスレッド丸ごとアーカイブできるようだ。
ところがWayback Machineでは保存できないみたい。 >>300
IAにリンク貼るならGoogleから多額の寄付金もらえそう とうとう古い端末から Archive.md が開けなくなってしまた。
>>300
回線が重い時テキストだけ読むので重宝だったのにGoogleキャッシュ廃止メチャク不便やん。 流れをぶった切って済まんが
https://download.sysinternals.com/ 配下の URL にて >>251 に遭遇。
ソフトウェア配布サイトをターゲットにした措置だとは思うが
Sysinternals のようにファイル名にリビジョン番号を記載せず
同じ URL のまま中身を差し替えていくサイトでは、
短期間で更新が繰り返されると保存されないリビジョンが出てくる。 This URL has been already captured 6 times today, which is a daily limit we have set for that host. Please try again tomorrow.
10回制限からなんか減った? 6 回バージョン登場か。
>>305
その後ろの関係詞節、高校辺り出てれば充分読めると思うが?
中卒は知らん。 >>306
いや以前は10回制限だったのに6回になったなってだけ >>307
個別に 1 回だけとか 6 回までとか指定されてるホストが出てきてるんだよ、
だから関係詞節も読めと言ってるの。 Wayback Machineってdoc形式のファイルやdocx形式のファイルも保存できるんだね
ホント便利だな 一日一回のみとか10回のみのエラーってAPIドキュメントには無いよね?
特別に指定されてるんだろうか X(twitter)はnitter.czにリンクを変えて、archive.todayにぶち込んで保存してる。
他にも方法あるかもしれんけど そういやnitterの開発終了したんだってな
今のところ動いてるインスタンスはあるけど、これからどうなんだろ これからどうやってtwitter保存すればいいんだろう youtubeの動画保存って無くなったのか?
youtubecrawlのコレクションは増え続けてるから動いてるはずなんだが、未だに保存されん・・・
国内メディアのニュース動画だからブロックされてる訳でも無いと思うんだがなぁ >>281 が PC でも見られる、ってことは保存し直しの必要は無しか。
しかしアーカイブの表示内容が変化するってのは、別の意味で気持ち悪い。 今もだけど、たまにアーカイブ数が減るのは何なんだろうか
しばらくすると元に戻るけど ヘッダー部分の下からが表示されないんだねど自分だけかな。キャッシュ消したり再起動しても直らん >>321
サイトが重いとそうなる
その場合でもhttps://web.archive.org/saveに直接飛べば保存できたりする ブルースカイは、アカウントの設定(ログアウトしたユーザーからの可視性)よっては取得できないから注意 セッションハイジャック耐性の無いサイトなら
capture_cookie パラメータ辺り使えば行けるんだけどなぁ 数日前からtodayの調子が悪くて調べたらcloudflareDNSと相性悪いのか ページを保存させて完了画面も確認したのに、そのページが表示されないな
カレンダー形式の一覧に反映されるまでにはこれまでも時間がかかっていたけど
保存ページ自体が数十分待っても出てこないのは初めて 今もう一度見てみたら、既にカレンダー形式の日付には青丸が付いているのに
さっき保存した保存時刻(UTC)をクリックしてもその内容が表示されないという現象が起きてる i.imgur.comのページは一瞬で保存できるのなんでなんだろ >>329
1. 対象 URL に HEAD リクエストを投げる。
↓
2. レスポンスヘッダから単一の画像ファイルであることを検知。
(Content-Type: image/jpeg 等)
↓
3. ヘッドレスブラウザは不要と判断、後回しにせず即アーカイブ作業に移る。
対象が HTML の場合は後回しにされることが多いが、おそらく
ヘッドレスブラウザで HTML をパースして追加の画像等を拾ってきたり、
JavaScript を実行させる必要があるなど負荷が重いから。
HEAD リクエストが送られる件については >>3 のドキュメントの force_get の項を参照。 ニコニコ動画のフォロワー欄が途中までしか保存されない問題ってどうすれば解決できますか?
www.nicovideo.jp/user/23396749/follow/follower
https://archive.is/4Efzj
上記のユーザーならフォロワーは僅か40なので情報量が大きすぎるという訳でもないはずなのですが >>332
>>73
>>333-334
capture_outlinks=on にしても全然 outlinks を拾ってくれないね、それ以外は知らん。 https://nova.5ch.net/livegalileo/
https://nova.5ch.net/novatr/
各板のトップは国外から見られるが、個別スレを開こうとすると 520 エラーが返る。
Internet Archive のサーバは米国にあるから当然エラーとなる。
>>331
じゅんじゅ@\( ・ω・)/ www.nicovideo.jp/user/41124243
元グリーンベレー user/13675361 ・ lalala user/2765923
蘭‐Ran‐ user/18878661 ・ めざすくん user/27507212
わるよい user/3953893 ・ ゆ〜の user/2915294
sou user/11352489 ・ モッチチ user/6511183 ・ 海鼠 user/4114082 ビタミーナ王国物語以外でイモグラなんてワードを見かけるとは夢にも思わなかった >>342
その方法を今試してみたけど保存できてないよ。
保存したファイルと元のファイル比較してみれば分かるけど解像度もファイルサイズも違うしURL末尾辺りに謎の小文字lが付加されてる。 >>343
あーほんとだ、気付かんかった
8oRShxz
8oRShxzl
何か良い方法は無いかな dotupがやたらと嫌われてたけど俺はimgurの方が嫌いだわ( ´_ゝ`) Loadingでずっと進まないんだけど
今archive.todayってTwitter保存できないの?
archive.orgの方は出来るみたいだけど
アドレスが長くなるからtodayの方を使いたい
>>342
関係ないけど
リファラ検査で出始めたJaneのimgurサムネイルエラーは
https://egg.5ch.net/test/read.cgi/software/1708963746/185n
で回避した NHKが運営するネット上の特設ページ、続々と運営終了。放送法改正を見据えた動きか
https://internet.watch.impress.co.jp/docs/yajiuma/1577805.html
2024年4月1日10:00をもちまして、以下特設ページの掲載を終了(番組ストリーミングを含む)いたします。(NHKゴガク)
https://www.nhk.or.jp/gogaku/
NHK、「政治マガジン」など6サイト更新停止へ 新サービスを検討(朝日新聞デジタル)
https://www.asahi.com/articles/ASS375VHPS36UCVL04P.html
NHKやばいな。どんどんデジタルサービス終了させている。声調確認くんとか、凄く良かったのに。デジタル頑張っていた中の人たちが気の毒。(Togetter)
https://togetter.com/li/2334548 特許や意匠権の参考文献にURLが記載されてる事って多いんだけどさ
昔のホームページだと404かつ何処にもアーカイブされてないとかざら何だよな
せめてその辺は国がアーカイブしないと将来的に困ったことにならんのか?と思う >>349
この国の政府って困ったことに未来にも過去にも興味が全くないですよ >>352
これ特許庁自体は保存されてるけど、参考文献URLまで保存されてるってどこかに書いてある? 15分くらい前まで繋がってたけど今は繋がらないね、Temporarily Offlineだからメンテ中かな ttps://twitter.com/textfiles/status/1773203790159565077
また停電だってよ去年もあったね
https://twitter.com/thejimwatkins 503エラーちょこちょこ出るけど、復帰したね乙でした Queue-Itの待合室経由みたいに、いったんリダイレクトされてJavascript動作してから本サイトにリダイレクトされるようなサイトはどうやってアーカイブするの?
save page nowではなくて、自PCでアクセスして表示したページをそのままアーカイブできる機能とかあればしりたい。 詐欺紛いのサイトがアーカイブを徹底的に拒否しているのは笑える
https://www.sotwe.com/DuceTCG >>360
拒否してるのはサイトじゃなくてTwitterWebViewerの方だった。俺の勘違い imgur、画像の直リンは無理だとしても postpagebeta=0 というクッキーを食べたことにして
こういうアーカイブを取れば行けるなぁ。
つまり capture_cookie パラメータを使用。
https://web.archive.org/web/1/imgur.com/EwuqXZU これは失敗。
https://web.archive.org/web/1/imgur.com/sBfrwVv
imgur でアダルト判定を食らった画像を表示させて "Yes, I'm over 18" をクリックしたときに追加されるクッキーの中に
over18=1 ってのがあるけど、それも食べたことにすれば行けるかな。 どうも postpagebeta=0 のクッキーだけ送っておけば、
リファラ無しの画像直リンでも OK っぽいな。
>>367
スクリプト使うのも Save Page Now のページを使うのも、やってる事は全く同じなんだけど
後者では入力できないパラメータを送る必要があるんだよね。
https://web.archive.org/save/ を表示させて、次のブックマークレットで入力欄を追加してから
上の欄に imgur の画像 URL、下の欄に postpagebeta=0 を入力してボタンを押せば
たぶん保存できる。
https://pastebin.com/uEZ1Dbqi >>368
サンクス。保存できたっぽい
こんな荒技があったとは >>368
保存できていたのに保存できなくなったぽい? imgur の画像直リンが、クッキーを付けてあってもリダイレクトされるようになってしまったかも。
それでも拡張子の無い https://imgur.com/xxxxxxx 形式の URL を
クッキー付きでアーカイブさせれば、画像にはリファラが送られるので保存はできている。 Resources (ページ内画像等) としてアーカイブされた URL がカレンダ表示に登場するまでに
時間が掛かってる
APIでリファラも送れるようにしてくれないかな
cookieやUAは送れるのにリファラは対応してないの何で? 間違った転送先を保存してしまい何故か修正できないヤツ
https://web.archive.org/web/20240407072915/https://i.imgur.com/UtKDI8X.jpeg
アニメ絵と実写エロ注意 大文字小文字違いかw
uTKdi8x
UtKDI8X archive.today
数日前からX(旧Twitter)のアーカイブできなくなってる? >>377
自分も、ここ最近X(旧Twitter)のアーカイブが取得できなくて困ってる。 Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again. またイモグラ保存できなくなったんじゃないだろうな
もうイモグラは使わないでくれ OutLinksを使うと保存できてる時もあるっぽいな。
これが原因か? いや関係無いっぽいな。
試しにスクリプトが上げてるグ□画像を保存してみたらOutLinksなんて無くても一発で取れた。
取れる画像と取れない画像があるのか? ゲッ、いつの間に同一URLの保存回数が一日5回までに減ってやがる…
https://web.archive.org/web/0im_/https://files.catbox.moe/xei3k9.PNG
19年の頃は保存回数制限もなく保存再開出来る時間も10分間隔だったんだがなぁ… >>385
>>305-308
さらに少なく、一日一回だけに制限しているホストもあるからね。 保存回数上限がホスト毎に決められているけど、回数はURL毎に数えているってことか。 自分がアーカイブを取ってるサイトは大概 1 回だけなんだよなぁ。
そろそろやばいやばいっていわれてるけど、Archive.liがなくなる事ってあるのかね。
そもそもあいつの資金源どうなってんだ? 運営費がかさむかさむって言ってたし、ロシアでの運営じゃ厳しいだろ。
国を出ないなら、このまま吹き飛びそうだな。 【質問】Wayback machineで既に誰かがウェブサイトをアーカイブしていたときサイトのアーカイブは更新されるのか
拡張機能web archivesでwayback machineを選択する→既にアーカイブされている1年前のものが表示される
画像などが保存されていないので現在の最新の状態で完全なものをアーカイブしたいんですが可能なんですかね?やり方がわかりません
gyazo.com/2dea0146024edc6952878c8d25b9b572 Wayback machineで除名を申し入れされたとして、
それはそのウェブサイトは見かけ上保存はできてそうなんだけど閲覧できないだけ?
そのドメインを後から手に入れる事ができ、除名を解いたら、それまでに保存を要請してきたウェブサイトを見る事ができるようになると? Wayback machineで除名を申し入れされたとして、
それはそのウェブサイトは見かけ上保存はできてそうなんだけど閲覧できないだけ?
そのドメインを後から手に入れる事ができ、除名を解いたら、それまでに保存を要請してきたウェブサイトを見る事ができるようになると? アーカイブチーム、いや、いつもアーカイブしている人たちは全員本当にやる気を感じない
YouTubeの動画のページが公開された時、すぐに保存されないケースが多いし。 >>395
「アーカイブ」ってまだちゃんと覚えてられてるんだw
>>130-131 ttps://www.courts.go.jp/app/files/hanrei_jp/995/088995_hanrei.pdf
グリーの弁護士、Wayback MachineのURL日付部分を日本時間基準だと勘違いして日付が一致しないとか言ってて草
検証の部分でUTC時間だから問題ないとちゃんと反論されていてよかった、ついでに裁判も負けてる てかメンテの表示出てるじゃん。今夜はもう無理かな。
>>391 URLをそのままSPNで保存すればいいよ。そうすれば日付違いで保存されて表示されるはず。
>>392-393 前のドメイン権利者が除外要請を出した時と連絡先など一致してなかったり譲渡されたと嘘付いても、解除通るの?
>>395 ArchiveTeamの巡回を待ってるなら、自分でSPNから保存したほうが早いよ。動画ファイルも半分ぐらいの確率で保存してくれる。
削除予告が出ていて緊急なら#down-the-tubeのチャットで理由書いてコマンド打てばいい。量が多いと完璧に保存されないけど失うよりはいいし。両方やっとけば残る確率高くなる。
>>396 てか>>130で文句言ってるXGeNeLWnYdcの動画ファイル保存されてないね。昨日試しにSPNで保存したけど1日経ってもファイル保存されてねえわ。 てかメンテの表示出てるじゃん。今夜はもう無理かな。
>>391 URLをそのままSPNで保存すればいいよ。そうすれば日付違いで保存されて表示されるはず。
>>392-393 前のドメイン権利者が除外要請を出した時と連絡先など一致してなかったり譲渡されたと嘘付いても、解除通るの?
>>395 ArchiveTeamの巡回を待ってるなら、自分でSPNから保存したほうが早いよ。動画ファイルも半分ぐらいの確率で保存してくれる。
削除予告が出ていて緊急なら#down-the-tubeのチャットで理由書いてコマンド打てばいい。量が多いと完璧に保存されないけど失うよりはいいし。両方やっとけば残る確率高くなる。
>>396 てか>>130で文句言ってるXGeNeLWnYdcの動画ファイル保存されてないね。昨日試しにSPNで保存したけど1日経ってもファイル保存されてねえわ。 >>387
そういえば、ちょっと前にyoutube.comの1日の保存上限で8万回?ってエラー出てた。2年ぐらい前にエラー出た時はもっと数字が大きかった気がするけど。
確実に保存したいなら上限がリセットされるはずの日本時間午前9時から早い者勝ちで保存するしかないみたいだが。 >>401
130の動画なら保存されてるのでは?
youtubecrawlのコレクションに入ってるが Tor Browser が Internet Archive の .onion 版が利用可能と検出してるけど
繋がらないんだよね・・・コード 0xF2 のエラーが返る
https://archive6zg5vrdwm4ljllgxleekeoj43lqayscd4d4kmhnyblq4h3ead.onion/
>>403
今見てみたら、動画ファイルの保存まではできてないみたい。
確認用コード
curl -I "https://web.archive.org/web/2oe_/http://wayback-fakeurl.archive.org/yt/img/XGeNeLWnYdc"
ターミナルで動かしてヘッダー部分だけ取得すると、転送先の動画ファイルURLがlocation:として出てこないで404エラーになってる。
保存されていればgooglevideo.comの長いURLが出てくるはず。保存されるまで何度かSPNで保存繰り返せばいいけど。 >>403
今見てみたら、動画ファイルの保存まではできてないみたい。
確認用コード
curl -I "https://web.archive.org/web/2oe_/http://wayback-fakeurl.archive.org/yt/img/XGeNeLWnYdc"
ターミナルで動かしてヘッダー部分だけ取得すると、転送先の動画ファイルURLがlocation:として出てこないで404エラーになってる。
保存されていればgooglevideo.comの長いURLが出てくるはず。保存されるまで何度かSPNで保存繰り返せばいいけど。 Save Page Now browser crashed on https://imgur.com/p5BPbjq. 何回か連打してればバックグラウンドで保存に成功するケースが殆ど。
archive.todayってMicrosoftのサーバー経由してるのなんで?
MSのサーバーをhostsで遮断したら保存できなくなった 全然違うfaviconが表示されるのってなんなんだろ なんだこのエラー?
task_id must not be empty. Got None instead. archiveのアニメをWEBで見てたがすごく遅くて適当にVPNで日本で見たらすぐ見れた
IP規制してる?? X(twitter)やインスタを保存するのにオススメの方法があったら教えて。 すみません。
twitterアカウントを削除する前に、ツイート削除した場合、該当のツイートは見ることできますか?? >>415
スクショ
WEBアーカイブ
>>416
見れない
しかし動画や写真のURLさえわかればツイート削除後でも一定期間閲覧可能 Amazonの商品ページの過去を見ることできますか?