X



Internet Archive総合 (web.archive.org) #3
レス数が1000を超えています。これ以上書き込みはできません。
0512名無しさん@お腹いっぱい。2020/10/03(土) 22:59:15.77
そもそもパスワード等を知らない「アカの他人」には見えないようになっているページを
どうして Internet Archive という「他人」に保存させようとするんだ?

リテラシーが崩壊してるわw
0514名無しさん@お腹いっぱい。2020/10/04(日) 01:06:25.33
「リテラシーが崩壊してるわw」では済まされないくらい重要な問題なんだけどな
例えば学術論文リポジトリはログインしないと閲覧出来ない場合も多くて問題になってたりする
0515名無しさん@お腹いっぱい。2020/10/04(日) 01:17:45.63
「ログインしないと入れないページ」は深層ウェブというものの一つでもあるんだけど、
ディープウェブのWebアーカイブをどうやってやっていくべきかというのは割と難しい課題なのよ

ログインしないと入れないページは、ちゃんとした理由があるからこそ閲覧に制限がかかってる
でもそれと同時に、ちゃんとした理由があってログインしないと入れないページをアーカイブしたい場合というのも往々にしてあるわけ(上で挙げた学術論文リポジトリはその一例)

とは言え、いくらアーカイブする必然性があってもだからと言ってアクセス制限を無視して良いわけではないし、両者の兼ね合いは結構難しい
ともかくこういうのを単なるネットリテラシーの問題として済ますのは良くない
0516名無しさん@お腹いっぱい。2020/10/04(日) 01:22:42.49
理由は何であろうが、ログインを要求してるんだから
それ以上は IA 側の知った話じゃないよ
0517名無しさん@お腹いっぱい。2020/10/04(日) 03:15:02.69
「知った話じゃない」ってのは
「関心を持って注視しているが現時点では対応していない」状況にぴったりな言葉じゃないと思う
0518名無しさん@お腹いっぱい。2020/10/04(日) 15:45:40.69
>>515
自分でローカルに保存すればいいじゃん
なんだかんだ言って天災・過失で自前バックアップ死ぬよりも、ネットの方が通報も含めて明らかに先に死ぬし
0519名無しさん@お腹いっぱい。2020/10/04(日) 17:10:59.85
>>515
言ってることがただの自己中だってことに気付けよ
0523名無しさん@お腹いっぱい。2020/10/05(月) 01:02:47.64
>>521
その兼ね合いが難しいって話よ
そもそもウェブアーカイブ自体著作権法スレスレのものだし、保存される側の都合を完璧に守るのは無理だと自分は割り切ってる
0524名無しさん@お腹いっぱい。2020/10/05(月) 01:05:22.46
ウェブアーカイブが単純にローカルで保存しとけば済む話だったらInternet Archiveという団体は存在しえない
保存する側とされる側の都合の兼ね合いは「自己中」で一蹴せず、ちゃんと考えていかなきゃいけないシリアスな問題だと思うよ
0527名無しさん@お腹いっぱい。2020/10/05(月) 04:55:38.02
自己中呼ばわりやら草生やしたりやらしてる方は
何か恨みでもあるんかってくらい食い付いてるしな
感情論で殴ってるだけだから話自体に説得力ないし
0528名無しさん@お腹いっぱい。2020/10/05(月) 10:48:51.05
>>522
正義マンがポリコレ棒めっちゃぶんぶんしてるのに似てる
なんでルール守れないゴミ自己中のくせに被害者面してんの?
やべーわ
それで管理人がサイト更新意欲なくなっても
俺は悪くない!
とか宣うんだろw
0529名無しさん@お腹いっぱい。2020/10/05(月) 17:14:59.29
おもしれー
もっとやれ
0530名無しさん@お腹いっぱい。2020/10/05(月) 19:42:44.10
もっとやれって言われた以上この話題は無視するか
ここはTwitterのリプライかよ、くだらない
0531名無しさん@お腹いっぱい。2020/10/06(火) 21:16:26.76
ルールに従えとしか言えないな
考えていかなきゃいけない問題だとは思うが、ここで議論する意味は無い
0544名無しさん@お腹いっぱい。2020/10/17(土) 05:58:22.64
https://archive.org/post/1110563/archive-url-10-times-today-limit

俺の環境では確認できてないけど、
同じ日に10回以上保存されてるURLをさらに保存するとこんなエラーが出る場合があるらしい。

This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.

まあ、ニュースサイトとかじゃない限り10回も保存はしないだろうけど。
0546名無しさん@お腹いっぱい。2020/10/17(土) 15:39:48.96
アーカイブが存在しなければ保存するみたいな選択項目があればもう少し容量削減できそうなのにな
0547名無しさん@お腹いっぱい。2020/10/18(日) 13:05:45.08
このスレにかつて居たスポーツ新聞野郎がキチガイ扱いされたのは、
個々のニュースではなくサイトのトップとか一覧とかのアーカイブに固執してたから。
0548名無しさん@お腹いっぱい。2020/10/18(日) 16:03:43.18
>>546
isみたくトップからやり直さないと何年も前のアーカイブ開くだけで取り直すか聞かないのもウザイけどな
0549名無しさん@お腹いっぱい。2020/10/19(月) 00:06:20.58
>>547
あの人最近見かけないけど今どうしてるのかね
トップページや一覧ページの保存だけに血道を上げている様子は、正直言って病的というか空恐ろしいものがあった
他のスレ住人に何を言われてもほぼ反応なしで、何だか自分の世界に入り込んでるみたいだったね
彼は未だにスポーツ新聞のトップページを毎日手動で保存し続けているんだろうかね
0550名無しさん@お腹いっぱい。2020/10/19(月) 04:33:54.40
archive.isでとった魚拓をinternet archiveで保存すると
できるのとできないのがあるんだけど
違いはなんだろう
0553名無しさん@お腹いっぱい。2020/10/20(火) 19:10:14.06
既出かもしれないけど、こんなページがある。

Wayback Stats
https://archive.org/stats/
https://analytics0.archive.org/stats/wb.php

注目したいのはHTTP 200と503エラーのグラフと404エラーの割合グラフ
このスレでも報告があった10/15〜10/16は表示エラーが多くて、
10/17は一時半分近くエラー続きだったそうだ。

このURLはテンプレか>>1に入れといていいと思う。
0554名無しさん@お腹いっぱい。2020/10/20(火) 21:53:07.53
ずっと見られなくなってたtripod.com系のサイトがいつの間にか見れるようになってた
あとIEで見れなくなった
印刷プレビューはIEが一番使いやすかったのに…
0555名無しさん@お腹いっぱい。2020/10/20(火) 22:53:30.54
IE排除は英断というか当たり前だと思う
開発元のマイクロソフトもとっくにサポートやめて「代わりにEdge使ってね」ってしつこいくらい宣伝してたし...
0556名無しさん@お腹いっぱい。2020/10/20(火) 23:00:54.10
運営側にとってはIEってセキュリティホールも仕様の古さも色々と面倒で、本当に悩みの種なんだわ
Internet Archiveに限らずIEでの閲覧を想定しないサイトは今後どんどん増えていくだろうし、
悪いこと言わないから他のブラウザに乗り換えた方が良いよ

というか、これはあくまで個人的な感想だからつもりはないけど、
IEの印刷プレビューって言うほど使いやすいかな?
Chromeに印刷プレビュー機能がなかった10年前じゃあるまいし
0557名無しさん@お腹いっぱい。2020/10/20(火) 23:21:09.35
UserAgentをIEに変えても、普通に見れるが。。
Your browser may not be compatible〜ってのは出るけど。
0558名無しさん@お腹いっぱい。2020/10/21(水) 00:30:53.60
「The server didn't respond in time for http://〜」がよく表示されると思ったら特定のサイトだけだったか・・・

>10/17は一時半分近くエラー続きだったそうだ。
 道理で保存されてないのがいくつかあるなと思ったら・・・
0559名無しさん@お腹いっぱい。2020/10/21(水) 10:59:34.87
>>557
UserAgentで弾いてる訳じゃなくて、ページの構成自体をIEが対応してない形式に変更したんじゃないの?
IE使ってないから確認できてないけど
0560名無しさん@お腹いっぱい。2020/10/21(水) 18:00:01.04
>>550
archive.is の拓が直接 archive.orgに取り込めない場合は少し前までなら anonymouse のWebプロキシのURL付けると取り込めたりしたが、

(例:http://anonymouse.org/cgi-bin/anon-www.cgi/http://e-words.jp/w/%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96.html で取り込む)


…今秋から archive.is へのアクセスが暗号通信( https://archive.is/XXXXX )強制にされてしまったんで不可になってしまった。
( anonymouse.は非暗号アクセス http:// のサイトにしか対応してない )
 
0571名無しさん@お腹いっぱい。2020/10/25(日) 01:34:37.40
"The server didn't respond in time for (保存URL)."
ってエラーメッセージが出ても、後で確認すると取れてることが多かったりする
0572名無しさん@お腹いっぱい。2020/10/25(日) 12:49:20.36
とうとうエラーでサイト見れなくなったか?
0576名無しさん@お腹いっぱい。2020/10/25(日) 14:45:08.36
復旧はしたが再度保存するのに要求される待ち時間が30分になってる…
ちょっと前は20分、去年あたりは10分で良かったのに…
0580名無しさん@お腹いっぱい。2020/10/26(月) 00:51:01.37
cloudfront.netがなぜか全部ブロックされていて、こんな風に表示される

Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.

会社のプレスリリースなどでcloudfront.net使ってるところは保存できなくなってるわ
0581名無しさん@お腹いっぱい。2020/10/26(月) 17:19:48.92
Wayback Statsによると
24日午後4時〜8時(日本時間25日午前8時〜12時頃)にサーバーダウンして4時間ほどページすら見れなかったらしい
0584名無しさん@お腹いっぱい。2020/10/26(月) 23:46:49.93
これwマウスの上にかたつむり乗ってるのwリアルがダメな人は見ないで
http://web.archive.org/web/20201024183048/https://pbs.twimg.com/card_img/1318252845452374016/A4POgMBd?format=jpg&name=600x314

上にも書いたけどアメブロの魚拓をとったんだよね
あとからチェックしたら魚拓自体はとれてたんだけどw謎杉
数日前から変なURLに飛ばされることがあるけど結果的に取れてるんだよ
0587名無しさん@お腹いっぱい。2020/10/27(火) 01:26:19.05
>>584
それここ何日か発生してるバグっぽい。
save nowで保存すると、そのページじゃなくて読み込まれるURLの1個が帰ってくる。
変なURLが帰ってくるとびっくりするけど一応保存はされてる模様。
0594名無しさん@お腹いっぱい。2020/10/29(木) 16:27:01.75
結局Wayback Machine頼りじゃなく、自分で保存してInternet Archiveのアカウントでアップロードするのが安全なんだよな
0595名無しさん@お腹いっぱい。2020/10/29(木) 17:39:46.40
excluded表記は削除じゃなくてWaybackMachineのアクセス拒否だって事を願ってる
こんなしょうもない事でポンポン消されたらたまったもんじゃない
0596名無しさん@お腹いっぱい。2020/10/29(木) 22:34:14.27
中国本土で、アメリカのInternet Archive相当の役割をしているサイト、サービスは、どこですか?
URLが知りたいです。
0597名無しさん@お腹いっぱい。2020/10/30(金) 02:14:44.13
>>596
ざっと検索したらそれらしい情報は出てきたが、あなたの欲しい情報が入ってるかは分からん

IPLC Launches the Greater China Archival Resources Web Archive(Ivy Plus Libraries Confederation, 2020/9/9)
https://ivpluslibraries.org/2020/09/iplc-launches-the-greater-china-archival-resources-web-archive/

Greater China Archival Resources Web Archive(Archive-It)
https://archive-it.org/collections/14767
0600名無しさん@お腹いっぱい。2020/10/31(土) 21:34:11.67
どうでもいい話だけど
「インターネットアーカイブ」で検索しても1ページ目にすら出ないんだな
「internet archive」だとトップなのに
日本人はあんまり使ってないのかな・・・?
0602名無しさん@お腹いっぱい。2020/11/01(日) 15:21:23.61
>>600
グーグル使うの止めたら?
スマホファーストデザインやるようになったぐらいから、
そこらのアフィカスブログが可愛く見えるくらいアフィカス度激高になってるよグーグル
0603名無しさん@お腹いっぱい。2020/11/05(木) 14:53:16.09
半角無理そう?
0604名無しさん@お腹いっぱい。2020/11/05(木) 14:55:42.77
>>595
アーカイブを消させるための手法として流用されるかも
下手すると第三者がこういった工作をする可能性も
0605名無しさん@お腹いっぱい。2020/11/05(木) 16:20:41.64
sakura03鯖のログって全損なんかな
0609名無しさん@お腹いっぱい。2020/11/07(土) 10:41:21.23
>>595
それで合っていると思う
試しにツールを使って、すでにその状態になっているものをここからダウンロードしようとしたら
「403 Forbidden」が出たから
だからまた見るにはインターネットアーカイブ側でアクセス許可にされるか
それともそれをかいくぐれるツールが出来るかのどっちかしか無いかも
0616名無しさん@お腹いっぱい。2020/11/19(木) 16:14:02.21
寄付の表示のところに毎日7億5000万ページ(画像やスクリプトを多分含む)保存してると出てるね
0617名無しさん@お腹いっぱい。2020/11/19(木) 23:46:06.93
コスパティオのページ保存すると変なとこにリダイレクトされて上手く保存できなくなった
0618名無しさん@お腹いっぱい。2020/11/20(金) 04:16:43.66
寄付の表示がでるようになったり
一昨日くらいにUnknown Error表示でまくりで放置してた分も依然そのままの状態で取れない
なんだかうまく取れたらクリアってゲームやってる気がしてきた・・・
0622名無しさん@お腹いっぱい。2020/11/21(土) 14:12:11.95
>>615
Archiveteamにwiki専門のグループがあるからそのIRCで頼めば保存してもらえるかも
以前別件でコンタクト取ったときに向こうから保存したい日本のwikiはないかって尋ねてきたこともあるくらいだから積極的に動いてくれると思う
https://archiveteam.org/index.php?title=WikiTeam
0623名無しさん@お腹いっぱい。2020/11/21(土) 20:01:45.32
なんか古いデータどんどん消してる気がする・・・
何年も前から取ってるページなのに2020年7月からしかないとか変だわ
0624名無しさん@お腹いっぱい。2020/11/21(土) 23:16:26.36
削除以外でもメンテか障害かなんかで
一時的に一部データが閲覧できない場合もあるからな
0627名無しさん@お腹いっぱい。2020/11/26(木) 06:49:26.37
MacかiPhoneのSafariで見るとkCF〜のエラーが出るのは何度か再読み込みすれば直る
ダメなら時間おくしかない
0628名無しさん@お腹いっぱい。2020/11/29(日) 12:26:24.57
save page nowから2GB以上のファイルを保存しようとすると「Resource file size is over 2GB.」のエラーが出るようになってる
ちょっと前までは出なかったのに
0632名無しさん@お腹いっぱい。2020/12/01(火) 10:52:52.75
curlで保存してるけど、最近は調子良すぎなんだが
20秒ぐらいで保存が終わってタイムアウトも1割ぐらい
タイムアウトでもちゃんと保存されてるし、画像やスクリプト込みでこの時間だから、
以前より早いかも
(100個も画像やスクリプトあるページは無理だが)
0633名無しさん@お腹いっぱい。2020/12/04(金) 23:38:28.47
Unknown Errorが出たら保存し直した方がいいかもな
一ヶ月前のUnknown Error保存分をチェックしてみたら
日付だけ表示されたが中身は保存されてないようだ
0636名無しさん@お腹いっぱい。2020/12/06(日) 13:21:09.09
You have already reached the limit of active sessions
今日2回目の保存なのにこのエラーが出るとか、ふざけすぎでしょw
0637名無しさん@お腹いっぱい。2020/12/06(日) 13:23:29.09
IPアドレス変えてもこのエラー出るので
active sessionsだからサイト全体のセッション数の制限を超えてるということかもしれないが
0639名無しさん@お腹いっぱい。2020/12/06(日) 23:36:07.44
>>635
200ページほど/save/で保存した結果、平均3〜5回このエラー出るわ
保存されてないのでエラー出たURLだけやり直し
0640名無しさん@お腹いっぱい。2020/12/07(月) 10:35:04.56
>>639
ぶっちゃけ寄付してなきゃ規制されてても不思議じゃないよ、それ
無料に毒されすぎじゃない?
広告大量になったり、変なスクリプトで経費賄うようになったら嫌だなー
0645名無しさん@お腹いっぱい。2020/12/08(火) 18:52:05.48
1日3億ページ保存してるとサイトで書いてあるのに、たった1人が数百ページ保存したぐらいでなんてこともないわw
0647名無しさん@お腹いっぱい。2020/12/09(水) 10:26:17.35
本来機械化しないことを想定して作られてるんだから、
大量にリクエストしたら通常よりも大きな負荷がかかるかもしれない、くらいのことは想像つかないのかよ
やるならせめて寄付くらいはしろ
0648名無しさん@お腹いっぱい。2020/12/09(水) 10:29:24.14
1つのIPからの接続回数や間隔が以前よりも制限されているという事実は、
どのような形であれ大量アクセスはInternet Archiveにとって困るってことの証拠じゃないの
0649名無しさん@お腹いっぱい。2020/12/09(水) 13:07:12.73
てか>>645と同じアホが真に受けて俺も俺もとなるのが1番怖い
自制が効かない・寄付もしないゴミに目を付けられたサービスが改悪しまくるのは分かりきってる
0650名無しさん@お腹いっぱい。2020/12/09(水) 14:19:34.60
数分ってのが10分と仮定しても60秒×10分÷200件=3秒にならん?
間隔短すぎだから間隔を30秒にしろ。
0653名無しさん@お腹いっぱい。2020/12/09(水) 15:52:40.47
curlでの保存方法、教えて
0655名無しさん@お腹いっぱい。2020/12/09(水) 17:52:48.98
適当なヘッダ付けて/save/を叩くだけだから、
HTTP通信さえ出来るツール使えばcurlじゃなくて問答無用で自動化できる
でも下手に叩きすぎてサーバ圧迫して結果制限が厳しくなったら元も子もないから、俺はやった事ない
0656名無しさん@お腹いっぱい。2020/12/09(水) 17:53:20.92
curlじゃなくても
0658名無しさん@お腹いっぱい。2020/12/09(水) 21:53:36.06
>>657
すまんけど何を聞こうとしてるのかよく分からん
その質問って結局「ひとつのサイト全体を自分で保存する機能は提供されてないよ」って事以外何も言ってないように見えるけど
0659名無しさん@お腹いっぱい。2020/12/09(水) 21:56:26.36
ちゃんと下まで読んでなかったわ、>>658は取り消す
少なくとも静的サイトはこの方法で行けるね、wgetのmirrorオプションでURLリストを作るとは上手いこと考えたな
0660名無しさん@お腹いっぱい。2020/12/09(水) 22:01:16.11
ただwgetは、JSとかで動的にコンテンツを取ってくるサイトやFlashが使われたサイトには対応できないから、
この回答の方法ではあらゆる種類のサイトを保存することはできない
でもHTMLとCSSだけで頑張ってるような昔の個人サイトなら問題ない
0661名無しさん@お腹いっぱい。2020/12/11(金) 02:53:02.33
間隔っていうか、現状同じIPアドレスから5ページまでしか同時保存リクエスト受け付けてくれない。
6ページ目以上は保存処理が終わってないのが残ってると、タイムアウトになって保存されないよ。
自動化以前にウェブサーフィン(死語)中、手動でブラウザから/save/開いて保存したい時でも、状況は同じ。
今はこの制限内でやればいいだけ。
0664名無しさん@お腹いっぱい。2020/12/15(火) 21:02:45.84
Sorry.

This snapshot cannot be displayed due to an internal error.

さっき初めて出た、保存はされてるがエラーで表示できないという謎のエラー
06656642020/12/15(火) 21:04:28.30
タッチの差だったごめん
0667名無しさん@お腹いっぱい。2020/12/16(水) 06:37:15.41
てか、以前は保存終わった後に保存しますか?の表示出たのがこれに変わっただけじゃね
なんかバグってるんだよね
0670名無しさん@お腹いっぱい。2020/12/17(木) 04:44:35.32
前は/save/で保存したページはLive Web Proxyってコレクションに入ってたのに
最近はSave Page Nowコレクション扱いになってるな
10月ぐらいからファイルが増えてないし、Live Web Proxyって引退したのかもしれない
https://archive.org/details/liveweb?sort=-addeddate
このスレでも10月はエラー多かった書き込みあったしな、移行期間だったのだろう
0671名無しさん@お腹いっぱい。2020/12/17(木) 10:47:26.64
後で取り直したけど取れてないわ
取れてる取れてないの繰り返しにはうんざり

どこが運営してるのかわからないのは限りなく不安だが
もうarchive.todayしかない
0673名無しさん@お腹いっぱい。2020/12/17(木) 16:39:47.92
11月分でいまだに反映されてないものも多々あるから
システムいじくってる最中で保存されてないものもあるかもな
0676名無しさん@お腹いっぱい。2020/12/17(木) 23:36:55.01
>>674
スポーツ新聞アーカイブしてるとは一言も言ってないし同一人物とは限らんよ
毎日適当なページを実験用に保存し続けてInternet Archiveの挙動をテストしてる人もいたはずだし
0677名無しさん@お腹いっぱい。2020/12/18(金) 00:36:49.29
お前らがしているのは多分、アイドル・声優のブログのアーカイブだろ
0678名無しさん@お腹いっぱい。2020/12/18(金) 01:28:46.93
504とか503で何のアーカイブも見られん
0680名無しさん@お腹いっぱい。2020/12/19(土) 23:30:14.53
「curl -Ll ttp://web.archive.org/web/2020/ttp://○○○○.com/[(数字)-(数字)].html(.jpg)」

ttpではなく、httpに修正して

saveではなく、エラー軽減のため西暦の数字で

連番の数字で自動保存される。
0681名無しさん@お腹いっぱい。2020/12/20(日) 03:27:16.25
エラーさんざんでまくり&数日たって再度見に行くと真っ白のページが保存された形跡
これじゃしばらく試行しながら様子見するしかねえな
0682名無しさん@お腹いっぱい。2020/12/24(木) 21:46:55.38
Fail with status: 503
ばっか表示される
0683名無しさん@お腹いっぱい。2020/12/25(金) 04:04:48.90
あだしまの公式サイトは33回も保存されていて、IAでもちゃんと開けるのにAPIは情報なし。
APIがぶっ壊れたのか。
0684名無しさん@お腹いっぱい。2020/12/25(金) 22:32:48.69
保存してHrmになってしまうと日付だけ保存&表示されて
以後同一ページを保存してもずっとHrmになってしまう状況が11月から続いている
0685名無しさん@お腹いっぱい。2020/12/26(土) 02:55:00.36
news.yahoo.co.jp/bylineから始まるYahooニュースの記事を保存しようとするとこれが表示される
専門家のブログのコピー記事だからブロックしてるのかな

Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.
0687名無しさん@お腹いっぱい。2020/12/26(土) 11:36:52.53
 
archive.org ? ウェブサイト全体をアーカイブする方法は?

http://web.archive.org/web/20201220090718/https://www.it-swarm-ja.tech/ja/archive.org/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B5%E3%82%A4%E3%83%88%E5%85%A8%E4%BD%93%E3%82%92%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%AF%EF%BC%9F/965342469/
 
0688名無しさん@お腹いっぱい。2020/12/26(土) 17:10:27.56
>>686
これArchive Teamが保存したものをWayback Machineに移管したやつだね
Save Page Nowでは取れないけど、外部の人間が取ったものを移管したから結果的に取れてるように見えてる
0689名無しさん@お腹いっぱい。2020/12/30(水) 16:01:54.23
寄付を煽るためにわざとエラー連発させるように仕込んでるのかな
0695名無しさん@お腹いっぱい。2021/01/07(木) 05:03:25.08
>>688
Collectionsのところ見たけど、Focused CrawlsとTop DomainsはArchive Teamが収集してるものじゃないよ
ブロックされているURLも移管してるのはそういう仕組みだろうけど
ヤフージャパンはアクセス数多いドメインとはいえ、ニュース系のページは収集してくれないんだなぁ
0696名無しさん@お腹いっぱい。2021/01/07(木) 13:28:13.11
ヤフーニュースはSavePageNowでも取れるよ
ただ一部の記事で何故かBlockListエラーが出る
理由は謎(メールすれば聞けるのかもしれないけど)
0708名無しさん@お腹いっぱい。2021/01/11(月) 04:45:59.10
寄付した人間のジョブは優先して処理するみたいな仕組みが導入されたらできる限り寄付したい
0709名無しさん@お腹いっぱい。2021/01/11(月) 13:33:23.25
年収20万ドルのエンジニア雇うだけの金があるのに、金で困ってすらないよ
その割にサーバーはザコだが
0711名無しさん@お腹いっぱい。2021/01/14(木) 08:53:53.82
Sorry
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.

これは今日10回じゃなくて過去24時間に10回の文間違いじゃないの
内容が変わりまくるサイトを保存できなくなった
0713名無しさん@お腹いっぱい。2021/01/14(木) 15:57:48.45
一覧性は下がるが、とりあえず後ろに適当なパラメーターでもつければどうか。?1とか。
サイト側にとって未定義のパラメーターなら大抵のサイトはパラメーターなしと同じものを返してくるだろう。
0716名無しさん@お腹いっぱい。2021/01/15(金) 05:50:45.57
まあ別にスポーツ新聞のアーカイブを手作業で何回取ろうがそれは個人の勝手だから、外野がどうこう言うもんじゃないよ
随分遠回りなことしてるように見えても本人にとっては大事なんだろ、ほっとけ
0717名無しさん@お腹いっぱい。2021/01/16(土) 00:22:05.68
Please email us at "info@archive.org" if you would like to discuss this more.
ってあるんだから
ここで愚痴言うくらいならメール送ったらいいんじゃない?
0718名無しさん@お腹いっぱい。2021/01/16(土) 16:38:22.29
皆さんに質問です!
アーカイブされたページを全文検索できるようになるまで、
あと何年くらいかかると思いますか?
07227212021/01/18(月) 15:47:47.92
公開待ち状態みたいだったらしく、1時間後に見たら保存したページが見れるようになった。
マッピングが届いてないとかそんな感じっぽい。
0725名無しさん@お腹いっぱい。2021/01/22(金) 16:01:35.20
724
今見たら復活してた
タイミングが悪かっただけかな
0726名無しさん@お腹いっぱい。2021/01/22(金) 16:51:49.89
4日ぐらい前に保存した画像でSaved 2 timesとなってるのに青い丸が出ないが
遅れてるだけなのかこれ
0727名無しさん@お腹いっぱい。2021/01/22(金) 22:31:31.69
>>719
Internet Archive サービス終了までに実現できると思う?
いくら遅くてもいいけど
0729名無しさん@お腹いっぱい。2021/01/24(日) 04:31:27.21
ttps://blog.archive.org/2019/10/23/the-wayback-machines-save-page-now-is-new-and-improved/
ここに載ってる、savepagenow@archive.orgに他人から来たメールをFwdで送ったら
URLを抽出して保存された後に保存済URLが返ってくるのって今も機能してるのか?
メールが返ってこないんだが
ブログ記事の数日後に書かれたコメント欄の時点でメール返ってこねぇって書いてる人いるけども
0731名無しさん@お腹いっぱい。2021/01/24(日) 19:17:01.62
>>730
今時DeepLあたりでも使えばそこまで英語で苦戦することは無いよ
というか英語圏のボランティア団体なんだからこちらが英語に合わせるのは当然のことじゃない?
0732名無しさん@お腹いっぱい。2021/01/24(日) 19:18:46.98
英語が嫌だったらArchiveTeamの日本支部でも作るしかないよね
まあそうなったとしても誰かが英語で本部とやり取りしないといけない訳だからあんまり意味無いけど
0737名無しさん@お腹いっぱい。2021/02/07(日) 15:31:24.66
おまえ今日もう10回とったからダメーっていうのやめて欲しいわ
そもそもエラーだったから取り直してるのはカウントすんなよ
0738名無しさん@お腹いっぱい。2021/02/14(日) 16:09:56.27
archive.isの同じurlの取得間隔が伸びてるっぽい
前にとってから10時間以上経つのに取れない
0739名無しさん@お腹いっぱい。2021/02/15(月) 17:54:43.88
追記
やっぱり丸一日経たないと同じurlのアーカイブ取得出来なくなってるっぽい 全てのurlかどうかは不明
0740名無しさん@お腹いっぱい。2021/02/15(月) 19:35:35.74
>>739
>>739
毎日保存してるのに24時間以上たたないと保存できないのは困る

----------

> このサイトにアクセスできませんweb.archive.org で接続が拒否されました。
> ERR_CONNECTION_REFUSED

保存しすぎて個人的に Web.archive.org にアクセス拒否されたかと思ったw

Down for Everyone or Just Me
https://downforeveryoneorjustme.com/web.archive.org
> Web.archive.org Status
> Is web.archive.org down right now?
> It's not just you! web.archive.org is down.
0743名無しさん@お腹いっぱい。2021/02/15(月) 19:52:03.70
wayback machineぶっ壊れた
0747名無しさん@お腹いっぱい。2021/02/15(月) 22:21:55.65
メンテナンス情報も書いてない。まさか、F5アタックなのか?
0751名無しさん@お腹いっぱい。2021/02/16(火) 01:10:12.48
>>747
てかIAは鯖落ちしようが何も言わない
サンフランシスコ時間で朝になったから、今日も@internetarchiveは更新を始めたようだが、
いつも通りだんまりだね。4時間近く止まってたんだから一言欲しいけど
0753名無しさん@お腹いっぱい。2021/02/16(火) 10:22:33.21
APIのレスポンス増やしてほしいな
せめて落ちてるときは今落ちてるよ的なのを返して欲しい
0755名無しさん@お腹いっぱい。2021/02/17(水) 23:26:58.40
東京大学総合図書館、Internet Archiveとの連携を開始:同館デジタルアーカイブ資料4,000点以上が対象
ttps://current.ndl.go.jp/node/43304
0761名無しさん@お腹いっぱい。2021/02/21(日) 13:11:02.40
あれ?job failedでもThis URL has been already captured 10 times todayが出たな
ということは内部的には取れてるのか・・・?よく分からん
0763名無しさん@お腹いっぱい。2021/02/24(水) 15:46:58.89
>>761
上でも書いてる人いるけど、多分保存できてないと思う
最新から10個前の保存時間から24時間経たないとできない
0766名無しさん@お腹いっぱい。2021/02/27(土) 10:54:16.04
We're sorry ― something's gone wrong.
Our team has been notified.
これしか表示されなくなった
完全にぶっ壊れてる
0768名無しさん@お腹いっぱい。2021/02/28(日) 11:46:27.82
Save Page Nowで保存中に他人が保存したアドレスがたまに表示されてるんだけど、これやばくない?
試しにcurlで/save/から保存するのと同時に、WebブラウザからVPN使って別のIPアドレスにした上でSPNで別のサイトを保存してみたら、
curlで保存中の画像やJavascriptのアドレスがWebブラウザの方に出てきてしまった。
普通に情報流出していてワロタ

このスレでも他人のアドレスが出てくる状態になった報告があるみたいだけど、直す気ないのかな。マジで直したほうがいいと思う。
>>568-570
>>584-589
0769名無しさん@お腹いっぱい。2021/03/01(月) 20:37:48.02
ここ2週間ぐらい、

archive.todayで、

インスタグラムを保存できなくなってるの 俺だけ?

2週間くらい前までは、インスタグラム保存できてたのに。

他に インスタグラムを保存できる魚拓サイトありますか?
0770名無しさん@お腹いっぱい。2021/03/01(月) 23:25:20.89
インスタビューア的な外部サイトがいくつもあるから
それを介して保存するって方法がある
URLをしっかり記録しておかないと参照できなくなるってのが面倒だけど
0771名無しさん@お腹いっぱい。2021/03/02(火) 14:01:49.74
web.archive.org/save であるべーじを保存できた(3月2日)
保存出来た時に表示されるリンクをクリック
→二月中旬に保存したものに飛ぶ

カレンダーを見ると3月2日に保存マークがある
→それをクリックすると二月中旬に保存したものに飛ぶ

これって3月2日に保存は出来たけど閲覧できない状態ということ?
0772名無しさん@お腹いっぱい。2021/03/03(水) 13:37:44.10
>>770

>インスタビューア的な外部サイトがいくつもあるから
>それを介して保存するって方法がある

回答 ありがとうございます。
「インスタビューア的な外部サイト」でググっていますが、見つかりませんorz。
ちなみにパソコン ユーザーです。

保存ができる、おすすめのインスタビューア的な外部サイトを教えていただければ幸いです。m(_ _)m
0773名無しさん@お腹いっぱい。2021/03/03(水) 15:26:40.68
この保存職人たちの怒りのスレいわく、
ttps://archive.org/post/1105471/pages-refusing-to-save-this-is-asinine
Poster: Hitsmello Date: Nov 29, 2020 10:39am

Also, lately, I've noticed that the "Job failed" only seems to happen if I check the "Save outlinks" AND the "Please email me the results" boxes.
It WILL save properly if I just check "Save also in my web archive" and "Save outlinks". Gee, I wonder why...

ログインしてSave outlinksとPlease email me the resultsにチェックを入れるとjob failedが出ずに保存できるらしい
俺はアカウントから保存して、ファイルに名前が残るのはやだから、試してないけど
0774名無しさん@お腹いっぱい。2021/03/03(水) 15:31:00.65
>>771
反映待ち状態になってるから、数日後に見れるようになったか確認してみて
大抵は24時間、遅くても2日以内に見れるようになるはず
急いでるか保存失敗してそうなら、同じURLなら30分後以降にまた保存できるので再度保存するのもあり
0775名無しさん@お腹いっぱい。2021/03/03(水) 18:22:54.32
This URL has been already captured 10 times today

同じURLで連続10回保存失敗した場合でもこのエラーが出る。
失敗してるのにこれはないだろ。capturedできてねーぞ。
0776名無しさん@お腹いっぱい。2021/03/03(水) 20:33:32.32
>>772
instagram viewerとかでググって出てきたサイトに投稿を表示させて、その内容を保存するってこと
サイトによって表示される情報量がまちまちだから色々試して使いやすいのを探す必要がある

(例) プロフィール画面
https://web.archive.org/web/20210303101254/https://instastory.net/profile/cristiano
(例) 投稿画面
https://web.archive.org/web/20210303090845/https://instastory.net/post/CL7sxQPgvB6

可能な限りは公式サイトを保存したいところだけど
どうしても無理ならこうするしかないんじゃないかな
0777名無しさん@お腹いっぱい。2021/03/04(木) 17:47:00.70
save画面でキャプチャできたのかリンクが出たからクリックしたらサイトは保存されていませんと出る
0779名無しさん@お腹いっぱい。2021/03/05(金) 16:53:21.35
さっき知ったけど、IAの社員でWayback Machine責任者のマーク・グラハムさんがSave Page Nowや/save/のAPIの仕様説明書を公開してくれた
ttps://webapps.stackexchange.com/a/151360

自動翻訳かけても読む価値あると思う

Save Page Now 2 Public API Docs Draft
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit
https://docs.google.com/document/d/19RJsRncGUw2qHqGGg9lqYZYf7KKXMDL1Mro5o1Qw6QI/edit

Limitationsのところに制限について書いてあるのを拾ってみると
・同じIPアドレスから同時に6ページ以上SPNや/save/で保存すると自動でエラーになる
・10秒でレスポンス戻ってこなかったらタイムアウト
・50秒で保存先URLはタイムアウト
・spn@archive.org宛に保存したいURLのメールを送ると500個まで保存してくれる(俺の経験上結果がエラーだらけになる可能性大なので確実に保存したいなら手動で)
・ログインしてない同じIPアドレスから画像なども含めて1日2万ページ以上は保存リクエストだせない、ログインしてれば制限なし
・ログインしてAPIキーを取得すれば、プログラムから保存するのもできる

この制限に引っかからないようにすれば、大量保存してる人はうまくいくはず
サンプルコードにも失敗したら保存を繰り返すようなコードになってるから、保存エラーが多いのは認識してるんだろう
0781名無しさん@お腹いっぱい。2021/03/05(金) 18:13:28.08
>>776

ありがとうございます。上手くいきました
0782名無しさん@お腹いっぱい。2021/03/05(金) 19:51:34.90
A snapshot was captured.が出ればとりあえずは様子見でいいんかな
スナップショット等への反応が即時でないが
0783名無しさん@お腹いっぱい。2021/03/05(金) 20:16:22.56
保存できてもその保存できたページが表示できるまで時間かかってるっぽい?
カレンダーで確かに今日の日付で保存されてるのにそこをクリックしても過去に保存されたページしか出ない
first archiveの場合は成功しましたのリンククリックしても保存されてないになっちゃう
0788名無しさん@お腹いっぱい。2021/03/09(火) 01:33:30.80
ページによって挙動が違うのがなんとも
0794名無しさん@お腹いっぱい。2021/03/10(水) 21:25:03.54
>>793
なるほど しばらく待てば直るものか?
0796名無しさん@お腹いっぱい。2021/03/11(木) 00:11:38.24
>>795そう!それになるんだよ。最近調子悪いんだな……
0798名無しさん@お腹いっぱい。2021/03/11(木) 15:47:38.66
>>797
その通り…保存できてなくて困ってるよ
07997952021/03/11(木) 15:57:13.93
念のため記しておくと、こちらでは「保存できない」という問題は起きていない。
確かに保存完了直後には見られないことがあっても、数時間〜数日後には表示できている。
保存完了画面のリンクが別のファイルを指しているので、実際に見てみるには
URL を入れ直さなきゃならないという点は何とかしてほしいと思う。
0801名無しさん@お腹いっぱい。2021/03/11(木) 18:44:03.64
おお、今確認したらちゃんと保存されてた!保存しなおさないといけないと思ったから焦ったよ
教えてくれてありがとう
0802名無しさん@お腹いっぱい。2021/03/12(金) 02:59:00.85
google系だけじゃないぞ、多分アナリティクスのjsファイルURLが帰ってくることがあるからそう言ってるだろうけど
例えばある人のfc2ブログの記事を保存したら帰ってきたのはそのページで読み込まれるcssやjsファイルだったし
0804名無しさん@お腹いっぱい。2021/03/13(土) 22:35:06.61
「おかしなurlに飛ばされる」ってのは結局
物事をきちんと説明できない池沼が騒いでいただけなのか?
0805名無しさん@お腹いっぱい。2021/03/15(月) 00:54:48.12
保存して本来表示されるべきページではないurlが表示されている事を報告しているものを
池沼呼ばわりとはどういう了見かな?
0806名無しさん@お腹いっぱい。2021/03/15(月) 08:05:56.29
韓国人・朝鮮人式に考えれば良いのですよ。

行先の違うリンクを確認もせずにクリックして、勝手に飛んで行ったのであっても、
チョンにとっては「自分は常に正しい、悪いのは他人」ですから
飛ばされたことになっちゃうんですよ。
0807名無しさん@お腹いっぱい。2021/03/15(月) 11:07:06.87
Job failedは無くなったけどエラー自体はあんまり変わってないな
ページが存在するのにLive page is not availableが出たりするし
0812イモー虫2021/03/22(月) 04:29:32.07
あんま騒ぎになってないがなんでだろ
ガラケーからだけエラーが頻発かと思えば違うんだね
0813名無しさん@お腹いっぱい。2021/03/24(水) 20:24:38.95
twitterでjsonとられる現象減ったね
0815名無しさん@お腹いっぱい。2021/04/01(木) 09:36:27.49
案の定エイプリルフールページで殺到してるのか重いな
0817名無しさん@お腹いっぱい。2021/04/04(日) 15:52:25.36
archive,todayってURL保存した後にzipでDL出来るみたいだけど
攻略サイト保存したらちゃんと階層や画像も一括でまとめてzipでDL出来んの?
0819名無しさん@お腹いっぱい。2021/04/07(水) 05:09:08.66
This page is not available on the web/because of server error がでてこんにゃろと思ってたら
いきなりロードされて保存済みページが表示されたりがあるな
0820名無しさん@お腹いっぱい。2021/04/16(金) 00:59:24.77
なんかYahooニュースのURLを保存するとこれが出たりする
ブロックリストに入れるような記事かこれ?

This URL is in our block list and cannot be captured.
Please email us at "info@archive.org" if you would like to discuss this more.
0821名無しさん@お腹いっぱい。2021/04/16(金) 05:40:19.79
特定個人が発信する政治的記事の過去の言質を取られないようにするためと思われる
主にコロナ関連で
0822名無しさん@お腹いっぱい。2021/04/16(金) 07:10:27.48
もしあれだったら5chのニュースキャップなどでニューススレ立ててそっちを保存するか
yahooなら大抵二次なので一次ソースをたどってそっちを保存
0828名無しさん@お腹いっぱい。2021/04/20(火) 01:48:29.85
最近またjob failed出るようになったな
0830名無しさん@お腹いっぱい。2021/04/20(火) 21:36:13.88
twitterぜんぜん保存されてないな。万単位のフォローがいる垢でも保存されてなかったりする
0831名無しさん@お腹いっぱい。2021/04/21(水) 21:20:44.52
>>829
Web魚拓はReCaptchaのマークが右下に表示されてから12秒くらい待ってボタン押すと保存できるはず。
長く待ちすぎるとロボット拒否される
0832名無しさん@お腹いっぱい。2021/04/21(水) 23:45:37.52
スマートフォンでアーカイブしたものをスマートフォンで見ようとすると見れないが3Gガラケーでは見れる謎
0833名無しさん@お腹いっぱい。2021/04/22(木) 21:24:08.86
俺が対策書いた途端にWeb魚拓の仕様が変わって草。
このスレ見てる誰かがスクリプトでも走らせてるのか
0835名無しさん@お腹いっぱい。2021/04/25(日) 18:05:22.97
インターネット官報誰も保存してない
0838名無しさん@お腹いっぱい。2021/04/30(金) 18:23:16.44
>>830
ちょっと違うけど20年近く続いてる個人サイトとか、あとベテラン作家のブログが保存されてたのにサイトの方は自分が作業するまでアーカイブに無かったってことはあったな
(後者は今のサイトが出来てから2年ぐらいしか経ってなかったのもあるんだろうけど)
0839名無しさん@お腹いっぱい。2021/04/30(金) 21:42:19.54
Twitterのアーカイブは殆どArchive Teamのやつだから
ユーザーページは取られてないけど個別のツイートは殆ど取られてるはず
0842名無しさん@お腹いっぱい。2021/05/04(火) 22:21:00.51
アカウントの Mailing Lists Settings の項目が増えたな。

Stay up to date with what’s happening at the Internet Archive by signing up for our free newsletters.
□ Best of the Archive: Useful resources, unique stories, and fun finds from our collections
□ Monthly Updates: A snapshot of the main news stories about the archive each month
□ Event Notices: Invitations to and news about our events
□ Donor Communications: Messages for and about our generous supporters

どれも要らないけどw
0843名無しさん@お腹いっぱい。2021/05/05(水) 11:05:32.13
インスタ保存したいんだけどできないね
0847イモー虫2021/05/07(金) 16:22:46.45
ちなみにその個別画像urlテンプレ

https●:●//www.●instagram.●com/p/11桁のインスタ画像個別の英数/media/?size=l
0850名無しさん@お腹いっぱい。2021/05/08(土) 05:54:04.89
APIの情報も信用できないし、どれが取れていて どれが取れていないかは
結局自分たちの目で見て確認するしかないという現状。
0851名無しさん@お腹いっぱい。2021/05/08(土) 16:28:03.01
保存の確認のためにWayback Machine Availability APIを使ってみたけど、
保存されてるURLでもスナップショット無しだと返ってくる
壊れてるなこれw
0855名無しさん@お腹いっぱい。2021/05/09(日) 02:38:40.84
>>844
画像のアドレスの仕様にもよるがしおりをつけておかないと後で検索のしようがなくなりがちなやつ
imgurの画像とかも保存自体は出来るがどこの何の画像なのかはどこかに記載されてないとカオスに
0857名無しさん@お腹いっぱい。2021/05/09(日) 04:04:52.08
>>853
YouTubeのビデオは、訴えられる危険を犯した専用の解読スクリプトを書かないと
ビデオを保存できないので無理。

imgurのようなビデオに静的なリンクを張っている所とは違う。

https://web.archive.org/web/20210508173359/https://imgur.com/z55iZcq

<video draggable="false" playsinline="" autoplay="" … >
<source type="video/mp4" src=
"https://web.archive.org/web/20210508173359oe_/https://i.imgur.com/z55iZcq.mp4"
></video>
0858名無しさん@お腹いっぱい。2021/05/09(日) 04:48:52.27
動画自体も保存されてるよ。自動クロール率は低いけど
適当にURL貼るとこれとか
http://web.archive.org/web/20150815193649/https://www.youtube.com/watch?v=WJzSBLCaKc8
0859名無しさん@お腹いっぱい。2021/05/09(日) 21:18:48.23
>>858
消されてない動画の場合、見るたびにそっちを取りに行ってる可能性がある
まぁ自分も詳しくないので詳しい人いたら教えてほしい
0860名無しさん@お腹いっぱい。2021/05/10(月) 02:03:24.91
>>859
保存された動画を再生してるみたい
動画のソース
http://web.archive.org/web/20170214133548oe_/https://r4---sn-n4v7sne7.googlevideo.com/videoplayback?ipbits=0&mm=31&mn=sn-n4v7sne7&ratebypass=yes&expire=1487100946&signature=CA5A22657FBABB6AE773DB9B798B5BA86AE9B362.763F505CD7B9A750710077F92F766E70F1A57187&requiressl=yes&sparams=dur%2Cid%2Cinitcwndbps%2Cip%2Cipbits%2Citag%2Clmt%2Cmime%2Cmm%2Cmn%2Cms%2Cmv%2Cpl%2Cratebypass%2Crequiressl%2Csource%2Cupn%2Cexpire&ms=au&mt=1487079325&upn=NGplNw4c3TQ&mv=m&dur=291.108&pl=20&itag=22&key=yt6&ip=207.241.229.47&lmt=1472445730364669&mime=video%2Fmp4&id=o-ADUZW6CaxfO1uC---vHzDaHvx1GQWxmO717IBgPDVTS0&source=youtube&initcwndbps=2738750&signature=
0862名無しさん@お腹いっぱい。2021/05/10(月) 02:13:29.44
YouTubeは定期的に仕様変更してるからIAがそれに対応していくのは難しいらしい
だから昔のページだと動画が保存されてるのもあるけど今はされてない
0868名無しさん@お腹いっぱい。2021/05/11(火) 13:44:37.60
なんか今日はIAの調子やたらいいな
これまで表示されなかったスクショなんかもちゃんと取れてるし
0869名無しさん@お腹いっぱい。2021/05/11(火) 15:27:21.28
Youtubeは少なくとも今年1月にとった分は動画まで保存できてたから、時間が経てば取れると思う。
0871名無しさん@お腹いっぱい。2021/05/14(金) 18:54:25.52
waybackmachine使っただけで訴えられた事例とかあるの?
0876名無しさん@お腹いっぱい。2021/05/17(月) 10:22:21.67
Cannot get status of 16進数(32桁)というのが出る
0877名無しさん@お腹いっぱい。2021/05/18(火) 16:27:53.74
保存日時の情報は記録されているけれど、外部リンク調査日時の記録はされていないんだろうな。
これも記録してあればいいのに。
0880名無しさん@お腹いっぱい。2021/05/19(水) 23:05:23.86
サイト内のzip落としたらUAが表示される某サイトで
二度Sorry出したら二度ともUAが表示されていたから保存されてはいるようだ
0881名無しさん@お腹いっぱい。2021/05/20(木) 17:13:05.62
Cannot save Internet Archive URLs!
今日はこのエラー連発で1時間後にやり直したらできたり不安定すぎる
保存できなかった理由も書いてない
0883名無しさん@お腹いっぱい。2021/05/22(土) 13:44:06.50
ハイパーリンクの情報は当然持ってるとして各ファイルの被リンク情報はなくてもやっていけるんだろうかと少々心配になる
ビッグデータとして利用する客が考えればいいことか知らんが
0884名無しさん@お腹いっぱい。2021/05/23(日) 07:32:01.41
そもそも今のIAはとにかく情報を溜め込むことだけ考えてそれをどう活用するかは今後次第って感じじゃないかなあ
現状のsaveだけでもサーバー不安定になるレベルで常にやってるし(それでも全然間に合ってなさそうなのが怖いが)
0885名無しさん@お腹いっぱい。2021/05/23(日) 22:01:09.82
URLで検索してアーカイブ一覧を表示しようとすると次のエラーが出るのだけど
混雑で検索エンジンが止まってるだけかな

The search engine encountered the following error: invalid or no response from Elasticsearch
0887名無しさん@お腹いっぱい。2021/05/25(火) 04:48:03.82
>>507
ページ全体は無理だが画像などバラのパーツは個別に保存が可能だったりすることもある
ザル運営のブラウザゲームなどはありがち
0891名無しさん@お腹いっぱい。2021/05/25(火) 23:05:34.28
オーバーロードはなろう系で唯一お薦めできる作品
0892名無しさん@お腹いっぱい。2021/05/26(水) 03:28:24.76
最近データベースの入れ替えでもしてるの?
Explore more than X billion web pages saved over time
のXが一瞬半分になったり変動がすごい
0894名無しさん@お腹いっぱい。2021/05/26(水) 18:10:11.99
This snapshot cannot be displayed due to an internal error.
0895名無しさん@お腹いっぱい。2021/05/26(水) 21:05:39.01
回復したかな
0896名無しさん@お腹いっぱい。2021/05/27(木) 03:31:52.31
system overloadが出ても/*/の後にURLつけると保存できてることがあるので、
一応確認してみるのおすすめ
0906名無しさん@お腹いっぱい。2021/06/01(火) 03:49:59.92
swfのあるページの取得厳しいんだっけ
Cannot fetch the target URL due to system overload.がでる

todayのほうで試したらプロセスが空白で進行せず
megarodonは見かけ上はとれてるがソースからswfの現物アドレスを消して保存してるっぽい

ファイル固有の問題だろうか
デバッガでは開けるんだが
0910名無しさん@お腹いっぱい。2021/06/01(火) 13:20:35.24
激遅の/save/で行けたりしない?>swf
保存できても表示が更新されないので本当に保存されているか未確認だけど
0913名無しさん@お腹いっぱい。2021/06/02(水) 01:04:22.30
ファイル1個だけなら画像の確認とかやらないから拡張子関係なく超高速で保存できるはずだけど
0915名無しさん@お腹いっぱい。2021/06/02(水) 04:57:26.97
>>910
個別のswfのアドレス投げ込んだら保存できたからひとまずはいいことにする
開くときは開けるアドレスを知ってないとあかんね
デバッガだと「swfを置いてるページ」では開けないんでarchiveのソースに書かれてる現物のアドレスを掘り出してデバッガに渡すまでしないと開かない
(開けるのは確認できた)

>>911
なんかアナウンスされてたよね archiveのswf全部を勝手にブラウザ上で再生してくれるようなものを期待しちゃうけど
そこまでするのは結構大変なはず
0916名無しさん@お腹いっぱい。2021/06/02(水) 08:47:16.75
3Gガラケーの本体自体にフラッシュの再生機能付いててアーカイブ含め見れるが画面が小さいのがあかんな
ガラケー向けの時計フラッシュまちうけフラッシュは本体が壊れない限り確実に永遠に見れるけどペリーのピアノ講師ネタとか永遠に失われそう
0917名無しさん@お腹いっぱい。2021/06/02(水) 14:33:51.58
SPNを保存されたかの確認に使うというわけ分からん状況になってる。
誰かが過去に保存したであろう複数ページの記事が途中歯抜けで保存されているのを見かけた。保存失敗か?
元の記事はもう見れないから補完してあげることもできなかった。
0918名無しさん@お腹いっぱい。2021/06/02(水) 14:54:32.98
twitterの保存だけやけに時間かかるんだけど
0919名無しさん@お腹いっぱい。2021/06/09(水) 00:42:55.87
「Ruffle」というchrome拡張機能使えばFlash見れるよ
0920名無しさん@お腹いっぱい。2021/06/09(水) 01:11:29.08
Sorry
You have already reached the limit of active sessions

先週からエラー出まくり
0921名無しさん@お腹いっぱい。2021/06/09(水) 06:03:50.69
>>920
おまいさんのやり方が悪いだけ。先月の制限強化に引っ掛かってるんだろ。
https://docs.google.com/document/d/19RJsRncGUw2qHqGGg9lqYZYf7KKXMDL1Mro5o1Qw6QI/edit
> 2021-05-23
> Anonymous users have lower concurrent captures limit (limit=3) compared to authenticated users (limit=5).

制限値を超えないよう、保存開始のタイミングを調整するしか無い。
アカウントを作ってログインすれば従前の制限値に戻る上、空きセッション数を API で
得られるようになるので、自動的に空きを待ってから保存するようなシステムも
組めるようになる。
https://web.archive.org/save/status/user (ログインしていなければ 503 エラー)

Change Log に記載は無いが、ログイン済みユーザの制限値は 6 に緩和されている模様。
("available":6)
0923名無しさん@お腹いっぱい。2021/06/09(水) 16:25:44.73
ブラウザが (IA のヘッドレスブラウザも含めて) リファラを送らなくなったとか
そういう話じゃ無くて?
0925名無しさん@お腹いっぱい。2021/06/09(水) 18:29:55.92
制限するぐらいなら、有料化しろよ
0928名無しさん@お腹いっぱい。2021/06/10(木) 09:46:43.59
そうそう、IA のアーカイブはサーバのレスポンスヘッダが丸ごと保存されていることに留意。
つまり Set-Cookie でクッキーが返されていた場合、それも保存されているという事。
ログイン管理にクッキーを利用しているサイトで、アーカイブのデータを利用して
誰かに勝手にログインされるという事も起こりうる。
0933名無しさん@お腹いっぱい。2021/06/12(土) 23:14:58.67
最近、頻繁に使うようになったけど、今繋がらないみたいだね。
だいたいどれくらいで復帰するんだろうか?
1日2日はかかるかな?
0940名無しさん@お腹いっぱい。2021/06/15(火) 09:25:17.87
>>939
Due to a planned power outage, our services will be reduced on Tuesday, June 15th, starting at 8:30am PDT until the work is complete. We apologize for the inconvenience.

この程度の英文すら機械翻訳使わなきゃ読めない低能
0943イモー虫2021/06/18(金) 20:45:23.13
読み込み機能は機能しているのか
0944名無しさん@お腹いっぱい。2021/06/19(土) 14:06:16.43
The capture is estimated to start in 120 minutes. You may close your browser window and the page will still be saved.

うっかりログインし忘れるとこれだわw
0949名無しさん@お腹いっぱい。2021/06/20(日) 00:40:25.87
1085分、てかアカウントでログインして保存しようとしてもこの表示出るじゃん
アカウント作った意味ないわ
0950名無しさん@お腹いっぱい。2021/06/20(日) 01:26:26.34
待ち時間が一度表示されてしまうと、その後ログインして
同じURLの再保存を試みても待ち時間が延びるだけ。
0952名無しさん@お腹いっぱい。2021/06/20(日) 12:42:15.80
保存は匿名で出来るんですか?
0955名無しさん@お腹いっぱい。2021/06/21(月) 02:12:27.28
伊是名夏子のブログのアーカイブを見ようとすると
6月初めぐらいからThis URL has been excluded&#12316;が出るようになってるんだけど、
非表示化か削除依頼出したみたいだねこれ。
0956名無しさん@お腹いっぱい。2021/06/21(月) 10:45:02.62
アーカイブのアーカイブが必要になりそう
0962名無しさん@お腹いっぱい。2021/06/27(日) 13:37:52.83
>>952
>>57

問題なのは関連付けされてる場合はログインしている時のメールアドレスやユーザ名、ログイン関係なくハッシュ化したIPアドレスやUserAgent部分がWARCファイルの名前フィールド部分に保存される可能性がある。
気になるなら保存するときだけUserAgentやIPアドレス変えたり保存するページごとに別ければいい。
0966名無しさん@お腹いっぱい。2021/07/12(月) 07:09:59.53
あるWEBサイトの一部が消えているのだけれど、
インターネットアーカイブでも履歴が残っていないことがある
忍者とかいうブログサイトを使っているのだが、
あそこって削除した画像とかの履歴を残さないようにする機能とかあるのだろうか
0967名無しさん@お腹いっぱい。2021/07/12(月) 16:06:59.65
>>966
他の魚拓サイトにも残ってないの?まあブログはアーカイブされてないことが多いからなぁ。
0968名無しさん@お腹いっぱい。2021/07/12(月) 16:33:16.08
忍者って昔やたらボット除けに精を出してた所じゃないか
って今時の人は知らんのか

で、もうそろそろ次スレテンプレの話題でも
0970名無しさん@お腹いっぱい。2021/07/14(水) 01:47:06.23
ツイッターのアーカイブ保存、回収の法則テンプレに入れようぜ。
アーカイブ保存は
mobile.ツイッター.com
でなければならないが
回収web.archive.org/web/9999/はmobile.を外さなきゃならない
ってこれガラケーだけ?
0972名無しさん@お腹いっぱい。2021/07/16(金) 04:27:32.78
普通にTwitterをアーカイブすればmobileは付かないと思うんだが・・・
それは置いといて>>5とかの話は入れたほうが良さそう
0976名無しさん@お腹いっぱい。2021/07/18(日) 19:27:16.87
ttps://wiki.archiveteam.org/images/e/e6/Archiveteam.jpg
archiveteamが保存した一部のスナップショットを見ると、この「俺たちが保存したぜ」画像のURLを読み込むから、
誰がどのページを見たかarchiveteamのウィキサイトに情報が漏れるんだけど、ただのスパイじゃねーか。
Internet Archiveの人は誰も気付いてないのかなこれ。
0978名無しさん@お腹いっぱい。2021/07/19(月) 02:22:16.98
>>977
個人がアップロードしたWARCファイルは扱ってないじゃん
結局のところ制限引っかからないように/save/にURL投げるコードしか組めんよ
何も知らない無能はお前だ
0979名無しさん@お腹いっぱい。2021/07/19(月) 05:43:32.79
そのレベルの情報を気にするなら個人でproxyなりVPNなり使えばいいのでは
なぜArchiveTeamだけを気にしてるのかは知らんが
0980名無しさん@お腹いっぱい。2021/07/19(月) 22:59:58.68
>>976
ほんまや
About this captureの説明のところに埋め込んであった
でもブラウザの挙動はCSPで読み込みブロックってなってるから
インターネットアーカイブ側の対策でデータは送信されてない感じかね
0982名無しさん@お腹いっぱい。2021/07/23(金) 16:15:09.58
インターネットアーカイブが25歳になったら、知識がすべての人にとってよりアクセスしやすくなった極めて重要な瞬間を経て、戻る方法から進む方法への旅にあなたを招待します。

アレクサンドリア図書館からヨハネスグーテンベルクによる印刷機の発明まで。
情報への権利の第一修正の保証からワールドワイドウェブの作成まで、知識へのアクセスは常に建設者と夢想家のおかげでした。

さて、ブリュースター・ケールという若いコンピューター科学者がデジタル時代の「すべての図書館」を建設することを夢見ていた1996年にさかのぼります。
人類の出版されたすべての作品を含み、一般に無料で、時代を超えて非営利団体として構成されたライブラリ。彼はこのデジタルライブラリをインターネットアーカイブと名付けました。
その使命は、すべての人に「すべての知識への普遍的なアクセス」を提供することです。

この25年のマイルストーンに関するブリュースターの考察を読む

バーチャルセレブレーションに参加する
あなたが世界のどこにいても、私たちと一緒に祝いに来てください。

ウェイバックからウェイフォワードへ:25のインターネットアーカイブ
星を目指して到達したビルダーと夢想家との仮想の旅。
10月21日木曜日午後6時PT(午後9時ET)
0983名無しさん@お腹いっぱい。2021/07/24(土) 02:54:26.16
YoutubeのURL取ったら下のメッセージが出た
It may take a few days for YouTube videos to become available for playback.

動画もアーカイブされてるってことでいいのかな?
0984名無しさん@お腹いっぱい。2021/07/24(土) 13:53:59.14
Youtubeを保存したいなら手動保存が望ましい。クローラーの保存だと再生できないケースあり。
0991名無しさん@お腹いっぱい。2021/08/01(日) 18:27:20.02
それはしゃーない
0992名無しさん@お腹いっぱい。2021/08/01(日) 19:07:49.48
次スレたのんます
0994名無しさん@お腹いっぱい。2021/08/13(金) 07:19:48.01
Tor clients have already done 200,000 captures today. Please email us at "info@archive.org" if you would like to discuss this more.
とか出てきたんやけど・・・
0995名無しさん@お腹いっぱい。2021/08/13(金) 09:36:18.65
Tor使ってないのに俺も今日初めてそのエラーが出てきた
9時過ぎたので、一応リセットされて表示されなくなったが、
毎日これが出たら困るな、特に朝保存したい場合は
0997名無しさん@お腹いっぱい。2021/08/13(金) 19:21:46.35
>>993

おつでござんす
1000名無しさん@お腹いっぱい。2021/08/13(金) 20:56:15.43
【 html化されたこのスレを読んでいるお前へ 】

おい、お前。そう、お前だよ。
「このスレおもろいから見てみ」「2ちゃんの歴史に残る名スレだぜ」とか言われてホイホイと
このhtml化されたスレを見にきた、お前のことだ。
どうだ?このスレおもしれーだろ。
でもな、お前はこのスレを読むだけで、参加することはできねーんだよ。
可愛そうにな、プププ。
俺は今、ライブでこのスレに参加してる。
すっげー貴重な経験したよ。この先いつまでも自慢できる。
まあ、お前みたいな出遅れ君は、html化されたこのスレを指くわえて眺めてろってこった。
10011001Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 498日 18時間 48分 6秒
10021002Over 1000Thread
5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況