Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/09/30(水) 20:55:20.93

OAuthも無理だろうしSPNでログインが必要なページは事実上無理じゃないかな

**名無しさん＠お腹いっぱい。** · 2020/10/03(土) 20:46:46.28

ログインするページは魚拓出来ないのですね・・・
ご回答ありがとうございました。

**名無しさん＠お腹いっぱい。** · 2020/10/03(土) 22:59:15.77

そもそもパスワード等を知らない「アカの他人」には見えないようになっているページを
どうして Internet Archive という「他人」に保存させようとするんだ?

リテラシーが崩壊してるわw

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 00:30:28.82

むやみに笑うなよ…もっと平和にいこうぜ

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 01:06:25.33

「リテラシーが崩壊してるわw」では済まされないくらい重要な問題なんだけどな
例えば学術論文リポジトリはログインしないと閲覧出来ない場合も多くて問題になってたりする

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 01:17:45.63

「ログインしないと入れないページ」は深層ウェブというものの一つでもあるんだけど、
ディープウェブのWebアーカイブをどうやってやっていくべきかというのは割と難しい課題なのよ

ログインしないと入れないページは、ちゃんとした理由があるからこそ閲覧に制限がかかってる
でもそれと同時に、ちゃんとした理由があってログインしないと入れないページをアーカイブしたい場合というのも往々にしてあるわけ（上で挙げた学術論文リポジトリはその一例）

とは言え、いくらアーカイブする必然性があってもだからと言ってアクセス制限を無視して良いわけではないし、両者の兼ね合いは結構難しい
ともかくこういうのを単なるネットリテラシーの問題として済ますのは良くない

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 01:22:42.49

理由は何であろうが、ログインを要求してるんだから
それ以上は IA 側の知った話じゃないよ

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 03:15:02.69

「知った話じゃない」ってのは
「関心を持って注視しているが現時点では対応していない」状況にぴったりな言葉じゃないと思う

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 15:45:40.69

>>515
自分でローカルに保存すればいいじゃん
なんだかんだ言って天災・過失で自前バックアップ死ぬよりも、ネットの方が通報も含めて明らかに先に死ぬし

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 17:10:59.85

>>515
言ってることがただの自己中だってことに気付けよ

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 17:23:57.00

横からだけど全然自己中じゃないと思うよ。

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 21:38:12.33

保存される側のルール＞保存する側の都合だしな

**名無しさん＠お腹いっぱい。** · 2020/10/04(日) 22:44:09.00

>>521
だよねー、普通は

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 01:02:47.64

>>521
その兼ね合いが難しいって話よ
そもそもウェブアーカイブ自体著作権法スレスレのものだし、保存される側の都合を完璧に守るのは無理だと自分は割り切ってる

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 01:05:22.46

ウェブアーカイブが単純にローカルで保存しとけば済む話だったらInternet Archiveという団体は存在しえない
保存する側とされる側の都合の兼ね合いは「自己中」で一蹴せず、ちゃんと考えていかなきゃいけないシリアスな問題だと思うよ

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 02:54:18.28

まだ引っ張んのかこいつw

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 04:15:46.32

草生やしてるほうレッテル貼りしかしてないもんなあ

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 04:55:38.02

自己中呼ばわりやら草生やしたりやらしてる方は
何か恨みでもあるんかってくらい食い付いてるしな
感情論で殴ってるだけだから話自体に説得力ないし

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 10:48:51.05

>>522
正義マンがポリコレ棒めっちゃぶんぶんしてるのに似てる
なんでルール守れないゴミ自己中のくせに被害者面してんの？
やべーわ
それで管理人がサイト更新意欲なくなっても
俺は悪くない！
とか宣うんだろｗ

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 17:14:59.29

おもしれー
もっとやれ

**名無しさん＠お腹いっぱい。** · 2020/10/05(月) 19:42:44.10

もっとやれって言われた以上この話題は無視するか
ここはTwitterのリプライかよ、くだらない

**名無しさん＠お腹いっぱい。** · 2020/10/06(火) 21:16:26.76

ルールに従えとしか言えないな
考えていかなきゃいけない問題だとは思うが、ここで議論する意味は無い

**名無しさん＠お腹いっぱい。** · 2020/10/07(水) 18:39:57.75

またデータ取れない状態になったみたいね

**名無しさん＠お腹いっぱい。** · 2020/10/15(木) 08:59:33.08

1980年代のインターネットの書き込みが磁気テープから復活　2020/10/14 [朝一から閉店までφ★]
https://asahi.5ch.net/test/read.cgi/newsplus/1602676258/

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 05:28:12.15

昨日ぐらいから/save/の後にURLつけると520エラーばっかりなんだが
保存すらされてない

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 07:12:52.64

Sorry
Cannot start capture

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 07:24:27.85

>>535
これ

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 12:16:07.53

Cannot start capture
これ俺以外もなってたのか
おま環じゃなくてよかった

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 14:04:37.17

>>534
Unknown Error
failed to archive the URL. specifics of failurte is unknown

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 14:10:34.97

>>538
×failurte
○failure
手打ちしたら余計なものが混入してた

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 16:57:00.72

Unknown Errorのままで使えない

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 17:35:10.02

ここ何周か archive.st が取得完了してもアーカイブされない不具合なままだ……

**名無しさん＠お腹いっぱい。** · 2020/10/16(金) 17:40:36.68

オフラインだって出てきた
>>535 >>538
これを直す為のメンテかな・・・？

**名無しさん＠お腹いっぱい。** · 2020/10/17(土) 05:55:06.62

とりあえず今の所は/save/もSPNも保存できるね
直ったかな

**名無しさん＠お腹いっぱい。** · 2020/10/17(土) 05:58:22.64

https://archive.org/post/1110563/archive-url-10-times-today-limit

俺の環境では確認できてないけど、
同じ日に10回以上保存されてるURLをさらに保存するとこんなエラーが出る場合があるらしい。

This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.

まあ、ニュースサイトとかじゃない限り10回も保存はしないだろうけど。

**名無しさん＠お腹いっぱい。** · 2020/10/17(土) 09:10:23.03

相変わらずページの一部画像が欠けて保存される

**名無しさん＠お腹いっぱい。** · 2020/10/17(土) 15:39:48.96

アーカイブが存在しなければ保存するみたいな選択項目があればもう少し容量削減できそうなのにな

**名無しさん＠お腹いっぱい。** · 2020/10/18(日) 13:05:45.08

このスレにかつて居たスポーツ新聞野郎がキチガイ扱いされたのは、
個々のニュースではなくサイトのトップとか一覧とかのアーカイブに固執してたから。

**名無しさん＠お腹いっぱい。** · 2020/10/18(日) 16:03:43.18

>>546
isみたくトップからやり直さないと何年も前のアーカイブ開くだけで取り直すか聞かないのもウザイけどな

**名無しさん＠お腹いっぱい。** · 2020/10/19(月) 00:06:20.58

>>547
あの人最近見かけないけど今どうしてるのかね
トップページや一覧ページの保存だけに血道を上げている様子は、正直言って病的というか空恐ろしいものがあった
他のスレ住人に何を言われてもほぼ反応なしで、何だか自分の世界に入り込んでるみたいだったね
彼は未だにスポーツ新聞のトップページを毎日手動で保存し続けているんだろうかね

**名無しさん＠お腹いっぱい。** · 2020/10/19(月) 04:33:54.40

archive.isでとった魚拓をinternet archiveで保存すると
できるのとできないのがあるんだけど
違いはなんだろう

**名無しさん＠お腹いっぱい。** · 2020/10/19(月) 06:12:33.66

あ、時間おいて再度やったら保存できたのもあるから単にサーバー側の不具合かも

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 17:14:46.24

Unknown Errorが多いな

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 19:10:14.06

既出かもしれないけど、こんなページがある。

Wayback Stats
https://archive.org/stats/
https://analytics0.archive.org/stats/wb.php

注目したいのはHTTP 200と503エラーのグラフと404エラーの割合グラフ
このスレでも報告があった10/15～10/16は表示エラーが多くて、
10/17は一時半分近くエラー続きだったそうだ。

このURLはテンプレか>>1に入れといていいと思う。

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 21:53:07.53

ずっと見られなくなってたtripod.com系のサイトがいつの間にか見れるようになってた
あとIEで見れなくなった
印刷プレビューはIEが一番使いやすかったのに…

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 22:53:30.54

IE排除は英断というか当たり前だと思う
開発元のマイクロソフトもとっくにサポートやめて「代わりにEdge使ってね」ってしつこいくらい宣伝してたし...

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 23:00:54.10

運営側にとってはIEってセキュリティホールも仕様の古さも色々と面倒で、本当に悩みの種なんだわ
Internet Archiveに限らずIEでの閲覧を想定しないサイトは今後どんどん増えていくだろうし、
悪いこと言わないから他のブラウザに乗り換えた方が良いよ

というか、これはあくまで個人的な感想だからつもりはないけど、
IEの印刷プレビューって言うほど使いやすいかな？
Chromeに印刷プレビュー機能がなかった10年前じゃあるまいし

**名無しさん＠お腹いっぱい。** · 2020/10/20(火) 23:21:09.35

UserAgentをIEに変えても、普通に見れるが。。
Your browser may not be compatible～ってのは出るけど。

**名無しさん＠お腹いっぱい。** · 2020/10/21(水) 00:30:53.60

「The server didn't respond in time for http://～」がよく表示されると思ったら特定のサイトだけだったか・・・

＞10/17は一時半分近くエラー続きだったそうだ。
　道理で保存されてないのがいくつかあるなと思ったら・・・

**名無しさん＠お腹いっぱい。** · 2020/10/21(水) 10:59:34.87

>>557
UserAgentで弾いてる訳じゃなくて、ページの構成自体をIEが対応してない形式に変更したんじゃないの？
IE使ってないから確認できてないけど

**名無しさん＠お腹いっぱい。** · 2020/10/21(水) 18:00:01.04

>>550
archive.is の拓が直接 archive.orgに取り込めない場合は少し前までなら anonymouse のWebプロキシのURL付けると取り込めたりしたが、

（例：http://anonymouse.org/cgi-bin/anon-www.cgi/http://e-words.jp/w/%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96.html　で取り込む）

…今秋から archive.is へのアクセスが暗号通信（ https://archive.is/XXXXX ）強制にされてしまったんで不可になってしまった。
（ anonymouse.は非暗号アクセス http:// のサイトにしか対応してない）
　

**名無しさん＠お腹いっぱい。** · 2020/10/21(水) 19:01:46.68

10/19あたりもひどいなぁ・・・
きちんと保存されてたはずのものがされてないことに。

**名無しさん＠お腹いっぱい。** · 2020/10/21(水) 23:45:30.07

保存が10/19ならもう数日待つべし

**名無しさん＠お腹いっぱい。** · 2020/10/22(木) 00:43:54.18

一時期なものならまだ良いが・・・

**名無しさん＠お腹いっぱい。** · 2020/10/22(木) 12:51:56.97

最低でも一週間は待てとあれほど
まぁ話題が少ないからループするのはしょうがないけど

**名無しさん＠お腹いっぱい。** · 2020/10/22(木) 19:24:33.27

>>46のことか。
ここのところあまりにもひどくてさ・・・

**名無しさん＠お腹いっぱい。** · 2020/10/23(金) 03:51:33.89

もはや不安定さには完全に慣れてしまった

**名無しさん＠お腹いっぱい。** · 2020/10/23(金) 11:25:58.48

一定周期で不安定化するのは
もう定期イベントみたいなもの

**名無しさん＠お腹いっぱい。** · 2020/10/24(土) 22:48:06.96

なんか急にやたら長い変なURLになって保存失敗することが増えた

**名無しさん＠お腹いっぱい。** · 2020/10/24(土) 23:09:23.02

ワケわからんurlになるよな

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 01:01:50.22

URLはバグってるけど少し経ってから元のURLでAPI確認すると取れてるぽい

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 01:34:37.40

"The server didn't respond in time for (保存URL)."
ってエラーメッセージが出ても、後で確認すると取れてることが多かったりする

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 12:49:20.36

とうとうエラーでサイト見れなくなったか？

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 13:16:13.93

>>572
何を言ってるのか良く判らない、と良く言われるだろw

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 13:24:21.46

503エラー出てるね
メンテ中かな

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 13:29:27.09

https://archive.org/
まさかのトップページで 500 エラーを返されたわw

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 14:45:08.36

復旧はしたが再度保存するのに要求される待ち時間が30分になってる…
ちょっと前は20分、去年あたりは10分で良かったのに…

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 21:11:43.05

/save/で1ページ保存できたっぽいから、もう1ページやったら
Unknown Errorになった。

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 21:16:36.58

スポーツ新聞野郎まだ居たのか

**名無しさん＠お腹いっぱい。** · 2020/10/25(日) 21:57:17.13

また取れない
Unknown Errorを繰り返すようになった

**名無しさん＠お腹いっぱい。** · 2020/10/26(月) 00:51:01.37

cloudfront.netがなぜか全部ブロックされていて、こんな風に表示される

Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.

会社のプレスリリースなどでcloudfront.net使ってるところは保存できなくなってるわ

**名無しさん＠お腹いっぱい。** · 2020/10/26(月) 17:19:48.92

Wayback Statsによると
24日午後4時～8時(日本時間25日午前8時～12時頃)にサーバーダウンして4時間ほどページすら見れなかったらしい

**名無しさん＠お腹いっぱい。** · 2020/10/26(月) 19:05:44.02

アメブロとったらかたつむりの画像かえされたんだけどなんでｗ

**名無しさん＠お腹いっぱい。** · 2020/10/26(月) 21:03:32.40

リアルなやつか？

**名無しさん＠お腹いっぱい。** · 2020/10/26(月) 23:46:49.93

これｗマウスの上にかたつむり乗ってるのｗリアルがダメな人は見ないで
http://web.archive.org/web/20201024183048/https://pbs.twimg.com/card_img/1318252845452374016/A4POgMBd?format=jpg&name=600x314

上にも書いたけどアメブロの魚拓をとったんだよね
あとからチェックしたら魚拓自体はとれてたんだけどｗ謎杉
数日前から変なURLに飛ばされることがあるけど結果的に取れてるんだよ

**名無しさん＠お腹いっぱい。** · 2020/10/27(火) 00:07:16.71

想像以上にリアルだった
きもE

**名無しさん＠お腹いっぱい。** · 2020/10/27(火) 00:49:59.93

googleに飛ばされたりpbs.twimgに飛ばされたり
よく分からん怪しいurlに飛ばされたりしてるな

**名無しさん＠お腹いっぱい。** · 2020/10/27(火) 01:26:19.05

>>584
それここ何日か発生してるバグっぽい。
save nowで保存すると、そのページじゃなくて読み込まれるURLの1個が帰ってくる。
変なURLが帰ってくるとびっくりするけど一応保存はされてる模様。

**名無しさん＠お腹いっぱい。** · 2020/10/27(火) 01:28:05.49

確認してないけど、もしかしたら一番長いURLが戻ってくるのかもしれない。

**名無しさん＠お腹いっぱい。** · 2020/10/27(火) 02:13:12.17

そのバグだいぶ前からあった
バグったり直ったりしていた

**名無しさん＠お腹いっぱい。** · 2020/10/27(火) 02:27:39.41

AmebloじゃなくてInternet Achieveのほうの不具合なのか

**名無しさん＠お腹いっぱい。** · 2020/10/27(火) 10:08:38.57

昨日は謎の文字列頁が表示されてびっくりしたよ

**名無しさん＠お腹いっぱい。** · 2020/10/29(木) 03:45:25.34

Your capture will begin in 15s.
またsave nowが混み始めたぞ

**名無しさん＠お腹いっぱい。** · 2020/10/29(木) 11:59:23.94

本レビューサイト「ブクログ」、2年弱ソースコード上にメールアドレスが表示された状態に
https://security.srad.jp/story/20/10/25/1638251/

Noteに続き、今度はブクログのメルアド流出でbooklog.jpまるごとブロックか削除になったそう

**名無しさん＠お腹いっぱい。** · 2020/10/29(木) 16:27:01.75

結局Wayback Machine頼りじゃなく、自分で保存してInternet Archiveのアカウントでアップロードするのが安全なんだよな

**名無しさん＠お腹いっぱい。** · 2020/10/29(木) 17:39:46.40

excluded表記は削除じゃなくてWaybackMachineのアクセス拒否だって事を願ってる
こんなしょうもない事でポンポン消されたらたまったもんじゃない

**名無しさん＠お腹いっぱい。** · 2020/10/29(木) 22:34:14.27

中国本土で、アメリカのInternet Archive相当の役割をしているサイト、サービスは、どこですか？
URLが知りたいです。

**名無しさん＠お腹いっぱい。** · 2020/10/30(金) 02:14:44.13

>>596
ざっと検索したらそれらしい情報は出てきたが、あなたの欲しい情報が入ってるかは分からん

IPLC Launches the Greater China Archival Resources Web Archive（Ivy Plus Libraries Confederation, 2020/9/9）
https://ivpluslibraries.org/2020/09/iplc-launches-the-greater-china-archival-resources-web-archive/

Greater China Archival Resources Web Archive（Archive-It）
https://archive-it.org/collections/14767

**名無しさん＠お腹いっぱい。** · 2020/10/30(金) 02:16:14.21

archive.orgは金盾でブロックされてるのか
まあ当然っちゃ当然かもしれないけど

**名無しさん＠お腹いっぱい。** · 2020/10/30(金) 09:30:17.93

>>597
ありがとうございます！とても参考になりました。

**名無しさん＠お腹いっぱい。** · 2020/10/31(土) 21:34:11.67

どうでもいい話だけど
「インターネットアーカイブ」で検索しても1ページ目にすら出ないんだな
「internet archive」だとトップなのに
日本人はあんまり使ってないのかな・・・？

**名無しさん＠お腹いっぱい。** · 2020/10/31(土) 21:44:23.02

ウェーバック・マシーンは出てくる

**名無しさん＠お腹いっぱい。** · 2020/11/01(日) 15:21:23.61

>>600
グーグル使うの止めたら？
スマホファーストデザインやるようになったぐらいから、
そこらのアフィカスブログが可愛く見えるくらいアフィカス度激高になってるよグーグル

**名無しさん＠お腹いっぱい。** · 2020/11/05(木) 14:53:16.09

半角無理そう？

**名無しさん＠お腹いっぱい。** · 2020/11/05(木) 14:55:42.77

>>595
アーカイブを消させるための手法として流用されるかも
下手すると第三者がこういった工作をする可能性も

**名無しさん＠お腹いっぱい。** · 2020/11/05(木) 16:20:41.64

sakura03鯖のログって全損なんかな

**名無しさん＠お腹いっぱい。** · 2020/11/06(金) 13:29:44.23

googleキャッシュならまだあるだろうから
保存するなら今のうちだな

**名無しさん＠お腹いっぱい。** · 2020/11/06(金) 21:12:40.12

ここって昔のPCゲームもあるんだな
diablo2ゲット

**名無しさん＠お腹いっぱい。** · 2020/11/07(土) 01:44:34.11

お宝見つけても名前は出さない方が無難
こっそり楽しめ

**名無しさん＠お腹いっぱい。** · 2020/11/07(土) 10:41:21.23

>>595
それで合っていると思う
試しにツールを使って、すでにその状態になっているものをここからダウンロードしようとしたら
「403 Forbidden」が出たから
だからまた見るにはインターネットアーカイブ側でアクセス許可にされるか
それともそれをかいくぐれるツールが出来るかのどっちかしか無いかも

**名無しさん＠お腹いっぱい。** · 2020/11/07(土) 14:46:43.61

>>607
シリアルが画が画が

**名無しさん＠お腹いっぱい。** · 2020/11/10(火) 00:24:38.75

角煮ログも封鎖されたかな

**名無しさん＠お腹いっぱい。** · 2020/11/11(水) 23:22:46.65

ttps://analytics0.archive.org/stats/wb.php
日本時間で午後10時50分過ぎから鯖落ちしてる模様

**名無しさん＠お腹いっぱい。** · 2020/11/12(木) 02:34:24.00

今はサーバー復活してる、保存も問題なし

**名無しさん＠お腹いっぱい。** · 2020/11/19(木) 10:57:43.27

寄付催促してんな

**名無しさん＠お腹いっぱい。** · 2020/11/19(木) 13:48:19.34

seesaawikiのサイトを取ろうとするとクラッシュしたり挙動がおかしくなる

**名無しさん＠お腹いっぱい。** · 2020/11/19(木) 16:14:02.21

寄付の表示のところに毎日7億5000万ページ(画像やスクリプトを多分含む)保存してると出てるね

**名無しさん＠お腹いっぱい。** · 2020/11/19(木) 23:46:06.93

コスパティオのページ保存すると変なとこにリダイレクトされて上手く保存できなくなった

**名無しさん＠お腹いっぱい。** · 2020/11/20(金) 04:16:43.66

寄付の表示がでるようになったり
一昨日くらいにUnknown Error表示でまくりで放置してた分も依然そのままの状態で取れない
なんだかうまく取れたらクリアってゲームやってる気がしてきた・・・

**名無しさん＠お腹いっぱい。** · 2020/11/20(金) 08:15:01.59

save page nowでやってダメなら時間置いてもう一度やるのが一番早いと思う

**名無しさん＠お腹いっぱい。** · 2020/11/20(金) 08:19:32.56

>>617
変なURLが帰ってくるのは>>582-589で出てるバグなら気にしなくて大丈夫だよ
https://web.archive.org/web/*/の後ろにURLつけて確認してみ

**名無しさん＠お腹いっぱい。** · 2020/11/20(金) 21:31:52.70

こっちで出なくなったと思ったら魚拓で502
おま環？

**名無しさん＠お腹いっぱい。** · 2020/11/21(土) 14:12:11.95

>>615
Archiveteamにwiki専門のグループがあるからそのIRCで頼めば保存してもらえるかも
以前別件でコンタクト取ったときに向こうから保存したい日本のwikiはないかって尋ねてきたこともあるくらいだから積極的に動いてくれると思う
https://archiveteam.org/index.php?title=WikiTeam

**名無しさん＠お腹いっぱい。** · 2020/11/21(土) 20:01:45.32

なんか古いデータどんどん消してる気がする・・・
何年も前から取ってるページなのに2020年7月からしかないとか変だわ

**名無しさん＠お腹いっぱい。** · 2020/11/21(土) 23:16:26.36

削除以外でもメンテか障害かなんかで
一時的に一部データが閲覧できない場合もあるからな

**名無しさん＠お腹いっぱい。** · 2020/11/22(日) 01:23:53.80

【Web】Internet Archive、Flashコンテンツをアーカイブ　プラグインなしで21年以降も閲覧可能に【Rust】 [少考さん★]
https://asahi.5ch.net/test/read.cgi/newsplus/1605969388/l50

**名無しさん＠お腹いっぱい。** · 2020/11/23(月) 22:59:21.80

妥当だね
メニューがFlashのサイトとかナビゲーションさえできなくなっちゃうからな

**名無しさん＠お腹いっぱい。** · 2020/11/26(木) 06:49:26.37

MacかiPhoneのSafariで見るとkCF～のエラーが出るのは何度か再読み込みすれば直る
ダメなら時間おくしかない

**名無しさん＠お腹いっぱい。** · 2020/11/29(日) 12:26:24.57

save page nowから2GB以上のファイルを保存しようとすると「Resource file size is over 2GB.」のエラーが出るようになってる
ちょっと前までは出なかったのに

**名無しさん＠お腹いっぱい。** · 2020/11/29(日) 13:46:55.47

何を保存してるのか気になる

**名無しさん＠お腹いっぱい。** · 2020/11/29(日) 15:50:01.95

ゲームの修正パッチとか体験版とかだとたまにそのくらい行くな＞2GB以上

**名無しさん＠お腹いっぱい。** · 2020/11/29(日) 16:02:24.61

>>620
残念ながらそのバグではない。
クッキー無いとリダイレクト失敗する仕様になっているぽい

**名無しさん＠お腹いっぱい。** · 2020/12/01(火) 10:52:52.75

curlで保存してるけど、最近は調子良すぎなんだが
20秒ぐらいで保存が終わってタイムアウトも1割ぐらい
タイムアウトでもちゃんと保存されてるし、画像やスクリプト込みでこの時間だから、
以前より早いかも
(100個も画像やスクリプトあるページは無理だが)

**名無しさん＠お腹いっぱい。** · 2020/12/04(金) 23:38:28.47

Unknown Errorが出たら保存し直した方がいいかもな
一ヶ月前のUnknown Error保存分をチェックしてみたら
日付だけ表示されたが中身は保存されてないようだ

**名無しさん＠お腹いっぱい。** · 2020/12/05(土) 16:22:36.31

最近APIが重すぎる

**名無しさん＠お腹いっぱい。** · 2020/12/05(土) 17:14:55.42

Sorry

Job failed

**名無しさん＠お腹いっぱい。** · 2020/12/06(日) 13:21:09.09

You have already reached the limit of active sessions
今日2回目の保存なのにこのエラーが出るとか、ふざけすぎでしょw

**名無しさん＠お腹いっぱい。** · 2020/12/06(日) 13:23:29.09

IPアドレス変えてもこのエラー出るので
active sessionsだからサイト全体のセッション数の制限を超えてるということかもしれないが

**名無しさん＠お腹いっぱい。** · 2020/12/06(日) 19:32:55.17

>>637
host規制かそのサイトだけ取れないように規制されてるかじゃね知らんけど

**名無しさん＠お腹いっぱい。** · 2020/12/06(日) 23:36:07.44

>>635
200ページほど/save/で保存した結果、平均3～5回このエラー出るわ
保存されてないのでエラー出たURLだけやり直し

**名無しさん＠お腹いっぱい。** · 2020/12/07(月) 10:35:04.56

>>639
ぶっちゃけ寄付してなきゃ規制されてても不思議じゃないよ、それ
無料に毒されすぎじゃない？
広告大量になったり、変なスクリプトで経費賄うようになったら嫌だなー

**名無しさん＠お腹いっぱい。** · 2020/12/07(月) 17:09:05.18

200ページ程度で規制されるわけない、スクリプトなら数分レベル
寄付しろってのはそう

**名無しさん＠お腹いっぱい。** · 2020/12/07(月) 17:39:59.48

そうやって間隔あけずに一気に叩き込むからすぐサーバー落ちるんじゃないのかよ

**名無しさん＠お腹いっぱい。** · 2020/12/07(月) 21:09:46.97

間隔開けなかったら数分もかからんよ

**名無しさん＠お腹いっぱい。** · 2020/12/07(月) 23:07:54.27

利用者も多いから負荷は可能な限り抑えて利用すべきではあるな

**名無しさん＠お腹いっぱい。** · 2020/12/08(火) 18:52:05.48

1日3億ページ保存してるとサイトで書いてあるのに、たった1人が数百ページ保存したぐらいでなんてこともないわw

**名無しさん＠お腹いっぱい。** · 2020/12/08(火) 22:29:27.53

実際にクッソ重い状態が続く事も珍しくないからな

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 10:26:17.35

本来機械化しないことを想定して作られてるんだから、
大量にリクエストしたら通常よりも大きな負荷がかかるかもしれない、くらいのことは想像つかないのかよ
やるならせめて寄付くらいはしろ

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 10:29:24.14

1つのIPからの接続回数や間隔が以前よりも制限されているという事実は、
どのような形であれ大量アクセスはInternet Archiveにとって困るってことの証拠じゃないの

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 13:07:12.73

てか>>645と同じアホが真に受けて俺も俺もとなるのが1番怖い
自制が効かない・寄付もしないゴミに目を付けられたサービスが改悪しまくるのは分かりきってる

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 14:19:34.60

数分ってのが10分と仮定しても60秒×10分÷200件=3秒にならん？
間隔短すぎだから間隔を30秒にしろ。

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 15:04:53.49

なんだ、自動化できずに必死にキーボード叩いてる無能が騒いでるのか

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 15:26:57.33

キーボード？手動でやるときはマウスだよ

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 15:52:40.47

curlでの保存方法、教えて

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 17:22:41.08

>>653
/save/にリクエスト送るだけ

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 17:52:48.98

適当なヘッダ付けて/save/を叩くだけだから、
HTTP通信さえ出来るツール使えばcurlじゃなくて問答無用で自動化できる
でも下手に叩きすぎてサーバ圧迫して結果制限が厳しくなったら元も子もないから、俺はやった事ない

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 17:53:20.92

curlじゃなくても

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 19:40:19.27

https://www.it-swarm-ja.tech/ja/archive.org/ウェブサイト全体をアーカイブする方法は？/965342469/

これで合ってる?

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 21:53:36.06

>>657
すまんけど何を聞こうとしてるのかよく分からん
その質問って結局「ひとつのサイト全体を自分で保存する機能は提供されてないよ」って事以外何も言ってないように見えるけど

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 21:56:26.36

ちゃんと下まで読んでなかったわ、>>658は取り消す
少なくとも静的サイトはこの方法で行けるね、wgetのmirrorオプションでURLリストを作るとは上手いこと考えたな

**名無しさん＠お腹いっぱい。** · 2020/12/09(水) 22:01:16.11

ただwgetは、JSとかで動的にコンテンツを取ってくるサイトやFlashが使われたサイトには対応できないから、
この回答の方法ではあらゆる種類のサイトを保存することはできない
でもHTMLとCSSだけで頑張ってるような昔の個人サイトなら問題ない

**名無しさん＠お腹いっぱい。** · 2020/12/11(金) 02:53:02.33

間隔っていうか、現状同じIPアドレスから5ページまでしか同時保存リクエスト受け付けてくれない。
6ページ目以上は保存処理が終わってないのが残ってると、タイムアウトになって保存されないよ。
自動化以前にウェブサーフィン(死語)中、手動でブラウザから/save/開いて保存したい時でも、状況は同じ。
今はこの制限内でやればいいだけ。

**名無しさん＠お腹いっぱい。** · 2020/12/12(土) 02:57:25.07

archive teamは数千単位のページを保存する場合はarchive botのIRCで保存依頼するのを推奨してるみたい
> avoid trying to send many thousands URLs; there's Archivebot for that
https://archiveteam.org/index.php?title=Internet_Archive

archive bot
https://archiveteam.org/index.php?title=ArchiveBot

**名無しさん＠お腹いっぱい。** · 2020/12/15(火) 21:01:34.37

新規に保存するとどうやってもこの画面になってしまう…
ttps://i.imgur.com/7Jip0Y5.png

**名無しさん＠お腹いっぱい。** · 2020/12/15(火) 21:02:45.84

Sorry.

This snapshot cannot be displayed due to an internal error.

さっき初めて出た、保存はされてるがエラーで表示できないという謎のエラー

**664** · 2020/12/15(火) 21:04:28.30

タッチの差だったごめん

**名無しさん＠お腹いっぱい。** · 2020/12/15(火) 23:57:41.06

そのエラー出ても後で取り直せば大丈夫っぽい

**名無しさん＠お腹いっぱい。** · 2020/12/16(水) 06:37:15.41

てか、以前は保存終わった後に保存しますか？の表示出たのがこれに変わっただけじゃね
なんかバグってるんだよね

**名無しさん＠お腹いっぱい。** · 2020/12/16(水) 17:34:12.89

今は正常になったか

**名無しさん＠お腹いっぱい。** · 2020/12/16(水) 20:02:08.13

Magic Viewer
https://chrome.google.com/webstore/detail/magic-viewer-for-chrome/npkhecbdgglnkjjaiojienebokcjbgmi?hl=ja
chromeの拡張機能を入れて、右クリックして、「すべての画像を見る」をクリックすると外部リンクの画像が自動でアーカイブされる。

サイトによっては、ブラウザのページを数回、再読み込みをする。

**名無しさん＠お腹いっぱい。** · 2020/12/17(木) 04:44:35.32

前は/save/で保存したページはLive Web Proxyってコレクションに入ってたのに
最近はSave Page Nowコレクション扱いになってるな
10月ぐらいからファイルが増えてないし、Live Web Proxyって引退したのかもしれない
https://archive.org/details/liveweb?sort=-addeddate
このスレでも10月はエラー多かった書き込みあったしな、移行期間だったのだろう

**名無しさん＠お腹いっぱい。** · 2020/12/17(木) 10:47:26.64

後で取り直したけど取れてないわ
取れてる取れてないの繰り返しにはうんざり

どこが運営してるのかわからないのは限りなく不安だが
もうarchive.todayしかない

**名無しさん＠お腹いっぱい。** · 2020/12/17(木) 16:01:59.78

過去レスすら読めない人の為に次スレではこれ(>>9)をテンプレに入れた方がいいな

**名無しさん＠お腹いっぱい。** · 2020/12/17(木) 16:39:47.92

11月分でいまだに反映されてないものも多々あるから
システムいじくってる最中で保存されてないものもあるかもな

**名無しさん＠お腹いっぱい。** · 2020/12/17(木) 17:05:10.84

スポーツ新聞野郎、まだ居たのか。

**名無しさん＠お腹いっぱい。** · 2020/12/17(木) 21:53:46.16

なにかしらのerrorが頻発するのが困りもの

**名無しさん＠お腹いっぱい。** · 2020/12/17(木) 23:36:55.01

>>674
スポーツ新聞アーカイブしてるとは一言も言ってないし同一人物とは限らんよ
毎日適当なページを実験用に保存し続けてInternet Archiveの挙動をテストしてる人もいたはずだし

**名無しさん＠お腹いっぱい。** · 2020/12/18(金) 00:36:49.29

お前らがしているのは多分、アイドル・声優のブログのアーカイブだろ

**名無しさん＠お腹いっぱい。** · 2020/12/18(金) 01:28:46.93

504とか503で何のアーカイブも見られん

**名無しさん＠お腹いっぱい。** · 2020/12/18(金) 01:47:52.99

アイドルも声優も、ブログどころかウィキペディアの記事すら見たことないわ
偏見すぎ

**名無しさん＠お腹いっぱい。** · 2020/12/19(土) 23:30:14.53

「curl -Ll ttp://web.archive.org/web/2020/ttp://○○○○.com/[（数字）-（数字）].html（.jpg）」

ttpではなく、httpに修正して

saveではなく、エラー軽減のため西暦の数字で

連番の数字で自動保存される。

**名無しさん＠お腹いっぱい。** · 2020/12/20(日) 03:27:16.25

エラーさんざんでまくり＆数日たって再度見に行くと真っ白のページが保存された形跡
これじゃしばらく試行しながら様子見するしかねえな

**名無しさん＠お腹いっぱい。** · 2020/12/24(木) 21:46:55.38

Fail with status: 503
ばっか表示される

**名無しさん＠お腹いっぱい。** · 2020/12/25(金) 04:04:48.90

あだしまの公式サイトは33回も保存されていて、IAでもちゃんと開けるのにAPIは情報なし。
APIがぶっ壊れたのか。

**名無しさん＠お腹いっぱい。** · 2020/12/25(金) 22:32:48.69

保存してHrmになってしまうと日付だけ保存＆表示されて
以後同一ページを保存してもずっとHrmになってしまう状況が11月から続いている

**名無しさん＠お腹いっぱい。** · 2020/12/26(土) 02:55:00.36

news.yahoo.co.jp/bylineから始まるYahooニュースの記事を保存しようとするとこれが表示される
専門家のブログのコピー記事だからブロックしてるのかな

Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.

**名無しさん＠お腹いっぱい。** · 2020/12/26(土) 07:23:35.18

録れてる奴もあるみたいだしよくわからんな
繰り返される悲劇はもうウンザリだ「右直事故」防止に切り札はあるのか!?(佐川健太郎) - 個人 - Yahoo!ニュース
http://web.archive.org/web/20201219152606/https://news.yahoo.co.jp/byline/sagawakentaro/20201219-00213273/

**名無しさん＠お腹いっぱい。** · 2020/12/26(土) 11:36:52.53

　
archive.org ? ウェブサイト全体をアーカイブする方法は？

http://web.archive.org/web/20201220090718/https://www.it-swarm-ja.tech/ja/archive.org/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B5%E3%82%A4%E3%83%88%E5%85%A8%E4%BD%93%E3%82%92%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%AF%EF%BC%9F/965342469/
　

**名無しさん＠お腹いっぱい。** · 2020/12/26(土) 17:10:27.56

>>686
これArchive Teamが保存したものをWayback Machineに移管したやつだね
Save Page Nowでは取れないけど、外部の人間が取ったものを移管したから結果的に取れてるように見えてる

**名無しさん＠お腹いっぱい。** · 2020/12/30(水) 16:01:54.23

寄付を煽るためにわざとエラー連発させるように仕込んでるのかな

**名無しさん＠お腹いっぱい。** · 2020/12/30(水) 17:30:24.61

そんなリスキーなことしないでしょ

**名無しさん＠お腹いっぱい。** · 2021/01/02(土) 23:03:35.16

>>684のHrmのままのページは保存し直せば反映されるようになった
放置しとくと日付だけ表示されるHrmのまま

**名無しさん＠お腹いっぱい。** · 2021/01/03(日) 14:23:02.24

Hrmって何て発音するんだ

**名無しさん＠お腹いっぱい。** · 2021/01/04(月) 09:24:29.97

「ふーむ」って言う途中でちょっと舌を丸める感じだと思っている
正確な発音はわからん

**名無しさん＠お腹いっぱい。** · 2021/01/04(月) 21:44:38.49

ﾊｧｰﾝﾑｯって読んでた

**名無しさん＠お腹いっぱい。** · 2021/01/07(木) 05:03:25.08

>>688
Collectionsのところ見たけど、Focused CrawlsとTop DomainsはArchive Teamが収集してるものじゃないよ
ブロックされているURLも移管してるのはそういう仕組みだろうけど
ヤフージャパンはアクセス数多いドメインとはいえ、ニュース系のページは収集してくれないんだなぁ

**名無しさん＠お腹いっぱい。** · 2021/01/07(木) 13:28:13.11

ヤフーニュースはSavePageNowでも取れるよ
ただ一部の記事で何故かBlockListエラーが出る
理由は謎（メールすれば聞けるのかもしれないけど）

**名無しさん＠お腹いっぱい。** · 2021/01/07(木) 13:35:08.85

なんか待ち時間すごい長くて全然アーカイブできない

**名無しさん＠お腹いっぱい。** · 2021/01/07(木) 14:27:18.78

既アーカイブへのURL検索落ちてる？

**名無しさん＠お腹いっぱい。** · 2021/01/07(木) 16:30:50.05

The capture is estimated to start in xxx minutes
今日はこればっかり

**名無しさん＠お腹いっぱい。** · 2021/01/08(金) 02:00:41.10

今は直ったかな?

**名無しさん＠お腹いっぱい。** · 2021/01/08(金) 10:11:43.26

The capture is estimated to start in 61 minutes.

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 00:15:31.32

https://i.imgur.com/2aUfX6u.jpg

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 04:00:24.16

改憲などという重要なものをアニメ絵に頼るカス団体は信用しない

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 11:27:19.35

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 11:47:42.84

落ち着いたかと思ったらJob failed祭り

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 16:52:25.91

ヨブ無能

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 21:56:53.82

実はちうごくじんなんじゃね

**名無しさん＠お腹いっぱい。** · 2021/01/11(月) 04:45:59.10

寄付した人間のジョブは優先して処理するみたいな仕組みが導入されたらできる限り寄付したい

**名無しさん＠お腹いっぱい。** · 2021/01/11(月) 13:33:23.25

年収20万ドルのエンジニア雇うだけの金があるのに、金で困ってすらないよ
その割にサーバーはザコだが