X


Internet Archive総合 (web.archive.org) #3

■ このスレッドは過去ログ倉庫に格納されています
2020/04/02(木) 02:08:09.83
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
2020/07/31(金) 22:17:37.78
>>339
404も忘れないであげて下さい
2020/07/31(金) 22:45:54.54
huh?
2020/07/31(金) 22:47:37.43
200以外でリトライし続けるようなスクリプト組んでるけどもう三日間は1ページも保存できてないし
2020/08/01(土) 01:02:58.62
三日間なにものどを通ってないみたいな言い方するな
2020/08/01(土) 02:24:02.89
>>342
どのくらい間隔あけているの?
2020/08/01(土) 02:33:21.99
1年間以上定期的にツイッターで保存していたせいかtodayはBANされてるなぁ
どうやっても404になるわ
使える串探すか
2020/08/01(土) 15:49:18.93
自分はsave page nowのフォームから保存すると毎回問題なくいけてる(少なくともここ一週間くらいは)
spnフォーム保存時の通信を覗いて、処理をスクリプトに落とし込むというのも不可能ではないのでは
2020/08/01(土) 15:53:57.90
確かにsave page nowは確率が高いね
2020/08/01(土) 23:59:08.53
いろいろやってみたけど、俺の結論

7月後半ぐらいから/save/の後ろのURLつけて保存しようとすると、そのページにある画像とかも一部保存もしくはURLを確認しに行く(保存はされない)ように設計が変わったようで、
そのせいでページに張り付いてる画像やスクリプトファイルが多いブログを保存する時は特に時間かかりまくってる
スクリプトで保存してる場合、ヘッダーにno-cacheやetagが出てきたら、それは保存失敗
ブログやニュースサイトの画像URLやスクリプトURLの過去の履歴を見ると、
1日以下の短期間で何十回も何百回も保存してるのを7月以降たくさん見かけるのはこのせいだと思う
Internet Archive側のアーカイブシステムの改悪だ、保存が遅くなる一方だよこれ
2020/08/02(日) 03:25:42.91
その保存しない確認ってのは一体何の意味があるんだろう
2020/08/02(日) 08:37:26.17
本来ならInternet archiveをメインに使いたいところだが、いかんせん取れないままではなぁ
サイトに繋がるだけじゃ意味がない
337や339のレスと同じ結果ばかりで、もう一週間くらい取れてないから渋々archive.todayメインに切り替えてる
2020/08/02(日) 17:49:10.54
いざとなったらspnフォームのHTTP通信解析してcurlで直接叩けばいいやと思ってるから特に気にしてない
2020/08/02(日) 19:09:18.50
もう使い物にならんな
2020/08/02(日) 20:24:52.19
Tweetsaveもタイムアウトなどクラウドフレアのエラーばっか出て心折れそう
2020/08/02(日) 20:27:40.48
Tweetsaveは年間通して繋がらないことは頻繁にあるからもう慣れた
2020/08/02(日) 20:41:54.12
>>351
1年前はcurlで1分間400回ぐらいはエラーなしで保存できたんだよな
今は10回やって2〜5分休むを繰り返すしかできない
もちろん串刺すかIPアドレス変えれば無限にできるけど、遅すぎる
2020/08/02(日) 23:24:33.52
>>355
1分間400回とかそれは多すぎるよ、逮捕者が出た岡崎図書館事件ですら1回のアクセス毎に2秒の間隔を置いてたくらいなのに
みんながそんなことやりすぎたからアクセス回数の制限入ったんじゃないの?
万が一訴えられた時のことも考えて、どんなサイトでも1回のリクエスト送ってから最低1秒空けるのが不文律
2020/08/02(日) 23:27:33.15
どうしても早く保存したいなら自分で保存対象サイトにwgetを走らせて、
そこからInternet Archiveのmetadataとしてアップロードすりゃいい
Wayback Machineには収録されないが、早くやりたいんならそれくらい我慢しなきゃ仕方ないだろ
2020/08/02(日) 23:31:20.30
どうしても高速でWayback Machineに保存したいなら、
ArchiveTeamのIRCから「このサイトを保存してほしい」と依頼してArchiveBotで作業してもらうという手もある
https://www.archiveteam.org/index.php?title=ArchiveBot
2020/08/03(月) 01:38:24.57
>>355
何をそんなに保存するものがあるのか興味あるわ
IAからしたら負荷かけまくりの悪質荒らしと変わらんな
2020/08/03(月) 02:02:51.37
ナニコレ
ttps://i.imgur.com/eYAu2fb.png
2020/08/03(月) 03:21:13.16
>>360
自分も全部それになる…
2020/08/03(月) 10:30:06.00
なぜかTweetsaveを素早く庇う奴が常駐してる
不思議だ
2020/08/03(月) 10:45:09.75
>>356
その辺の画像多用のブログをsave nowで保存するだけで画像やスクリプトで200のURLを一気に保存するんだが
考えてみればsave nowの方がサーバーに優しくないんだよ
2020/08/03(月) 14:19:45.15
save page nowのリンク先保存は読み込まれる数に制限あるぞ
2020/08/03(月) 14:46:11.43
>>362
確かに怖すぎ・・・
2020/08/03(月) 15:59:02.06
庇ってるか?
年間通して続いてるから事実を言っただけだ
改善する希望なんて持てないしさ
2020/08/03(月) 16:26:43.83
常駐ご苦労さん
368名無しさん@お腹いっぱい。
垢版 |
2020/08/03(月) 16:32:26.47
保存するのは芸能人のブログとかじゃないの

芸能人の画像をPCに保存にしないでIAを、クラウド代わりにする。
2020/08/03(月) 20:28:28.24
検索がfailed to fetchになってしまって全然できない…
2020/08/04(火) 05:32:30.73
save pageボタン押してもなかなか画面が変わらなくて
最後は502 Bad Gateway表示ばっかり
2020/08/04(火) 08:25:42.60
SPNは復帰
/save/は502 Bad Gateway
2020/08/04(火) 08:28:31.29
The capture is estimated to start in 600 minutes.
昨日ぐらいからSave Page Nowでこんな表示出てくるんだけど、あと10時間も待ってないといけないわけ?
いい加減にサーバー増強しろよ。。
2020/08/04(火) 10:01:44.45
Tweetsaveについて知らないニワカが落ちてると叩くのは
サービスを潰しかねない迷惑行為なのでやめてもらいたい
2020/08/04(火) 11:54:09.68
今Save Nowに突っ込んだら680分待ちでワロタ
2020/08/04(火) 11:54:46.66
そもそもいつからTweetsaveがInternet Archiveの傘下に入ったんだ?
ウェブアーカイブ総合スレでやれ
2020/08/04(火) 11:57:24.72
Internet Archiveも資金繰りが厳しいらしいからな
サーバの重さに文句言っていいのは寄付した人間だけだろ、自分は寄付してないから当然言えない
2020/08/04(火) 14:03:24.88
IA目線になる必要はない
向こうにクレームつけてるワケでなし
2020/08/04(火) 17:08:02.52
Internet archive取得できないな
Saving..のままだ
379名無しさん@お腹いっぱい。
垢版 |
2020/08/04(火) 17:50:56.70
なんでこんなんなっちゃったんだ
380名無しさん@お腹いっぱい。
垢版 |
2020/08/04(火) 18:13:31.23
国外のニュースサイトとかじゃあまり話題にしないな
2020/08/04(火) 19:50:11.42
The capture is estimated to start in 264 minutes.
382名無しさん@お腹いっぱい。
垢版 |
2020/08/04(火) 20:45:36.63
ここに書いてもしょうがないかしらんが
サイト撤去跡などでリダイレクトされるやつのリダイレクトが早すぎて
結局アドレスバーに直打ちしないと目当てのサイトを探せないのは何かなあ
2020/08/05(水) 03:17:21.99
FirefoxなんでYahoo!BlogならRedirectorで/web/2/に飛ばしてるよ
多分クロームにも似たような拡張あるだろう
2020/08/05(水) 03:25:10.25
>>378
自分もこれ…savingのまま一向に動かない
検索しても取れてない…
2020/08/05(水) 03:50:11.53
>>378 >>384
https://i.imgur.com/kjY7pOv.jpg
2020/08/05(水) 04:34:39.82
/save/
520 Unknown Error
failed to archive the URL. specifics of failure is unknown
2020/08/05(水) 13:52:57.91
520エラーでも数日後に見ると保存されるケースとされてないケースがあってよくわからん
2020/08/05(水) 14:18:52.88
保存されるケースだけなら困らないが
されてないケースがあるから困る
2020/08/05(水) 14:57:05.28
キャプチャまでの待ち時間がとんでもない事になってるけど
あれってタブ閉じるとダメなのかな?
内部的には処理待ち行列に入ってるとかならいいんだが
2020/08/05(水) 19:10:38.98
タブ閉じても保存されるっぽい
2020/08/05(水) 19:38:11.52
The capture is estimated to start in 0 minutes.
今待ち時間0分になってる
save/でもすぐに保存されてるし、やっと緩和したかな
これが続けばありがたいんだが
2020/08/05(水) 23:07:39.24
やっと不具合解消されたか
長かったな
2020/08/05(水) 23:18:38.18
行列で密になるところだった
2020/08/06(木) 07:52:14.90
保存待ち状態もAPIで判別可能ならもっといいんだけどな
2020/08/07(金) 08:24:06.69
平常通りと言いたいとこだけど、上部の棒グラフみたいな外観のリンクがバグってる
396名無しさん@お腹いっぱい。
垢版 |
2020/08/09(日) 01:14:41.21
24h後に再度試してもスナップショットがThis page is available on the web!になるな
2020/08/09(日) 01:49:03.68
それはわかってるわって言いたくなるな
2020/08/10(月) 02:19:13.94
お 保存成功
>396になった分はノーカンだから相当な足止めだな
2020/08/10(月) 08:53:33.67
なんだこれ気持ちわりいw ほぼノータイムで保存されたw
2020/08/11(火) 14:54:46.93
The same snapshot had been made 1 minutes and 3 seconds ago.
We only allow new captures of the same URL every 20 minutes.
401名無しさん@お腹いっぱい。
垢版 |
2020/08/11(火) 17:42:27.57
わお
2020/08/11(火) 23:40:05.49
何を保存してんだか
2020/08/12(水) 00:39:05.37
URL末尾に?を付けたらおk?
2020/08/13(木) 13:31:37.01
>>402
間違えて同じのやっちゃっただけだよ
2020/08/13(木) 23:35:13.19
最近必ず保存されていい感じ
2020/08/14(金) 02:26:01.50
同じURL保存の待ち時間が20分になったな
jsonになってしまう事も結構あるのにこれはつらい…
2020/08/14(金) 09:07:40.78
IPアドレス変えたりsave nowとアドレスバーにsave直打ちとかで同じかどうかも判定変わるから
いろいろ試せば1分未満でも再保存できる場合もあるよ
2020/08/14(金) 10:19:15.30
x-archive-wayback-runtime-error: WaybackException: java.lang.IllegalStateException: Payload size does not match content-length!
ここ数日このエラー多すぎ
2020/08/14(金) 16:29:46.94
todayスマホからアクセスするとCAPTCHAの無限ループなんだけどこれって俺だけ?
2020/08/14(金) 18:09:50.06
俺もなるわ
どうやらユーザーエージェントでブロックしてるらしい
別のブラウザアプリ使えば回避できる
411名無しさん@お腹いっぱい。
垢版 |
2020/08/14(金) 18:35:19.64
無限リキャプチャなんだこれ…って思ったら同じ人がいて安心した
2020/08/15(土) 00:29:36.27
>>409だけどいつの間にか直ってたわ
2020/08/16(日) 22:58:30.65
ワープ用の棒グラフをクリックするとこんなふざけたアドレスに飛ばされる。当然表示できない。
https://web.archive.org/web/20130821015518if_/http://*****.com/web/20191201000000/http://*****.com/
2020/08/17(月) 00:28:22.30
ほんとだバグってる
2020/08/17(月) 09:21:29.95
メンテ中で何も見れない
2020/08/17(月) 17:09:41.45
保存されてたはずのページが今日確認したらされてなかったことに・・・
特に今年7月あたりがひどい。
2020/08/17(月) 22:57:21.09
以前はちゃんと保存されて見れてたのなら、サイト運営者からの削除申請があったとかでもない限りは一時的なトラブルだから待ってれば直る
2020/08/18(火) 15:30:05.05
保存直後は問題なく見れるが数日後は無くなってるのが多いね
保存失敗したならちゃんと失敗したとエラー表示出して欲しい
2020/08/18(火) 16:08:16.30
>>418
見られなくなるのは一時的で数日後にはちゃんと見えるようになる
urlをブクマして確かめてみろ
2020/08/19(水) 01:14:34.33
URLから日付を選ぶページで保存元(Reason:)がNo Collection Infoって表示が出てるのは時間かかってるっぽい
保存されたらlivewebかsave-nowになるはず
2020/08/20(木) 13:37:54.14
>>418
単にインデクシング階層で情報の表示に失敗してるだけで、サーバ内部にはちゃんと保存されてる
待ってれば直る
2020/08/20(木) 13:40:37.45
noteのIP漏洩事案だけど、Wayback MachineのアーカイブのソースにIP情報が残ってる記事が結構あるらしい
削除申請が出される可能性があるから、noteのアーカイブを取ったことのある人は改めて保存し直しておくことを推奨
2020/08/20(木) 16:42:28.79
IA側がIPアドレスは個人情報じゃないので削除却下と行ってきたらどうすんの?
個人的には今回の件どうでもいいと思ってるし、note運営がどうこういう話じゃないしな
2020/08/20(木) 23:09:46.55
IPアドレスはEUの一般データ保護規則で個人情報とされてるからIA側が却下する可能性は微妙
もちろんnote運営を介さないと削除申請は出せないはずだけど、
某自主制作コミュニティで「note運営に働きかけて記事のアーカイブを削除してもらおう」
って動きがあったのを見かけたものだから念の為と思ってね
2020/08/21(金) 00:04:13.83
運営に言わずに自分や自社のブログを消したいなら自分で削除依頼出せばいいのにな
初めっからやる気なさそう
2020/08/21(金) 00:22:21.22
今気付いたんだけど、削除申請を受けてWayback Machineから恒久的に削除されたサイトでも
スクリーンショット機能を使えば普通に保存・閲覧出来るんだな
(つまりスクリーンショットはWayback Machine削除申請の影響を受けない?
単にスクリーンショット機能実装以前に削除されたからかもしれないけど)
既出ならすまない
2020/08/21(金) 00:23:29.07
× スクリーンショット機能実装以前に削除されたから
○ スクリーンショット機能実装以前に削除されたページだったから
2020/08/21(金) 00:26:14.79
>>425
Internet Archiveの削除申請は「自分がそのサイト本体の管理者であることが確実にわかる証拠」を提示しないといけない
だから多分自力じゃ厳しいと思う
2020/08/22(土) 22:36:33.52
削除申請してる時間あるならルーター再起動するなりすればいいだけじゃないんかね…
ipバレてビビるとか古のネット民じゃないんだから
2020/08/23(日) 00:29:25.80
固定IPなんかはそうもいかんだろ
2020/08/24(月) 03:31:06.48
>>426
スクショ機能なんて使う場面ないだろと思ってたけどそういう使い道があったか
2020/08/24(月) 16:55:38.02
スクリーンショットとサイト保存って何が違うの?
2020/08/24(月) 18:05:25.38
普通のサイト保存→
HTML/CSS/JSなどを実行した結果のデータやアクセス日時などの情報を、WARCファイルという専用フォーマットにまとめて保存する。WARCの表示には専用のビューワが必要

スクリーンショット→
ページのスクリーンショットを撮った画像ファイルを保存する。やってることはスマホやパソコンのスクリーンショットと違いはない

要は保存する方法が全く違う
2020/08/24(月) 23:21:34.82
どのサイトからのものってのはわかるのかな
2020/08/25(火) 15:21:15.62
>>434
URLの先頭にarchive.orgのものが付く以外は普通のURLと変わらないので分かる
2020/08/25(火) 23:20:57.08
なら便利だな
2020/08/26(水) 00:43:57.57
表示中のアーカイブサイトのどこを押せばサイト内容まとめたWARCファイルとやらをDL出来んの
2020/08/26(水) 01:26:16.34
別にわざわざWARC落とさなくても、ブラウザのWayback Machineで表示されてるのがWARCの内容だぞ

アーカイブされたサイトはWARCファイルとしてまとめられ、Internet Archiveのサーバに保存される
Wayback Machineは、サーバ内のWARCを呼び出してブラウザで見れるように適切に変換しているだけ
2020/08/30(日) 08:16:25.60
/save/の保存制限ってここ数日は緩和されてる?
時間なかったのでダメ元で何ページか同時に/save/の後ろにURLつけてブラウザで開いてみたら
去年の後半以降からずっと出てた「制限に達したから5分待ってください」のエラーが全く出ずに保存できた
440439
垢版 |
2020/08/30(日) 08:20:18.13
保存時に画像やスクリプトファイルで待たされるのは
去年の快適だったころとは比べてまだ元通りではないけど、ちょっとストレス減った
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。