X



Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
垢版 |
2020/04/02(木) 02:08:09.83
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
0372名無しさん@お腹いっぱい。
垢版 |
2020/08/04(火) 08:28:31.29
The capture is estimated to start in 600 minutes.
昨日ぐらいからSave Page Nowでこんな表示出てくるんだけど、あと10時間も待ってないといけないわけ?
いい加減にサーバー増強しろよ。。
0373名無しさん@お腹いっぱい。
垢版 |
2020/08/04(火) 10:01:44.45
Tweetsaveについて知らないニワカが落ちてると叩くのは
サービスを潰しかねない迷惑行為なのでやめてもらいたい
0376名無しさん@お腹いっぱい。
垢版 |
2020/08/04(火) 11:57:24.72
Internet Archiveも資金繰りが厳しいらしいからな
サーバの重さに文句言っていいのは寄付した人間だけだろ、自分は寄付してないから当然言えない
0379名無しさん@お腹いっぱい。
垢版 |
2020/08/04(火) 17:50:56.70
なんでこんなんなっちゃったんだ
0380名無しさん@お腹いっぱい。
垢版 |
2020/08/04(火) 18:13:31.23
国外のニュースサイトとかじゃあまり話題にしないな
0382名無しさん@お腹いっぱい。
垢版 |
2020/08/04(火) 20:45:36.63
ここに書いてもしょうがないかしらんが
サイト撤去跡などでリダイレクトされるやつのリダイレクトが早すぎて
結局アドレスバーに直打ちしないと目当てのサイトを探せないのは何かなあ
0389名無しさん@お腹いっぱい。
垢版 |
2020/08/05(水) 14:57:05.28
キャプチャまでの待ち時間がとんでもない事になってるけど
あれってタブ閉じるとダメなのかな?
内部的には処理待ち行列に入ってるとかならいいんだが
0391名無しさん@お腹いっぱい。
垢版 |
2020/08/05(水) 19:38:11.52
The capture is estimated to start in 0 minutes.
今待ち時間0分になってる
save/でもすぐに保存されてるし、やっと緩和したかな
これが続けばありがたいんだが
0396名無しさん@お腹いっぱい。
垢版 |
2020/08/09(日) 01:14:41.21
24h後に再度試してもスナップショットがThis page is available on the web!になるな
0401名無しさん@お腹いっぱい。
垢版 |
2020/08/11(火) 17:42:27.57
わお
0407名無しさん@お腹いっぱい。
垢版 |
2020/08/14(金) 09:07:40.78
IPアドレス変えたりsave nowとアドレスバーにsave直打ちとかで同じかどうかも判定変わるから
いろいろ試せば1分未満でも再保存できる場合もあるよ
0408名無しさん@お腹いっぱい。
垢版 |
2020/08/14(金) 10:19:15.30
x-archive-wayback-runtime-error: WaybackException: java.lang.IllegalStateException: Payload size does not match content-length!
ここ数日このエラー多すぎ
0410名無しさん@お腹いっぱい。
垢版 |
2020/08/14(金) 18:09:50.06
俺もなるわ
どうやらユーザーエージェントでブロックしてるらしい
別のブラウザアプリ使えば回避できる
0411名無しさん@お腹いっぱい。
垢版 |
2020/08/14(金) 18:35:19.64
無限リキャプチャなんだこれ…って思ったら同じ人がいて安心した
0416名無しさん@お腹いっぱい。
垢版 |
2020/08/17(月) 17:09:41.45
保存されてたはずのページが今日確認したらされてなかったことに・・・
特に今年7月あたりがひどい。
0417名無しさん@お腹いっぱい。
垢版 |
2020/08/17(月) 22:57:21.09
以前はちゃんと保存されて見れてたのなら、サイト運営者からの削除申請があったとかでもない限りは一時的なトラブルだから待ってれば直る
0418名無しさん@お腹いっぱい。
垢版 |
2020/08/18(火) 15:30:05.05
保存直後は問題なく見れるが数日後は無くなってるのが多いね
保存失敗したならちゃんと失敗したとエラー表示出して欲しい
0420名無しさん@お腹いっぱい。
垢版 |
2020/08/19(水) 01:14:34.33
URLから日付を選ぶページで保存元(Reason:)がNo Collection Infoって表示が出てるのは時間かかってるっぽい
保存されたらlivewebかsave-nowになるはず
0422名無しさん@お腹いっぱい。
垢版 |
2020/08/20(木) 13:40:37.45
noteのIP漏洩事案だけど、Wayback MachineのアーカイブのソースにIP情報が残ってる記事が結構あるらしい
削除申請が出される可能性があるから、noteのアーカイブを取ったことのある人は改めて保存し直しておくことを推奨
0423名無しさん@お腹いっぱい。
垢版 |
2020/08/20(木) 16:42:28.79
IA側がIPアドレスは個人情報じゃないので削除却下と行ってきたらどうすんの?
個人的には今回の件どうでもいいと思ってるし、note運営がどうこういう話じゃないしな
0424名無しさん@お腹いっぱい。
垢版 |
2020/08/20(木) 23:09:46.55
IPアドレスはEUの一般データ保護規則で個人情報とされてるからIA側が却下する可能性は微妙
もちろんnote運営を介さないと削除申請は出せないはずだけど、
某自主制作コミュニティで「note運営に働きかけて記事のアーカイブを削除してもらおう」
って動きがあったのを見かけたものだから念の為と思ってね
0425名無しさん@お腹いっぱい。
垢版 |
2020/08/21(金) 00:04:13.83
運営に言わずに自分や自社のブログを消したいなら自分で削除依頼出せばいいのにな
初めっからやる気なさそう
0426名無しさん@お腹いっぱい。
垢版 |
2020/08/21(金) 00:22:21.22
今気付いたんだけど、削除申請を受けてWayback Machineから恒久的に削除されたサイトでも
スクリーンショット機能を使えば普通に保存・閲覧出来るんだな
(つまりスクリーンショットはWayback Machine削除申請の影響を受けない?
単にスクリーンショット機能実装以前に削除されたからかもしれないけど)
既出ならすまない
0427名無しさん@お腹いっぱい。
垢版 |
2020/08/21(金) 00:23:29.07
× スクリーンショット機能実装以前に削除されたから
○ スクリーンショット機能実装以前に削除されたページだったから
0428名無しさん@お腹いっぱい。
垢版 |
2020/08/21(金) 00:26:14.79
>>425
Internet Archiveの削除申請は「自分がそのサイト本体の管理者であることが確実にわかる証拠」を提示しないといけない
だから多分自力じゃ厳しいと思う
0429名無しさん@お腹いっぱい。
垢版 |
2020/08/22(土) 22:36:33.52
削除申請してる時間あるならルーター再起動するなりすればいいだけじゃないんかね…
ipバレてビビるとか古のネット民じゃないんだから
0433名無しさん@お腹いっぱい。
垢版 |
2020/08/24(月) 18:05:25.38
普通のサイト保存→
HTML/CSS/JSなどを実行した結果のデータやアクセス日時などの情報を、WARCファイルという専用フォーマットにまとめて保存する。WARCの表示には専用のビューワが必要

スクリーンショット→
ページのスクリーンショットを撮った画像ファイルを保存する。やってることはスマホやパソコンのスクリーンショットと違いはない

要は保存する方法が全く違う
0438名無しさん@お腹いっぱい。
垢版 |
2020/08/26(水) 01:26:16.34
別にわざわざWARC落とさなくても、ブラウザのWayback Machineで表示されてるのがWARCの内容だぞ

アーカイブされたサイトはWARCファイルとしてまとめられ、Internet Archiveのサーバに保存される
Wayback Machineは、サーバ内のWARCを呼び出してブラウザで見れるように適切に変換しているだけ
0439名無しさん@お腹いっぱい。
垢版 |
2020/08/30(日) 08:16:25.60
/save/の保存制限ってここ数日は緩和されてる?
時間なかったのでダメ元で何ページか同時に/save/の後ろにURLつけてブラウザで開いてみたら
去年の後半以降からずっと出てた「制限に達したから5分待ってください」のエラーが全く出ずに保存できた
0440439
垢版 |
2020/08/30(日) 08:20:18.13
保存時に画像やスクリプトファイルで待たされるのは
去年の快適だったころとは比べてまだ元通りではないけど、ちょっとストレス減った
0442名無しさん@お腹いっぱい。
垢版 |
2020/08/30(日) 19:59:54.58
ローカルhtmlにsave/httpのリンク複数貼って
それ一斉に開いたらちゃんと保存されてんの?
0443名無しさん@お腹いっぱい。
垢版 |
2020/08/30(日) 20:07:43.20
本当だ
しかもnoteの以前のドメイン(note.mu)の方は完全にブロックされてる
Twitterでは8月上旬までこのドメインの魚拓が共有されてるからIP流出事件後にブロックされたっぽい
https://i.imgur.com/BAAGgrQ.jpg
0444名無しさん@お腹いっぱい。
垢版 |
2020/08/30(日) 20:35:37.14
>>442
されてると思う
まとめて大量にするとToo Many Requestsエラーで漏れがでる可能性はあるけど
0445名無しさん@お腹いっぱい。
垢版 |
2020/08/31(月) 04:33:09.24
>>423みたいな懐疑的意見もあったけど、個人的には予想通りの措置って感じだな...
robots.txt見たらia_archiverとmegalodonをブロックしてた
0447名無しさん@お腹いっぱい。
垢版 |
2020/09/01(火) 03:46:44.96
robots.txtでブロックしてようがIAのバグで保存しちゃう方法はあるので、
Noteがサービス終了してrobots.txtの規制解除まで見るのだけはお預けだね
0448名無しさん@お腹いっぱい。
垢版 |
2020/09/01(火) 05:36:23.80
サービス終了しても解除されない場合があるからそんなに楽観的には見れないな...
そういうサイトはおそらくメールの申請で、Wayback Machineから恒久的に削除されてるんだと思われる
0449名無しさん@お腹いっぱい。
垢版 |
2020/09/01(火) 12:18:32.04
excludedって削除じゃなくて除外処置じゃないっけ?確証は持てないけど
復活したアーカイブは見たことあるけどそのままの例は知らないので教えて欲しい
0450名無しさん@お腹いっぱい。
垢版 |
2020/09/01(火) 17:10:02.85
自分が知ってる例は、URLは忘れてしまったけど、
だいたい10年近く前に閉鎖された版権作品の二次創作小説投稿サイトだった
2, 3年前にそのサイトのアーカイブをWayback Machineで見ようとしたんだが、
"このサイトはWayback Machineから削除されました"というような内容のエラーメッセージが出て見れなかった
0451名無しさん@お腹いっぱい。
垢版 |
2020/09/01(火) 19:38:09.98
>>448
IAに除外要請を出しておいて、サービス終了時に再度
「うち辞めるから、もう見せても良いですよ」とか通知する奴が居たらアホだなw

実際に削除してるのか、単に非表示フラグを立ててるだけなのかは知らんけど。
0452名無しさん@お腹いっぱい。
垢版 |
2020/09/01(火) 19:57:29.68
心配しなくとも炎上させたいネットストーカーされてるところは他で流出するがな
5chや通販サイト等のクレカ含めた個人情報しかり
ここに挙がらないアーカイブサイトで取った魚拓はまだ残ってるし
マイナー過ぎていつ消えるか分からないけど晒すと使えなくなるから輸出してるが証拠能力が下がるのが悩み
0453名無しさん@お腹いっぱい。
垢版 |
2020/09/03(木) 16:37:02.03
>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
https://twitter.com/bulkneets/status/1300967926397194240
だそうな

IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
https://twitter.com/5chan_nel (5ch newer account)
0454名無しさん@お腹いっぱい。
垢版 |
2020/09/03(木) 16:37:02.33
>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
https://twitter.com/bulkneets/status/1300967926397194240
だそうな

IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
https://twitter.com/5chan_nel (5ch newer account)
0457名無しさん@お腹いっぱい。
垢版 |
2020/09/05(土) 11:20:03.73
スクショはアーカイブデータとして見ると微妙なのがね・・・(単に見る分には良いけど)
全く取れないよりはましだけども
0458名無しさん@お腹いっぱい。
垢版 |
2020/09/05(土) 13:25:56.74
アーカイブ見ようとすると時々出る。いつも出るわけではない。更新で解決するときとしないときがある。
> ページの自動転送設定が正しくありません
> web.archive.org への接続中にエラーが発生しました。
> Cookie を無効化したり拒否していることにより、この問題が発生している可能性もあります。
0460名無しさん@お腹いっぱい。
垢版 |
2020/09/06(日) 23:16:00.13
すみません、どなたかスクリーンショットでのアーカイブのやり方を教えていただけませんか?
ぐぐっても分からずじまいでしたので
よろしくお願いいたします
0464名無しさん@お腹いっぱい。
垢版 |
2020/09/07(月) 14:52:00.26
>>463
Sign in to use extra features: "Save outlinks", "Save screen shot" and "My web archive".
中学英語でも十分理解できる文章だと思うけどねぇ。
0468名無しさん@お腹いっぱい。
垢版 |
2020/09/07(月) 20:31:13.49
Wayback Machineで非表示になってるサイトでも、
自前でクローラ動かしてWARC作ってInternet Archiveにアップロードすれば一応アーカイブを残すこと自体は出来るんだけどね...
APIを活用した支援ソフトを作ることや、WARCファイルの取り扱い方を幅広い人に周知することが重要になりそうだ
0469名無しさん@お腹いっぱい。
垢版 |
2020/09/08(火) 14:39:27.94
Save outlinksがアカウント必須になったのってどういう事情なのかね
やっぱり容量が逼迫してるから?
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況