Internet Archive総合 (web.archive.org) #3

441名無しさん@お腹いっぱい。2020/08/30(日) 19:10:13.20
note消された?
新しく保存もできない
https://web.archive.org/web/20200201000000*/https://note.com/

442名無しさん@お腹いっぱい。2020/08/30(日) 19:59:54.58
ローカルhtmlにsave/httpのリンク複数貼って
それ一斉に開いたらちゃんと保存されてんの?

443名無しさん@お腹いっぱい。2020/08/30(日) 20:07:43.20
本当だ
しかもnoteの以前のドメイン(note.mu)の方は完全にブロックされてる
Twitterでは8月上旬までこのドメインの魚拓が共有されてるからIP流出事件後にブロックされたっぽい
https://i.imgur.com/BAAGgrQ.jpg

444名無しさん@お腹いっぱい。2020/08/30(日) 20:35:37.14
>>442
されてると思う
まとめて大量にするとToo Many Requestsエラーで漏れがでる可能性はあるけど

445名無しさん@お腹いっぱい。2020/08/31(月) 04:33:09.24
>>423みたいな懐疑的意見もあったけど、個人的には予想通りの措置って感じだな...
robots.txt見たらia_archiverとmegalodonをブロックしてた

446名無しさん@お腹いっぱい。2020/08/31(月) 04:34:52.71
>>445
わかると思うけどnoteの話な

447名無しさん@お腹いっぱい。2020/09/01(火) 03:46:44.96
robots.txtでブロックしてようがIAのバグで保存しちゃう方法はあるので、
Noteがサービス終了してrobots.txtの規制解除まで見るのだけはお預けだね

448名無しさん@お腹いっぱい。2020/09/01(火) 05:36:23.80
サービス終了しても解除されない場合があるからそんなに楽観的には見れないな...
そういうサイトはおそらくメールの申請で、Wayback Machineから恒久的に削除されてるんだと思われる

449名無しさん@お腹いっぱい。2020/09/01(火) 12:18:32.04
excludedって削除じゃなくて除外処置じゃないっけ?確証は持てないけど
復活したアーカイブは見たことあるけどそのままの例は知らないので教えて欲しい

450名無しさん@お腹いっぱい。2020/09/01(火) 17:10:02.85
自分が知ってる例は、URLは忘れてしまったけど、
だいたい10年近く前に閉鎖された版権作品の二次創作小説投稿サイトだった
2, 3年前にそのサイトのアーカイブをWayback Machineで見ようとしたんだが、
"このサイトはWayback Machineから削除されました"というような内容のエラーメッセージが出て見れなかった

451名無しさん@お腹いっぱい。2020/09/01(火) 19:38:09.98
>>448
IAに除外要請を出しておいて、サービス終了時に再度
「うち辞めるから、もう見せても良いですよ」とか通知する奴が居たらアホだなw

実際に削除してるのか、単に非表示フラグを立ててるだけなのかは知らんけど。

452名無しさん@お腹いっぱい。2020/09/01(火) 19:57:29.68
心配しなくとも炎上させたいネットストーカーされてるところは他で流出するがな
5chや通販サイト等のクレカ含めた個人情報しかり
ここに挙がらないアーカイブサイトで取った魚拓はまだ残ってるし
マイナー過ぎていつ消えるか分からないけど晒すと使えなくなるから輸出してるが証拠能力が下がるのが悩み

453名無しさん@お腹いっぱい。2020/09/03(木) 16:37:02.03
>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
https://twitter.com/bulkneets/status/1300967926397194240
だそうな

IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
https://twitter.com/5chan_nel (5ch newer account)

454名無しさん@お腹いっぱい。2020/09/03(木) 16:37:02.33
>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
https://twitter.com/bulkneets/status/1300967926397194240
だそうな

IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
https://twitter.com/5chan_nel (5ch newer account)

455名無しさん@お腹いっぱい。2020/09/03(木) 16:37:29.67
二重投稿になってしまった、すまない

456名無しさん@お腹いっぱい。2020/09/03(木) 16:43:17.13
非表示にされたサイトでもスクリーンショットで保存できるテクニック、noteでも行けるわ
今試したら問題なく取れた
https://web.archive.org/web/20200903074132/http://web.archive.org/screenshot/https://note.com/

457名無しさん@お腹いっぱい。2020/09/05(土) 11:20:03.73
スクショはアーカイブデータとして見ると微妙なのがね・・・(単に見る分には良いけど)
全く取れないよりはましだけども

458名無しさん@お腹いっぱい。2020/09/05(土) 13:25:56.74
アーカイブ見ようとすると時々出る。いつも出るわけではない。更新で解決するときとしないときがある。
> ページの自動転送設定が正しくありません
> web.archive.org への接続中にエラーが発生しました。
> Cookie を無効化したり拒否していることにより、この問題が発生している可能性もあります。

459名無しさん@お腹いっぱい。2020/09/06(日) 01:34:21.61
ちょくちょく下の画面か503とかになるな…
https://i.imgur.com/wFIxonH.png

460名無しさん@お腹いっぱい。2020/09/06(日) 23:16:00.13
すみません、どなたかスクリーンショットでのアーカイブのやり方を教えていただけませんか?
ぐぐっても分からずじまいでしたので
よろしくお願いいたします

461名無しさん@お腹いっぱい。2020/09/07(月) 00:10:02.21
Sorry.
This snapshot cannot be displayed due to an internal error.

462名無しさん@お腹いっぱい。2020/09/07(月) 05:00:01.20
noteってアーカイブできない?
いくらやってもHrmになっちゃう

463名無しさん@お腹いっぱい。2020/09/07(月) 08:25:07.14
>>460
https://blog.archive.org/wp-content/uploads/2019/10/SPN-1.png
続きです
「save page now」を押してもこのチェックボックスがすべて出ず「save error pages」のチェックボックスしか出ないのです
何かアカウント登録とか必要なのでしょうか?

464名無しさん@お腹いっぱい。2020/09/07(月) 14:52:00.26
>>463
Sign in to use extra features: "Save outlinks", "Save screen shot" and "My web archive".
中学英語でも十分理解できる文章だと思うけどねぇ。

465名無しさん@お腹いっぱい。2020/09/07(月) 16:27:47.09
homepage2.nifty.comってWayback Machineで非表示になってるのか...

466名無しさん@お腹いっぱい。2020/09/07(月) 17:20:20.83
↑これどうにかならいあのんかな
niftyのhomepageなんてもう終わってるのに

467名無しさん@お腹いっぱい。2020/09/07(月) 19:00:05.38
>>464
どうもありがとうございます

468名無しさん@お腹いっぱい。2020/09/07(月) 20:31:13.49
Wayback Machineで非表示になってるサイトでも、
自前でクローラ動かしてWARC作ってInternet Archiveにアップロードすれば一応アーカイブを残すこと自体は出来るんだけどね...
APIを活用した支援ソフトを作ることや、WARCファイルの取り扱い方を幅広い人に周知することが重要になりそうだ

469名無しさん@お腹いっぱい。2020/09/08(火) 14:39:27.94
Save outlinksがアカウント必須になったのってどういう事情なのかね
やっぱり容量が逼迫してるから?

470名無しさん@お腹いっぱい。2020/09/08(火) 21:41:40.80
みんなはスキャンしてみたい本はある?

471名無しさん@お腹いっぱい。2020/09/08(火) 21:57:00.84
>>469
容量というかアーカイブ先サイトへのDOS攻撃っぽくなっちゃうからじゃね?
前は同一URLの保存間隔すら無かったし

472名無しさん@お腹いっぱい。2020/09/08(火) 23:04:42.17
>>470
本は流石に日本の著作権法上難しいからスキャンして上げる勇気はないな

473名無しさん@お腹いっぱい。2020/09/09(水) 14:34:19.54
青空文庫の対象になっている本だけにしておこう。

474名無しさん@お腹いっぱい。2020/09/09(水) 16:24:22.16
>>471
以前はリンク先辿るのは50個までって制限あった気がするけど今やったら58個辿った
もしかして50個制限を解除する代わりに相手先に過負荷を懸念してアカウント必須にしたんかね

475名無しさん@お腹いっぱい。2020/09/10(木) 18:29:24.96
>>472
海外も同じ?

476名無しさん@お腹いっぱい。2020/09/10(木) 20:53:03.63
>>475
アップロード操作が日本で行われる以上は、
フェアユースを認めていない日本法が絡んでくる。

477名無しさん@お腹いっぱい。2020/09/12(土) 15:50:29.35
>>476
そのうち海外でも違法になるし、削除対象になるな。

478名無しさん@お腹いっぱい。2020/09/12(土) 19:01:28.95
>>477
はぁ?
アホか

479名無しさん@お腹いっぱい。2020/09/12(土) 19:15:32.10
>>477
頭悪そう

480名無しさん@お腹いっぱい。2020/09/12(土) 19:54:33.10
多分中国人なんだろ
例の国家保安法みたいに、国外での行為も国内で処罰対象になるとか言うやつ

481名無しさん@お腹いっぱい。2020/09/16(水) 12:31:27.10
著作権法は「送信元の国」と「送信先の国」どちらの法律を適用するかで見解が分かれること自体は事実だから、あながち間違ってるわけでもない
合ってるわけでもないのが微妙な点だけど

482名無しさん@お腹いっぱい。2020/09/16(水) 19:20:01.19
【ネット】1000万件以上の研究論文がオンライン上から消失することを防ぐインターネットアーカイブの取り組みとは?  [すらいむ★]
https://egg.5ch.net/test/read.cgi/scienceplus/1600244016/

483名無しさん@お腹いっぱい。2020/09/18(金) 08:59:11.97
今ってYahoo知恵袋アーカイブできるようになってるんだね
昔はできなかった記憶

484名無しさん@お腹いっぱい。2020/09/18(金) 09:41:08.71
Yahooの件はさんざん既出

485名無しさん@お腹いっぱい。2020/09/20(日) 00:05:31.29
Temporarily Offline
The Internet Archive's sites are temporarily offline.
We apologize for the inconvenience.

486名無しさん@お腹いっぱい。2020/09/20(日) 07:21:40.11
>>473
あとはフリーのWeb小説やWeb漫画だね

487名無しさん@お腹いっぱい。2020/09/20(日) 11:05:31.96
pixivって閉鎖はされなそうだけど、作品は自主削除が多発するしな。

488名無しさん@お腹いっぱい。2020/09/20(日) 11:59:03.96
epubファイルをアップロードすると、その場で、ページをめくって内容を確認できるようになった。

便利。

489名無しさん@お腹いっぱい。2020/09/20(日) 18:26:41.77
pixivをWayback Machineでアーカイブすると英語版が保存されるんだよね
Internet Archiveのサーバがアメリカにあるためだと思われる

490名無しさん@お腹いっぱい。2020/09/20(日) 20:31:33.86
リアリー?

4914892020/09/20(日) 21:54:54.16
>>490
試してみたら?
今まで自分がやったやつは全部そうなったし今試してみてもそうなった
https://web.archive.org/web/20200920125157/https://www.pixiv.net/en/artworks/84437660

492名無しさん@お腹いっぱい。2020/09/21(月) 12:54:15.78
こっちの環境だけかな?
今朝から新規の保存をしても反映されない様で…

493名無しさん@お腹いっぱい。2020/09/21(月) 13:28:38.55
We can't retrieve all the files we need to display that page. Please try again later.

今朝からこのエラーばっかり、時間置いても同じエラー出る

494名無しさん@お腹いっぱい。2020/09/21(月) 15:08:51.20
俺も保存できてない。
APIもShow Allも反応なし

495名無しさん@お腹いっぱい。2020/09/21(月) 16:58:59.37
今朝からのエラーまだ直ってないのか

496名無しさん@お腹いっぱい。2020/09/22(火) 00:15:15.42
おま環かと思ったら俺の他にも取れない人いたのか

497名無しさん@お腹いっぱい。2020/09/22(火) 01:10:54.32
ブログから
Cloudflare and the Wayback Machine, joining forces for a more reliable Web
ttps://blog.archive.org/2020/09/17/internet-archive-partners-with-cloudflare-to-help-make-the-web-more-useful-and-reliable/
クラウドフレアと連携

簡単な要約
クラウドフレアのAlways Onlineサービスを使っているサイトは、サイトが鯖落ちしてるときにIAで保存されてるページを表示かもしれない
それとは別にIAに保存されていないURLの場合、システムで自動的に保存するかもしれない

498名無しさん@お腹いっぱい。2020/09/22(火) 01:27:34.31
ますます重くなるから余計な事はやめろ

499名無しさん@お腹いっぱい。2020/09/22(火) 02:07:08.22
ようやく新規の保存が通るようになった…
この後どうなるかわからんけど…

500名無しさん@お腹いっぱい。2020/09/22(火) 02:22:24.50
>>498
余計な事どころか
ここでチマチマ取ってるより遥かに重要

501名無しさん@お腹いっぱい。2020/09/22(火) 03:13:49.79
いつかはパンクする
その時期が早まるだけだ

502名無しさん@お腹いっぱい。2020/09/22(火) 08:08:56.42
てか、去年の同じ時期にも保存できなくなってたような
9月20日に保存できなかったのを覚えてる

503名無しさん@お腹いっぱい。2020/09/23(水) 01:15:58.22
覚えてられないほど頻繁に起きている気がするが

504名無しさん@お腹いっぱい。2020/09/25(金) 10:19:01.03
4GB超の更新ファイルを保存しようとしたら、2GBでカットされちゃったんだけど
ファイルの上限あるのかな。問題になりそう。

505名無しさん@お腹いっぱい。2020/09/25(金) 12:38:17.33
SPNで保存後、Visitの後ろに表示されるリンクがデタラメで不安になる

506名無しさん@お腹いっぱい。2020/09/25(金) 21:15:42.10
保存直後、即時反映される場合と一日経っても反映されない場合があって、差が激しい。

507名無しさん@お腹いっぱい。2020/09/28(月) 16:44:07.73
質問です
ログインしなければ見れない記事などは
どうすればアーカイブできるのでしょうか?
単にバックアップしてもログイン画面が表示されるだけなのです

508名無しさん@お腹いっぱい。2020/09/30(水) 13:25:58.72
>>507
基本的にログイン必須のページはアーカイブ出来ない
リクエストを工夫すれば取れるかもしれないけど、それ系のプログラムの知識が必要

509名無しさん@お腹いっぱい。2020/09/30(水) 20:22:18.87
今時ベーシックはないだろうしねえ

510名無しさん@お腹いっぱい。2020/09/30(水) 20:55:20.93
OAuthも無理だろうしSPNでログインが必要なページは事実上無理じゃないかな

新着レスの表示
レスを投稿する