Internet Archive総合 (web.archive.org) #3

レス数が1000を超えています。これ以上書き込みはできません。
1名無しさん@お腹いっぱい。2020/04/02(木) 02:08:09.83
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

2名無しさん@お腹いっぱい。2020/04/02(木) 02:12:07.12
関連スレッド

・ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/

・【保存・記録】ウェブアーカイブ総合 Page.01
https://mevius.5ch.net/test/read.cgi/internet/1554553882/

3名無しさん@お腹いっぱい。2020/04/03(金) 06:21:50.54
保守しよう

4名無しさん@お腹いっぱい。2020/04/08(水) 23:23:12.60
追加した方がいいテンプレって何があるかな

5名無しさん@お腹いっぱい。2020/04/09(木) 13:43:59.23
保存したはずなのに消えてる!って質問よくされてるから
その辺の事とか?

6名無しさん@お腹いっぱい。2020/04/10(金) 14:21:39.04
ホシュ

7名無しさん@お腹いっぱい。2020/04/10(金) 15:59:46.20
保守

8名無しさん@お腹いっぱい。2020/04/11(土) 16:55:05.81
Hmmm

9名無しさん@お腹いっぱい。2020/04/13(月) 02:51:24.68
>>5
それいいね、こんなところだろうか
少し長すぎたかも

Q. 保存したはずなのに見れない!どういうこと?
A. Internet Archiveはアーカイブ量の増加ペースの速さにサーバが追いついておらず、不安定なことが多いです。安定するタイミングを待ちましょう。
またWayback Machineは、ページの保存作業を担当するクローラ部分(Heritrix)と、保存したページの保管・記録・表示を担当するビューワー部分(Wayback)の別々な2つのソフトウェアを組み合わせて動いています。
なので、保存したはずのアーカイブが表示されなくなっていても、クローラ部分がちゃんと動いていたのならアーカイブはちゃんと保存されています。サーバが安定するのを待ちましょう。

10名無しさん@お腹いっぱい。2020/04/13(月) 04:11:54.84
( ゚ー゚)Ъ イイネ

11名無しさん@お腹いっぱい。2020/04/15(水) 07:20:22.43
TMR出まくる

12名無しさん@お腹いっぱい。2020/04/15(水) 18:05:00.65
IAは滅亡する!

13名無しさん@お腹いっぱい。2020/04/15(水) 21:01:13.80
Archive.st - Save The Internet

いま試してみたらヤフーニュースの魚拓が取れるみたいだぞ。

14◆P0jSlC5fJs 2020/04/15(水) 22:26:34.61
本日1回目のSaveでいきなりToo Many Requests

15名無しさん@お腹いっぱい。2020/04/15(水) 22:34:44.76
やっぱりTMRの出方おかしいよな

16名無しさん@お腹いっぱい。2020/04/16(木) 00:09:58.28
400 Bad Request
Request Header Or Cookie Too Large

17名無しさん@お腹いっぱい。2020/04/16(木) 01:24:51.42
直ったっぽい >>16

18名無しさん@お腹いっぱい。2020/04/16(木) 14:27:01.09
閲覧のほうでToo Many出すのはやめて欲しい
使い勝手が悪い

19名無しさん@お腹いっぱい。2020/04/16(木) 17:38:40.11
英語版ウィキペディア
List of Web archiving initiatives
https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

20名無しさん@お腹いっぱい。2020/04/21(火) 18:00:24.40
Internet Archive にアーカイブされたページを、
全文検索する方法ってないですか?

21名無しさん@お腹いっぱい。2020/04/23(木) 17:18:11.04
homepage2.nifty.comがみれない

22名無しさん@お腹いっぱい。2020/04/23(木) 20:46:43.90
>>20
昔はあったらしいけど、今は無いね

23名無しさん@お腹いっぱい。2020/04/24(金) 08:26:30.95
https://it.srad.jp/story/18/12/04/0637201/
>少なくとも「インターネット上の情報を残しておく義務」も「過去にインターネット上にあった情報にアクセスできる権利」も法的にあるわけじゃないしね。

削除申請に応じる義務もないだろ

24名無しさん@お腹いっぱい。2020/04/25(土) 13:24:52.15
ブロックされて見れません
どうしたらいいですか

25名無しさん@お腹いっぱい。2020/04/25(土) 13:31:44.54
諦めましょう。

26名無しさん@お腹いっぱい。2020/04/27(月) 13:25:21.03
アーカイブされたサイトのホームページだけでなく
全文で全サイトを検索することってできますか?

27名無しさん@お腹いっぱい。2020/04/27(月) 14:28:42.88
>>26
>>20 と同じ質問の香りがする

28名無しさん@お腹いっぱい。2020/04/27(月) 15:40:04.60
>>26
おじいちゃんさっき質問したばかりでしょ

29名無しさん@お腹いっぱい。2020/04/28(火) 12:32:34.74
>>26だがあえて実現しないってことなのかな?

30名無しさん@お腹いっぱい。2020/04/28(火) 22:44:19.58
ほんもののおじいちゃんだ・・・・

31名無しさん@お腹いっぱい。2020/04/30(木) 17:37:06.70
繋がらない

32名無しさん@お腹いっぱい。2020/04/30(木) 20:41:22.93
昨日から調子悪いな

33名無しさん@お腹いっぱい。2020/04/30(木) 21:50:33.66
いつ調子がよかったですか

34名無しさん@お腹いっぱい。2020/05/02(土) 09:18:23.41
savingの読み込みから進まんね


と思ったら何分か経って完了したわ

35名無しさん@お腹いっぱい。2020/05/02(土) 13:17:39.09
なおDLは出来ない程度には重い模様

36名無しさん@お腹いっぱい。2020/05/04(月) 17:31:58.48
そう言えばレジューム出来ないの?

37名無しさん@お腹いっぱい。2020/05/04(月) 20:01:13.97
アサシャンレジューム

38名無しさん@お腹いっぱい。2020/05/04(月) 23:49:37.23
なんでか分からないけどFirefoxだと/web/2/とか/save/が使えないのに
Google Chromeだと使えるっぽいんだよな。昔はFirefoxでも使えた。
最新版に更新してアドオン切っても駄目とかどうなってんだ。
> Firefox 75.0 64bit Firefoxは最新バージョンです
> Google Chrome は最新版です バージョン: 81.0.4044.129(Official Build) (64 ビット)
Firefoxで使えてる人いる?

39名無しさん@お腹いっぱい。2020/05/05(火) 00:04:37.61
>>38の件の追記、何故か/web/2/の方だけ復活した。
/save/は使えないまま。開くと真っ白なページが出てそれ以上何も起きない。

40名無しさん@お腹いっぱい。2020/05/11(月) 18:37:29.02
This snapshot cannot be displayed due to an internal error.

って出るサイトは無理?

41名無しさん@お腹いっぱい。2020/05/12(火) 01:23:40.96
それはダメだな
諦めろ

42名無しさん@お腹いっぱい。2020/05/13(水) 08:25:33.17
homepage2.nifty.comは1と3はできるのにどうして2だけ見れないの

43名無しさん@お腹いっぱい。2020/05/14(木) 03:12:02.56
わたしにもわかりません

44名無しさん@お腹いっぱい。2020/05/16(土) 17:43:07.77
もうこっちは駄目だ
>>9のレスと現状は違う
保存したはずが後日何度見返しても保存されてない場合がある
10回につき2〜3回くらい
https://web.archive.org/save/

こっちは大丈夫
http://archive.vn/

45名無しさん@お腹いっぱい。2020/05/17(日) 09:37:06.63
>>44
どーせスポーツ新聞のサイトだろ、保存してるのって

46名無しさん@お腹いっぱい。2020/05/17(日) 11:25:01.03
保存したものの特に重要なものはリスト化してチェックしてるが取りこぼしはないな
しかし反映の遅いものは一週間以上かかる場合もあった

47名無しさん@お腹いっぱい。2020/05/17(日) 14:05:23.73
>>44
archive.today は他にもドメインがあるのに
わざわざ .vn なんか持ち出してくるとか笑える
ベトナム共産シンパかよ

48名無しさん@お腹いっぱい。2020/05/17(日) 14:52:36.40
そんなに悔しかったのかよ白湯でも飲んどけ

49名無しさん@お腹いっぱい。2020/05/17(日) 15:32:43.93
俺はこれ
http://archive.fo/

50名無しさん@お腹いっぱい。2020/05/17(日) 17:08:08.07
流れ的におすすめの白湯の紹介かと思った

51名無しさん@お腹いっぱい。2020/05/17(日) 21:58:05.32
>>49
こういうマイナーなドメインのレジストリは騙されやすいのかねぇ。
https://twitter.com/archiveis/status/1188222460598116353
https://twitter.com/5chan_nel (5ch newer account)

52名無しさん@お腹いっぱい。2020/05/21(木) 20:21:26.07
ニッチなニーズかもしれませんがスクリプトを公開しました。
Wayback Machine でURL検索をした際、最古または最新のページに自動で飛びます。
https://greasyfork.org/ja/scripts/403724-wayback-machine-auto-hopper

53名無しさん@お腹いっぱい。2020/05/21(木) 23:47:38.42
ありがとこんばんは

54名無しさん@お腹いっぱい。2020/05/22(金) 07:29:19.83
ヤフーニュースのスクリーンショット取れなくなった?

55名無しさん@お腹いっぱい。2020/05/22(金) 10:21:49.17
Internet Archiveってサイト保存したらどのIPが保存したとかも記録されんの?

56名無しさん@お腹いっぱい。2020/05/23(土) 14:05:21.25
>>55
どの方法でアーカイブが行われたのかも記録されているから、
おそらく IP も残っているんじゃないかねぇ。
ただ、アーカイブを読み出したときのレスポンスヘッダを見る限りでは、
その IP がアーカイブ閲覧者に漏れているような感じはしない。

あともう一つ、Archive.is がやっているような
リクエスト元 IP のアーカイブ対象サーバへのお漏らしは
Internet Archive では起きていない。

57名無しさん@お腹いっぱい。2020/05/23(土) 14:20:07.01
>>55
この辺見る限り保存はされていないっぽい
https://help.archive.org/hc/en-us/articles/360001513491-Save-Pages-in-the-Wayback-Machine
https://help.archive.org/hc/en-us/articles/360018536672-What-is-a-view-
https://blog.archive.org/2013/10/25/reader-privacy-at-the-internet-archive/

・全てのユーザーの行動はIPアドレスを元にしたハッシュ値で記録される
・一日毎にハッシュ値は変更される

とか何とか、間違ってたらすまん

58562020/05/24(日) 10:41:38.58
>>57
しっかり書いてありますね。勉強になります。

59名無しさん@お腹いっぱい。2020/05/24(日) 17:36:51.34
ページの全文検索って募金が終わらないとできないの?

60名無しさん@お腹いっぱい。2020/05/26(火) 17:22:56.02
>>54

回復した

61名無しさん@お腹いっぱい。2020/05/29(金) 16:01:06.33
Twitterでたまにjsonが取れる現象なんとかならないのかね

62名無しさん@お腹いっぱい。2020/05/29(金) 19:18:21.90
やったじゃん
むしろほしい

63◆P0jSlC5fJs 2020/05/30(土) 13:52:08.25
Vuepressのページを保存すると一瞬は表示されるけどすぐ404に画面が書き換わっちゃう
https://web.archive.org/web/20200528205956/https://hapicode.com/vuepress/config.html

64名無しさん@お腹いっぱい。2020/05/30(土) 14:20:01.49
見たが普通に表示されてる

65名無しさん@お腹いっぱい。2020/05/30(土) 15:53:03.29
俺は見てない

66名無しさん@お腹いっぱい。2020/05/30(土) 16:31:26.19

67名無しさん@お腹いっぱい。2020/06/02(火) 20:27:56.79
平和(・∀・)イイ!!

68名無しさん@お腹いっぱい。2020/06/03(水) 02:42:09.09
>>63
別サイトのページだが俺もそれ多い
全部じゃないけど…

69名無しさん@お腹いっぱい。2020/06/03(水) 05:21:59.69
>>62
自分でパーサなり何なり通さないと読めないから言うほど便利じゃないぞ
それにWayback Machineを使う場合、jsonが欲しい時よりもhtmlとして描画された状態のアーカイブが欲しいことの方が多い

70名無しさん@お腹いっぱい。2020/06/03(水) 18:43:00.59
ttps://twitter.com/internetarchive/status/1268108466192703489
また落ちたか
https://twitter.com/5chan_nel (5ch newer account)

71名無しさん@お腹いっぱい。2020/06/05(金) 02:20:35.43
Internet ArchiveってURLで保存する方法とは別に
htmlソースコピーで保存する方法も出来るようにすればいいのに
当然独自URL生成する必要性も出てくるけど

72名無しさん@お腹いっぱい。2020/06/05(金) 02:53:38.00
うpろだかよw

73名無しさん@お腹いっぱい。2020/06/05(金) 11:50:13.06
ツイッターがInternet Explorerからの閲覧をできないようにしたらしく、その影響でツイッターのアーカイブがとれなくなってしまったんだけどどうしたらいいだろう?
今までInternet Explorerからならツイッターのアーカイブがとれたんだけど…他のブラウザからじゃアーカイブできないのよ困った

74名無しさん@お腹いっぱい。2020/06/05(金) 13:28:28.43
試してないけどmobile.twitter.comもだめなん

75名無しさん@お腹いっぱい。2020/06/05(金) 15:25:44.03
>>73
もしかしてThis page is available on the web!から取ってない?
あれは保存する奴の環境に左右されるから使えんよ
https://web.archive.org/save
からなら問題なく取れる

76名無しさん@お腹いっぱい。2020/06/05(金) 15:25:45.36
>>74
今ためしてみたらmobileの方でならアーカイブできたわ
ありがとう
でもなんでまたツイッターは急にIEからの閲覧はじくようになったんだろう?

77名無しさん@お腹いっぱい。2020/06/05(金) 15:27:58.42
>>75
よく分からないけどアーカイブしようとすると「このブラウザは現在サポートされていません」て出てくる
調べたら最近ツイッターがIEから閲覧できないようにしたらしいって言われてたから

78名無しさん@お腹いっぱい。2020/06/05(金) 15:31:37.89
>>75
今そのURLから保存してみたらmobileじゃなくてもアーカイブできたわ
どうもありがとう

79名無しさん@お腹いっぱい。2020/06/06(土) 15:33:25.33
Internet Archive ってなんで全ページ検索できるようにしないの?

80名無しさん@お腹いっぱい。2020/06/06(土) 15:33:25.70
Internet Archive ってなんで全ページ検索できるようにしないの?

81◆P0jSlC5fJs 2020/06/07(日) 18:25:56.95
>>79
高負荷だからだとおもう

82名無しさん@お腹いっぱい。2020/06/08(月) 01:47:07.90
すみません
ツイッター保存してるとけっこう頻繁に.jsonてURLについて謎の文字化けみたいになってしまうんですが、これはいったい…?
どうしたらいいんだろう

83名無しさん@お腹いっぱい。2020/06/08(月) 11:56:33.80
>>82
ちょっと前からたまに起きる現象、原因は分からない・・・
面倒だけどちゃんと取れるまで取り直すしかない

84名無しさん@お腹いっぱい。2020/06/08(月) 12:01:17.42
>>75
に追加
This page is available on the web!からだけじゃなくて
https://archive.org/web/
のSave Page Nowもダメっぽい
基本的にhttps://web.archive.org/saveを使った方が良さげ

85名無しさん@お腹いっぱい。2020/06/08(月) 12:11:18.46
Save Page Nowにあるこのチェックは何の意味があるの

>Save error pages (HTTP Status=4xx, 5xx)

86名無しさん@お腹いっぱい。2020/06/08(月) 13:28:21.88
エラー画面を保存するかしないか

87名無しさん@お腹いっぱい。2020/06/08(月) 13:29:41.66
しらんけど
例えば「404 Not Found」だけのページだった場合に
「そこにはなにもなかった」ってことにするか、
それとも「404 Not Foundがあったのだ」ってことにするかだと思う

88名無しさん@お腹いっぱい。2020/06/08(月) 20:02:31.91
>>83
どうも
取り直せばいけるなら何度かトライしてみます

89名無しさん@お腹いっぱい。2020/06/08(月) 22:26:30.20
>>79
昔一度やったことあるけど情報量があまりにも多過ぎて重すぎてまともに検索できなかったとか見た
全文検索できたら本当にいいんだけど現時点では無理ぽい…

90名無しさん@お腹いっぱい。2020/06/08(月) 23:59:41.72
<title>だけでも検索できるとめちゃ便利なんだけどな

91名無しさん@お腹いっぱい。2020/06/10(水) 17:55:12.02
アーカイブってエロサイト保存した場合動画も保存されんの?

92名無しさん@お腹いっぱい。2020/06/10(水) 19:12:24.60
基本的にされないと思った方が良い

93名無しさん@お腹いっぱい。2020/06/11(木) 11:34:40.23
訴訟問題は大丈夫なのかな
大事にならないといいが

94名無しさん@お腹いっぱい。2020/06/11(木) 12:56:19.55
訴訟問題って何?

95名無しさん@お腹いっぱい。2020/06/12(金) 00:22:25.00
何か前にあったような気もするが
フェアユースだしな

96名無しさん@お腹いっぱい。2020/06/12(金) 19:12:09.28
Internet Archiveが公開してる電子書籍について出版社から訴えられたとかじゃなかったか
Gigazineだかどっかのネットニュースに出てたね

97名無しさん@お腹いっぱい。2020/06/13(土) 00:03:15.44
電子書籍って保存出来るんなら無料で見れるやつじゃないの?

98名無しさん@お腹いっぱい。2020/06/13(土) 02:03:05.75
これだな
詳しくは記事見てくれ

米国の複数の大手出版社がInternet Archive(IA)に対する著作権侵害訴訟を提訴
Posted 2020年6月3日
https://current.ndl.go.jp/node/41125

Internet Archive(IA)、“National Emergency Library”の終了を早めることを発表
Posted 2020年6月12日
https://current.ndl.go.jp/node/41213

99名無しさん@お腹いっぱい。2020/06/13(土) 20:38:47.97
もしかしてTwitter取れなくなった?
https://web.archive.org/saveでもダメだ

100名無しさん@お腹いっぱい。2020/06/14(日) 11:13:18.22
こっちは拾える
ttp://archive.fo/

101名無しさん@お腹いっぱい。2020/06/14(日) 15:05:21.28
インターネット初心者です。
質問なのですが、save page nowでページをアーカイブした場合、Internet archiveの説明ではIPアドレスを保持しないため匿名で保存できるとなっているのですが本当でしょうか。
また、save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。(すでに削除されていて、今は見ることができずアーカイブもそれまでされていないようなページの場合)教えて頂きたいです。無知ですみません。

102名無しさん@お腹いっぱい。2020/06/14(日) 17:13:12.66
>>99
自分も今日いくらやっても連続してツイートのアーカイブに失敗するから、自分の環境が悪いのかと思ったけどこれは……

103名無しさん@お腹いっぱい。2020/06/14(日) 17:27:12.26
>>101
・IPアドレス:>>55-57を参照
・過去のページ情報:
「save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。」
その認識で合ってる。SPNは「現時点でのページをアーカイブする」ことしか出来ない。
過去のページをアーカイブできる技術はないし、するにはタイムマシンが必要。
現在削除済みでアーカイブも残っていないページは諦めよう

104名無しさん@お腹いっぱい。2020/06/14(日) 17:48:04.05
「ツイッター魚拓」とかいう国産サービスができたらしいが。

105名無しさん@お腹いっぱい。2020/06/14(日) 18:09:23.85
>>103
ご回答ありがとうございます。それでは、自分が○月×日にしかアーカイブしていないのにそれ以前のページの情報が出てくるということは
、他の誰かが○月×日以前にアーカイブしたということでよろしいでしょうか?

106名無しさん@お腹いっぱい。2020/06/14(日) 18:29:19.48
>>105
Internet archiveは自動で色んなサイトをクロールして定期的にアーカイブして回ってるから別に誰かが保存したわけじゃなくて自動でアーカイブされてた可能性が高い
というかわざわざ手動でアーカイブするマニアなんてここの住人位しかいなそうだしほとんど自動取得

107名無しさん@お腹いっぱい。2020/06/14(日) 18:43:23.66
>>106
では、○月×日以前の情報は私がアーカイブしたものではないということでいいんでしょうか?

108名無しさん@お腹いっぱい。2020/06/14(日) 20:09:22.90
>>107
うん

109名無しさん@お腹いっぱい。2020/06/14(日) 20:22:26.52
>>108
また質問なのですが、Twitterの動画をアーカイブした際、機種の差(Androidやios,PC)で見ることができないことってあるんですか?

110名無しさん@お腹いっぱい。2020/06/14(日) 21:26:10.00
TweetSave - Save tweets with a click
https://tweetsave.com/

111名無しさん@お腹いっぱい。2020/06/14(日) 22:49:30.89
>>104
アレはスクショ撮ってimgurに上げるだけの代物で、セッション情報の類は一切保存されないらしいから、
アーカイブサービスとしての信頼性はゼロに等しい(中傷書き込みの訴訟でも多分証拠として認められないんじゃないだろうか)
ただTwitterではやたらバズったから、固定ユーザーは一定数つくかもね

112名無しさん@お腹いっぱい。2020/06/15(月) 02:28:53.83
>>109
ツイッターの動画は保存できなかったと思うが…

113名無しさん@お腹いっぱい。2020/06/15(月) 06:39:57.00
>>110

> TweetSave - Save tweets with a click
> https://tweetsave.com/


_φ(・_・メモメモ

114名無しさん@お腹いっぱい。2020/06/15(月) 06:41:39.22
>>110

> TweetSave - Save tweets with a click
> https://tweetsave.com/


Tweets are saved on TweetSave.com and also get mirrored to WayBack and Archive.is

とあるな。

これは使えるかもしれない。

115名無しさん@お腹いっぱい。2020/06/15(月) 06:43:57.13
Twitterのツイートをウェブ魚拓のように保存できる
「TweetSave」 - GIGAZINE
https://gigazine.net/news/20161118-tweetsave/

116◆P0jSlC5fJs 2020/06/15(月) 07:11:01.48
tweetsaveは不安定すぎて使い物にならなかった

117名無しさん@お腹いっぱい。2020/06/15(月) 07:23:11.71
>>116

ありゃりゃ

118名無しさん@お腹いっぱい。2020/06/15(月) 07:26:47.37
以前はわからんが、今はまあまあ安定しているみたいだよ。

ちょっと試してみて。

119名無しさん@お腹いっぱい。2020/06/15(月) 07:57:49.97
>>112
https://video.twimg.com...ていうurlです

120名無しさん@お腹いっぱい。2020/06/15(月) 09:06:38.20
>>103
This page is available on the web!でも一緒ですか?

121名無しさん@お腹いっぱい。2020/06/15(月) 11:44:39.88
>>119
機種ごとに違いはないよ、どれも同じ
ちなみにhttps://video.twimg.comはURLだけ取れてて動画が見れない事もままある

>>120
それも一緒

122名無しさん@お腹いっぱい。2020/06/15(月) 12:01:07.51
>>121
うろ覚えの記憶ですが、3ヶ月位前にhttps://video.twimg.com...のページを探していて見つからず、This page is available on the web!となって訳も分からないでアーカイブしてしまい、その日のアーカイブでは黒い画面で動画が再生されず見れなかったのですが、なぜかカレンダーに一年程前のアーカイブが現れてそれでは動画を見ることができました。3ヶ月程前なので記憶が曖昧なのですがこういうことってありえますか?

123名無しさん@お腹いっぱい。2020/06/16(火) 16:07:46.24
>>121
それでは、Android(chrome,Firefox)で再生できなかったものは他の端末、ブラウザなどでも再生できないということでしょうか?

124名無しさん@お腹いっぱい。2020/06/17(水) 09:33:18.63
ログインしなくてもツイッター保存できますか?
JSONで保存されるか成功したかと思ったらこうなって保存されない……

Sorry, that page doesn’t exist!
Why not try a search to find something else?

125名無しさん@お腹いっぱい。2020/06/17(水) 19:03:54.27
日テレNews24もキャプチャできないっぽい
Todayならできたのでそっちで取る

126名無しさん@お腹いっぱい。2020/06/17(水) 20:06:39.58
なんか調子悪い?
ツイッター全然とれなくなったし他のサイトでもちょくちょくエラー出る

127名無しさん@お腹いっぱい。2020/06/18(木) 09:37:49.00
>>125
基本的に取れる魚拓は複数でとるようにしてるんだけどTwitterの魚拓が現状二つだけになってしまって困る……
しかも片方は突然不安定になって一ヶ月まともに使えないこともあるからなー

128名無しさん@お腹いっぱい。2020/06/18(木) 23:45:04.10
Twitterが取れなくなったのはTwitter側の仕様変更のせいじゃないかな

129名無しさん@お腹いっぱい。2020/06/19(金) 00:13:10.75
でも15日に取ってる人がいるんだよなー

130名無しさん@お腹いっぱい。2020/06/19(金) 02:33:11.77
UAをUtsubotにしたら撮れるとかなんとか

131名無しさん@お腹いっぱい。2020/06/19(金) 11:05:22.72
http://web.archive.org/save/のページで保存しようとするとこんな画面になってしまう…
ttps://i.imgur.com/1ebLT02.png

132名無しさん@お腹いっぱい。2020/06/19(金) 11:40:27.27
>>131
それ自分もなった
しばらく時間置いてからもう一度保存したら問題なく取れたよ

133名無しさん@お腹いっぱい。2020/06/19(金) 15:14:08.19
自分もNot Foundになって5ちゃん含め何一つとれなくなった…

134名無しさん@お腹いっぱい。2020/06/19(金) 17:11:29.86
検索してからThis page available on the webからならとれた
でもそれ以外からだと即Not foundが出るだけで一切とれない
なんなんだ

135名無しさん@お腹いっぱい。2020/06/19(金) 17:59:07.87
検索からの「This page available on the web」は直接保存の/save/http〜なんだな。
Save page nowの方の「This page available on the web」が機能してないのか。

136名無しさん@お腹いっぱい。2020/06/20(土) 13:37:10.95
お、Twitter取れるようになったか

137名無しさん@お腹いっぱい。2020/06/20(土) 13:40:09.97
お、取れた
情報thx

138名無しさん@お腹いっぱい。2020/06/21(日) 19:56:01.96
ツイッター一応とれるようになったのもあるけど
頻繁にSorry that page doesn't exist!やエラーになって取れない事の方が多い…

139名無しさん@お腹いっぱい。2020/06/21(日) 21:14:32.41
アーカイブって動画のURL直入力したら保存されるの?

140名無しさん@お腹いっぱい。2020/06/22(月) 11:45:10.84
ものによってはとれる事もあるけど基本とれないと思った方が良い

141名無しさん@お腹いっぱい。2020/06/22(月) 11:51:39.66

142名無しさん@お腹いっぱい。2020/06/22(月) 13:50:04.34
>>141
https://web.archive.org/saveからとってSorry that page doesn't exist!になったんだけど…
まあやり直してたら3回目位でとれたけど

143名無しさん@お腹いっぱい。2020/06/22(月) 14:27:28.61
保存は複数の鯖から暇している鯖が取りに行くんだけど
ロシア語、英語、ドイツ語などランダムで取られていたから経由する鯖が更新されてないと取れないと予想

144名無しさん@お腹いっぱい。2020/06/23(火) 15:16:09.68
>>142

> まあやり直してたら3回目位でとれたけど


なにげにお役立ち情報   _φ(・_・メモメモ

145名無しさん@お腹いっぱい。2020/06/23(火) 15:37:49.72
>>57
これ保存に利用したIPアドレスは暗号化されて運営側も解読無理って事?

146名無しさん@お腹いっぱい。2020/06/23(火) 22:38:01.52
>>138
これなら失敗せずに一発で取れる
Yahoo!ニュースも取得する際、強制的にトップページへ飛ばされて失敗することはない
http://archive.fo/

147名無しさん@お腹いっぱい。2020/06/23(火) 23:06:54.24
自分はあ複数保存したいからこっちも保存したいだけで合計3箇所で保存してる
Web魚拓はブロックされるようになった

148名無しさん@お腹いっぱい。2020/06/23(火) 23:41:38.01
スポーツ新聞野郎まだ居たのか

149◆P0jSlC5fJs 2020/06/24(水) 06:29:53.29
もはやアリアハンガイジ

150名無しさん@お腹いっぱい。2020/06/24(水) 10:25:28.90
スポーツ新聞ほんと好きだな
取るのは勝手だけど常軌を逸した取り方だと思う

151名無しさん@お腹いっぱい。2020/06/25(木) 08:06:11.23
ヤフーニュースほんと取れない

152名無しさん@お腹いっぱい。2020/06/25(木) 10:19:57.09
>>151
本当は取れてるんだろ?
嫌がらせスクリプトも一緒にw

153名無しさん@お腹いっぱい。2020/06/25(木) 12:04:47.38
取れないという前に少しは過去ログ読んでくれと言いたくなる

154名無しさん@お腹いっぱい。2020/06/25(木) 13:17:04.71
>>151

スクリーンショットなら取れる

155名無しさん@お腹いっぱい。2020/06/25(木) 16:34:55.93
Yahoo!とか散々既出

156名無しさん@お腹いっぱい。2020/06/26(金) 10:45:18.41
SAVE完了でスナップショット見に行こうとすると昔の日付にリダイレクトされるの困るな
アドレス切り張りして今日の日付にしてもダメ

157名無しさん@お腹いっぱい。2020/06/26(金) 10:48:12.10
パーツのアドレスで叩いたら今日の日付で出てくるからひとまずはよしとすべきか

158名無しさん@お腹いっぱい。2020/06/26(金) 12:04:49.45
いつもの調子が悪い周期に入ったかな
APIも不安定

159名無しさん@お腹いっぱい。2020/06/26(金) 14:02:50.79
5ちゃんも全然とれない
時間あけて何度もトライしても時々とれるだけでほとんどダメ…

160名無しさん@お腹いっぱい。2020/06/26(金) 15:47:14.61

161名無しさん@お腹いっぱい。2020/06/26(金) 21:15:33.82
>>160
それ取得者の環境に左右されるからあんまり使いたくないんだよね

162名無しさん@お腹いっぱい。2020/06/27(土) 08:54:45.81
Hrmになって取れてなかったと思っても
後で検索するとちゃんと取れてることも多いな

163名無しさん@お腹いっぱい。2020/06/27(土) 13:38:29.18
Hrm連発でも3回ほどチャレンジしとくと高確率で取れてた

164名無しさん@お腹いっぱい。2020/06/27(土) 14:05:54.69
取れない問題については>>1のテンプレに含めるべきだな
インデクシングとアーカイブは別々のレイヤーで処理されてるから、
一見取れてないように見えても実は取れてることが多い

165名無しさん@お腹いっぱい。2020/06/27(土) 15:09:04.44
ここ数日のは反映がかなり遅いだけでちゃんと取れてるね

166名無しさん@お腹いっぱい。2020/06/30(火) 16:11:19.16
https://web.archive.org/save/http://〜は即時反映でSave Page Nowは遅れて反映されるっぽい

167名無しさん@お腹いっぱい。2020/07/01(水) 10:10:10.27
>>21
>>42
dion.ne.jp
biglobe.ne.jp
jcom.co.jp
も見れないな

168名無しさん@お腹いっぱい。2020/07/01(水) 11:23:57.89
かなりデカい保存対象がやってきた

NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html

>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。

169名無しさん@お腹いっぱい。2020/07/01(水) 16:43:58.70
雑多なまとめサイトすぎて好きじゃなかったな

170名無しさん@お腹いっぱい。2020/07/01(水) 16:49:15.19
所詮は南鮮資本w

171名無しさん@お腹いっぱい。2020/07/01(水) 17:09:06.99
雑多なまとめも多いけど、これを個人サイト的に使ってる人も割といるんだよね
そういう人の書いた良質なページが消えるのは困る

172名無しさん@お腹いっぱい。2020/07/01(水) 18:04:14.59
閉鎖される予定のサイトってnaverまとめ以外何かある?

173名無しさん@お腹いっぱい。2020/07/01(水) 20:31:56.99
>>168
ヤフーと合併予定でその事業整理過程で精査されてしまったね
まとめサイトのネガティブイメージとかコンプラとかで嫌われる理由はいくらでもあるが

174名無しさん@お腹いっぱい。2020/07/01(水) 20:47:21.16
>>172
【保存・記録】ウェブアーカイブ総合 Page.01 https://mevius.5ch.net/test/read.cgi/internet/1554553882/

175名無しさん@お腹いっぱい。2020/07/01(水) 20:57:22.61
NAVERまとめ、サラッと見た感じだと1ページ目は取ってあるけど
2ページ目以降が無いっていういつものパターンが多いな

176名無しさん@お腹いっぱい。2020/07/02(木) 21:17:22.61
>>171
知らなかった
いろいろな使い方があるもんだ

177名無しさん@お腹いっぱい。2020/07/02(木) 22:52:12.91
最近のサイトはスマホ用とPC用の画面分けてるが
アーカイブってPC用しか保存されんの?

178名無しさん@お腹いっぱい。2020/07/03(金) 00:34:04.34
スマホのUAでアクセスしたらスマホ用が保存されんじゃないの知らんけど

179名無しさん@お腹いっぱい。2020/07/03(金) 11:11:11.87
Googleが10年以上前のサイトはもう検索結果に出すのやめたそう
やっぱページ膨大だと検索きついのか…
にしても10年より前の情報にはアクセスする手段が無くなるってすごい損失な気がするが

180名無しさん@お腹いっぱい。2020/07/03(金) 14:23:53.34
10年以上前のサイトはそれ専用Googleとか検索エンジン用意すりゃいいのに

181名無しさん@お腹いっぱい。2020/07/03(金) 23:52:26.95
>>179
期間指定すれば普通に検索できるって聞いてたけど違うの?

182名無しさん@お腹いっぱい。2020/07/04(土) 15:07:25.27
>>179

> にしても10年より前の情報にはアクセスする手段が無くなる

他の検索エンジンなら大丈夫

183名無しさん@お腹いっぱい。2020/07/04(土) 16:05:37.33
普通に10年前以上の結果出るしデマでは?

184名無しさん@お腹いっぱい。2020/07/04(土) 16:52:27.76
Internet Archiveはgoogleみたいにキーワード検索出来るようにすればいいのに

185名無しさん@お腹いっぱい。2020/07/04(土) 17:06:10.22
デジャブジャブジャブなスレだな

186名無しさん@お腹いっぱい。2020/07/04(土) 17:08:23.67
>>184
鯖に負担かかりすぎてえらいことになりそう

187名無しさん@お腹いっぱい。2020/07/04(土) 17:49:51.86
検索機能の話もテンプレ入れた方が良さげだな
数年前に一度全文検索機能が入ったことがあったんだけど、検索対象となるデータの量があまりに急速に増えて追いつかないとかですぐ無くなったんだよ

188名無しさん@お腹いっぱい。2020/07/04(土) 17:51:21.60
検索エンジンってサーバリソースを大量に必要とするから、ギリギリの状態でサーバ動かしてる現状のIAではまず無理なんじゃないだろうか

189名無しさん@お腹いっぱい。2020/07/04(土) 21:11:27.16
全文検索ほしい人は10億円くらい寄付しろ

190名無しさん@お腹いっぱい。2020/07/04(土) 21:32:30.78
せめてタイトルだけでも検索できればいいのにな

191名無しさん@お腹いっぱい。2020/07/04(土) 21:49:53.36
この流れ前も見たぞ

192名無しさん@お腹いっぱい。2020/07/04(土) 23:55:00.95
検索したいならInternet Archiveに金落とせ、話はそれからだ

193名無しさん@お腹いっぱい。2020/07/05(日) 00:02:58.15
金落とす金額が鯖代と維持費込みじゃないと無理だろうな

194名無しさん@お腹いっぱい。2020/07/05(日) 00:41:08.37
一つのURLに重複保存される画像・動画をAIで認識して削除したら、容量の削減になるのに

195名無しさん@お腹いっぱい。2020/07/05(日) 00:53:13.92
ツイッターの失敗は保存しなくていいのにね

196名無しさん@お腹いっぱい。2020/07/05(日) 02:47:20.57
>>194
単にコンテントボディをバイナリ比較すれば良いだけの話なのに AI を使うとか
こんなんじゃ、IA のレスポンスヘッダを含めて丸ごと保存する価値が解る訳も無いなw

197名無しさん@お腹いっぱい。2020/07/05(日) 04:54:05.25
AIとIA

198名無しさん@お腹いっぱい。2020/07/05(日) 12:05:45.68
そんな用途のためにわざわざAI使ったりしないだろうと思うけどそこは置いておいて、
AI動かすのにだって大量のサーバリソースは必要なんだよ
本末転倒

199名無しさん@お腹いっぱい。2020/07/05(日) 12:09:03.83
普通に考えて重複保存じゃなくて差分を保存してると思うんだけど・・・

200名無しさん@お腹いっぱい。2020/07/05(日) 12:29:12.66
アーカイブ見てるとどう考えてもまったく同じ内容のページを何回も重複して保存してるのよくあってサーバーの容量がもったいないなと思う事はよくある
特に自動クロールでとってるであろうサイトのメインページなんて毎日何百ページ位も同じ画面とり続けてたりする

201名無しさん@お腹いっぱい。2020/07/05(日) 13:10:12.04
全く同じなら容量変わらなくね?
タイムスタンプが更新されるだけでは
まぁWayBackの仕組みが分からないので断言は出来ないけど

202名無しさん@お腹いっぱい。2020/07/05(日) 13:43:22.32
最近アーカイブしても存在してないって言われることが多くなったから
archive.today使ってる

203名無しさん@お腹いっぱい。2020/07/05(日) 14:42:20.88
同じurlのzipで古い物は破損していて
それより新しい物は正常だった事がある

204名無しさん@お腹いっぱい。2020/07/05(日) 15:37:07.67
バイナリデータで1バイトか2バイトか3バイトか忘れたけどファイルの最後にブランクデータが追加か削除されたせいで破損扱いになってる
バイナリエディタで00を増減すれば大丈夫だよ

205名無しさん@お腹いっぱい。2020/07/05(日) 16:02:13.33
googleもmetaタグを元に表示してるだけだし
Internet Archiveも最低限の情報だけ検索表示出来るようにすればいいのに

206名無しさん@お腹いっぱい。2020/07/05(日) 19:38:36.99
>>203
2000 年代の古いアーカイブを漁っていたりすると、
中身が数メガバイトでちょん切れてしまっているものがかなりある。
古い Microsoft のバイナリ等で良く出くわす。
データ化けは見たことが無い。

おそらく、IA は Content-Length ヘッダの値と
コンテントボディの実サイズとの整合をチェックしていない。
何か巨大ファイルをアーカイブさせて、それが正しく保管できたか調べたい場合は
実際に当該アーカイブを最後まで読み出すしか無い。

>>204
それは昔のアーカイブ出力段の問題ではなかったか。
コンテントの末尾 1 バイトが \x00 だと、それが欠ける。
2011 年あたりの大改変の後は見たことが無い。

>>201
タイムスタンプだけかw
アーカイブ時のサーバ側のシステム時計の値 (たまにズレてる奴がいる)、
使用されていたサーバソフトウェアの名前、
読み出したファイル自身のサイズやタイムスタンプ、
ETag のような識別子、
その他サーバが垂れ流した、ありとあらゆるものを
そのまま丸ごと保存してるんだよ。

207名無しさん@お腹いっぱい。2020/07/06(月) 20:56:53.08
ガチでTwitterからツイートをアーカイブするなと圧力受けてんのか?
このスレ読んで何回やってもアーカイブできんぞ

208名無しさん@お腹いっぱい。2020/07/06(月) 21:01:27.66
Tweetsaveもタイムアウトばっかで保存できん

209名無しさん@お腹いっぱい。2020/07/06(月) 21:13:49.37
Tweetsaveは半年前に比べたら生きまくってるよ
半年前までは1ヶ月まともに動かないとかあったし半月は当たり前に動かなかったわ

210名無しさん@お腹いっぱい。2020/07/06(月) 21:41:33.52
>>207
最近出版業界から訴えられたから有り得る話だな

211名無しさん@お腹いっぱい。2020/07/06(月) 21:49:26.34
>>208
save用ページから保存しないと今のところ無理で
それも失敗が多い

212名無しさん@お腹いっぱい。2020/07/07(火) 14:31:16.24
もう全部テンプレに書いた方がいいんじゃね?
話題が無限ループしてる

213名無しさん@お腹いっぱい。2020/07/07(火) 14:49:56.67
もともと話題も少ないからな
保守してると思えばいい

214名無しさん@お腹いっぱい。2020/07/07(火) 14:52:23.22
>>212

同意

215名無しさん@お腹いっぱい。2020/07/08(水) 07:37:39.06
最近TwitterがJob failedになって全然保存できない…

216名無しさん@お腹いっぱい。2020/07/08(水) 07:39:08.58
今やってたけど同じだわ

217名無しさん@お腹いっぱい。2020/07/08(水) 14:28:55.01
Tweetsaveで保存してもIAにはアーカイブされない
やっぱり圧力掛かってんのかな
誰も問題にしないのが驚きだけど

218名無しさん@お腹いっぱい。2020/07/08(水) 16:39:05.98
Tweetsaveからのはすぐに保存されてる印象が無いな

219名無しさん@お腹いっぱい。2020/07/09(木) 03:08:56.30
Job failedになっても検索すると出てくるから一応保存されてるっぽい

220名無しさん@お腹いっぱい。2020/07/09(木) 04:44:07.65
確かにちょっと待てば保存されてた

221名無しさん@お腹いっぱい。2020/07/09(木) 16:54:29.37
Twitterじゃない普通のウェブサイトを保存しようとしても
保存できたと思ってクリックしたら404 not foundが出てアーカイブされてませんと出る
10分待たないと再保存できない

222名無しさん@お腹いっぱい。2020/07/09(木) 17:04:17.03
10分経ったから同じサイトをやってみようとしても404としか出ない

223名無しさん@お腹いっぱい。2020/07/09(木) 17:42:01.05
どこのサイトか言わないと永久に誰も分からない案件

224名無しさん@お腹いっぱい。2020/07/09(木) 21:01:04.00
Twitter、いくつかアーカイブして実験したけど
Job failedやtask limitになっても取れてるっぽい
しばらくしてから確認したらカレンダーに反映されてた

225名無しさん@お腹いっぱい。2020/07/11(土) 15:52:13.92
/save/がNot FoundやらBad Gatewayになるけど少したってAPIを見ると保存されていたりなかったりする。どうなってんだ

226名無しさん@お腹いっぱい。2020/07/11(土) 16:13:06.22
Not Foundくらったわ

227名無しさん@お腹いっぱい。2020/07/11(土) 18:00:18.44
>>202
俺も使ってる
web.archiveも併用してるけど取得失敗が多くなってきた
いまも取得を試みたがNot Foundだ

228名無しさん@お腹いっぱい。2020/07/11(土) 19:22:59.78
今日はなんか調子悪いね

229名無しさん@お腹いっぱい。2020/07/11(土) 20:04:52.37
なんかこのスレの雰囲気って気象板にある地域の天気スレに似てる気がしてきた

230名無しさん@お腹いっぱい。2020/07/12(日) 02:05:50.03
>>229
ちょっと笑った
そのスレは知らないけど確かに似たところはあるかもね
しかし天気と違ってInternet Archiveの調子は予測できないのが

231名無しさん@お腹いっぱい。2020/07/12(日) 02:08:06.41
アーカイブ(Heritrix)とインデクシング(Wayback)は別々のソフトウェアで分担して動いてるから、
反映されてないように見えても実は取れてることが多いんだよと何度言ったら

232名無しさん@お腹いっぱい。2020/07/12(日) 03:04:42.31
どちらの調子の悪い時もあるからな
裏で取れてると思い込んでたら取れてなかったじゃ話にならん品

233名無しさん@お腹いっぱい。2020/07/12(日) 11:35:09.50
電子コミックとか一時無料になる場合あるけど
ああいうの保存出来ないの?

234名無しさん@お腹いっぱい。2020/07/12(日) 13:02:43.51
出来るか否かは試すしかない
有料サイトのはリスクありそうだから試さないけど

235名無しさん@お腹いっぱい。2020/07/13(月) 01:01:32.93
仮に取れてもサイト側が削除申請出せば消せるしね
10年くらい前の話だけど、二次創作小説専門サイトが著作権の問題で閉鎖になった時、
Wayback Machineに残ってたアーカイブもまとめて全部削除されちゃったんだよね

236名無しさん@お腹いっぱい。2020/07/13(月) 15:07:19.26
自分で保存するのが確実だね

237名無しさん@お腹いっぱい。2020/07/14(火) 03:49:25.53
保存したマンガのファイルを自分でInternet Archiveにアップロードするという手も一応ある(IAのアカウント登録が必要なはず)
アメリカではフェアユース関連でその辺が緩いのかは知らないが、
マイナーな日本漫画の英訳版zipがアップされてる事も時たまあるよ
日本からこれをやって捕まったという話は聞いたことがないけど、お勧めはしないし止めておいた方が無難

238名無しさん@お腹いっぱい。2020/07/14(火) 03:56:30.73
補足しておくとInternet Archive上の漫画etcが全部グレーゾーンな訳ではなくて、
著作権者の許諾を得て大っぴらに収録されてるものもかなり多い

239名無しさん@お腹いっぱい。2020/07/14(火) 11:01:46.40
例えば?

240名無しさん@お腹いっぱい。2020/07/14(火) 21:34:43.78
ttps://togetter[.]com/li/1559186

これをアーカイブすると一瞬表示できたかと思ったら「ERR_HTTP2_SERVER_REFUSED_STREAM」と出る

241名無しさん@お腹いっぱい。2020/07/15(水) 01:59:24.55
>>239
適当に検索して出てきたのを貼っておく
とある科学の超電磁砲8巻
https://archive.org/details/certainscientifi0000kama_m4a2

Internet Archiveの検索欄から"Search metadata"で探すと色々出てくるよ

242名無しさん@お腹いっぱい。2020/07/15(水) 11:10:44.09
日本語版はないのか

243名無しさん@お腹いっぱい。2020/07/15(水) 17:35:15.30
最新版をアーカイブできたと思ったら数年前のアーカイブに強制リダイレクトされる

244名無しさん@お腹いっぱい。2020/07/15(水) 19:09:31.66
>>243
最新版のインデクシングが完了してないとそうなる事がある
しばらく(数時間&#12316;数日)待ってからもう一度閲覧できるか確認するといい

245名無しさん@お腹いっぱい。2020/07/15(水) 21:25:17.65
>>241
こういうのってIA側が出版社に表示使用料払ったりしてんの?

246名無しさん@お腹いっぱい。2020/07/15(水) 21:49:14.83
無許可

247名無しさん@お腹いっぱい。2020/07/15(水) 22:30:09.70
>>245
上に貼ったやつの場合は許諾を得てるようだからおそらく使用料も払われてるとは思うが、
出版社から訴訟起こされたなんて話もつい最近あったし、よう分からん

248名無しさん@お腹いっぱい。2020/07/15(水) 23:31:02.72
版権の所在がもうつかめない作品もゴロゴロでてくるから
基本無許可だろ

249名無しさん@お腹いっぱい。2020/07/16(木) 15:31:48.35
togetterって保存できない?

250名無しさん@お腹いっぱい。2020/07/16(木) 18:48:52.81
やっぱりtogetterはダメだな
意図的にアーカイブ出来ないように設定されてんのか?

251名無しさん@お腹いっぱい。2020/07/16(木) 18:59:38.76
>>250
https://togetter.com/robots.txt
> User-agent: ia_archiver
> Disallow: /

robots.txt で拒否設定してるけど、それ以前に IP か何かで弾いてるようだな。

252名無しさん@お腹いっぱい。2020/07/16(木) 19:21:22.62
魚拓とか他の試せばええやん

253名無しさん@お腹いっぱい。2020/07/16(木) 23:40:51.82
どうしてもIAに入れたいなら
他のサイトでアーカイブ→そのアーカイブをIAでアーカイブ
すればいい

254名無しさん@お腹いっぱい。2020/07/17(金) 01:12:59.61
>>253
できなくない?他のどの魚拓サイトのURL入れてもNGになって無理なんだけど

255名無しさん@お腹いっぱい。2020/07/17(金) 03:03:38.51

256名無しさん@お腹いっぱい。2020/07/17(金) 12:10:51.26
todayが死んでる……

257名無しさん@お腹いっぱい。2020/07/18(土) 13:51:46.77
todayは運営元が不明な時点でいつ消えてもおかしくないので
あくまで気休め用

258名無しさん@お腹いっぱい。2020/07/18(土) 15:14:17.58
todayもウェブ魚拓も固定回線からのアクセスをブロックするようになった気がする

259名無しさん@お腹いっぱい。2020/07/18(土) 20:08:24.38
それをすることに何の意味があるのでせう

260名無しさん@お腹いっぱい。2020/07/19(日) 00:36:31.27
分からん
自分の場合、todayに固定回線でアクセスすると
「Access to this website is blocked Plume」ってメッセージが出てくるようになった
ウェブ魚拓はHTTP 511エラーを吐いてくる
これまではInternet Archiveと使い分けてたんだけど、こうなるとInternet Archiveで色々保存しないといけなくなるな

261名無しさん@お腹いっぱい。2020/07/19(日) 00:43:41.76
today復活したか
結構長く止まってたな

262名無しさん@お腹いっぱい。2020/07/21(火) 00:34:16.68
重杉

263名無しさん@お腹いっぱい。2020/07/21(火) 01:39:06.41
俺はarchive.todayは問題なく使えてる
Wayback Machineは繋がらなかったり取りこぼしが結構あって残念
後日見返しても取れてないし
いまも繋がらない…

Unknown Error
502 Bad Gateway

264名無しさん@お腹いっぱい。2020/07/22(水) 22:35:35.00
お、This page is available on the web!でも
https://web.archive.org/save
に飛ばされるようになってる
やっと統一されたのか

265名無しさん@お腹いっぱい。2020/07/22(水) 23:22:28.96
todayのCloudflareうぜええ
てかなんでこいつはいつまでもreCAPTCHAのままなんだよ

266名無しさん@お腹いっぱい。2020/07/22(水) 23:31:19.40
重杉

267名無しさん@お腹いっぱい。2020/07/23(木) 03:51:45.43
Cloudflare「もどき」しか見ないなw

268名無しさん@お腹いっぱい。2020/07/23(木) 20:33:40.82
ボタンの外見が変わって見づらく感じる

269名無しさん@お腹いっぱい。2020/07/24(金) 00:40:34.99
ボタン?

270名無しさん@お腹いっぱい。2020/07/24(金) 10:54:38.67
https://web.archive.org/save/の後に続く数字が保存中に
_embed/に勝手に変わって保存されない。。。

271名無しさん@お腹いっぱい。2020/07/24(金) 12:49:21.81
保存失敗していたと思ったら1日やら何時間も経ってからやっと反映された
そろそろ限界が近いのだろうか?

272名無しさん@お腹いっぱい。2020/07/24(金) 17:29:43.07
それは普通だが4月に保存したものがいくつか保存されてなかった

273名無しさん@お腹いっぱい。2020/07/24(金) 18:10:50.68
実はそれも普通なのだ

274名無しさん@お腹いっぱい。2020/07/24(金) 18:44:38.56
何事も一期一会、保存などという邪道なものに頼ろうとするな

275名無しさん@お腹いっぱい。2020/07/24(金) 22:49:38.35
http://web.archive.org/web/数字/http://

http://web.archive.org/web/数字/https://

httpsになっているサイトがhttp時代の過去のサイトの画像が自動表示保存されない場合は、https://を入れると自動表示保存される。(例:impress・itmediaなど)

276名無しさん@お腹いっぱい。2020/07/25(土) 00:04:58.43
どういうことだ

277名無しさん@お腹いっぱい。2020/07/25(土) 11:48:35.27
503が出てアーカイブされてるかどうかすら確認できなくなってる

278名無しさん@お腹いっぱい。2020/07/25(土) 22:31:53.72
ここ2週間ほど調子悪杉だろ

279名無しさん@お腹いっぱい。2020/07/25(土) 23:31:37.24
仕方ないからarchive.today使ってる

280名無しさん@お腹いっぱい。2020/07/26(日) 21:51:46.95
>>278
done!が出るまで何度もやらないと、魚拓検索ではweb.archive.orgで取れてる扱いでも取れてない
んで失敗してるうちに待ち時間が10分近くとかに増えていくから、合計だと何分かかるか分からない
消えちゃ困るフリーソフトとかぐらいしか、そんだけ待って取る価値ないわな
archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ

281名無しさん@お腹いっぱい。2020/07/26(日) 22:00:36.20
>>280
> 失敗してるうちに待ち時間が10分近くとか
手作業でやってるんだw

282名無しさん@お腹いっぱい。2020/07/26(日) 22:09:17.35
>>281
ソフトかスクリプトかなんかあるの?
他の作業しながら進捗チラ見してる感じだわ

283名無しさん@お腹いっぱい。2020/07/26(日) 22:10:02.48
archive.todayはとまりすぎじゃね?

284名無しさん@お腹いっぱい。2020/07/27(月) 11:53:01.60
>> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いやそりゃBANされるだろ
サーバ動かすのだってタダじゃないんだよ
自分がアーカイブサイト運営してたとしてもそれはしばらくアク禁にするわ

285名無しさん@お腹いっぱい。2020/07/27(月) 12:24:25.45
>>284
だったら最初から制限事項を表示しろって話
騙し討ちみたいなもんじゃん
別に不正アクセスしたわけじゃないし、dos攻撃みたいに明らかに悪意あるように見えるほど高速でもないんだし

286名無しさん@お腹いっぱい。2020/07/27(月) 15:06:40.42
IAってスクリプトとか保存しないように設定出来れば
保存容量や表示軽く出来そうなのに

287名無しさん@お腹いっぱい。2020/07/27(月) 16:25:19.72
それはもう別もんやろ

288名無しさん@お腹いっぱい。2020/07/27(月) 16:54:48.41
どうしてもアーカイブできないサイトはページ丸ごとスクショしてそれをどっかにあげてアーカイブすればいいか
でも大きなスクショ劣化なしであげられるとこってなかなかないよね
どっかあるかな?

289名無しさん@お腹いっぱい。2020/07/27(月) 21:08:42.38
Tweetsaveも不安定過ぎる
アーカイブ化を妨害したい勢力が暗躍してんだな

290名無しさん@お腹いっぱい。2020/07/27(月) 21:18:11.93
クラウドフレア依存が不安定の原因に思えてくる
IAは違いそうだが

291名無しさん@お腹いっぱい。2020/07/28(火) 01:10:49.40
スクショって画像化の事言ってんの?
そんな事するくらいならWebページ保存ソフト使えよ

292名無しさん@お腹いっぱい。2020/07/28(火) 01:15:00.88
web保存じゃないと捏造言われるからなぁ

293名無しさん@お腹いっぱい。2020/07/28(火) 01:30:19.93
スクショは捏造できる

294名無しさん@お腹いっぱい。2020/07/28(火) 05:58:41.77
>>292
アーカイブ化を妨害したい勢力なんじゃねw
自演やる奴ほど自演疑うみたいな

295名無しさん@お腹いっぱい。2020/07/28(火) 06:39:39.83
https://gigazine.net/news/20191212-thread-internet-archives-silent-killer/
コストを削減したければクローリングするウェブサイトを減らし、一部のデータ保存活動を停止すればOKですが、この考えは世界全体にとっていいアイデアではないとスコット氏は主張。

1分20ページから50ページ保存に緩和してくれ

或いは有料プランを作ってくれ

296◆P0jSlC5fJs 2020/07/28(火) 07:07:27.82
>>288
大抵はWayback Machineかarchive.todayかWebrecorderかSingleFileZで保存できる

おーぷん2chは基本拒まれるけどdatはアーカイブできる
例: http://archive.vn/nxwaU
通常のページを保存できるにしろできないにしろ、APIも保存してくれると助かる

例えばニコ生のAPIは
https://api.cas.nicovideo.jp/v1/services/live/programs/(番組ID)
番組IDのところをlv123とするとその番組の詳細情報が得られる

297名無しさん@お腹いっぱい。2020/07/29(水) 02:58:32.75
Internet Archive以外はいつサービス終了するか分からない
ローカルやログインして自分しか見れない所にアーカイブしても意味ない

298名無しさん@お腹いっぱい。2020/07/29(水) 03:33:40.66
Internet Archiveも見れないURLあるからなあ

299名無しさん@お腹いっぱい。2020/07/29(水) 09:39:20.49
>>298
キャプチャ失敗か削除済みではなく?

300名無しさん@お腹いっぱい。2020/07/29(水) 13:06:06.70
> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いっぺんにそんな数ひろったことないな
やるねえ

301名無しさん@お腹いっぱい。2020/07/29(水) 15:30:15.66
>>300
不良(品)の武勇伝(悪行)みたいなもんよ

302名無しさん@お腹いっぱい。2020/07/29(水) 17:24:51.15
500 Internal Server Error

303名無しさん@お腹いっぱい。2020/07/29(水) 18:01:01.11
>>298
保存しても強制的に
Sorry.
This URL has been excluded from the Wayback Machine.
になってしまうサイトあるよな

304名無しさん@お腹いっぱい。2020/07/29(水) 18:21:15.86
それはサイト側がIAに連絡して保存しないようにして貰っただけ

305名無しさん@お腹いっぱい。2020/07/29(水) 18:50:00.52
>>302
最近よくこれになる
10分待ってまたやるとできることも多いけど

306名無しさん@お腹いっぱい。2020/07/29(水) 19:06:54.26
閲覧のみならやや重い程度なのだが

307名無しさん@お腹いっぱい。2020/07/29(水) 20:25:58.03
International Server Errorはつなぎなおすと動くことも多い気がする

308名無しさん@お腹いっぱい。2020/07/29(水) 23:12:14.28
>>307
> つなぎなおすと

繋ぎ直しで IP が変わったことが効いてるのか、ただ少し時間を空ければ良いだけなのか、
どっちなんだw

309名無しさん@お腹いっぱい。2020/07/29(水) 23:34:29.23
つなぎなおすとはしいたけ押して更新することだと思ってた・・・・

310◆P0jSlC5fJs 2020/07/30(木) 01:13:52.97
>>297
archive.todayってやばいの?
>>280 を読む限りちゃんとリソースに見合った制限をかけてるようだし
削除に応じないからいつか陥落しそうってこと?

2行目は???
アーカイブしてもそれを共有せずアクセス不能な場所にのみ保管していても仕方ないってこと?
自分以外からも見れるようにすりゃいいじゃん

311名無しさん@お腹いっぱい。2020/07/30(木) 04:36:43.89
確かに保存されたページが閲覧できているのに、APIの方では保存されていないかのような
表示になっていることもあるんだな。単にAPIの調子が悪いのか

312名無しさん@お腹いっぱい。2020/07/30(木) 07:36:04.75
time travel
https://timetravel.mementoweb.org/

これはどうなの?

313名無しさん@お腹いっぱい。2020/07/30(木) 07:40:56.06
あー、すまん。

これは自分がページを指定して魚拓とることはできないのか。

314名無しさん@お腹いっぱい。2020/07/30(木) 10:12:47.18
Sorry.
This URL has been excluded from the Wayback Machine.
この文が出るサイトはどんな方法でも保存はおろか閲覧すらできないんでしょうか

315名無しさん@お腹いっぱい。2020/07/30(木) 10:17:20.01
>>310
archive todayってどこの会社が運営してるのか資金はどうしてるのかも分からないし比較的最近できた歴史もサイト
36年の歴史があって米国政府も利用してて組織内部まで公開してるInternet archiveとは信頼度が違う
WebrecorderやSingleFileZは共有機能あるの?見た感じ個人向けのキャプチャソフトみたいだけど

316名無しさん@お腹いっぱい。2020/07/30(木) 10:21:32.94
>>314
>>304なので無理

317名無しさん@お腹いっぱい。2020/07/30(木) 10:22:24.11
途中で送信してしまった
連投失礼
なのでもともと保存されていたものも当然見れなくなる

318名無しさん@お腹いっぱい。2020/07/30(木) 13:59:17.34
>>314
biglobeなんかも2年ほどそうなって見られなくなってその後復活した
内部的にはちゃんと保存されてるんだろうな

319名無しさん@お腹いっぱい。2020/07/30(木) 14:01:25.19
>>318
期間はどの辺です?

320名無しさん@お腹いっぱい。2020/07/30(木) 14:43:03.28
期間とか決まってるわけじゃない
homepage2.nifty.comなんかも昔は見られたが
もうずっと見られないしな

321名無しさん@お腹いっぱい。2020/07/30(木) 21:03:12.09
>>318
マジ?

322名無しさん@お腹いっぱい。2020/07/30(木) 22:23:53.68
>>310
アーカイブって「データが改変されていないこと」が保証されてなきゃいけないんだよ
だから単に「自分以外からも見えるようにすればいいじゃん」って問題ではない

323名無しさん@お腹いっぱい。2020/07/30(木) 22:27:38.32
archive.todayは誰がどこでどういう風に運営してるのかまるで分からない(=いつデータが全て消し飛ぶか分からない)という怖さがある
だから自分はarchive.todayを可能な限り使わないようにしてるし、運営体制が公開されてるInternet Archiveを信用してる

324名無しさん@お腹いっぱい。2020/07/30(木) 22:33:49.07
「データが改変されていないこと」を保証するのって結構厄介で、
Internet ArchiveはWARC形式っていうWebアーカイブ専用フォーマットを使って保存してるくらい
archive.todayやウェブ魚拓はその辺が全く公開されてない
スクショなんて論外だよ(ブラウザの開発者機能で画面表示を書き換えた上でスクショされたらどうしようもないから)

325名無しさん@お腹いっぱい。2020/07/30(木) 23:11:23.68
用途にもよる
単に面白いサイトだから残したい程度ならどこでもいい訳だし
何かの証拠として残すんなら信頼高いアーカイブの方がいいしな

326名無しさん@お腹いっぱい。2020/07/30(木) 23:49:49.99
通常はそこまで手間じゃないんだから両方やっとけ
自分は3つやってる

327322-3242020/07/31(金) 00:23:14.62
証拠だろうと面白いサイトだろうと消えてほしくないからアーカイブする訳だから、
自分は信頼性の高さを重視して何でも基本的にInternet Archiveのみを使っている
archive.todayではIAで保存できなかったものと、特に証拠として残したいものを保存してる(削除申請が通りにくいため)
ウェブ魚拓は「申請が来たらすぐ消している」という運営のインタビューを見てから一切使わなくなった

328名無しさん@お腹いっぱい。2020/07/31(金) 03:22:56.77
今のIAは激烈不調で信頼できるとはとても言えんがな

329名無しさん@お腹いっぱい。2020/07/31(金) 03:53:08.45
そろそろ調子なおった?

330名無しさん@お腹いっぱい。2020/07/31(金) 03:54:59.78
直ってない

331名無しさん@お腹いっぱい。2020/07/31(金) 03:59:36.76
ぴえん

332名無しさん@お腹いっぱい。2020/07/31(金) 07:54:38.33
全ページ検索ってまだできない?
そんなに機密情報とか簡単に検索されたくない?

333名無しさん@お腹いっぱい。2020/07/31(金) 08:11:09.60
またお前か

334名無しさん@お腹いっぱい。2020/07/31(金) 10:08:22.40
自分の主張は正当化されるべきと信じ込んでる・とりあえず何でも陰謀論に結び付けるとか数え役満だな...
Internet Archiveにそんなサービスやってる余裕ないんだよ、一時期やってたけど処理が追いつかなくてすぐ廃止になったって前にも誰かが言ってただろ

335名無しさん@お腹いっぱい。2020/07/31(金) 19:43:31.80
そもそも最近のInternet Archiveは一枚もキャプチャ出来ない日がずっと続いてる
BANか時間帯か何が原因か知らんけど、VPNで時間帯変えても無理

336名無しさん@お腹いっぱい。2020/07/31(金) 19:50:35.35
いやキャプは内部的に出来てるけど反映されるのが3日4日かかってるっぽい

337名無しさん@お腹いっぱい。2020/07/31(金) 19:58:20.86
>>336
そなの?取れてないと思って同じページ数回取り直しちゃったわw
urlで検索すると取れてる扱いなのに、開くと取得ページに一枚もないって出てるし

338名無しさん@お腹いっぱい。2020/07/31(金) 20:02:11.39
>>337
ツイッターでその症状が出てた

339名無しさん@お腹いっぱい。2020/07/31(金) 22:03:51.17
500 Internal Server Error
502 Bad Gateway
520 Unknown Error

今日は特におかしい
何だこの三役揃い踏みは

340名無しさん@お腹いっぱい。2020/07/31(金) 22:17:37.78
>>339
404も忘れないであげて下さい

341名無しさん@お腹いっぱい。2020/07/31(金) 22:45:54.54
huh?

342名無しさん@お腹いっぱい。2020/07/31(金) 22:47:37.43
200以外でリトライし続けるようなスクリプト組んでるけどもう三日間は1ページも保存できてないし

343名無しさん@お腹いっぱい。2020/08/01(土) 01:02:58.62
三日間なにものどを通ってないみたいな言い方するな

344名無しさん@お腹いっぱい。2020/08/01(土) 02:24:02.89
>>342
どのくらい間隔あけているの?

345名無しさん@お腹いっぱい。2020/08/01(土) 02:33:21.99
1年間以上定期的にツイッターで保存していたせいかtodayはBANされてるなぁ
どうやっても404になるわ
使える串探すか

346名無しさん@お腹いっぱい。2020/08/01(土) 15:49:18.93
自分はsave page nowのフォームから保存すると毎回問題なくいけてる(少なくともここ一週間くらいは)
spnフォーム保存時の通信を覗いて、処理をスクリプトに落とし込むというのも不可能ではないのでは

347名無しさん@お腹いっぱい。2020/08/01(土) 15:53:57.90
確かにsave page nowは確率が高いね

348名無しさん@お腹いっぱい。2020/08/01(土) 23:59:08.53
いろいろやってみたけど、俺の結論

7月後半ぐらいから/save/の後ろのURLつけて保存しようとすると、そのページにある画像とかも一部保存もしくはURLを確認しに行く(保存はされない)ように設計が変わったようで、
そのせいでページに張り付いてる画像やスクリプトファイルが多いブログを保存する時は特に時間かかりまくってる
スクリプトで保存してる場合、ヘッダーにno-cacheやetagが出てきたら、それは保存失敗
ブログやニュースサイトの画像URLやスクリプトURLの過去の履歴を見ると、
1日以下の短期間で何十回も何百回も保存してるのを7月以降たくさん見かけるのはこのせいだと思う
Internet Archive側のアーカイブシステムの改悪だ、保存が遅くなる一方だよこれ

349名無しさん@お腹いっぱい。2020/08/02(日) 03:25:42.91
その保存しない確認ってのは一体何の意味があるんだろう

350名無しさん@お腹いっぱい。2020/08/02(日) 08:37:26.17
本来ならInternet archiveをメインに使いたいところだが、いかんせん取れないままではなぁ
サイトに繋がるだけじゃ意味がない
337や339のレスと同じ結果ばかりで、もう一週間くらい取れてないから渋々archive.todayメインに切り替えてる

351名無しさん@お腹いっぱい。2020/08/02(日) 17:49:10.54
いざとなったらspnフォームのHTTP通信解析してcurlで直接叩けばいいやと思ってるから特に気にしてない

352名無しさん@お腹いっぱい。2020/08/02(日) 19:09:18.50
もう使い物にならんな

353名無しさん@お腹いっぱい。2020/08/02(日) 20:24:52.19
Tweetsaveもタイムアウトなどクラウドフレアのエラーばっか出て心折れそう

354名無しさん@お腹いっぱい。2020/08/02(日) 20:27:40.48
Tweetsaveは年間通して繋がらないことは頻繁にあるからもう慣れた

355名無しさん@お腹いっぱい。2020/08/02(日) 20:41:54.12
>>351
1年前はcurlで1分間400回ぐらいはエラーなしで保存できたんだよな
今は10回やって2〜5分休むを繰り返すしかできない
もちろん串刺すかIPアドレス変えれば無限にできるけど、遅すぎる

356名無しさん@お腹いっぱい。2020/08/02(日) 23:24:33.52
>>355
1分間400回とかそれは多すぎるよ、逮捕者が出た岡崎図書館事件ですら1回のアクセス毎に2秒の間隔を置いてたくらいなのに
みんながそんなことやりすぎたからアクセス回数の制限入ったんじゃないの?
万が一訴えられた時のことも考えて、どんなサイトでも1回のリクエスト送ってから最低1秒空けるのが不文律

357名無しさん@お腹いっぱい。2020/08/02(日) 23:27:33.15
どうしても早く保存したいなら自分で保存対象サイトにwgetを走らせて、
そこからInternet Archiveのmetadataとしてアップロードすりゃいい
Wayback Machineには収録されないが、早くやりたいんならそれくらい我慢しなきゃ仕方ないだろ

358名無しさん@お腹いっぱい。2020/08/02(日) 23:31:20.30
どうしても高速でWayback Machineに保存したいなら、
ArchiveTeamのIRCから「このサイトを保存してほしい」と依頼してArchiveBotで作業してもらうという手もある
https://www.archiveteam.org/index.php?title=ArchiveBot

359名無しさん@お腹いっぱい。2020/08/03(月) 01:38:24.57
>>355
何をそんなに保存するものがあるのか興味あるわ
IAからしたら負荷かけまくりの悪質荒らしと変わらんな

360名無しさん@お腹いっぱい。2020/08/03(月) 02:02:51.37
ナニコレ
ttps://i.imgur.com/eYAu2fb.png

361名無しさん@お腹いっぱい。2020/08/03(月) 03:21:13.16
>>360
自分も全部それになる…

362名無しさん@お腹いっぱい。2020/08/03(月) 10:30:06.00
なぜかTweetsaveを素早く庇う奴が常駐してる
不思議だ

363名無しさん@お腹いっぱい。2020/08/03(月) 10:45:09.75
>>356
その辺の画像多用のブログをsave nowで保存するだけで画像やスクリプトで200のURLを一気に保存するんだが
考えてみればsave nowの方がサーバーに優しくないんだよ

364名無しさん@お腹いっぱい。2020/08/03(月) 14:19:45.15
save page nowのリンク先保存は読み込まれる数に制限あるぞ

365名無しさん@お腹いっぱい。2020/08/03(月) 14:46:11.43
>>362
確かに怖すぎ・・・

366名無しさん@お腹いっぱい。2020/08/03(月) 15:59:02.06
庇ってるか?
年間通して続いてるから事実を言っただけだ
改善する希望なんて持てないしさ

367名無しさん@お腹いっぱい。2020/08/03(月) 16:26:43.83
常駐ご苦労さん

368名無しさん@お腹いっぱい。2020/08/03(月) 16:32:26.47
保存するのは芸能人のブログとかじゃないの

芸能人の画像をPCに保存にしないでIAを、クラウド代わりにする。

369名無しさん@お腹いっぱい。2020/08/03(月) 20:28:28.24
検索がfailed to fetchになってしまって全然できない…

370名無しさん@お腹いっぱい。2020/08/04(火) 05:32:30.73
save pageボタン押してもなかなか画面が変わらなくて
最後は502 Bad Gateway表示ばっかり

371名無しさん@お腹いっぱい。2020/08/04(火) 08:25:42.60
SPNは復帰
/save/は502 Bad Gateway

372名無しさん@お腹いっぱい。2020/08/04(火) 08:28:31.29
The capture is estimated to start in 600 minutes.
昨日ぐらいからSave Page Nowでこんな表示出てくるんだけど、あと10時間も待ってないといけないわけ?
いい加減にサーバー増強しろよ。。

373名無しさん@お腹いっぱい。2020/08/04(火) 10:01:44.45
Tweetsaveについて知らないニワカが落ちてると叩くのは
サービスを潰しかねない迷惑行為なのでやめてもらいたい

374名無しさん@お腹いっぱい。2020/08/04(火) 11:54:09.68
今Save Nowに突っ込んだら680分待ちでワロタ

375名無しさん@お腹いっぱい。2020/08/04(火) 11:54:46.66
そもそもいつからTweetsaveがInternet Archiveの傘下に入ったんだ?
ウェブアーカイブ総合スレでやれ

376名無しさん@お腹いっぱい。2020/08/04(火) 11:57:24.72
Internet Archiveも資金繰りが厳しいらしいからな
サーバの重さに文句言っていいのは寄付した人間だけだろ、自分は寄付してないから当然言えない

377名無しさん@お腹いっぱい。2020/08/04(火) 14:03:24.88
IA目線になる必要はない
向こうにクレームつけてるワケでなし

378名無しさん@お腹いっぱい。2020/08/04(火) 17:08:02.52
Internet archive取得できないな
Saving..のままだ

379名無しさん@お腹いっぱい。2020/08/04(火) 17:50:56.70
なんでこんなんなっちゃったんだ

380名無しさん@お腹いっぱい。2020/08/04(火) 18:13:31.23
国外のニュースサイトとかじゃあまり話題にしないな

381名無しさん@お腹いっぱい。2020/08/04(火) 19:50:11.42
The capture is estimated to start in 264 minutes.

382名無しさん@お腹いっぱい。2020/08/04(火) 20:45:36.63
ここに書いてもしょうがないかしらんが
サイト撤去跡などでリダイレクトされるやつのリダイレクトが早すぎて
結局アドレスバーに直打ちしないと目当てのサイトを探せないのは何かなあ

383名無しさん@お腹いっぱい。2020/08/05(水) 03:17:21.99
FirefoxなんでYahoo!BlogならRedirectorで/web/2/に飛ばしてるよ
多分クロームにも似たような拡張あるだろう

384名無しさん@お腹いっぱい。2020/08/05(水) 03:25:10.25
>>378
自分もこれ…savingのまま一向に動かない
検索しても取れてない…

385名無しさん@お腹いっぱい。2020/08/05(水) 03:50:11.53

386名無しさん@お腹いっぱい。2020/08/05(水) 04:34:39.82
/save/
520 Unknown Error
failed to archive the URL. specifics of failure is unknown

387名無しさん@お腹いっぱい。2020/08/05(水) 13:52:57.91
520エラーでも数日後に見ると保存されるケースとされてないケースがあってよくわからん

388名無しさん@お腹いっぱい。2020/08/05(水) 14:18:52.88
保存されるケースだけなら困らないが
されてないケースがあるから困る

389名無しさん@お腹いっぱい。2020/08/05(水) 14:57:05.28
キャプチャまでの待ち時間がとんでもない事になってるけど
あれってタブ閉じるとダメなのかな?
内部的には処理待ち行列に入ってるとかならいいんだが

390名無しさん@お腹いっぱい。2020/08/05(水) 19:10:38.98
タブ閉じても保存されるっぽい

391名無しさん@お腹いっぱい。2020/08/05(水) 19:38:11.52
The capture is estimated to start in 0 minutes.
今待ち時間0分になってる
save/でもすぐに保存されてるし、やっと緩和したかな
これが続けばありがたいんだが

392名無しさん@お腹いっぱい。2020/08/05(水) 23:07:39.24
やっと不具合解消されたか
長かったな

393名無しさん@お腹いっぱい。2020/08/05(水) 23:18:38.18
行列で密になるところだった

394名無しさん@お腹いっぱい。2020/08/06(木) 07:52:14.90
保存待ち状態もAPIで判別可能ならもっといいんだけどな

395名無しさん@お腹いっぱい。2020/08/07(金) 08:24:06.69
平常通りと言いたいとこだけど、上部の棒グラフみたいな外観のリンクがバグってる

396名無しさん@お腹いっぱい。2020/08/09(日) 01:14:41.21
24h後に再度試してもスナップショットがThis page is available on the web!になるな

397名無しさん@お腹いっぱい。2020/08/09(日) 01:49:03.68
それはわかってるわって言いたくなるな

398名無しさん@お腹いっぱい。2020/08/10(月) 02:19:13.94
お 保存成功
>396になった分はノーカンだから相当な足止めだな

399名無しさん@お腹いっぱい。2020/08/10(月) 08:53:33.67
なんだこれ気持ちわりいw ほぼノータイムで保存されたw

400名無しさん@お腹いっぱい。2020/08/11(火) 14:54:46.93
The same snapshot had been made 1 minutes and 3 seconds ago.
We only allow new captures of the same URL every 20 minutes.

401名無しさん@お腹いっぱい。2020/08/11(火) 17:42:27.57
わお

402名無しさん@お腹いっぱい。2020/08/11(火) 23:40:05.49
何を保存してんだか

403名無しさん@お腹いっぱい。2020/08/12(水) 00:39:05.37
URL末尾に?を付けたらおk?

404名無しさん@お腹いっぱい。2020/08/13(木) 13:31:37.01
>>402
間違えて同じのやっちゃっただけだよ

405名無しさん@お腹いっぱい。2020/08/13(木) 23:35:13.19
最近必ず保存されていい感じ

406名無しさん@お腹いっぱい。2020/08/14(金) 02:26:01.50
同じURL保存の待ち時間が20分になったな
jsonになってしまう事も結構あるのにこれはつらい…

407名無しさん@お腹いっぱい。2020/08/14(金) 09:07:40.78
IPアドレス変えたりsave nowとアドレスバーにsave直打ちとかで同じかどうかも判定変わるから
いろいろ試せば1分未満でも再保存できる場合もあるよ

408名無しさん@お腹いっぱい。2020/08/14(金) 10:19:15.30
x-archive-wayback-runtime-error: WaybackException: java.lang.IllegalStateException: Payload size does not match content-length!
ここ数日このエラー多すぎ

409名無しさん@お腹いっぱい。2020/08/14(金) 16:29:46.94
todayスマホからアクセスするとCAPTCHAの無限ループなんだけどこれって俺だけ?

410名無しさん@お腹いっぱい。2020/08/14(金) 18:09:50.06
俺もなるわ
どうやらユーザーエージェントでブロックしてるらしい
別のブラウザアプリ使えば回避できる

411名無しさん@お腹いっぱい。2020/08/14(金) 18:35:19.64
無限リキャプチャなんだこれ…って思ったら同じ人がいて安心した

412名無しさん@お腹いっぱい。2020/08/15(土) 00:29:36.27
>>409だけどいつの間にか直ってたわ

413名無しさん@お腹いっぱい。2020/08/16(日) 22:58:30.65
ワープ用の棒グラフをクリックするとこんなふざけたアドレスに飛ばされる。当然表示できない。
https://web.archive.org/web/20130821015518if_/http://*****.com/web/20191201000000/http://*****.com/

414名無しさん@お腹いっぱい。2020/08/17(月) 00:28:22.30
ほんとだバグってる

415名無しさん@お腹いっぱい。2020/08/17(月) 09:21:29.95
メンテ中で何も見れない

416名無しさん@お腹いっぱい。2020/08/17(月) 17:09:41.45
保存されてたはずのページが今日確認したらされてなかったことに・・・
特に今年7月あたりがひどい。

417名無しさん@お腹いっぱい。2020/08/17(月) 22:57:21.09
以前はちゃんと保存されて見れてたのなら、サイト運営者からの削除申請があったとかでもない限りは一時的なトラブルだから待ってれば直る

418名無しさん@お腹いっぱい。2020/08/18(火) 15:30:05.05
保存直後は問題なく見れるが数日後は無くなってるのが多いね
保存失敗したならちゃんと失敗したとエラー表示出して欲しい

419名無しさん@お腹いっぱい。2020/08/18(火) 16:08:16.30
>>418
見られなくなるのは一時的で数日後にはちゃんと見えるようになる
urlをブクマして確かめてみろ

420名無しさん@お腹いっぱい。2020/08/19(水) 01:14:34.33
URLから日付を選ぶページで保存元(Reason:)がNo Collection Infoって表示が出てるのは時間かかってるっぽい
保存されたらlivewebかsave-nowになるはず

421名無しさん@お腹いっぱい。2020/08/20(木) 13:37:54.14
>>418
単にインデクシング階層で情報の表示に失敗してるだけで、サーバ内部にはちゃんと保存されてる
待ってれば直る

422名無しさん@お腹いっぱい。2020/08/20(木) 13:40:37.45
noteのIP漏洩事案だけど、Wayback MachineのアーカイブのソースにIP情報が残ってる記事が結構あるらしい
削除申請が出される可能性があるから、noteのアーカイブを取ったことのある人は改めて保存し直しておくことを推奨

423名無しさん@お腹いっぱい。2020/08/20(木) 16:42:28.79
IA側がIPアドレスは個人情報じゃないので削除却下と行ってきたらどうすんの?
個人的には今回の件どうでもいいと思ってるし、note運営がどうこういう話じゃないしな

424名無しさん@お腹いっぱい。2020/08/20(木) 23:09:46.55
IPアドレスはEUの一般データ保護規則で個人情報とされてるからIA側が却下する可能性は微妙
もちろんnote運営を介さないと削除申請は出せないはずだけど、
某自主制作コミュニティで「note運営に働きかけて記事のアーカイブを削除してもらおう」
って動きがあったのを見かけたものだから念の為と思ってね

425名無しさん@お腹いっぱい。2020/08/21(金) 00:04:13.83
運営に言わずに自分や自社のブログを消したいなら自分で削除依頼出せばいいのにな
初めっからやる気なさそう

426名無しさん@お腹いっぱい。2020/08/21(金) 00:22:21.22
今気付いたんだけど、削除申請を受けてWayback Machineから恒久的に削除されたサイトでも
スクリーンショット機能を使えば普通に保存・閲覧出来るんだな
(つまりスクリーンショットはWayback Machine削除申請の影響を受けない?
単にスクリーンショット機能実装以前に削除されたからかもしれないけど)
既出ならすまない

427名無しさん@お腹いっぱい。2020/08/21(金) 00:23:29.07
× スクリーンショット機能実装以前に削除されたから
○ スクリーンショット機能実装以前に削除されたページだったから

428名無しさん@お腹いっぱい。2020/08/21(金) 00:26:14.79
>>425
Internet Archiveの削除申請は「自分がそのサイト本体の管理者であることが確実にわかる証拠」を提示しないといけない
だから多分自力じゃ厳しいと思う

429名無しさん@お腹いっぱい。2020/08/22(土) 22:36:33.52
削除申請してる時間あるならルーター再起動するなりすればいいだけじゃないんかね…
ipバレてビビるとか古のネット民じゃないんだから

430名無しさん@お腹いっぱい。2020/08/23(日) 00:29:25.80
固定IPなんかはそうもいかんだろ

431名無しさん@お腹いっぱい。2020/08/24(月) 03:31:06.48
>>426
スクショ機能なんて使う場面ないだろと思ってたけどそういう使い道があったか

432名無しさん@お腹いっぱい。2020/08/24(月) 16:55:38.02
スクリーンショットとサイト保存って何が違うの?

433名無しさん@お腹いっぱい。2020/08/24(月) 18:05:25.38
普通のサイト保存→
HTML/CSS/JSなどを実行した結果のデータやアクセス日時などの情報を、WARCファイルという専用フォーマットにまとめて保存する。WARCの表示には専用のビューワが必要

スクリーンショット→
ページのスクリーンショットを撮った画像ファイルを保存する。やってることはスマホやパソコンのスクリーンショットと違いはない

要は保存する方法が全く違う

434名無しさん@お腹いっぱい。2020/08/24(月) 23:21:34.82
どのサイトからのものってのはわかるのかな

435名無しさん@お腹いっぱい。2020/08/25(火) 15:21:15.62
>>434
URLの先頭にarchive.orgのものが付く以外は普通のURLと変わらないので分かる

436名無しさん@お腹いっぱい。2020/08/25(火) 23:20:57.08
なら便利だな

437名無しさん@お腹いっぱい。2020/08/26(水) 00:43:57.57
表示中のアーカイブサイトのどこを押せばサイト内容まとめたWARCファイルとやらをDL出来んの

438名無しさん@お腹いっぱい。2020/08/26(水) 01:26:16.34
別にわざわざWARC落とさなくても、ブラウザのWayback Machineで表示されてるのがWARCの内容だぞ

アーカイブされたサイトはWARCファイルとしてまとめられ、Internet Archiveのサーバに保存される
Wayback Machineは、サーバ内のWARCを呼び出してブラウザで見れるように適切に変換しているだけ

439名無しさん@お腹いっぱい。2020/08/30(日) 08:16:25.60
/save/の保存制限ってここ数日は緩和されてる?
時間なかったのでダメ元で何ページか同時に/save/の後ろにURLつけてブラウザで開いてみたら
去年の後半以降からずっと出てた「制限に達したから5分待ってください」のエラーが全く出ずに保存できた

4404392020/08/30(日) 08:20:18.13
保存時に画像やスクリプトファイルで待たされるのは
去年の快適だったころとは比べてまだ元通りではないけど、ちょっとストレス減った

441名無しさん@お腹いっぱい。2020/08/30(日) 19:10:13.20
note消された?
新しく保存もできない
https://web.archive.org/web/20200201000000*/https://note.com/

442名無しさん@お腹いっぱい。2020/08/30(日) 19:59:54.58
ローカルhtmlにsave/httpのリンク複数貼って
それ一斉に開いたらちゃんと保存されてんの?

443名無しさん@お腹いっぱい。2020/08/30(日) 20:07:43.20
本当だ
しかもnoteの以前のドメイン(note.mu)の方は完全にブロックされてる
Twitterでは8月上旬までこのドメインの魚拓が共有されてるからIP流出事件後にブロックされたっぽい
https://i.imgur.com/BAAGgrQ.jpg

444名無しさん@お腹いっぱい。2020/08/30(日) 20:35:37.14
>>442
されてると思う
まとめて大量にするとToo Many Requestsエラーで漏れがでる可能性はあるけど

445名無しさん@お腹いっぱい。2020/08/31(月) 04:33:09.24
>>423みたいな懐疑的意見もあったけど、個人的には予想通りの措置って感じだな...
robots.txt見たらia_archiverとmegalodonをブロックしてた

446名無しさん@お腹いっぱい。2020/08/31(月) 04:34:52.71
>>445
わかると思うけどnoteの話な

447名無しさん@お腹いっぱい。2020/09/01(火) 03:46:44.96
robots.txtでブロックしてようがIAのバグで保存しちゃう方法はあるので、
Noteがサービス終了してrobots.txtの規制解除まで見るのだけはお預けだね

448名無しさん@お腹いっぱい。2020/09/01(火) 05:36:23.80
サービス終了しても解除されない場合があるからそんなに楽観的には見れないな...
そういうサイトはおそらくメールの申請で、Wayback Machineから恒久的に削除されてるんだと思われる

449名無しさん@お腹いっぱい。2020/09/01(火) 12:18:32.04
excludedって削除じゃなくて除外処置じゃないっけ?確証は持てないけど
復活したアーカイブは見たことあるけどそのままの例は知らないので教えて欲しい

450名無しさん@お腹いっぱい。2020/09/01(火) 17:10:02.85
自分が知ってる例は、URLは忘れてしまったけど、
だいたい10年近く前に閉鎖された版権作品の二次創作小説投稿サイトだった
2, 3年前にそのサイトのアーカイブをWayback Machineで見ようとしたんだが、
"このサイトはWayback Machineから削除されました"というような内容のエラーメッセージが出て見れなかった

451名無しさん@お腹いっぱい。2020/09/01(火) 19:38:09.98
>>448
IAに除外要請を出しておいて、サービス終了時に再度
「うち辞めるから、もう見せても良いですよ」とか通知する奴が居たらアホだなw

実際に削除してるのか、単に非表示フラグを立ててるだけなのかは知らんけど。

452名無しさん@お腹いっぱい。2020/09/01(火) 19:57:29.68
心配しなくとも炎上させたいネットストーカーされてるところは他で流出するがな
5chや通販サイト等のクレカ含めた個人情報しかり
ここに挙がらないアーカイブサイトで取った魚拓はまだ残ってるし
マイナー過ぎていつ消えるか分からないけど晒すと使えなくなるから輸出してるが証拠能力が下がるのが悩み

453名無しさん@お腹いっぱい。2020/09/03(木) 16:37:02.03
>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
https://twitter.com/bulkneets/status/1300967926397194240
だそうな

IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
https://twitter.com/5chan_nel (5ch newer account)

454名無しさん@お腹いっぱい。2020/09/03(木) 16:37:02.33
>> web archiveは robots.txt での制御をしばらく前にやめている。
>> ドメインオーナーとしての個別連絡も同時期にやっていると思われる。
https://twitter.com/bulkneets/status/1300967926397194240
だそうな

IPアドレスはいわば「準・個人情報」にあたるものだし、
非表示の申請を出すこと自体は企業の対応として真っ当だし当然だとは思うけど、アーカイブできなくなるのは非常に困る
https://twitter.com/5chan_nel (5ch newer account)

455名無しさん@お腹いっぱい。2020/09/03(木) 16:37:29.67
二重投稿になってしまった、すまない

456名無しさん@お腹いっぱい。2020/09/03(木) 16:43:17.13
非表示にされたサイトでもスクリーンショットで保存できるテクニック、noteでも行けるわ
今試したら問題なく取れた
https://web.archive.org/web/20200903074132/http://web.archive.org/screenshot/https://note.com/

457名無しさん@お腹いっぱい。2020/09/05(土) 11:20:03.73
スクショはアーカイブデータとして見ると微妙なのがね・・・(単に見る分には良いけど)
全く取れないよりはましだけども

458名無しさん@お腹いっぱい。2020/09/05(土) 13:25:56.74
アーカイブ見ようとすると時々出る。いつも出るわけではない。更新で解決するときとしないときがある。
> ページの自動転送設定が正しくありません
> web.archive.org への接続中にエラーが発生しました。
> Cookie を無効化したり拒否していることにより、この問題が発生している可能性もあります。

459名無しさん@お腹いっぱい。2020/09/06(日) 01:34:21.61
ちょくちょく下の画面か503とかになるな…
https://i.imgur.com/wFIxonH.png

460名無しさん@お腹いっぱい。2020/09/06(日) 23:16:00.13
すみません、どなたかスクリーンショットでのアーカイブのやり方を教えていただけませんか?
ぐぐっても分からずじまいでしたので
よろしくお願いいたします

461名無しさん@お腹いっぱい。2020/09/07(月) 00:10:02.21
Sorry.
This snapshot cannot be displayed due to an internal error.

462名無しさん@お腹いっぱい。2020/09/07(月) 05:00:01.20
noteってアーカイブできない?
いくらやってもHrmになっちゃう

463名無しさん@お腹いっぱい。2020/09/07(月) 08:25:07.14
>>460
https://blog.archive.org/wp-content/uploads/2019/10/SPN-1.png
続きです
「save page now」を押してもこのチェックボックスがすべて出ず「save error pages」のチェックボックスしか出ないのです
何かアカウント登録とか必要なのでしょうか?

464名無しさん@お腹いっぱい。2020/09/07(月) 14:52:00.26
>>463
Sign in to use extra features: "Save outlinks", "Save screen shot" and "My web archive".
中学英語でも十分理解できる文章だと思うけどねぇ。

465名無しさん@お腹いっぱい。2020/09/07(月) 16:27:47.09
homepage2.nifty.comってWayback Machineで非表示になってるのか...

466名無しさん@お腹いっぱい。2020/09/07(月) 17:20:20.83
↑これどうにかならいあのんかな
niftyのhomepageなんてもう終わってるのに

467名無しさん@お腹いっぱい。2020/09/07(月) 19:00:05.38
>>464
どうもありがとうございます

468名無しさん@お腹いっぱい。2020/09/07(月) 20:31:13.49
Wayback Machineで非表示になってるサイトでも、
自前でクローラ動かしてWARC作ってInternet Archiveにアップロードすれば一応アーカイブを残すこと自体は出来るんだけどね...
APIを活用した支援ソフトを作ることや、WARCファイルの取り扱い方を幅広い人に周知することが重要になりそうだ

469名無しさん@お腹いっぱい。2020/09/08(火) 14:39:27.94
Save outlinksがアカウント必須になったのってどういう事情なのかね
やっぱり容量が逼迫してるから?

470名無しさん@お腹いっぱい。2020/09/08(火) 21:41:40.80
みんなはスキャンしてみたい本はある?

471名無しさん@お腹いっぱい。2020/09/08(火) 21:57:00.84
>>469
容量というかアーカイブ先サイトへのDOS攻撃っぽくなっちゃうからじゃね?
前は同一URLの保存間隔すら無かったし

472名無しさん@お腹いっぱい。2020/09/08(火) 23:04:42.17
>>470
本は流石に日本の著作権法上難しいからスキャンして上げる勇気はないな

473名無しさん@お腹いっぱい。2020/09/09(水) 14:34:19.54
青空文庫の対象になっている本だけにしておこう。

474名無しさん@お腹いっぱい。2020/09/09(水) 16:24:22.16
>>471
以前はリンク先辿るのは50個までって制限あった気がするけど今やったら58個辿った
もしかして50個制限を解除する代わりに相手先に過負荷を懸念してアカウント必須にしたんかね

475名無しさん@お腹いっぱい。2020/09/10(木) 18:29:24.96
>>472
海外も同じ?

476名無しさん@お腹いっぱい。2020/09/10(木) 20:53:03.63
>>475
アップロード操作が日本で行われる以上は、
フェアユースを認めていない日本法が絡んでくる。

477名無しさん@お腹いっぱい。2020/09/12(土) 15:50:29.35
>>476
そのうち海外でも違法になるし、削除対象になるな。

478名無しさん@お腹いっぱい。2020/09/12(土) 19:01:28.95
>>477
はぁ?
アホか

479名無しさん@お腹いっぱい。2020/09/12(土) 19:15:32.10
>>477
頭悪そう

480名無しさん@お腹いっぱい。2020/09/12(土) 19:54:33.10
多分中国人なんだろ
例の国家保安法みたいに、国外での行為も国内で処罰対象になるとか言うやつ

481名無しさん@お腹いっぱい。2020/09/16(水) 12:31:27.10
著作権法は「送信元の国」と「送信先の国」どちらの法律を適用するかで見解が分かれること自体は事実だから、あながち間違ってるわけでもない
合ってるわけでもないのが微妙な点だけど

482名無しさん@お腹いっぱい。2020/09/16(水) 19:20:01.19
【ネット】1000万件以上の研究論文がオンライン上から消失することを防ぐインターネットアーカイブの取り組みとは?  [すらいむ★]
https://egg.5ch.net/test/read.cgi/scienceplus/1600244016/

483名無しさん@お腹いっぱい。2020/09/18(金) 08:59:11.97
今ってYahoo知恵袋アーカイブできるようになってるんだね
昔はできなかった記憶

484名無しさん@お腹いっぱい。2020/09/18(金) 09:41:08.71
Yahooの件はさんざん既出

485名無しさん@お腹いっぱい。2020/09/20(日) 00:05:31.29
Temporarily Offline
The Internet Archive's sites are temporarily offline.
We apologize for the inconvenience.

486名無しさん@お腹いっぱい。2020/09/20(日) 07:21:40.11
>>473
あとはフリーのWeb小説やWeb漫画だね

487名無しさん@お腹いっぱい。2020/09/20(日) 11:05:31.96
pixivって閉鎖はされなそうだけど、作品は自主削除が多発するしな。

488名無しさん@お腹いっぱい。2020/09/20(日) 11:59:03.96
epubファイルをアップロードすると、その場で、ページをめくって内容を確認できるようになった。

便利。

489名無しさん@お腹いっぱい。2020/09/20(日) 18:26:41.77
pixivをWayback Machineでアーカイブすると英語版が保存されるんだよね
Internet Archiveのサーバがアメリカにあるためだと思われる

490名無しさん@お腹いっぱい。2020/09/20(日) 20:31:33.86
リアリー?

4914892020/09/20(日) 21:54:54.16
>>490
試してみたら?
今まで自分がやったやつは全部そうなったし今試してみてもそうなった
https://web.archive.org/web/20200920125157/https://www.pixiv.net/en/artworks/84437660

492名無しさん@お腹いっぱい。2020/09/21(月) 12:54:15.78
こっちの環境だけかな?
今朝から新規の保存をしても反映されない様で…

493名無しさん@お腹いっぱい。2020/09/21(月) 13:28:38.55
We can't retrieve all the files we need to display that page. Please try again later.

今朝からこのエラーばっかり、時間置いても同じエラー出る

494名無しさん@お腹いっぱい。2020/09/21(月) 15:08:51.20
俺も保存できてない。
APIもShow Allも反応なし

495名無しさん@お腹いっぱい。2020/09/21(月) 16:58:59.37
今朝からのエラーまだ直ってないのか

496名無しさん@お腹いっぱい。2020/09/22(火) 00:15:15.42
おま環かと思ったら俺の他にも取れない人いたのか

497名無しさん@お腹いっぱい。2020/09/22(火) 01:10:54.32
ブログから
Cloudflare and the Wayback Machine, joining forces for a more reliable Web
ttps://blog.archive.org/2020/09/17/internet-archive-partners-with-cloudflare-to-help-make-the-web-more-useful-and-reliable/
クラウドフレアと連携

簡単な要約
クラウドフレアのAlways Onlineサービスを使っているサイトは、サイトが鯖落ちしてるときにIAで保存されてるページを表示かもしれない
それとは別にIAに保存されていないURLの場合、システムで自動的に保存するかもしれない

498名無しさん@お腹いっぱい。2020/09/22(火) 01:27:34.31
ますます重くなるから余計な事はやめろ

499名無しさん@お腹いっぱい。2020/09/22(火) 02:07:08.22
ようやく新規の保存が通るようになった…
この後どうなるかわからんけど…

500名無しさん@お腹いっぱい。2020/09/22(火) 02:22:24.50
>>498
余計な事どころか
ここでチマチマ取ってるより遥かに重要

501名無しさん@お腹いっぱい。2020/09/22(火) 03:13:49.79
いつかはパンクする
その時期が早まるだけだ

502名無しさん@お腹いっぱい。2020/09/22(火) 08:08:56.42
てか、去年の同じ時期にも保存できなくなってたような
9月20日に保存できなかったのを覚えてる

503名無しさん@お腹いっぱい。2020/09/23(水) 01:15:58.22
覚えてられないほど頻繁に起きている気がするが

504名無しさん@お腹いっぱい。2020/09/25(金) 10:19:01.03
4GB超の更新ファイルを保存しようとしたら、2GBでカットされちゃったんだけど
ファイルの上限あるのかな。問題になりそう。

505名無しさん@お腹いっぱい。2020/09/25(金) 12:38:17.33
SPNで保存後、Visitの後ろに表示されるリンクがデタラメで不安になる

506名無しさん@お腹いっぱい。2020/09/25(金) 21:15:42.10
保存直後、即時反映される場合と一日経っても反映されない場合があって、差が激しい。

507名無しさん@お腹いっぱい。2020/09/28(月) 16:44:07.73
質問です
ログインしなければ見れない記事などは
どうすればアーカイブできるのでしょうか?
単にバックアップしてもログイン画面が表示されるだけなのです

508名無しさん@お腹いっぱい。2020/09/30(水) 13:25:58.72
>>507
基本的にログイン必須のページはアーカイブ出来ない
リクエストを工夫すれば取れるかもしれないけど、それ系のプログラムの知識が必要

509名無しさん@お腹いっぱい。2020/09/30(水) 20:22:18.87
今時ベーシックはないだろうしねえ

510名無しさん@お腹いっぱい。2020/09/30(水) 20:55:20.93
OAuthも無理だろうしSPNでログインが必要なページは事実上無理じゃないかな

511名無しさん@お腹いっぱい。2020/10/03(土) 20:46:46.28
ログインするページは魚拓出来ないのですね・・・
ご回答ありがとうございました。

512名無しさん@お腹いっぱい。2020/10/03(土) 22:59:15.77
そもそもパスワード等を知らない「アカの他人」には見えないようになっているページを
どうして Internet Archive という「他人」に保存させようとするんだ?

リテラシーが崩壊してるわw

513名無しさん@お腹いっぱい。2020/10/04(日) 00:30:28.82
むやみに笑うなよ…もっと平和にいこうぜ

514名無しさん@お腹いっぱい。2020/10/04(日) 01:06:25.33
「リテラシーが崩壊してるわw」では済まされないくらい重要な問題なんだけどな
例えば学術論文リポジトリはログインしないと閲覧出来ない場合も多くて問題になってたりする

515名無しさん@お腹いっぱい。2020/10/04(日) 01:17:45.63
「ログインしないと入れないページ」は深層ウェブというものの一つでもあるんだけど、
ディープウェブのWebアーカイブをどうやってやっていくべきかというのは割と難しい課題なのよ

ログインしないと入れないページは、ちゃんとした理由があるからこそ閲覧に制限がかかってる
でもそれと同時に、ちゃんとした理由があってログインしないと入れないページをアーカイブしたい場合というのも往々にしてあるわけ(上で挙げた学術論文リポジトリはその一例)

とは言え、いくらアーカイブする必然性があってもだからと言ってアクセス制限を無視して良いわけではないし、両者の兼ね合いは結構難しい
ともかくこういうのを単なるネットリテラシーの問題として済ますのは良くない

516名無しさん@お腹いっぱい。2020/10/04(日) 01:22:42.49
理由は何であろうが、ログインを要求してるんだから
それ以上は IA 側の知った話じゃないよ

517名無しさん@お腹いっぱい。2020/10/04(日) 03:15:02.69
「知った話じゃない」ってのは
「関心を持って注視しているが現時点では対応していない」状況にぴったりな言葉じゃないと思う

518名無しさん@お腹いっぱい。2020/10/04(日) 15:45:40.69
>>515
自分でローカルに保存すればいいじゃん
なんだかんだ言って天災・過失で自前バックアップ死ぬよりも、ネットの方が通報も含めて明らかに先に死ぬし

519名無しさん@お腹いっぱい。2020/10/04(日) 17:10:59.85
>>515
言ってることがただの自己中だってことに気付けよ

520名無しさん@お腹いっぱい。2020/10/04(日) 17:23:57.00
横からだけど全然自己中じゃないと思うよ。

521名無しさん@お腹いっぱい。2020/10/04(日) 21:38:12.33
保存される側のルール>保存する側の都合だしな

522名無しさん@お腹いっぱい。2020/10/04(日) 22:44:09.00
>>521
だよねー、普通は

523名無しさん@お腹いっぱい。2020/10/05(月) 01:02:47.64
>>521
その兼ね合いが難しいって話よ
そもそもウェブアーカイブ自体著作権法スレスレのものだし、保存される側の都合を完璧に守るのは無理だと自分は割り切ってる

524名無しさん@お腹いっぱい。2020/10/05(月) 01:05:22.46
ウェブアーカイブが単純にローカルで保存しとけば済む話だったらInternet Archiveという団体は存在しえない
保存する側とされる側の都合の兼ね合いは「自己中」で一蹴せず、ちゃんと考えていかなきゃいけないシリアスな問題だと思うよ

525名無しさん@お腹いっぱい。2020/10/05(月) 02:54:18.28
まだ引っ張んのかこいつw

526名無しさん@お腹いっぱい。2020/10/05(月) 04:15:46.32
草生やしてるほうレッテル貼りしかしてないもんなあ

527名無しさん@お腹いっぱい。2020/10/05(月) 04:55:38.02
自己中呼ばわりやら草生やしたりやらしてる方は
何か恨みでもあるんかってくらい食い付いてるしな
感情論で殴ってるだけだから話自体に説得力ないし

528名無しさん@お腹いっぱい。2020/10/05(月) 10:48:51.05
>>522
正義マンがポリコレ棒めっちゃぶんぶんしてるのに似てる
なんでルール守れないゴミ自己中のくせに被害者面してんの?
やべーわ
それで管理人がサイト更新意欲なくなっても
俺は悪くない!
とか宣うんだろw

529名無しさん@お腹いっぱい。2020/10/05(月) 17:14:59.29
おもしれー
もっとやれ

530名無しさん@お腹いっぱい。2020/10/05(月) 19:42:44.10
もっとやれって言われた以上この話題は無視するか
ここはTwitterのリプライかよ、くだらない

531名無しさん@お腹いっぱい。2020/10/06(火) 21:16:26.76
ルールに従えとしか言えないな
考えていかなきゃいけない問題だとは思うが、ここで議論する意味は無い

532名無しさん@お腹いっぱい。2020/10/07(水) 18:39:57.75
またデータ取れない状態になったみたいね

533名無しさん@お腹いっぱい。2020/10/15(木) 08:59:33.08
1980年代のインターネットの書き込みが磁気テープから復活 2020/10/14 [朝一から閉店までφ★]
https://asahi.5ch.net/test/read.cgi/newsplus/1602676258/

534名無しさん@お腹いっぱい。2020/10/16(金) 05:28:12.15
昨日ぐらいから/save/の後にURLつけると520エラーばっかりなんだが
保存すらされてない

535名無しさん@お腹いっぱい。2020/10/16(金) 07:12:52.64
Sorry
Cannot start capture

536名無しさん@お腹いっぱい。2020/10/16(金) 07:24:27.85
>>535
これ

537名無しさん@お腹いっぱい。2020/10/16(金) 12:16:07.53
Cannot start capture
これ俺以外もなってたのか
おま環じゃなくてよかった

538名無しさん@お腹いっぱい。2020/10/16(金) 14:04:37.17
>>534
Unknown Error
failed to archive the URL. specifics of failurte is unknown

539名無しさん@お腹いっぱい。2020/10/16(金) 14:10:34.97
>>538
×failurte
○failure
手打ちしたら余計なものが混入してた

540名無しさん@お腹いっぱい。2020/10/16(金) 16:57:00.72
Unknown Errorのままで使えない

541名無しさん@お腹いっぱい。2020/10/16(金) 17:35:10.02
ここ何周か archive.st が取得完了してもアーカイブされない不具合なままだ……

542名無しさん@お腹いっぱい。2020/10/16(金) 17:40:36.68
オフラインだって出てきた
>>535 >>538
これを直す為のメンテかな・・・?

543名無しさん@お腹いっぱい。2020/10/17(土) 05:55:06.62
とりあえず今の所は/save/もSPNも保存できるね
直ったかな

544名無しさん@お腹いっぱい。2020/10/17(土) 05:58:22.64
https://archive.org/post/1110563/archive-url-10-times-today-limit

俺の環境では確認できてないけど、
同じ日に10回以上保存されてるURLをさらに保存するとこんなエラーが出る場合があるらしい。

This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.

まあ、ニュースサイトとかじゃない限り10回も保存はしないだろうけど。

545名無しさん@お腹いっぱい。2020/10/17(土) 09:10:23.03
相変わらずページの一部画像が欠けて保存される

546名無しさん@お腹いっぱい。2020/10/17(土) 15:39:48.96
アーカイブが存在しなければ保存するみたいな選択項目があればもう少し容量削減できそうなのにな

547名無しさん@お腹いっぱい。2020/10/18(日) 13:05:45.08
このスレにかつて居たスポーツ新聞野郎がキチガイ扱いされたのは、
個々のニュースではなくサイトのトップとか一覧とかのアーカイブに固執してたから。

548名無しさん@お腹いっぱい。2020/10/18(日) 16:03:43.18
>>546
isみたくトップからやり直さないと何年も前のアーカイブ開くだけで取り直すか聞かないのもウザイけどな

549名無しさん@お腹いっぱい。2020/10/19(月) 00:06:20.58
>>547
あの人最近見かけないけど今どうしてるのかね
トップページや一覧ページの保存だけに血道を上げている様子は、正直言って病的というか空恐ろしいものがあった
他のスレ住人に何を言われてもほぼ反応なしで、何だか自分の世界に入り込んでるみたいだったね
彼は未だにスポーツ新聞のトップページを毎日手動で保存し続けているんだろうかね

550名無しさん@お腹いっぱい。2020/10/19(月) 04:33:54.40
archive.isでとった魚拓をinternet archiveで保存すると
できるのとできないのがあるんだけど
違いはなんだろう

551名無しさん@お腹いっぱい。2020/10/19(月) 06:12:33.66
あ、時間おいて再度やったら保存できたのもあるから単にサーバー側の不具合かも

552名無しさん@お腹いっぱい。2020/10/20(火) 17:14:46.24
Unknown Errorが多いな

553名無しさん@お腹いっぱい。2020/10/20(火) 19:10:14.06
既出かもしれないけど、こんなページがある。

Wayback Stats
https://archive.org/stats/
https://analytics0.archive.org/stats/wb.php

注目したいのはHTTP 200と503エラーのグラフと404エラーの割合グラフ
このスレでも報告があった10/15〜10/16は表示エラーが多くて、
10/17は一時半分近くエラー続きだったそうだ。

このURLはテンプレか>>1に入れといていいと思う。

554名無しさん@お腹いっぱい。2020/10/20(火) 21:53:07.53
ずっと見られなくなってたtripod.com系のサイトがいつの間にか見れるようになってた
あとIEで見れなくなった
印刷プレビューはIEが一番使いやすかったのに…

555名無しさん@お腹いっぱい。2020/10/20(火) 22:53:30.54
IE排除は英断というか当たり前だと思う
開発元のマイクロソフトもとっくにサポートやめて「代わりにEdge使ってね」ってしつこいくらい宣伝してたし...

556名無しさん@お腹いっぱい。2020/10/20(火) 23:00:54.10
運営側にとってはIEってセキュリティホールも仕様の古さも色々と面倒で、本当に悩みの種なんだわ
Internet Archiveに限らずIEでの閲覧を想定しないサイトは今後どんどん増えていくだろうし、
悪いこと言わないから他のブラウザに乗り換えた方が良いよ

というか、これはあくまで個人的な感想だからつもりはないけど、
IEの印刷プレビューって言うほど使いやすいかな?
Chromeに印刷プレビュー機能がなかった10年前じゃあるまいし

557名無しさん@お腹いっぱい。2020/10/20(火) 23:21:09.35
UserAgentをIEに変えても、普通に見れるが。。
Your browser may not be compatible〜ってのは出るけど。

558名無しさん@お腹いっぱい。2020/10/21(水) 00:30:53.60
「The server didn't respond in time for http://〜」がよく表示されると思ったら特定のサイトだけだったか・・・

>10/17は一時半分近くエラー続きだったそうだ。
 道理で保存されてないのがいくつかあるなと思ったら・・・

559名無しさん@お腹いっぱい。2020/10/21(水) 10:59:34.87
>>557
UserAgentで弾いてる訳じゃなくて、ページの構成自体をIEが対応してない形式に変更したんじゃないの?
IE使ってないから確認できてないけど

560名無しさん@お腹いっぱい。2020/10/21(水) 18:00:01.04
>>550
archive.is の拓が直接 archive.orgに取り込めない場合は少し前までなら anonymouse のWebプロキシのURL付けると取り込めたりしたが、

(例:http://anonymouse.org/cgi-bin/anon-www.cgi/http://e-words.jp/w/%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96.html で取り込む)


…今秋から archive.is へのアクセスが暗号通信( https://archive.is/XXXXX )強制にされてしまったんで不可になってしまった。
( anonymouse.は非暗号アクセス http:// のサイトにしか対応してない )
 

561名無しさん@お腹いっぱい。2020/10/21(水) 19:01:46.68
10/19あたりもひどいなぁ・・・
きちんと保存されてたはずのものがされてないことに。

562名無しさん@お腹いっぱい。2020/10/21(水) 23:45:30.07
保存が10/19ならもう数日待つべし

563名無しさん@お腹いっぱい。2020/10/22(木) 00:43:54.18
一時期なものならまだ良いが・・・

564名無しさん@お腹いっぱい。2020/10/22(木) 12:51:56.97
最低でも一週間は待てとあれほど
まぁ話題が少ないからループするのはしょうがないけど

565名無しさん@お腹いっぱい。2020/10/22(木) 19:24:33.27
>>46のことか。
ここのところあまりにもひどくてさ・・・

566名無しさん@お腹いっぱい。2020/10/23(金) 03:51:33.89
もはや不安定さには完全に慣れてしまった

567名無しさん@お腹いっぱい。2020/10/23(金) 11:25:58.48
一定周期で不安定化するのは
もう定期イベントみたいなもの

568名無しさん@お腹いっぱい。2020/10/24(土) 22:48:06.96
なんか急にやたら長い変なURLになって保存失敗することが増えた

569名無しさん@お腹いっぱい。2020/10/24(土) 23:09:23.02
ワケわからんurlになるよな

570名無しさん@お腹いっぱい。2020/10/25(日) 01:01:50.22
URLはバグってるけど少し経ってから元のURLでAPI確認すると取れてるぽい

571名無しさん@お腹いっぱい。2020/10/25(日) 01:34:37.40
"The server didn't respond in time for (保存URL)."
ってエラーメッセージが出ても、後で確認すると取れてることが多かったりする

572名無しさん@お腹いっぱい。2020/10/25(日) 12:49:20.36
とうとうエラーでサイト見れなくなったか?

573名無しさん@お腹いっぱい。2020/10/25(日) 13:16:13.93
>>572
何を言ってるのか良く判らない、と良く言われるだろw

574名無しさん@お腹いっぱい。2020/10/25(日) 13:24:21.46
503エラー出てるね
メンテ中かな

575名無しさん@お腹いっぱい。2020/10/25(日) 13:29:27.09
https://archive.org/
まさかのトップページで 500 エラーを返されたわw

576名無しさん@お腹いっぱい。2020/10/25(日) 14:45:08.36
復旧はしたが再度保存するのに要求される待ち時間が30分になってる…
ちょっと前は20分、去年あたりは10分で良かったのに…

577名無しさん@お腹いっぱい。2020/10/25(日) 21:11:43.05
/save/で1ページ保存できたっぽいから、もう1ページやったら
Unknown Errorになった。

578名無しさん@お腹いっぱい。2020/10/25(日) 21:16:36.58
スポーツ新聞野郎まだ居たのか

579名無しさん@お腹いっぱい。2020/10/25(日) 21:57:17.13
また取れない
Unknown Errorを繰り返すようになった

580名無しさん@お腹いっぱい。2020/10/26(月) 00:51:01.37
cloudfront.netがなぜか全部ブロックされていて、こんな風に表示される

Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.

会社のプレスリリースなどでcloudfront.net使ってるところは保存できなくなってるわ

581名無しさん@お腹いっぱい。2020/10/26(月) 17:19:48.92
Wayback Statsによると
24日午後4時〜8時(日本時間25日午前8時〜12時頃)にサーバーダウンして4時間ほどページすら見れなかったらしい

582名無しさん@お腹いっぱい。2020/10/26(月) 19:05:44.02
アメブロとったらかたつむりの画像かえされたんだけどなんでw

583名無しさん@お腹いっぱい。2020/10/26(月) 21:03:32.40
リアルなやつか?

584名無しさん@お腹いっぱい。2020/10/26(月) 23:46:49.93
これwマウスの上にかたつむり乗ってるのwリアルがダメな人は見ないで
http://web.archive.org/web/20201024183048/https://pbs.twimg.com/card_img/1318252845452374016/A4POgMBd?format=jpg&name=600x314

上にも書いたけどアメブロの魚拓をとったんだよね
あとからチェックしたら魚拓自体はとれてたんだけどw謎杉
数日前から変なURLに飛ばされることがあるけど結果的に取れてるんだよ

585名無しさん@お腹いっぱい。2020/10/27(火) 00:07:16.71
想像以上にリアルだった
きもE

586名無しさん@お腹いっぱい。2020/10/27(火) 00:49:59.93
googleに飛ばされたりpbs.twimgに飛ばされたり
よく分からん怪しいurlに飛ばされたりしてるな

587名無しさん@お腹いっぱい。2020/10/27(火) 01:26:19.05
>>584
それここ何日か発生してるバグっぽい。
save nowで保存すると、そのページじゃなくて読み込まれるURLの1個が帰ってくる。
変なURLが帰ってくるとびっくりするけど一応保存はされてる模様。

588名無しさん@お腹いっぱい。2020/10/27(火) 01:28:05.49
確認してないけど、もしかしたら一番長いURLが戻ってくるのかもしれない。

589名無しさん@お腹いっぱい。2020/10/27(火) 02:13:12.17
そのバグだいぶ前からあった
バグったり直ったりしていた

590名無しさん@お腹いっぱい。2020/10/27(火) 02:27:39.41
AmebloじゃなくてInternet Achieveのほうの不具合なのか

591名無しさん@お腹いっぱい。2020/10/27(火) 10:08:38.57
昨日は謎の文字列頁が表示されてびっくりしたよ

592名無しさん@お腹いっぱい。2020/10/29(木) 03:45:25.34
Your capture will begin in 15s.
またsave nowが混み始めたぞ

593名無しさん@お腹いっぱい。2020/10/29(木) 11:59:23.94
本レビューサイト「ブクログ」、2年弱ソースコード上にメールアドレスが表示された状態に
https://security.srad.jp/story/20/10/25/1638251/

Noteに続き、今度はブクログのメルアド流出でbooklog.jpまるごとブロックか削除になったそう

594名無しさん@お腹いっぱい。2020/10/29(木) 16:27:01.75
結局Wayback Machine頼りじゃなく、自分で保存してInternet Archiveのアカウントでアップロードするのが安全なんだよな

595名無しさん@お腹いっぱい。2020/10/29(木) 17:39:46.40
excluded表記は削除じゃなくてWaybackMachineのアクセス拒否だって事を願ってる
こんなしょうもない事でポンポン消されたらたまったもんじゃない

596名無しさん@お腹いっぱい。2020/10/29(木) 22:34:14.27
中国本土で、アメリカのInternet Archive相当の役割をしているサイト、サービスは、どこですか?
URLが知りたいです。

597名無しさん@お腹いっぱい。2020/10/30(金) 02:14:44.13
>>596
ざっと検索したらそれらしい情報は出てきたが、あなたの欲しい情報が入ってるかは分からん

IPLC Launches the Greater China Archival Resources Web Archive(Ivy Plus Libraries Confederation, 2020/9/9)
https://ivpluslibraries.org/2020/09/iplc-launches-the-greater-china-archival-resources-web-archive/

Greater China Archival Resources Web Archive(Archive-It)
https://archive-it.org/collections/14767

598名無しさん@お腹いっぱい。2020/10/30(金) 02:16:14.21
archive.orgは金盾でブロックされてるのか
まあ当然っちゃ当然かもしれないけど

599名無しさん@お腹いっぱい。2020/10/30(金) 09:30:17.93
>>597
ありがとうございます!とても参考になりました。

600名無しさん@お腹いっぱい。2020/10/31(土) 21:34:11.67
どうでもいい話だけど
「インターネットアーカイブ」で検索しても1ページ目にすら出ないんだな
「internet archive」だとトップなのに
日本人はあんまり使ってないのかな・・・?

601名無しさん@お腹いっぱい。2020/10/31(土) 21:44:23.02
ウェーバック・マシーンは出てくる

602名無しさん@お腹いっぱい。2020/11/01(日) 15:21:23.61
>>600
グーグル使うの止めたら?
スマホファーストデザインやるようになったぐらいから、
そこらのアフィカスブログが可愛く見えるくらいアフィカス度激高になってるよグーグル

603名無しさん@お腹いっぱい。2020/11/05(木) 14:53:16.09
半角無理そう?

604名無しさん@お腹いっぱい。2020/11/05(木) 14:55:42.77
>>595
アーカイブを消させるための手法として流用されるかも
下手すると第三者がこういった工作をする可能性も

605名無しさん@お腹いっぱい。2020/11/05(木) 16:20:41.64
sakura03鯖のログって全損なんかな

606名無しさん@お腹いっぱい。2020/11/06(金) 13:29:44.23
googleキャッシュならまだあるだろうから
保存するなら今のうちだな

607名無しさん@お腹いっぱい。2020/11/06(金) 21:12:40.12
ここって昔のPCゲームもあるんだな
diablo2ゲット

608名無しさん@お腹いっぱい。2020/11/07(土) 01:44:34.11
お宝見つけても名前は出さない方が無難
こっそり楽しめ

609名無しさん@お腹いっぱい。2020/11/07(土) 10:41:21.23
>>595
それで合っていると思う
試しにツールを使って、すでにその状態になっているものをここからダウンロードしようとしたら
「403 Forbidden」が出たから
だからまた見るにはインターネットアーカイブ側でアクセス許可にされるか
それともそれをかいくぐれるツールが出来るかのどっちかしか無いかも

610名無しさん@お腹いっぱい。2020/11/07(土) 14:46:43.61
>>607
シリアルが画が画が

611名無しさん@お腹いっぱい。2020/11/10(火) 00:24:38.75
角煮ログも封鎖されたかな

612名無しさん@お腹いっぱい。2020/11/11(水) 23:22:46.65
ttps://analytics0.archive.org/stats/wb.php
日本時間で午後10時50分過ぎから鯖落ちしてる模様

613名無しさん@お腹いっぱい。2020/11/12(木) 02:34:24.00
今はサーバー復活してる、保存も問題なし

614名無しさん@お腹いっぱい。2020/11/19(木) 10:57:43.27
寄付催促してんな

615名無しさん@お腹いっぱい。2020/11/19(木) 13:48:19.34
seesaawikiのサイトを取ろうとするとクラッシュしたり挙動がおかしくなる

616名無しさん@お腹いっぱい。2020/11/19(木) 16:14:02.21
寄付の表示のところに毎日7億5000万ページ(画像やスクリプトを多分含む)保存してると出てるね

617名無しさん@お腹いっぱい。2020/11/19(木) 23:46:06.93
コスパティオのページ保存すると変なとこにリダイレクトされて上手く保存できなくなった

618名無しさん@お腹いっぱい。2020/11/20(金) 04:16:43.66
寄付の表示がでるようになったり
一昨日くらいにUnknown Error表示でまくりで放置してた分も依然そのままの状態で取れない
なんだかうまく取れたらクリアってゲームやってる気がしてきた・・・

619名無しさん@お腹いっぱい。2020/11/20(金) 08:15:01.59
save page nowでやってダメなら時間置いてもう一度やるのが一番早いと思う

620名無しさん@お腹いっぱい。2020/11/20(金) 08:19:32.56
>>617
変なURLが帰ってくるのは>>582-589で出てるバグなら気にしなくて大丈夫だよ
https://web.archive.org/web/*/の後ろにURLつけて確認してみ

621名無しさん@お腹いっぱい。2020/11/20(金) 21:31:52.70
こっちで出なくなったと思ったら魚拓で502
おま環?

622名無しさん@お腹いっぱい。2020/11/21(土) 14:12:11.95
>>615
Archiveteamにwiki専門のグループがあるからそのIRCで頼めば保存してもらえるかも
以前別件でコンタクト取ったときに向こうから保存したい日本のwikiはないかって尋ねてきたこともあるくらいだから積極的に動いてくれると思う
https://archiveteam.org/index.php?title=WikiTeam

623名無しさん@お腹いっぱい。2020/11/21(土) 20:01:45.32
なんか古いデータどんどん消してる気がする・・・
何年も前から取ってるページなのに2020年7月からしかないとか変だわ

624名無しさん@お腹いっぱい。2020/11/21(土) 23:16:26.36
削除以外でもメンテか障害かなんかで
一時的に一部データが閲覧できない場合もあるからな

625名無しさん@お腹いっぱい。2020/11/22(日) 01:23:53.80
【Web】Internet Archive、Flashコンテンツをアーカイブ プラグインなしで21年以降も閲覧可能に【Rust】 [少考さん★]
https://asahi.5ch.net/test/read.cgi/newsplus/1605969388/l50

626名無しさん@お腹いっぱい。2020/11/23(月) 22:59:21.80
妥当だね
メニューがFlashのサイトとかナビゲーションさえできなくなっちゃうからな

627名無しさん@お腹いっぱい。2020/11/26(木) 06:49:26.37
MacかiPhoneのSafariで見るとkCF〜のエラーが出るのは何度か再読み込みすれば直る
ダメなら時間おくしかない

628名無しさん@お腹いっぱい。2020/11/29(日) 12:26:24.57
save page nowから2GB以上のファイルを保存しようとすると「Resource file size is over 2GB.」のエラーが出るようになってる
ちょっと前までは出なかったのに

629名無しさん@お腹いっぱい。2020/11/29(日) 13:46:55.47
何を保存してるのか気になる

630名無しさん@お腹いっぱい。2020/11/29(日) 15:50:01.95
ゲームの修正パッチとか体験版とかだとたまにそのくらい行くな>2GB以上

631名無しさん@お腹いっぱい。2020/11/29(日) 16:02:24.61
>>620
残念ながらそのバグではない。
クッキー無いとリダイレクト失敗する仕様になっているぽい

632名無しさん@お腹いっぱい。2020/12/01(火) 10:52:52.75
curlで保存してるけど、最近は調子良すぎなんだが
20秒ぐらいで保存が終わってタイムアウトも1割ぐらい
タイムアウトでもちゃんと保存されてるし、画像やスクリプト込みでこの時間だから、
以前より早いかも
(100個も画像やスクリプトあるページは無理だが)

633名無しさん@お腹いっぱい。2020/12/04(金) 23:38:28.47
Unknown Errorが出たら保存し直した方がいいかもな
一ヶ月前のUnknown Error保存分をチェックしてみたら
日付だけ表示されたが中身は保存されてないようだ

634名無しさん@お腹いっぱい。2020/12/05(土) 16:22:36.31
最近APIが重すぎる

635名無しさん@お腹いっぱい。2020/12/05(土) 17:14:55.42
Sorry

Job failed

636名無しさん@お腹いっぱい。2020/12/06(日) 13:21:09.09
You have already reached the limit of active sessions
今日2回目の保存なのにこのエラーが出るとか、ふざけすぎでしょw

637名無しさん@お腹いっぱい。2020/12/06(日) 13:23:29.09
IPアドレス変えてもこのエラー出るので
active sessionsだからサイト全体のセッション数の制限を超えてるということかもしれないが

638名無しさん@お腹いっぱい。2020/12/06(日) 19:32:55.17
>>637
host規制かそのサイトだけ取れないように規制されてるかじゃね知らんけど

639名無しさん@お腹いっぱい。2020/12/06(日) 23:36:07.44
>>635
200ページほど/save/で保存した結果、平均3〜5回このエラー出るわ
保存されてないのでエラー出たURLだけやり直し

640名無しさん@お腹いっぱい。2020/12/07(月) 10:35:04.56
>>639
ぶっちゃけ寄付してなきゃ規制されてても不思議じゃないよ、それ
無料に毒されすぎじゃない?
広告大量になったり、変なスクリプトで経費賄うようになったら嫌だなー

641名無しさん@お腹いっぱい。2020/12/07(月) 17:09:05.18
200ページ程度で規制されるわけない、スクリプトなら数分レベル
寄付しろってのはそう

642名無しさん@お腹いっぱい。2020/12/07(月) 17:39:59.48
そうやって間隔あけずに一気に叩き込むからすぐサーバー落ちるんじゃないのかよ

643名無しさん@お腹いっぱい。2020/12/07(月) 21:09:46.97
間隔開けなかったら数分もかからんよ

644名無しさん@お腹いっぱい。2020/12/07(月) 23:07:54.27
利用者も多いから負荷は可能な限り抑えて利用すべきではあるな

645名無しさん@お腹いっぱい。2020/12/08(火) 18:52:05.48
1日3億ページ保存してるとサイトで書いてあるのに、たった1人が数百ページ保存したぐらいでなんてこともないわw

646名無しさん@お腹いっぱい。2020/12/08(火) 22:29:27.53
実際にクッソ重い状態が続く事も珍しくないからな

647名無しさん@お腹いっぱい。2020/12/09(水) 10:26:17.35
本来機械化しないことを想定して作られてるんだから、
大量にリクエストしたら通常よりも大きな負荷がかかるかもしれない、くらいのことは想像つかないのかよ
やるならせめて寄付くらいはしろ

648名無しさん@お腹いっぱい。2020/12/09(水) 10:29:24.14
1つのIPからの接続回数や間隔が以前よりも制限されているという事実は、
どのような形であれ大量アクセスはInternet Archiveにとって困るってことの証拠じゃないの

649名無しさん@お腹いっぱい。2020/12/09(水) 13:07:12.73
てか>>645と同じアホが真に受けて俺も俺もとなるのが1番怖い
自制が効かない・寄付もしないゴミに目を付けられたサービスが改悪しまくるのは分かりきってる

650名無しさん@お腹いっぱい。2020/12/09(水) 14:19:34.60
数分ってのが10分と仮定しても60秒×10分÷200件=3秒にならん?
間隔短すぎだから間隔を30秒にしろ。

651名無しさん@お腹いっぱい。2020/12/09(水) 15:04:53.49
なんだ、自動化できずに必死にキーボード叩いてる無能が騒いでるのか

652名無しさん@お腹いっぱい。2020/12/09(水) 15:26:57.33
キーボード?手動でやるときはマウスだよ

653名無しさん@お腹いっぱい。2020/12/09(水) 15:52:40.47
curlでの保存方法、教えて

654名無しさん@お腹いっぱい。2020/12/09(水) 17:22:41.08
>>653
/save/にリクエスト送るだけ

655名無しさん@お腹いっぱい。2020/12/09(水) 17:52:48.98
適当なヘッダ付けて/save/を叩くだけだから、
HTTP通信さえ出来るツール使えばcurlじゃなくて問答無用で自動化できる
でも下手に叩きすぎてサーバ圧迫して結果制限が厳しくなったら元も子もないから、俺はやった事ない

656名無しさん@お腹いっぱい。2020/12/09(水) 17:53:20.92
curlじゃなくても

657名無しさん@お腹いっぱい。2020/12/09(水) 19:40:19.27
https://www.it-swarm-ja.tech/ja/archive.org/ウェブサイト全体をアーカイブする方法は?/965342469/

これで合ってる?

658名無しさん@お腹いっぱい。2020/12/09(水) 21:53:36.06
>>657
すまんけど何を聞こうとしてるのかよく分からん
その質問って結局「ひとつのサイト全体を自分で保存する機能は提供されてないよ」って事以外何も言ってないように見えるけど

659名無しさん@お腹いっぱい。2020/12/09(水) 21:56:26.36
ちゃんと下まで読んでなかったわ、>>658は取り消す
少なくとも静的サイトはこの方法で行けるね、wgetのmirrorオプションでURLリストを作るとは上手いこと考えたな

660名無しさん@お腹いっぱい。2020/12/09(水) 22:01:16.11
ただwgetは、JSとかで動的にコンテンツを取ってくるサイトやFlashが使われたサイトには対応できないから、
この回答の方法ではあらゆる種類のサイトを保存することはできない
でもHTMLとCSSだけで頑張ってるような昔の個人サイトなら問題ない

661名無しさん@お腹いっぱい。2020/12/11(金) 02:53:02.33
間隔っていうか、現状同じIPアドレスから5ページまでしか同時保存リクエスト受け付けてくれない。
6ページ目以上は保存処理が終わってないのが残ってると、タイムアウトになって保存されないよ。
自動化以前にウェブサーフィン(死語)中、手動でブラウザから/save/開いて保存したい時でも、状況は同じ。
今はこの制限内でやればいいだけ。

662名無しさん@お腹いっぱい。2020/12/12(土) 02:57:25.07
archive teamは数千単位のページを保存する場合はarchive botのIRCで保存依頼するのを推奨してるみたい
> avoid trying to send many thousands URLs; there's Archivebot for that
https://archiveteam.org/index.php?title=Internet_Archive

archive bot
https://archiveteam.org/index.php?title=ArchiveBot

663名無しさん@お腹いっぱい。2020/12/15(火) 21:01:34.37
新規に保存するとどうやってもこの画面になってしまう…
ttps://i.imgur.com/7Jip0Y5.png

664名無しさん@お腹いっぱい。2020/12/15(火) 21:02:45.84
Sorry.

This snapshot cannot be displayed due to an internal error.

さっき初めて出た、保存はされてるがエラーで表示できないという謎のエラー

6656642020/12/15(火) 21:04:28.30
タッチの差だったごめん

666名無しさん@お腹いっぱい。2020/12/15(火) 23:57:41.06
そのエラー出ても後で取り直せば大丈夫っぽい

667名無しさん@お腹いっぱい。2020/12/16(水) 06:37:15.41
てか、以前は保存終わった後に保存しますか?の表示出たのがこれに変わっただけじゃね
なんかバグってるんだよね

668名無しさん@お腹いっぱい。2020/12/16(水) 17:34:12.89
今は正常になったか

669名無しさん@お腹いっぱい。2020/12/16(水) 20:02:08.13
Magic Viewer
https://chrome.google.com/webstore/detail/magic-viewer-for-chrome/npkhecbdgglnkjjaiojienebokcjbgmi?hl=ja
chromeの拡張機能を入れて、右クリックして、「すべての画像を見る」をクリックすると外部リンクの画像が自動でアーカイブされる。

サイトによっては、ブラウザのページを数回、再読み込みをする。

670名無しさん@お腹いっぱい。2020/12/17(木) 04:44:35.32
前は/save/で保存したページはLive Web Proxyってコレクションに入ってたのに
最近はSave Page Nowコレクション扱いになってるな
10月ぐらいからファイルが増えてないし、Live Web Proxyって引退したのかもしれない
https://archive.org/details/liveweb?sort=-addeddate
このスレでも10月はエラー多かった書き込みあったしな、移行期間だったのだろう

671名無しさん@お腹いっぱい。2020/12/17(木) 10:47:26.64
後で取り直したけど取れてないわ
取れてる取れてないの繰り返しにはうんざり

どこが運営してるのかわからないのは限りなく不安だが
もうarchive.todayしかない

672名無しさん@お腹いっぱい。2020/12/17(木) 16:01:59.78
過去レスすら読めない人の為に次スレではこれ(>>9)をテンプレに入れた方がいいな

673名無しさん@お腹いっぱい。2020/12/17(木) 16:39:47.92
11月分でいまだに反映されてないものも多々あるから
システムいじくってる最中で保存されてないものもあるかもな

674名無しさん@お腹いっぱい。2020/12/17(木) 17:05:10.84
スポーツ新聞野郎、まだ居たのか。

675名無しさん@お腹いっぱい。2020/12/17(木) 21:53:46.16
なにかしらのerrorが頻発するのが困りもの

676名無しさん@お腹いっぱい。2020/12/17(木) 23:36:55.01
>>674
スポーツ新聞アーカイブしてるとは一言も言ってないし同一人物とは限らんよ
毎日適当なページを実験用に保存し続けてInternet Archiveの挙動をテストしてる人もいたはずだし

677名無しさん@お腹いっぱい。2020/12/18(金) 00:36:49.29
お前らがしているのは多分、アイドル・声優のブログのアーカイブだろ

678名無しさん@お腹いっぱい。2020/12/18(金) 01:28:46.93
504とか503で何のアーカイブも見られん

679名無しさん@お腹いっぱい。2020/12/18(金) 01:47:52.99
アイドルも声優も、ブログどころかウィキペディアの記事すら見たことないわ
偏見すぎ

680名無しさん@お腹いっぱい。2020/12/19(土) 23:30:14.53
「curl -Ll ttp://web.archive.org/web/2020/ttp://○○○○.com/[(数字)-(数字)].html(.jpg)」

ttpではなく、httpに修正して

saveではなく、エラー軽減のため西暦の数字で

連番の数字で自動保存される。

681名無しさん@お腹いっぱい。2020/12/20(日) 03:27:16.25
エラーさんざんでまくり&数日たって再度見に行くと真っ白のページが保存された形跡
これじゃしばらく試行しながら様子見するしかねえな

682名無しさん@お腹いっぱい。2020/12/24(木) 21:46:55.38
Fail with status: 503
ばっか表示される

683名無しさん@お腹いっぱい。2020/12/25(金) 04:04:48.90
あだしまの公式サイトは33回も保存されていて、IAでもちゃんと開けるのにAPIは情報なし。
APIがぶっ壊れたのか。

684名無しさん@お腹いっぱい。2020/12/25(金) 22:32:48.69
保存してHrmになってしまうと日付だけ保存&表示されて
以後同一ページを保存してもずっとHrmになってしまう状況が11月から続いている

685名無しさん@お腹いっぱい。2020/12/26(土) 02:55:00.36
news.yahoo.co.jp/bylineから始まるYahooニュースの記事を保存しようとするとこれが表示される
専門家のブログのコピー記事だからブロックしてるのかな

Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.

686名無しさん@お腹いっぱい。2020/12/26(土) 07:23:35.18
録れてる奴もあるみたいだしよくわからんな
繰り返される悲劇はもうウンザリだ 「右直事故」防止に切り札はあるのか!?(佐川健太郎) - 個人 - Yahoo!ニュース
http://web.archive.org/web/20201219152606/https://news.yahoo.co.jp/byline/sagawakentaro/20201219-00213273/

687名無しさん@お腹いっぱい。2020/12/26(土) 11:36:52.53
 
archive.org ? ウェブサイト全体をアーカイブする方法は?

http://web.archive.org/web/20201220090718/https://www.it-swarm-ja.tech/ja/archive.org/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B5%E3%82%A4%E3%83%88%E5%85%A8%E4%BD%93%E3%82%92%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%AF%EF%BC%9F/965342469/
 

688名無しさん@お腹いっぱい。2020/12/26(土) 17:10:27.56
>>686
これArchive Teamが保存したものをWayback Machineに移管したやつだね
Save Page Nowでは取れないけど、外部の人間が取ったものを移管したから結果的に取れてるように見えてる

689名無しさん@お腹いっぱい。2020/12/30(水) 16:01:54.23
寄付を煽るためにわざとエラー連発させるように仕込んでるのかな

690名無しさん@お腹いっぱい。2020/12/30(水) 17:30:24.61
そんなリスキーなことしないでしょ

691名無しさん@お腹いっぱい。2021/01/02(土) 23:03:35.16
>>684のHrmのままのページは保存し直せば反映されるようになった
放置しとくと日付だけ表示されるHrmのまま

692名無しさん@お腹いっぱい。2021/01/03(日) 14:23:02.24
Hrmって何て発音するんだ

693名無しさん@お腹いっぱい。2021/01/04(月) 09:24:29.97
「ふーむ」って言う途中でちょっと舌を丸める感じだと思っている
正確な発音はわからん

694名無しさん@お腹いっぱい。2021/01/04(月) 21:44:38.49
ハァーンムッって読んでた

695名無しさん@お腹いっぱい。2021/01/07(木) 05:03:25.08
>>688
Collectionsのところ見たけど、Focused CrawlsとTop DomainsはArchive Teamが収集してるものじゃないよ
ブロックされているURLも移管してるのはそういう仕組みだろうけど
ヤフージャパンはアクセス数多いドメインとはいえ、ニュース系のページは収集してくれないんだなぁ

696名無しさん@お腹いっぱい。2021/01/07(木) 13:28:13.11
ヤフーニュースはSavePageNowでも取れるよ
ただ一部の記事で何故かBlockListエラーが出る
理由は謎(メールすれば聞けるのかもしれないけど)

697名無しさん@お腹いっぱい。2021/01/07(木) 13:35:08.85
なんか待ち時間すごい長くて全然アーカイブできない

698名無しさん@お腹いっぱい。2021/01/07(木) 14:27:18.78
既アーカイブへのURL検索落ちてる?

699名無しさん@お腹いっぱい。2021/01/07(木) 16:30:50.05
The capture is estimated to start in xxx minutes
今日はこればっかり

700名無しさん@お腹いっぱい。2021/01/08(金) 02:00:41.10
今は直ったかな?

701名無しさん@お腹いっぱい。2021/01/08(金) 10:11:43.26
The capture is estimated to start in 61 minutes.

702名無しさん@お腹いっぱい。2021/01/09(土) 00:15:31.32

703名無しさん@お腹いっぱい。2021/01/09(土) 04:00:24.16
改憲などという重要なものをアニメ絵に頼るカス団体は信用しない

704名無しさん@お腹いっぱい。2021/01/09(土) 11:27:19.35
しかもその絵、無断使用じゃねーの?

705名無しさん@お腹いっぱい。2021/01/09(土) 11:47:42.84
落ち着いたかと思ったらJob failed祭り

706名無しさん@お腹いっぱい。2021/01/09(土) 16:52:25.91
ヨブ無能

707名無しさん@お腹いっぱい。2021/01/09(土) 21:56:53.82
実はちうごくじんなんじゃね

708名無しさん@お腹いっぱい。2021/01/11(月) 04:45:59.10
寄付した人間のジョブは優先して処理するみたいな仕組みが導入されたらできる限り寄付したい

709名無しさん@お腹いっぱい。2021/01/11(月) 13:33:23.25
年収20万ドルのエンジニア雇うだけの金があるのに、金で困ってすらないよ
その割にサーバーはザコだが

710名無しさん@お腹いっぱい。2021/01/12(火) 10:01:11.50
Job failed.ばかりで全然アーカイブできない

711名無しさん@お腹いっぱい。2021/01/14(木) 08:53:53.82
Sorry
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.

これは今日10回じゃなくて過去24時間に10回の文間違いじゃないの
内容が変わりまくるサイトを保存できなくなった

712名無しさん@お腹いっぱい。2021/01/14(木) 11:03:11.23
自分以外の誰かも同じサイト保存してる可能性もあるしな

713名無しさん@お腹いっぱい。2021/01/14(木) 15:57:48.45
一覧性は下がるが、とりあえず後ろに適当なパラメーターでもつければどうか。?1とか。
サイト側にとって未定義のパラメーターなら大抵のサイトはパラメーターなしと同じものを返してくるだろう。

714名無しさん@お腹いっぱい。2021/01/14(木) 22:53:43.10
またスポーツ新聞野郎か

715名無しさん@お腹いっぱい。2021/01/15(金) 05:48:54.80
例の人は書き込みの中に必ずスポーツ新聞の話を含めるから多分別人

716名無しさん@お腹いっぱい。2021/01/15(金) 05:50:45.57
まあ別にスポーツ新聞のアーカイブを手作業で何回取ろうがそれは個人の勝手だから、外野がどうこう言うもんじゃないよ
随分遠回りなことしてるように見えても本人にとっては大事なんだろ、ほっとけ

717名無しさん@お腹いっぱい。2021/01/16(土) 00:22:05.68
Please email us at "info@archive.org" if you would like to discuss this more.
ってあるんだから
ここで愚痴言うくらいならメール送ったらいいんじゃない?

718名無しさん@お腹いっぱい。2021/01/16(土) 16:38:22.29
皆さんに質問です!
アーカイブされたページを全文検索できるようになるまで、
あと何年くらいかかると思いますか?

719名無しさん@お腹いっぱい。2021/01/16(土) 20:12:08.58
昔はできてたこともある気がするから負の数じゃないかな

720名無しさん@お腹いっぱい。2021/01/17(日) 00:21:40.84
いつにも増して調子悪いな

721名無しさん@お腹いっぱい。2021/01/18(月) 13:51:31.62
undefined is not an object (evaluating 'e.map')

これって保存できてるの?

7227212021/01/18(月) 15:47:47.92
公開待ち状態みたいだったらしく、1時間後に見たら保存したページが見れるようになった。
マッピングが届いてないとかそんな感じっぽい。

723名無しさん@お腹いっぱい。2021/01/21(木) 23:18:29.78
Sorry
Live page is not available: chrome-error://chromewebdata/

724名無しさん@お腹いっぱい。2021/01/22(金) 15:38:58.53
Changesの項目消えた?
あんま使ってなかったからいいけどさ

725名無しさん@お腹いっぱい。2021/01/22(金) 16:01:35.20
724
今見たら復活してた
タイミングが悪かっただけかな

726名無しさん@お腹いっぱい。2021/01/22(金) 16:51:49.89
4日ぐらい前に保存した画像でSaved 2 timesとなってるのに青い丸が出ないが
遅れてるだけなのかこれ

727名無しさん@お腹いっぱい。2021/01/22(金) 22:31:31.69
>>719
Internet Archive サービス終了までに実現できると思う?
いくら遅くてもいいけど

728名無しさん@お腹いっぱい。2021/01/24(日) 01:33:05.61
ただRecallを復活させればよくね

729名無しさん@お腹いっぱい。2021/01/24(日) 04:31:27.21
ttps://blog.archive.org/2019/10/23/the-wayback-machines-save-page-now-is-new-and-improved/
ここに載ってる、savepagenow@archive.orgに他人から来たメールをFwdで送ったら
URLを抽出して保存された後に保存済URLが返ってくるのって今も機能してるのか?
メールが返ってこないんだが
ブログ記事の数日後に書かれたコメント欄の時点でメール返ってこねぇって書いてる人いるけども

730名無しさん@お腹いっぱい。2021/01/24(日) 14:34:02.42
>>662
英語での交渉が得意な人しか使えないじゃん

731名無しさん@お腹いっぱい。2021/01/24(日) 19:17:01.62
>>730
今時DeepLあたりでも使えばそこまで英語で苦戦することは無いよ
というか英語圏のボランティア団体なんだからこちらが英語に合わせるのは当然のことじゃない?

732名無しさん@お腹いっぱい。2021/01/24(日) 19:18:46.98
英語が嫌だったらArchiveTeamの日本支部でも作るしかないよね
まあそうなったとしても誰かが英語で本部とやり取りしないといけない訳だからあんまり意味無いけど

733名無しさん@お腹いっぱい。2021/01/25(月) 09:13:54.98
おいおい何だよこれ

734名無しさん@お腹いっぱい。2021/01/25(月) 10:13:47.99
>>733
>>721-722
反映を待ってればいい、ダメならもう一度撮り直すしかない

735名無しさん@お腹いっぱい。2021/01/25(月) 20:24:16.53
次スレの>>1にはアーカイブが取れない問題のQ&A入れないとダメだな

736名無しさん@お腹いっぱい。2021/01/26(火) 20:37:45.84
エラー文が多すぎて週に1個は新しいのが増えてるからまとめるのめんどくさいわw

737名無しさん@お腹いっぱい。2021/02/07(日) 15:31:24.66
おまえ今日もう10回とったからダメーっていうのやめて欲しいわ
そもそもエラーだったから取り直してるのはカウントすんなよ

738名無しさん@お腹いっぱい。2021/02/14(日) 16:09:56.27
archive.isの同じurlの取得間隔が伸びてるっぽい
前にとってから10時間以上経つのに取れない

739名無しさん@お腹いっぱい。2021/02/15(月) 17:54:43.88
追記
やっぱり丸一日経たないと同じurlのアーカイブ取得出来なくなってるっぽい 全てのurlかどうかは不明

740名無しさん@お腹いっぱい。2021/02/15(月) 19:35:35.74
>>739
>>739
毎日保存してるのに24時間以上たたないと保存できないのは困る

----------

> このサイトにアクセスできませんweb.archive.org で接続が拒否されました。
> ERR_CONNECTION_REFUSED

保存しすぎて個人的に Web.archive.org にアクセス拒否されたかと思ったw

Down for Everyone or Just Me
https://downforeveryoneorjustme.com/web.archive.org
> Web.archive.org Status
> Is web.archive.org down right now?
> It's not just you! web.archive.org is down.

741名無しさん@お腹いっぱい。2021/02/15(月) 19:36:14.63
Internet Archive 鯖落ち?繋がらないわ

742名無しさん@お腹いっぱい。2021/02/15(月) 19:40:02.46
>>740
その表示初めて見るけどブラウザ何使ってる?

743名無しさん@お腹いっぱい。2021/02/15(月) 19:52:03.70
wayback machineぶっ壊れた

744名無しさん@お腹いっぱい。2021/02/15(月) 20:02:02.56

745名無しさん@お腹いっぱい。2021/02/15(月) 20:18:19.09
telnet で web.archive.org:80 へ接続を仕掛けても繋がらない。
鯖が死んでるわ。

746名無しさん@お腹いっぱい。2021/02/15(月) 21:30:42.26
アメリカは今早朝だから運営寝てるのか

747名無しさん@お腹いっぱい。2021/02/15(月) 22:21:55.65
メンテナンス情報も書いてない。まさか、F5アタックなのか?

748名無しさん@お腹いっぱい。2021/02/15(月) 22:24:25.21
あぁ朝鮮半島からか

749名無しさん@お腹いっぱい。2021/02/15(月) 23:18:16.36
復活したね
保存もできるよ

750名無しさん@お腹いっぱい。2021/02/15(月) 23:21:29.92
あ、何ページか保存したら接続エラーの連続だらけになった
まだ完全復活できてない模様

751名無しさん@お腹いっぱい。2021/02/16(火) 01:10:12.48
>>747
てかIAは鯖落ちしようが何も言わない
サンフランシスコ時間で朝になったから、今日も@internetarchiveは更新を始めたようだが、
いつも通りだんまりだね。4時間近く止まってたんだから一言欲しいけど

752名無しさん@お腹いっぱい。2021/02/16(火) 02:53:38.24
>>717
そこにメールしても返信すらないから意味ないよ
送っても誰もメール見てないんじゃね

753名無しさん@お腹いっぱい。2021/02/16(火) 10:22:33.21
APIのレスポンス増やしてほしいな
せめて落ちてるときは今落ちてるよ的なのを返して欲しい

754名無しさん@お腹いっぱい。2021/02/16(火) 22:20:35.70
https://twitter.com/internetarchive/status/1361387442410938370
午前中に技術的な問題が発生
https://twitter.com/internetarchive/status/1361454580869947395
鯖落ちは一時的なバグが原因
https://twitter.com/5chan_nel (5ch newer account)

755名無しさん@お腹いっぱい。2021/02/17(水) 23:26:58.40
東京大学総合図書館、Internet Archiveとの連携を開始:同館デジタルアーカイブ資料4,000点以上が対象
ttps://current.ndl.go.jp/node/43304

756名無しさん@お腹いっぱい。2021/02/19(金) 13:11:41.55
job failedの連打

757名無しさん@お腹いっぱい。2021/02/19(金) 18:11:43.08
job failed多すぎて笑う
APIの反映も遅いし

758名無しさん@お腹いっぱい。2021/02/19(金) 22:14:59.50
job failedでも保存はされてるか

759名無しさん@お腹いっぱい。2021/02/20(土) 20:16:11.82
job failedは保存されてなくね?
internal server errorは一応されてるみたいだけど

760名無しさん@お腹いっぱい。2021/02/21(日) 09:59:06.84
時間おいてやり直すしかないね

761名無しさん@お腹いっぱい。2021/02/21(日) 13:11:02.40
あれ?job failedでもThis URL has been already captured 10 times todayが出たな
ということは内部的には取れてるのか・・・?よく分からん

762名無しさん@お腹いっぱい。2021/02/22(月) 14:27:20.34
Fail with status: 498 No Reason Phrase
なんやこれ

763名無しさん@お腹いっぱい。2021/02/24(水) 15:46:58.89
>>761
上でも書いてる人いるけど、多分保存できてないと思う
最新から10個前の保存時間から24時間経たないとできない

764名無しさん@お腹いっぱい。2021/02/25(木) 00:31:49.91
job faildばっかり(´・ω・`)

765名無しさん@お腹いっぱい。2021/02/25(木) 14:27:18.94
job faildは取れている時と取れていない時があるから困りもの

766名無しさん@お腹いっぱい。2021/02/27(土) 10:54:16.04
We're sorry ― something's gone wrong.
Our team has been notified.
これしか表示されなくなった
完全にぶっ壊れてる

767名無しさん@お腹いっぱい。2021/02/27(土) 21:12:05.69
チームは何してるの

768名無しさん@お腹いっぱい。2021/02/28(日) 11:46:27.82
Save Page Nowで保存中に他人が保存したアドレスがたまに表示されてるんだけど、これやばくない?
試しにcurlで/save/から保存するのと同時に、WebブラウザからVPN使って別のIPアドレスにした上でSPNで別のサイトを保存してみたら、
curlで保存中の画像やJavascriptのアドレスがWebブラウザの方に出てきてしまった。
普通に情報流出していてワロタ

このスレでも他人のアドレスが出てくる状態になった報告があるみたいだけど、直す気ないのかな。マジで直したほうがいいと思う。
>>568-570
>>584-589

769名無しさん@お腹いっぱい。2021/03/01(月) 20:37:48.02
ここ2週間ぐらい、

archive.todayで、

インスタグラムを保存できなくなってるの 俺だけ?

2週間くらい前までは、インスタグラム保存できてたのに。

他に インスタグラムを保存できる魚拓サイトありますか?

770名無しさん@お腹いっぱい。2021/03/01(月) 23:25:20.89
インスタビューア的な外部サイトがいくつもあるから
それを介して保存するって方法がある
URLをしっかり記録しておかないと参照できなくなるってのが面倒だけど

771名無しさん@お腹いっぱい。2021/03/02(火) 14:01:49.74
web.archive.org/save であるべーじを保存できた(3月2日)
保存出来た時に表示されるリンクをクリック
→二月中旬に保存したものに飛ぶ

カレンダーを見ると3月2日に保存マークがある
→それをクリックすると二月中旬に保存したものに飛ぶ

これって3月2日に保存は出来たけど閲覧できない状態ということ?

772名無しさん@お腹いっぱい。2021/03/03(水) 13:37:44.10
>>770

>インスタビューア的な外部サイトがいくつもあるから
>それを介して保存するって方法がある

回答 ありがとうございます。
「インスタビューア的な外部サイト」でググっていますが、見つかりませんorz。
ちなみにパソコン ユーザーです。

保存ができる、おすすめのインスタビューア的な外部サイトを教えていただければ幸いです。m(_ _)m

773名無しさん@お腹いっぱい。2021/03/03(水) 15:26:40.68
この保存職人たちの怒りのスレいわく、
ttps://archive.org/post/1105471/pages-refusing-to-save-this-is-asinine
Poster: Hitsmello Date: Nov 29, 2020 10:39am

Also, lately, I've noticed that the "Job failed" only seems to happen if I check the "Save outlinks" AND the "Please email me the results" boxes.
It WILL save properly if I just check "Save also in my web archive" and "Save outlinks". Gee, I wonder why...

ログインしてSave outlinksとPlease email me the resultsにチェックを入れるとjob failedが出ずに保存できるらしい
俺はアカウントから保存して、ファイルに名前が残るのはやだから、試してないけど

774名無しさん@お腹いっぱい。2021/03/03(水) 15:31:00.65
>>771
反映待ち状態になってるから、数日後に見れるようになったか確認してみて
大抵は24時間、遅くても2日以内に見れるようになるはず
急いでるか保存失敗してそうなら、同じURLなら30分後以降にまた保存できるので再度保存するのもあり

775名無しさん@お腹いっぱい。2021/03/03(水) 18:22:54.32
This URL has been already captured 10 times today

同じURLで連続10回保存失敗した場合でもこのエラーが出る。
失敗してるのにこれはないだろ。capturedできてねーぞ。

776名無しさん@お腹いっぱい。2021/03/03(水) 20:33:32.32
>>772
instagram viewerとかでググって出てきたサイトに投稿を表示させて、その内容を保存するってこと
サイトによって表示される情報量がまちまちだから色々試して使いやすいのを探す必要がある

(例) プロフィール画面
https://web.archive.org/web/20210303101254/https://instastory.net/profile/cristiano
(例) 投稿画面
https://web.archive.org/web/20210303090845/https://instastory.net/post/CL7sxQPgvB6

可能な限りは公式サイトを保存したいところだけど
どうしても無理ならこうするしかないんじゃないかな

777名無しさん@お腹いっぱい。2021/03/04(木) 17:47:00.70
save画面でキャプチャできたのかリンクが出たからクリックしたらサイトは保存されていませんと出る

778名無しさん@お腹いっぱい。2021/03/05(金) 04:44:26.90
なんか調子悪いな?

779名無しさん@お腹いっぱい。2021/03/05(金) 16:53:21.35
さっき知ったけど、IAの社員でWayback Machine責任者のマーク・グラハムさんがSave Page Nowや/save/のAPIの仕様説明書を公開してくれた
ttps://webapps.stackexchange.com/a/151360

自動翻訳かけても読む価値あると思う

Save Page Now 2 Public API Docs Draft
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit
https://docs.google.com/document/d/19RJsRncGUw2qHqGGg9lqYZYf7KKXMDL1Mro5o1Qw6QI/edit

Limitationsのところに制限について書いてあるのを拾ってみると
・同じIPアドレスから同時に6ページ以上SPNや/save/で保存すると自動でエラーになる
・10秒でレスポンス戻ってこなかったらタイムアウト
・50秒で保存先URLはタイムアウト
・spn@archive.org宛に保存したいURLのメールを送ると500個まで保存してくれる(俺の経験上結果がエラーだらけになる可能性大なので確実に保存したいなら手動で)
・ログインしてない同じIPアドレスから画像なども含めて1日2万ページ以上は保存リクエストだせない、ログインしてれば制限なし
・ログインしてAPIキーを取得すれば、プログラムから保存するのもできる

この制限に引っかからないようにすれば、大量保存してる人はうまくいくはず
サンプルコードにも失敗したら保存を繰り返すようなコードになってるから、保存エラーが多いのは認識してるんだろう

780名無しさん@お腹いっぱい。2021/03/05(金) 16:59:20.94
あとこんなのを発見

IAにログインした上で、Googleスプレットシートに保存したいURLを並べて登録すると保存してくれるサービス
https://archive.org/services/wayback-gsheets

781名無しさん@お腹いっぱい。2021/03/05(金) 18:13:28.08
>>776

ありがとうございます。上手くいきました

782名無しさん@お腹いっぱい。2021/03/05(金) 19:51:34.90
A snapshot was captured.が出ればとりあえずは様子見でいいんかな
スナップショット等への反応が即時でないが

783名無しさん@お腹いっぱい。2021/03/05(金) 20:16:22.56
保存できてもその保存できたページが表示できるまで時間かかってるっぽい?
カレンダーで確かに今日の日付で保存されてるのにそこをクリックしても過去に保存されたページしか出ない
first archiveの場合は成功しましたのリンククリックしても保存されてないになっちゃう

784名無しさん@お腹いっぱい。2021/03/05(金) 21:10:51.47
>>9を見ろ

785名無しさん@お腹いっぱい。2021/03/06(土) 02:15:27.01
>>779
思ってたより全然神サービスだったわありがてー

786名無しさん@お腹いっぱい。2021/03/06(土) 17:13:17.16
>>775
これが一番腹立つ

787名無しさん@お腹いっぱい。2021/03/07(日) 17:50:27.08
頑なにとってくれないサイトあるよね

788名無しさん@お腹いっぱい。2021/03/09(火) 01:33:30.80
ページによって挙動が違うのがなんとも

789名無しさん@お腹いっぱい。2021/03/09(火) 01:45:34.00
数日にわたって全く保存されなかったやつが今試したら一発で通りやがる
気分屋だなあ

790名無しさん@お腹いっぱい。2021/03/09(火) 21:49:05.86
またおかしなurlに飛ぶようになった
今回はgoogle系ばかり

791名無しさん@お腹いっぱい。2021/03/10(水) 07:27:06.81
なんか論文検索始まった
https://scholar.archive.org/

Sci-Hubキラーになるかwww

792名無しさん@お腹いっぱい。2021/03/10(水) 21:05:30.75
google系の変なurlに飛ぶようになってない?今までもそんなことあった?

793名無しさん@お腹いっぱい。2021/03/10(水) 21:12:27.07
去年もあったが今回はgoogle系にだけだな

794名無しさん@お腹いっぱい。2021/03/10(水) 21:25:03.54
>>793
なるほど しばらく待てば直るものか?

795名無しさん@お腹いっぱい。2021/03/10(水) 22:53:02.34
http://web.archive.org/web/1im_/i.imgur.com/DCiDUjh.png
Save Page Now から保存を完了した後に表示される Visit page のリンク先が
保存したページそのもののアーカイブではなく、
その中の画像だったりスクリプトだったりのアーカイブになることがあるんだよね。
これも一連の異常と関係してるのかな。

796名無しさん@お腹いっぱい。2021/03/11(木) 00:11:38.24
>>795そう!それになるんだよ。最近調子悪いんだな……

797名無しさん@お腹いっぱい。2021/03/11(木) 13:41:23.28
結局最近のは保存できていないってことかな?

798名無しさん@お腹いっぱい。2021/03/11(木) 15:47:38.66
>>797
その通り…保存できてなくて困ってるよ

7997952021/03/11(木) 15:57:13.93
念のため記しておくと、こちらでは「保存できない」という問題は起きていない。
確かに保存完了直後には見られないことがあっても、数時間〜数日後には表示できている。
保存完了画面のリンクが別のファイルを指しているので、実際に見てみるには
URL を入れ直さなきゃならないという点は何とかしてほしいと思う。

800名無しさん@お腹いっぱい。2021/03/11(木) 17:54:51.72
おかしなurlに飛ばされても後でチェックすると保存はできているな

801名無しさん@お腹いっぱい。2021/03/11(木) 18:44:03.64
おお、今確認したらちゃんと保存されてた!保存しなおさないといけないと思ったから焦ったよ
教えてくれてありがとう

802名無しさん@お腹いっぱい。2021/03/12(金) 02:59:00.85
google系だけじゃないぞ、多分アナリティクスのjsファイルURLが帰ってくることがあるからそう言ってるだろうけど
例えばある人のfc2ブログの記事を保存したら帰ってきたのはそのページで読み込まれるcssやjsファイルだったし

803名無しさん@お腹いっぱい。2021/03/13(土) 18:56:41.68
Live page is not available:が出たけどちゃんとセーブされてるのもあるな

804名無しさん@お腹いっぱい。2021/03/13(土) 22:35:06.61
「おかしなurlに飛ばされる」ってのは結局
物事をきちんと説明できない池沼が騒いでいただけなのか?

805名無しさん@お腹いっぱい。2021/03/15(月) 00:54:48.12
保存して本来表示されるべきページではないurlが表示されている事を報告しているものを
池沼呼ばわりとはどういう了見かな?

806名無しさん@お腹いっぱい。2021/03/15(月) 08:05:56.29
韓国人・朝鮮人式に考えれば良いのですよ。

行先の違うリンクを確認もせずにクリックして、勝手に飛んで行ったのであっても、
チョンにとっては「自分は常に正しい、悪いのは他人」ですから
飛ばされたことになっちゃうんですよ。

807名無しさん@お腹いっぱい。2021/03/15(月) 11:07:06.87
Job failedは無くなったけどエラー自体はあんまり変わってないな
ページが存在するのにLive page is not availableが出たりするし

808名無しさん@お腹いっぱい。2021/03/15(月) 15:13:50.78
全く意味がわかってないアホがいるようだ
まあ今はあの現象は直ってるようだがな

809名無しさん@お腹いっぱい。2021/03/18(木) 01:41:28.07
あーページにぐぐる地図が埋め込まれてるとおかしくなるな なるほど

810名無しさん@お腹いっぱい。2021/03/18(木) 09:04:58.59
Google地図だけtodayで取る

811名無しさん@お腹いっぱい。2021/03/20(土) 19:27:34.98
直ってないな

812イモー虫2021/03/22(月) 04:29:32.07
あんま騒ぎになってないがなんでだろ
ガラケーからだけエラーが頻発かと思えば違うんだね

813名無しさん@お腹いっぱい。2021/03/24(水) 20:24:38.95
twitterでjsonとられる現象減ったね

814名無しさん@お腹いっぱい。2021/03/27(土) 19:47:08.19
Live page is not available

815名無しさん@お腹いっぱい。2021/04/01(木) 09:36:27.49
案の定エイプリルフールページで殺到してるのか重いな

816名無しさん@お腹いっぱい。2021/04/02(金) 14:14:32.26
そういうことか

817名無しさん@お腹いっぱい。2021/04/04(日) 15:52:25.36
archive,todayってURL保存した後にzipでDL出来るみたいだけど
攻略サイト保存したらちゃんと階層や画像も一括でまとめてzipでDL出来んの?

818名無しさん@お腹いっぱい。2021/04/05(月) 16:29:25.73
https://lab.syncer.jp/Tool/Twitter-Video-URL-Converter/

このサイト使うとtwitterの動画保存できる

819名無しさん@お腹いっぱい。2021/04/07(水) 05:09:08.66
This page is not available on the web/because of server error がでてこんにゃろと思ってたら
いきなりロードされて保存済みページが表示されたりがあるな

820名無しさん@お腹いっぱい。2021/04/16(金) 00:59:24.77
なんかYahooニュースのURLを保存するとこれが出たりする
ブロックリストに入れるような記事かこれ?

This URL is in our block list and cannot be captured.
Please email us at "info@archive.org" if you would like to discuss this more.

821名無しさん@お腹いっぱい。2021/04/16(金) 05:40:19.79
特定個人が発信する政治的記事の過去の言質を取られないようにするためと思われる
主にコロナ関連で

822名無しさん@お腹いっぱい。2021/04/16(金) 07:10:27.48
もしあれだったら5chのニュースキャップなどでニューススレ立ててそっちを保存するか
yahooなら大抵二次なので一次ソースをたどってそっちを保存

823名無しさん@お腹いっぱい。2021/04/16(金) 10:12:44.29
24時間経過しないと取得できたか分からない

824名無しさん@お腹いっぱい。2021/04/16(金) 17:12:55.38
同じドメインのサイトを一括で保存してDL用にZipでまとめてくれるサイトってねーの?

825名無しさん@お腹いっぱい。2021/04/17(土) 09:24:30.32
ウェブ魚拓の方なんだけど取得できる時とできない時の条件の違いがよく分からんわ

826名無しさん@お腹いっぱい。2021/04/17(土) 11:41:17.37
IA全然とれねー

827名無しさん@お腹いっぱい。2021/04/19(月) 11:42:38.28
iaは最近ずっと調子悪い印象

828名無しさん@お腹いっぱい。2021/04/20(火) 01:48:29.85
最近またjob failed出るようになったな

829名無しさん@お腹いっぱい。2021/04/20(火) 16:17:10.58
>>825
うちウェブ魚拓いくら待ってもロボット拒否でbanされたわw

830名無しさん@お腹いっぱい。2021/04/20(火) 21:36:13.88
twitterぜんぜん保存されてないな。万単位のフォローがいる垢でも保存されてなかったりする

831名無しさん@お腹いっぱい。2021/04/21(水) 21:20:44.52
>>829
Web魚拓はReCaptchaのマークが右下に表示されてから12秒くらい待ってボタン押すと保存できるはず。
長く待ちすぎるとロボット拒否される

832名無しさん@お腹いっぱい。2021/04/21(水) 23:45:37.52
スマートフォンでアーカイブしたものをスマートフォンで見ようとすると見れないが3Gガラケーでは見れる謎

833名無しさん@お腹いっぱい。2021/04/22(木) 21:24:08.86
俺が対策書いた途端にWeb魚拓の仕様が変わって草。
このスレ見てる誰かがスクリプトでも走らせてるのか

834名無しさん@お腹いっぱい。2021/04/23(金) 17:18:11.69
最新のブラウザ使ってても「お前のブラウザ古いぞ」的な警告文(黄色)出るの俺だけ?

835名無しさん@お腹いっぱい。2021/04/25(日) 18:05:22.97
インターネット官報誰も保存してない

836名無しさん@お腹いっぱい。2021/04/30(金) 13:23:56.96
アカウント作成時の捨てアド排除が始まってるなぁ
二ヶ月前はこんなこと無かったのに

837名無しさん@お腹いっぱい。2021/04/30(金) 13:34:48.94
あと、ユーザプロフ画面でアバター画像をアップロードしてない場合に
Gravatarを参照しなくなった

画像のタイムスタンプからして先月初旬の変更か
https://archive.org/images/person2.png
Last-Modified: Sun, 07 Mar 2021 00:42:48 GMT

838名無しさん@お腹いっぱい。2021/04/30(金) 18:23:16.44
>>830
ちょっと違うけど20年近く続いてる個人サイトとか、あとベテラン作家のブログが保存されてたのにサイトの方は自分が作業するまでアーカイブに無かったってことはあったな
(後者は今のサイトが出来てから2年ぐらいしか経ってなかったのもあるんだろうけど)

839名無しさん@お腹いっぱい。2021/04/30(金) 21:42:19.54
Twitterのアーカイブは殆どArchive Teamのやつだから
ユーザーページは取られてないけど個別のツイートは殆ど取られてるはず

840名無しさん@お腹いっぱい。2021/05/03(月) 02:26:37.76
ページが存在するのにLive page is not availableになるのいい加減にしてくれ

841名無しさん@お腹いっぱい。2021/05/04(火) 08:19:29.48
「Check My Links」という拡張機能を使えばリンクの未保存ページが自動アーカイブできるよ
https://www.jtm.gr.jp/technote/chrome/check-my-links/

842名無しさん@お腹いっぱい。2021/05/04(火) 22:21:00.51
アカウントの Mailing Lists Settings の項目が増えたな。

Stay up to date with what’s happening at the Internet Archive by signing up for our free newsletters.
□ Best of the Archive: Useful resources, unique stories, and fun finds from our collections
□ Monthly Updates: A snapshot of the main news stories about the archive each month
□ Event Notices: Invitations to and news about our events
□ Donor Communications: Messages for and about our generous supporters

どれも要らないけどw

843名無しさん@お腹いっぱい。2021/05/05(水) 11:05:32.13
インスタ保存したいんだけどできないね

844名無しさん@お腹いっぱい。2021/05/05(水) 21:50:33.16
>>843
インスタはちょっと前から出来なくなった
個別の画像URLを抽出して保存は出来る

845名無しさん@お腹いっぱい。2021/05/06(木) 13:16:03.43
Batchの設定も少し増えた

846名無しさん@お腹いっぱい。2021/05/07(金) 09:48:31.47
Save screen shotにチェック入れても取られないときあるな
後から取られてるんだろうか?

847イモー虫2021/05/07(金) 16:22:46.45
ちなみにその個別画像urlテンプレ

https●:●//www.●instagram.●com/p/11桁のインスタ画像個別の英数/media/?size=l

848名無しさん@お腹いっぱい。2021/05/07(金) 18:40:26.38
こっちもほぼsavescreenshotが機能してない
裏で取れてたりするんかね

849名無しさん@お腹いっぱい。2021/05/08(土) 03:19:50.67
たまにyoutubeの動画がアーカイブされてるけど手動で取る方法はないんですかね?

850名無しさん@お腹いっぱい。2021/05/08(土) 05:54:04.89
APIの情報も信用できないし、どれが取れていて どれが取れていないかは
結局自分たちの目で見て確認するしかないという現状。

851名無しさん@お腹いっぱい。2021/05/08(土) 16:28:03.01
保存の確認のためにWayback Machine Availability APIを使ってみたけど、
保存されてるURLでもスナップショット無しだと返ってくる
壊れてるなこれw

852名無しさん@お腹いっぱい。2021/05/08(土) 17:02:12.53
>>849
https://web.archive.org/savehttps://www.youtube.com/watch?v=動画のID と入力し保存。すぐには保存されないけど、数週間待って見てみると保存できてる

853名無しさん@お腹いっぱい。2021/05/08(土) 19:57:36.18
>>852
4K画質のとかでも保存されるの?

854名無しさん@お腹いっぱい。2021/05/08(土) 23:10:05.55
>>852
おお、ありがとうございます
保存までに時間が掛かるんですね

855名無しさん@お腹いっぱい。2021/05/09(日) 02:38:40.84
>>844
画像のアドレスの仕様にもよるがしおりをつけておかないと後で検索のしようがなくなりがちなやつ
imgurの画像とかも保存自体は出来るがどこの何の画像なのかはどこかに記載されてないとカオスに

856名無しさん@お腹いっぱい。2021/05/09(日) 03:59:33.78
>>852
それ動画ページが見れるだけで動画自体は保存されないんじゃないの?

857名無しさん@お腹いっぱい。2021/05/09(日) 04:04:52.08
>>853
YouTubeのビデオは、訴えられる危険を犯した専用の解読スクリプトを書かないと
ビデオを保存できないので無理。

imgurのようなビデオに静的なリンクを張っている所とは違う。

https://web.archive.org/web/20210508173359/https://imgur.com/z55iZcq

<video draggable="false" playsinline="" autoplay="" … >
<source type="video/mp4" src=
"https://web.archive.org/web/20210508173359oe_/https://i.imgur.com/z55iZcq.mp4"
></video>

858名無しさん@お腹いっぱい。2021/05/09(日) 04:48:52.27
動画自体も保存されてるよ。自動クロール率は低いけど
適当にURL貼るとこれとか
http://web.archive.org/web/20150815193649/https://www.youtube.com/watch?v=WJzSBLCaKc8

859名無しさん@お腹いっぱい。2021/05/09(日) 21:18:48.23
>>858
消されてない動画の場合、見るたびにそっちを取りに行ってる可能性がある
まぁ自分も詳しくないので詳しい人いたら教えてほしい

860名無しさん@お腹いっぱい。2021/05/10(月) 02:03:24.91
>>859
保存された動画を再生してるみたい
動画のソース
http://web.archive.org/web/20170214133548oe_/https://r4---sn-n4v7sne7.googlevideo.com/videoplayback?ipbits=0&mm=31&mn=sn-n4v7sne7&ratebypass=yes&expire=1487100946&signature=CA5A22657FBABB6AE773DB9B798B5BA86AE9B362.763F505CD7B9A750710077F92F766E70F1A57187&requiressl=yes&sparams=dur%2Cid%2Cinitcwndbps%2Cip%2Cipbits%2Citag%2Clmt%2Cmime%2Cmm%2Cmn%2Cms%2Cmv%2Cpl%2Cratebypass%2Crequiressl%2Csource%2Cupn%2Cexpire&ms=au&mt=1487079325&upn=NGplNw4c3TQ&mv=m&dur=291.108&pl=20&itag=22&key=yt6&ip=207.241.229.47&lmt=1472445730364669&mime=video%2Fmp4&id=o-ADUZW6CaxfO1uC---vHzDaHvx1GQWxmO717IBgPDVTS0&source=youtube&initcwndbps=2738750&signature=

861名無しさん@お腹いっぱい。2021/05/10(月) 02:10:49.84
Youtubeの動画とかもちゃんと保存されんのか……

862名無しさん@お腹いっぱい。2021/05/10(月) 02:13:29.44
YouTubeは定期的に仕様変更してるからIAがそれに対応していくのは難しいらしい
だから昔のページだと動画が保存されてるのもあるけど今はされてない

863名無しさん@お腹いっぱい。2021/05/10(月) 05:21:32.71
>>862
自分もよく分かってないけど今も保存されてるっぽいよ
昨日の動画が保存されてたから
http://web.archive.org/web/20210509030617/https://www.youtube.com/watch?v=ZxjaW7zGTbA

864名無しさん@お腹いっぱい。2021/05/10(月) 14:48:04.32
またサーバーが落ちたのか繋がらないな
archive.orgの方は接続出来るみたいだが…

865名無しさん@お腹いっぱい。2021/05/10(月) 16:09:21.18
ttps://archive.org/stats/
日本時間で14時20分すぎから鯖落ち中らしい

866名無しさん@お腹いっぱい。2021/05/10(月) 16:34:25.60
web.archive.org までは到達できている。また内部のネットワーク障碍か。

867名無しさん@お腹いっぱい。2021/05/10(月) 17:37:18.38
復旧したっぽい

868名無しさん@お腹いっぱい。2021/05/11(火) 13:44:37.60
なんか今日はIAの調子やたらいいな
これまで表示されなかったスクショなんかもちゃんと取れてるし

869名無しさん@お腹いっぱい。2021/05/11(火) 15:27:21.28
Youtubeは少なくとも今年1月にとった分は動画まで保存できてたから、時間が経てば取れると思う。

870名無しさん@お腹いっぱい。2021/05/11(火) 19:00:41.67
>>847
わからん…

871名無しさん@お腹いっぱい。2021/05/14(金) 18:54:25.52
waybackmachine使っただけで訴えられた事例とかあるの?

872名無しさん@お腹いっぱい。2021/05/15(土) 00:01:24.67
IA自体はともかく利用者はないだろ

873名無しさん@お腹いっぱい。2021/05/15(土) 00:54:51.91
ウェブ魚拓保存者がIP開示されたケース
https://gigazine.net/amp/20090628_megalodon

874名無しさん@お腹いっぱい。2021/05/15(土) 02:45:03.16
ウェブ魚拓はそういうのもあって今は利用していない

875名無しさん@お腹いっぱい。2021/05/16(日) 07:35:08.10
429エラーでもこれはお手上げ

876名無しさん@お腹いっぱい。2021/05/17(月) 10:22:21.67
Cannot get status of 16進数(32桁)というのが出る

877名無しさん@お腹いっぱい。2021/05/18(火) 16:27:53.74
保存日時の情報は記録されているけれど、外部リンク調査日時の記録はされていないんだろうな。
これも記録してあればいいのに。

878名無しさん@お腹いっぱい。2021/05/18(火) 18:54:24.22
なんではてなブログアーカイブするとfacebookなんちゃらになるんだ

879名無しさん@お腹いっぱい。2021/05/19(水) 03:51:09.54
ツイッターも意味不明な表示になったがちゃんと正式urlでアーカイブされてた

880名無しさん@お腹いっぱい。2021/05/19(水) 23:05:23.86
サイト内のzip落としたらUAが表示される某サイトで
二度Sorry出したら二度ともUAが表示されていたから保存されてはいるようだ

881名無しさん@お腹いっぱい。2021/05/20(木) 17:13:05.62
Cannot save Internet Archive URLs!
今日はこのエラー連発で1時間後にやり直したらできたり不安定すぎる
保存できなかった理由も書いてない

882名無しさん@お腹いっぱい。2021/05/21(金) 18:08:48.24
Twitterで特定のアカウントだけexcludedってあるんだな
本人が申請したっぽいけど

883名無しさん@お腹いっぱい。2021/05/22(土) 13:44:06.50
ハイパーリンクの情報は当然持ってるとして各ファイルの被リンク情報はなくてもやっていけるんだろうかと少々心配になる
ビッグデータとして利用する客が考えればいいことか知らんが

884名無しさん@お腹いっぱい。2021/05/23(日) 07:32:01.41
そもそも今のIAはとにかく情報を溜め込むことだけ考えてそれをどう活用するかは今後次第って感じじゃないかなあ
現状のsaveだけでもサーバー不安定になるレベルで常にやってるし(それでも全然間に合ってなさそうなのが怖いが)

885名無しさん@お腹いっぱい。2021/05/23(日) 22:01:09.82
URLで検索してアーカイブ一覧を表示しようとすると次のエラーが出るのだけど
混雑で検索エンジンが止まってるだけかな

The search engine encountered the following error: invalid or no response from Elasticsearch

886名無しさん@お腹いっぱい。2021/05/24(月) 07:19:04.30

887名無しさん@お腹いっぱい。2021/05/25(火) 04:48:03.82
>>507
ページ全体は無理だが画像などバラのパーツは個別に保存が可能だったりすることもある
ザル運営のブラウザゲームなどはありがち

888名無しさん@お腹いっぱい。2021/05/25(火) 08:24:52.11
Cannot fetch the target URL due to system overload.
ナニコレ

889名無しさん@お腹いっぱい。2021/05/25(火) 08:29:38.17
>>888
> due to system overload
そういうことだろ

890名無しさん@お腹いっぱい。2021/05/25(火) 17:48:23.78
>>888
https://translate.google.co.jp/?sl=auto&;tl=ja&text=Cannot%20fetch%20the%20target%20URL%20due%20to%20system%20overload.%20&op=translate&hl=ja

891名無しさん@お腹いっぱい。2021/05/25(火) 23:05:34.28
オーバーロードはなろう系で唯一お薦めできる作品

892名無しさん@お腹いっぱい。2021/05/26(水) 03:28:24.76
最近データベースの入れ替えでもしてるの?
Explore more than X billion web pages saved over time
のXが一瞬半分になったり変動がすごい

893名無しさん@お腹いっぱい。2021/05/26(水) 05:53:27.55
オーバーロードが良かったのは一期だけ(アニメ

894名無しさん@お腹いっぱい。2021/05/26(水) 18:10:11.99
This snapshot cannot be displayed due to an internal error.

895名無しさん@お腹いっぱい。2021/05/26(水) 21:05:39.01
回復したかな

896名無しさん@お腹いっぱい。2021/05/27(木) 03:31:52.31
system overloadが出ても/*/の後にURLつけると保存できてることがあるので、
一応確認してみるのおすすめ

897名無しさん@お腹いっぱい。2021/05/27(木) 22:10:47.88
保存時間の間隔が30分から45分になってる…

898名無しさん@お腹いっぱい。2021/05/28(金) 02:03:32.64
アイヤー

899名無しさん@お腹いっぱい。2021/05/28(金) 09:59:53.85
http://homepage2.nifty.com/

This URL has been excluded from the Wayback Machine.
になってるのはなんでだろう?ジオシティーズみたいな普通のホームページサービスだったみたいだけど

900名無しさん@お腹いっぱい。2021/05/28(金) 10:04:26.18
>>899
> ジオシティーズみたいな普通のホームページサービスだったみたいだけど

ワロタ

901名無しさん@お腹いっぱい。2021/05/28(金) 15:24:41.10
ジオシティーズやトクトクは普通だけどフリーティケットシアターは普通じゃない的な

902名無しさん@お腹いっぱい。2021/05/30(日) 04:42:48.43
/*/はFail with status: 498 No Reason Phrase

903名無しさん@お腹いっぱい。2021/05/30(日) 17:45:08.98
なるべく円高米ドル安の時に寄付したほうがいいんだろうな。

904名無しさん@お腹いっぱい。2021/05/30(日) 19:21:56.74
batchのページ開いてもトップに飛ばされてしまうようになった

905名無しさん@お腹いっぱい。2021/05/31(月) 01:22:39.81
batchのページが復活したっぽい。よかった

906名無しさん@お腹いっぱい。2021/06/01(火) 03:49:59.92
swfのあるページの取得厳しいんだっけ
Cannot fetch the target URL due to system overload.がでる

todayのほうで試したらプロセスが空白で進行せず
megarodonは見かけ上はとれてるがソースからswfの現物アドレスを消して保存してるっぽい

ファイル固有の問題だろうか
デバッガでは開けるんだが

907名無しさん@お腹いっぱい。2021/06/01(火) 04:36:21.94
swfってただのファイルじゃないの
どうしてそんなことが起こるのですか

908名無しさん@お腹いっぱい。2021/06/01(火) 11:28:13.18
We only allow new captures of the same URL every 45 minutes.

909名無しさん@お腹いっぱい。2021/06/01(火) 13:18:27.55
That's too hard to me...

910名無しさん@お腹いっぱい。2021/06/01(火) 13:20:35.24
激遅の/save/で行けたりしない?>swf
保存できても表示が更新されないので本当に保存されているか未確認だけど

911名無しさん@お腹いっぱい。2021/06/01(火) 17:10:58.68
flash表示システムってどうなったんだっけ

912名無しさん@お腹いっぱい。2021/06/01(火) 19:40:12.28
サポート終了で表示できないっぽい

913名無しさん@お腹いっぱい。2021/06/02(水) 01:04:22.30
ファイル1個だけなら画像の確認とかやらないから拡張子関係なく超高速で保存できるはずだけど

914名無しさん@お腹いっぱい。2021/06/02(水) 01:50:07.20
Cannot fetch the target URL due to system overload.
出すぎ

915名無しさん@お腹いっぱい。2021/06/02(水) 04:57:26.97
>>910
個別のswfのアドレス投げ込んだら保存できたからひとまずはいいことにする
開くときは開けるアドレスを知ってないとあかんね
デバッガだと「swfを置いてるページ」では開けないんでarchiveのソースに書かれてる現物のアドレスを掘り出してデバッガに渡すまでしないと開かない
(開けるのは確認できた)

>>911
なんかアナウンスされてたよね archiveのswf全部を勝手にブラウザ上で再生してくれるようなものを期待しちゃうけど
そこまでするのは結構大変なはず

916名無しさん@お腹いっぱい。2021/06/02(水) 08:47:16.75
3Gガラケーの本体自体にフラッシュの再生機能付いててアーカイブ含め見れるが画面が小さいのがあかんな
ガラケー向けの時計フラッシュまちうけフラッシュは本体が壊れない限り確実に永遠に見れるけどペリーのピアノ講師ネタとか永遠に失われそう

917名無しさん@お腹いっぱい。2021/06/02(水) 14:33:51.58
SPNを保存されたかの確認に使うというわけ分からん状況になってる。
誰かが過去に保存したであろう複数ページの記事が途中歯抜けで保存されているのを見かけた。保存失敗か?
元の記事はもう見れないから補完してあげることもできなかった。

918名無しさん@お腹いっぱい。2021/06/02(水) 14:54:32.98
twitterの保存だけやけに時間かかるんだけど

919名無しさん@お腹いっぱい。2021/06/09(水) 00:42:55.87
「Ruffle」というchrome拡張機能使えばFlash見れるよ

920名無しさん@お腹いっぱい。2021/06/09(水) 01:11:29.08
Sorry
You have already reached the limit of active sessions

先週からエラー出まくり

921名無しさん@お腹いっぱい。2021/06/09(水) 06:03:50.69
>>920
おまいさんのやり方が悪いだけ。先月の制限強化に引っ掛かってるんだろ。
https://docs.google.com/document/d/19RJsRncGUw2qHqGGg9lqYZYf7KKXMDL1Mro5o1Qw6QI/edit
> 2021-05-23
> Anonymous users have lower concurrent captures limit (limit=3) compared to authenticated users (limit=5).

制限値を超えないよう、保存開始のタイミングを調整するしか無い。
アカウントを作ってログインすれば従前の制限値に戻る上、空きセッション数を API で
得られるようになるので、自動的に空きを待ってから保存するようなシステムも
組めるようになる。
https://web.archive.org/save/status/user (ログインしていなければ 503 エラー)

Change Log に記載は無いが、ログイン済みユーザの制限値は 6 に緩和されている模様。
("available":6)

922名無しさん@お腹いっぱい。2021/06/09(水) 15:34:51.37
なんかリファラー変更ができなくなったっぽいんだけど俺環?

923名無しさん@お腹いっぱい。2021/06/09(水) 16:25:44.73
ブラウザが (IA のヘッドレスブラウザも含めて) リファラを送らなくなったとか
そういう話じゃ無くて?

924名無しさん@お腹いっぱい。2021/06/09(水) 17:46:21.43
マジか。じゃ もうリファラ必要なサイトは保存できなくなったのか

925名無しさん@お腹いっぱい。2021/06/09(水) 18:29:55.92
制限するぐらいなら、有料化しろよ

926名無しさん@お腹いっぱい。2021/06/10(木) 05:14:53.41
金ローの画像はどういう仕組みなんだろう
https://kinro.ntv.co.jp/lineup/20210611
保存ができてるのかできてないのかがようわからん

/*/上の階層/*/ってファイルサイズは見れんよね

927名無しさん@お腹いっぱい。2021/06/10(木) 09:28:25.29
API を使うとクッキーも送れるけど、ハイジャック耐性の無いユルいサイトしか使い道が無いな。
http://web.archive.org/web/20210610001000/taruo.net/e/
ちなみに force_get を 0 (または省略) にしておかないと capture_cookie を指定しても無視される。

928名無しさん@お腹いっぱい。2021/06/10(木) 09:46:43.59
そうそう、IA のアーカイブはサーバのレスポンスヘッダが丸ごと保存されていることに留意。
つまり Set-Cookie でクッキーが返されていた場合、それも保存されているという事。
ログイン管理にクッキーを利用しているサイトで、アーカイブのデータを利用して
誰かに勝手にログインされるという事も起こりうる。

929名無しさん@お腹いっぱい。2021/06/10(木) 16:53:57.18
なにそれこわい

930名無しさん@お腹いっぱい。2021/06/12(土) 22:30:39.38
また繋がらなくなった?
保存しようとしても503やら404の画面になるんだけど…

931名無しさん@お腹いっぱい。2021/06/12(土) 22:36:49.23
そうみたい

932名無しさん@お腹いっぱい。2021/06/12(土) 22:49:26.53
しばらくは駄目そうだな

933名無しさん@お腹いっぱい。2021/06/12(土) 23:14:58.67
最近、頻繁に使うようになったけど、今繋がらないみたいだね。
だいたいどれくらいで復帰するんだろうか?
1日2日はかかるかな?

934名無しさん@お腹いっぱい。2021/06/12(土) 23:18:19.16
503エラー?

935名無しさん@お腹いっぱい。2021/06/13(日) 00:44:05.86
さっき見たときは直ってた

936名無しさん@お腹いっぱい。2021/06/13(日) 08:29:59.22
親切な表示が出るようになってる
You may close your browser window and the page will still be saved.

937名無しさん@お腹いっぱい。2021/06/13(日) 17:29:48.96
さじをなげたか

938名無しさん@お腹いっぱい。2021/06/14(月) 11:43:37.62
Batch Archiveに入れない

939名無しさん@お腹いっぱい。2021/06/15(火) 07:00:28.90
向こうで計画停電が起こるみたいだから、こっちの時刻で16日の0時30分からしばらくサービス停止するらしい。
https://i.imgur.com/upjcBi3.png
https://www.jisakeisan.com/?y=2021&;m=6&d=15&hh=8&mm=30&t1=pdt&t2=jst

940名無しさん@お腹いっぱい。2021/06/15(火) 09:25:17.87
>>939
Due to a planned power outage, our services will be reduced on Tuesday, June 15th, starting at 8:30am PDT until the work is complete. We apologize for the inconvenience.

この程度の英文すら機械翻訳使わなきゃ読めない低能

941名無しさん@お腹いっぱい。2021/06/15(火) 14:04:45.44
喧嘩はよそで一人でやってろよ

942名無しさん@お腹いっぱい。2021/06/15(火) 15:21:07.34
人は上から目線で間違いを訂正するときに性行為より快感を感じるらしい

943イモー虫2021/06/18(金) 20:45:23.13
読み込み機能は機能しているのか

944名無しさん@お腹いっぱい。2021/06/19(土) 14:06:16.43
The capture is estimated to start in 120 minutes. You may close your browser window and the page will still be saved.

うっかりログインし忘れるとこれだわw

945名無しさん@お腹いっぱい。2021/06/19(土) 18:36:08.03
523分待ちだったわ 撮ってくれるんならまあいいけど

946名無しさん@お腹いっぱい。2021/06/19(土) 19:35:06.80
>>899
members.jcom.home.ne.jpも This URL has been excluded from the Wayback Machine.になるね

947名無しさん@お腹いっぱい。2021/06/19(土) 21:03:13.89
残り763分

948名無しさん@お腹いっぱい。2021/06/19(土) 23:24:40.50
今968分待ち、今日中に1000分超えるかな

949名無しさん@お腹いっぱい。2021/06/20(日) 00:40:25.87
1085分、てかアカウントでログインして保存しようとしてもこの表示出るじゃん
アカウント作った意味ないわ

950名無しさん@お腹いっぱい。2021/06/20(日) 01:26:26.34
待ち時間が一度表示されてしまうと、その後ログインして
同じURLの再保存を試みても待ち時間が延びるだけ。

951名無しさん@お腹いっぱい。2021/06/20(日) 03:44:33.22
1393分待ちになってる

952名無しさん@お腹いっぱい。2021/06/20(日) 12:42:15.80
保存は匿名で出来るんですか?

953名無しさん@お腹いっぱい。2021/06/20(日) 12:58:58.94
まだログインしないと待ち時間が出る状態なの?
ご愁傷様w

954名無しさん@お腹いっぱい。2021/06/20(日) 15:59:50.29
今は直ってるな
というか別に待ち時間があっても後で保存されるんだから良くね?

955名無しさん@お腹いっぱい。2021/06/21(月) 02:12:27.28
伊是名夏子のブログのアーカイブを見ようとすると
6月初めぐらいからThis URL has been excluded&#12316;が出るようになってるんだけど、
非表示化か削除依頼出したみたいだねこれ。

956名無しさん@お腹いっぱい。2021/06/21(月) 10:45:02.62
アーカイブのアーカイブが必要になりそう

957名無しさん@お腹いっぱい。2021/06/21(月) 14:15:21.05
archive.isなら消されない

958名無しさん@お腹いっぱい。2021/06/21(月) 14:49:55.10
archive.is 自体が消えてしまったりしないの? という話が。

959名無しさん@お腹いっぱい。2021/06/21(月) 19:46:33.38
永久不滅アーカイヴが必要

960名無しさん@お腹いっぱい。2021/06/22(火) 06:37:35.24
Cannot get status of spn2-2afbf2c51be876410f7a78331b331ea74cd21c67-5a282757

961名無しさん@お腹いっぱい。2021/06/24(木) 00:03:38.03
>>953
ログインしてても普通に待ち時間表示出るけど、時間帯によって変わったりするの?

962名無しさん@お腹いっぱい。2021/06/27(日) 13:37:52.83
>>952
>>57

問題なのは関連付けされてる場合はログインしている時のメールアドレスやユーザ名、ログイン関係なくハッシュ化したIPアドレスやUserAgent部分がWARCファイルの名前フィールド部分に保存される可能性がある。
気になるなら保存するときだけUserAgentやIPアドレス変えたり保存するページごとに別ければいい。

963名無しさん@お腹いっぱい。2021/06/28(月) 11:48:52.21
何度許可してもログインしなおしてもBatchのArchive URLsに入れない

964名無しさん@お腹いっぱい。2021/07/02(金) 11:56:14.72
Batch入れないけど、騒いでるの俺だけっぽいから俺環なのか

965名無しさん@お腹いっぱい。2021/07/02(金) 15:17:24.60
皆さん自前でバッチ処理しているから使ってない、に一票

966名無しさん@お腹いっぱい。2021/07/12(月) 07:09:59.53
あるWEBサイトの一部が消えているのだけれど、
インターネットアーカイブでも履歴が残っていないことがある
忍者とかいうブログサイトを使っているのだが、
あそこって削除した画像とかの履歴を残さないようにする機能とかあるのだろうか

967名無しさん@お腹いっぱい。2021/07/12(月) 16:06:59.65
>>966
他の魚拓サイトにも残ってないの?まあブログはアーカイブされてないことが多いからなぁ。

968名無しさん@お腹いっぱい。2021/07/12(月) 16:33:16.08
忍者って昔やたらボット除けに精を出してた所じゃないか
って今時の人は知らんのか

で、もうそろそろ次スレテンプレの話題でも

969名無しさん@お腹いっぱい。2021/07/12(月) 23:07:03.45
〓テンプレ(案

現行の関連スレ
https://refind2ch.org/search?q=archive.

970名無しさん@お腹いっぱい。2021/07/14(水) 01:47:06.23
ツイッターのアーカイブ保存、回収の法則テンプレに入れようぜ。
アーカイブ保存は
mobile.ツイッター.com
でなければならないが
回収web.archive.org/web/9999/はmobile.を外さなきゃならない
ってこれガラケーだけ?

971名無しさん@お腹いっぱい。2021/07/14(水) 04:14:39.67
ガラケー?そんなものの情報要るの?

972名無しさん@お腹いっぱい。2021/07/16(金) 04:27:32.78
普通にTwitterをアーカイブすればmobileは付かないと思うんだが・・・
それは置いといて>>5とかの話は入れたほうが良さそう

973名無しさん@お腹いっぱい。2021/07/16(金) 13:46:21.98
最近は反映が早い

974名無しさん@お腹いっぱい。2021/07/18(日) 03:03:30.60
Hrm.
The Wayback Machine has not archived that URL.って出るサイトは
どうやってもみれないんですか?

975名無しさん@お腹いっぱい。2021/07/18(日) 18:09:30.90
>>974
アーカイブしてないからそもそも保存されてない

976名無しさん@お腹いっぱい。2021/07/18(日) 19:27:16.87
ttps://wiki.archiveteam.org/images/e/e6/Archiveteam.jpg
archiveteamが保存した一部のスナップショットを見ると、この「俺たちが保存したぜ」画像のURLを読み込むから、
誰がどのページを見たかarchiveteamのウィキサイトに情報が漏れるんだけど、ただのスパイじゃねーか。
Internet Archiveの人は誰も気付いてないのかなこれ。

977名無しさん@お腹いっぱい。2021/07/18(日) 20:43:46.80
と、自分でスクリプトを組んでアーカイブできない無能が文句を垂れております。

978名無しさん@お腹いっぱい。2021/07/19(月) 02:22:16.98
>>977
個人がアップロードしたWARCファイルは扱ってないじゃん
結局のところ制限引っかからないように/save/にURL投げるコードしか組めんよ
何も知らない無能はお前だ

979名無しさん@お腹いっぱい。2021/07/19(月) 05:43:32.79
そのレベルの情報を気にするなら個人でproxyなりVPNなり使えばいいのでは
なぜArchiveTeamだけを気にしてるのかは知らんが

980名無しさん@お腹いっぱい。2021/07/19(月) 22:59:58.68
>>976
ほんまや
About this captureの説明のところに埋め込んであった
でもブラウザの挙動はCSPで読み込みブロックってなってるから
インターネットアーカイブ側の対策でデータは送信されてない感じかね

981名無しさん@お腹いっぱい。2021/07/23(金) 00:21:19.80
25周年記念サイト
https://anniversary.archive.org/

982名無しさん@お腹いっぱい。2021/07/23(金) 16:15:09.58
インターネットアーカイブが25歳になったら、知識がすべての人にとってよりアクセスしやすくなった極めて重要な瞬間を経て、戻る方法から進む方法への旅にあなたを招待します。

アレクサンドリア図書館からヨハネスグーテンベルクによる印刷機の発明まで。
情報への権利の第一修正の保証からワールドワイドウェブの作成まで、知識へのアクセスは常に建設者と夢想家のおかげでした。

さて、ブリュースター・ケールという若いコンピューター科学者がデジタル時代の「すべての図書館」を建設することを夢見ていた1996年にさかのぼります。
人類の出版されたすべての作品を含み、一般に無料で、時代を超えて非営利団体として構成されたライブラリ。彼はこのデジタルライブラリをインターネットアーカイブと名付けました。
その使命は、すべての人に「すべての知識への普遍的なアクセス」を提供することです。

この25年のマイルストーンに関するブリュースターの考察を読む

バーチャルセレブレーションに参加する
あなたが世界のどこにいても、私たちと一緒に祝いに来てください。

ウェイバックからウェイフォワードへ:25のインターネットアーカイブ
星を目指して到達したビルダーと夢想家との仮想の旅。
10月21日木曜日午後6時PT(午後9時ET)

983名無しさん@お腹いっぱい。2021/07/24(土) 02:54:26.16
YoutubeのURL取ったら下のメッセージが出た
It may take a few days for YouTube videos to become available for playback.

動画もアーカイブされてるってことでいいのかな?

984名無しさん@お腹いっぱい。2021/07/24(土) 13:53:59.14
Youtubeを保存したいなら手動保存が望ましい。クローラーの保存だと再生できないケースあり。

985名無しさん@お腹いっぱい。2021/07/31(土) 03:20:35.58
そろそろ6000億超えるか

986名無しさん@お腹いっぱい。2021/07/31(土) 19:00:56.16
<title>だけでも検索できるといいんだけどなあ

987名無しさん@お腹いっぱい。2021/07/31(土) 21:11:28.65
いまツイッターの動画って保存できねえんだっけ

988名無しさん@お腹いっぱい。2021/08/01(日) 03:48:55.71
そうなの?(そうなの?)

989名無しさん@お腹いっぱい。2021/08/01(日) 16:10:13.05
>>987
これ使ってURL変換すると保存できるよ
https://lab.syncer.jp/Tool/Twitter-Video-URL-Converter/

990名無しさん@お腹いっぱい。2021/08/01(日) 18:08:12.29
ページからたどれなくならね

991名無しさん@お腹いっぱい。2021/08/01(日) 18:27:20.02
それはしゃーない

992名無しさん@お腹いっぱい。2021/08/01(日) 19:07:49.48
次スレたのんます

993名無しさん@お腹いっぱい。2021/08/13(金) 03:38:50.58
>>992

Internet Archive総合 (web.archive.org) #4
https://mevius.5ch.net/test/read.cgi/esite/1628793497/

994名無しさん@お腹いっぱい。2021/08/13(金) 07:19:48.01
Tor clients have already done 200,000 captures today. Please email us at "info@archive.org" if you would like to discuss this more.
とか出てきたんやけど・・・

995名無しさん@お腹いっぱい。2021/08/13(金) 09:36:18.65
Tor使ってないのに俺も今日初めてそのエラーが出てきた
9時過ぎたので、一応リセットされて表示されなくなったが、
毎日これが出たら困るな、特に朝保存したい場合は

996名無しさん@お腹いっぱい。2021/08/13(金) 13:38:54.09
健康のための朝保存

997名無しさん@お腹いっぱい。2021/08/13(金) 19:21:46.35
>>993

おつでござんす

998名無しさん@お腹いっぱい。2021/08/13(金) 19:26:23.91
IAの中の人はTorがどういうものか分かってないらしいw

999名無しさん@お腹いっぱい。2021/08/13(金) 20:25:45.61
999!

1000名無しさん@お腹いっぱい。2021/08/13(金) 20:56:15.43
【 html化されたこのスレを読んでいるお前へ 】

おい、お前。そう、お前だよ。
「このスレおもろいから見てみ」「2ちゃんの歴史に残る名スレだぜ」とか言われてホイホイと
このhtml化されたスレを見にきた、お前のことだ。
どうだ?このスレおもしれーだろ。
でもな、お前はこのスレを読むだけで、参加することはできねーんだよ。
可愛そうにな、プププ。
俺は今、ライブでこのスレに参加してる。
すっげー貴重な経験したよ。この先いつまでも自慢できる。
まあ、お前みたいな出遅れ君は、html化されたこのスレを指くわえて眺めてろってこった。

10011001Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 498日 18時間 48分 6秒

10021002Over 1000Thread
5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php

レス数が1000を超えています。これ以上書き込みはできません。