Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:08:09.83

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

**名無しさん＠お腹いっぱい。** · 2020/07/23(木) 20:33:40.82

ボタンの外見が変わって見づらく感じる

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 00:40:34.99

ボタン？

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 10:54:38.67

https://web.archive.org/save/の後に続く数字が保存中に
_embed/に勝手に変わって保存されない。。。

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 12:49:21.81

保存失敗していたと思ったら1日やら何時間も経ってからやっと反映された
そろそろ限界が近いのだろうか？

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 17:29:43.07

それは普通だが4月に保存したものがいくつか保存されてなかった

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 18:10:50.68

実はそれも普通なのだ

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 18:44:38.56

何事も一期一会、保存などという邪道なものに頼ろうとするな

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 22:49:38.35

http://web.archive.org/web/数字/http://
↓
http://web.archive.org/web/数字/https://

httpsになっているサイトがhttp時代の過去のサイトの画像が自動表示保存されない場合は、https://を入れると自動表示保存される。（例:impress・itmediaなど）

**名無しさん＠お腹いっぱい。** · 2020/07/25(土) 00:04:58.43

どういうことだ

**名無しさん＠お腹いっぱい。** · 2020/07/25(土) 11:48:35.27

503が出てアーカイブされてるかどうかすら確認できなくなってる

**名無しさん＠お腹いっぱい。** · 2020/07/25(土) 22:31:53.72

ここ2週間ほど調子悪杉だろ

**名無しさん＠お腹いっぱい。** · 2020/07/25(土) 23:31:37.24

仕方ないからarchive.today使ってる

**名無しさん＠お腹いっぱい。** · 2020/07/26(日) 21:51:46.95

>>278
done!が出るまで何度もやらないと、魚拓検索ではweb.archive.orgで取れてる扱いでも取れてない
んで失敗してるうちに待ち時間が10分近くとかに増えていくから、合計だと何分かかるか分からない
消えちゃ困るフリーソフトとかぐらいしか、そんだけ待って取る価値ないわな
archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ

**名無しさん＠お腹いっぱい。** · 2020/07/26(日) 22:00:36.20

>>280
> 失敗してるうちに待ち時間が10分近くとか
手作業でやってるんだw

**名無しさん＠お腹いっぱい。** · 2020/07/26(日) 22:09:17.35

>>281
ソフトかスクリプトかなんかあるの？
他の作業しながら進捗チラ見してる感じだわ

**名無しさん＠お腹いっぱい。** · 2020/07/26(日) 22:10:02.48

archive.todayはとまりすぎじゃね？

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 11:53:01.60

>> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いやそりゃBANされるだろ
サーバ動かすのだってタダじゃないんだよ
自分がアーカイブサイト運営してたとしてもそれはしばらくアク禁にするわ

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 12:24:25.45

>>284
だったら最初から制限事項を表示しろって話
騙し討ちみたいなもんじゃん
別に不正アクセスしたわけじゃないし、dos攻撃みたいに明らかに悪意あるように見えるほど高速でもないんだし

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 15:06:40.42

IAってスクリプトとか保存しないように設定出来れば
保存容量や表示軽く出来そうなのに

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 16:25:19.72

それはもう別もんやろ

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 16:54:48.41

どうしてもアーカイブできないサイトはページ丸ごとスクショしてそれをどっかにあげてアーカイブすればいいか
でも大きなスクショ劣化なしであげられるとこってなかなかないよね
どっかあるかな？

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 21:08:42.38

Tweetsaveも不安定過ぎる
アーカイブ化を妨害したい勢力が暗躍してんだな

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 21:18:11.93

クラウドフレア依存が不安定の原因に思えてくる
IAは違いそうだが

**名無しさん＠お腹いっぱい。** · 2020/07/28(火) 01:10:49.40

スクショって画像化の事言ってんの？
そんな事するくらいならWebページ保存ソフト使えよ

**名無しさん＠お腹いっぱい。** · 2020/07/28(火) 01:15:00.88

web保存じゃないと捏造言われるからなぁ

**名無しさん＠お腹いっぱい。** · 2020/07/28(火) 01:30:19.93

スクショは捏造できる

**名無しさん＠お腹いっぱい。** · 2020/07/28(火) 05:58:41.77

>>292
アーカイブ化を妨害したい勢力なんじゃねｗ
自演やる奴ほど自演疑うみたいな

**名無しさん＠お腹いっぱい。** · 2020/07/28(火) 06:39:39.83

https://gigazine.net/news/20191212-thread-internet-archives-silent-killer/
コストを削減したければクローリングするウェブサイトを減らし、一部のデータ保存活動を停止すればOKですが、この考えは世界全体にとっていいアイデアではないとスコット氏は主張。
↑
1分20ページから50ページ保存に緩和してくれ

或いは有料プランを作ってくれ

◆P0jSlC5fJs · 2020/07/28(火) 07:07:27.82

>>288
大抵はWayback Machineかarchive.todayかWebrecorderかSingleFileZで保存できる

おーぷん2chは基本拒まれるけどdatはアーカイブできる
例: http://archive.vn/nxwaU
通常のページを保存できるにしろできないにしろ、APIも保存してくれると助かる

例えばニコ生のAPIは
https://api.cas.nicovideo.jp/v1/services/live/programs/(番組ID)
番組IDのところをlv123とするとその番組の詳細情報が得られる

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 02:58:32.75

Internet Archive以外はいつサービス終了するか分からない
ローカルやログインして自分しか見れない所にアーカイブしても意味ない

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 03:33:40.66

Internet Archiveも見れないURLあるからなあ

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 09:39:20.49

>>298
キャプチャ失敗か削除済みではなく？

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 13:06:06.70

> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いっぺんにそんな数ひろったことないな
やるねえ

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 15:30:15.66

>>300
不良（品）の武勇伝（悪行）みたいなもんよ

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 17:24:51.15

500 Internal Server Error

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 18:01:01.11

>>298
保存しても強制的に
Sorry.
This URL has been excluded from the Wayback Machine.
になってしまうサイトあるよな

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 18:21:15.86

それはサイト側がIAに連絡して保存しないようにして貰っただけ

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 18:50:00.52

>>302
最近よくこれになる
10分待ってまたやるとできることも多いけど

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 19:06:54.26

閲覧のみならやや重い程度なのだが

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 20:25:58.03

International Server Errorはつなぎなおすと動くことも多い気がする

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 23:12:14.28

>>307
> つなぎなおすと

繋ぎ直しで IP が変わったことが効いてるのか、ただ少し時間を空ければ良いだけなのか、
どっちなんだw

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 23:34:29.23

つなぎなおすとはしいたけ押して更新することだと思ってた・・・・

◆P0jSlC5fJs · 2020/07/30(木) 01:13:52.97

>>297
archive.todayってやばいの？
>>280 を読む限りちゃんとリソースに見合った制限をかけてるようだし
削除に応じないからいつか陥落しそうってこと？

2行目は？？？
アーカイブしてもそれを共有せずアクセス不能な場所にのみ保管していても仕方ないってこと？
自分以外からも見れるようにすりゃいいじゃん

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 04:36:43.89

確かに保存されたページが閲覧できているのに、APIの方では保存されていないかのような
表示になっていることもあるんだな。単にAPIの調子が悪いのか

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 07:36:04.75

time travel
https://timetravel.mementoweb.org/

これはどうなの？

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 07:40:56.06

あー、すまん。

これは自分がページを指定して魚拓とることはできないのか。

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 10:12:47.18

Sorry.
This URL has been excluded from the Wayback Machine.
この文が出るサイトはどんな方法でも保存はおろか閲覧すらできないんでしょうか

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 10:17:20.01

>>310
archive todayってどこの会社が運営してるのか資金はどうしてるのかも分からないし比較的最近できた歴史もサイト
36年の歴史があって米国政府も利用してて組織内部まで公開してるInternet archiveとは信頼度が違う
WebrecorderやSingleFileZは共有機能あるの？見た感じ個人向けのキャプチャソフトみたいだけど

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 10:21:32.94

>>314
>>304なので無理

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 10:22:24.11

途中で送信してしまった
連投失礼
なのでもともと保存されていたものも当然見れなくなる

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 13:59:17.34

>>314
biglobeなんかも2年ほどそうなって見られなくなってその後復活した
内部的にはちゃんと保存されてるんだろうな

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 14:01:25.19

>>318
期間はどの辺です？

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 14:43:03.28

期間とか決まってるわけじゃない
homepage2.nifty.comなんかも昔は見られたが
もうずっと見られないしな

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 21:03:12.09

>>318
マジ？

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 22:23:53.68

>>310
アーカイブって「データが改変されていないこと」が保証されてなきゃいけないんだよ
だから単に「自分以外からも見えるようにすればいいじゃん」って問題ではない

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 22:27:38.32

archive.todayは誰がどこでどういう風に運営してるのかまるで分からない（＝いつデータが全て消し飛ぶか分からない）という怖さがある
だから自分はarchive.todayを可能な限り使わないようにしてるし、運営体制が公開されてるInternet Archiveを信用してる

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 22:33:49.07

「データが改変されていないこと」を保証するのって結構厄介で、
Internet ArchiveはWARC形式っていうWebアーカイブ専用フォーマットを使って保存してるくらい
archive.todayやウェブ魚拓はその辺が全く公開されてない
スクショなんて論外だよ（ブラウザの開発者機能で画面表示を書き換えた上でスクショされたらどうしようもないから）

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 23:11:23.68

用途にもよる
単に面白いサイトだから残したい程度ならどこでもいい訳だし
何かの証拠として残すんなら信頼高いアーカイブの方がいいしな

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 23:49:49.99

通常はそこまで手間じゃないんだから両方やっとけ
自分は3つやってる

**322-324** · 2020/07/31(金) 00:23:14.62

証拠だろうと面白いサイトだろうと消えてほしくないからアーカイブする訳だから、
自分は信頼性の高さを重視して何でも基本的にInternet Archiveのみを使っている
archive.todayではIAで保存できなかったものと、特に証拠として残したいものを保存してる（削除申請が通りにくいため）
ウェブ魚拓は「申請が来たらすぐ消している」という運営のインタビューを見てから一切使わなくなった

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 03:22:56.77

今のIAは激烈不調で信頼できるとはとても言えんがな

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 03:53:08.45

そろそろ調子なおった？

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 03:54:59.78

直ってない

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 03:59:36.76

ぴえん

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 07:54:38.33

全ページ検索ってまだできない？
そんなに機密情報とか簡単に検索されたくない？

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 08:11:09.60

またお前か

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 10:08:22.40

自分の主張は正当化されるべきと信じ込んでる・とりあえず何でも陰謀論に結び付けるとか数え役満だな...
Internet Archiveにそんなサービスやってる余裕ないんだよ、一時期やってたけど処理が追いつかなくてすぐ廃止になったって前にも誰かが言ってただろ

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 19:43:31.80

そもそも最近のInternet Archiveは一枚もキャプチャ出来ない日がずっと続いてる
BANか時間帯か何が原因か知らんけど、VPNで時間帯変えても無理

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 19:50:35.35

いやキャプは内部的に出来てるけど反映されるのが3日4日かかってるっぽい

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 19:58:20.86

>>336
そなの？取れてないと思って同じページ数回取り直しちゃったわｗ
urlで検索すると取れてる扱いなのに、開くと取得ページに一枚もないって出てるし

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 20:02:11.39

>>337
ツイッターでその症状が出てた

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 22:03:51.17

500 Internal Server Error
502 Bad Gateway
520 Unknown Error

今日は特におかしい
何だこの三役揃い踏みは

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 22:17:37.78

>>339
404も忘れないであげて下さい

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 22:45:54.54

huh?

**名無しさん＠お腹いっぱい。** · 2020/07/31(金) 22:47:37.43

200以外でリトライし続けるようなスクリプト組んでるけどもう三日間は1ページも保存できてないし

**名無しさん＠お腹いっぱい。** · 2020/08/01(土) 01:02:58.62

三日間なにものどを通ってないみたいな言い方するな

**名無しさん＠お腹いっぱい。** · 2020/08/01(土) 02:24:02.89

>>342
どのくらい間隔あけているの？

**名無しさん＠お腹いっぱい。** · 2020/08/01(土) 02:33:21.99

1年間以上定期的にツイッターで保存していたせいかtodayはBANされてるなぁ
どうやっても404になるわ
使える串探すか

**名無しさん＠お腹いっぱい。** · 2020/08/01(土) 15:49:18.93

自分はsave page nowのフォームから保存すると毎回問題なくいけてる（少なくともここ一週間くらいは）
spnフォーム保存時の通信を覗いて、処理をスクリプトに落とし込むというのも不可能ではないのでは

**名無しさん＠お腹いっぱい。** · 2020/08/01(土) 15:53:57.90

確かにsave page nowは確率が高いね

**名無しさん＠お腹いっぱい。** · 2020/08/01(土) 23:59:08.53

いろいろやってみたけど、俺の結論

7月後半ぐらいから/save/の後ろのURLつけて保存しようとすると、そのページにある画像とかも一部保存もしくはURLを確認しに行く(保存はされない)ように設計が変わったようで、
そのせいでページに張り付いてる画像やスクリプトファイルが多いブログを保存する時は特に時間かかりまくってる
スクリプトで保存してる場合、ヘッダーにno-cacheやetagが出てきたら、それは保存失敗
ブログやニュースサイトの画像URLやスクリプトURLの過去の履歴を見ると、
1日以下の短期間で何十回も何百回も保存してるのを7月以降たくさん見かけるのはこのせいだと思う
Internet Archive側のアーカイブシステムの改悪だ、保存が遅くなる一方だよこれ

**名無しさん＠お腹いっぱい。** · 2020/08/02(日) 03:25:42.91

その保存しない確認ってのは一体何の意味があるんだろう

**名無しさん＠お腹いっぱい。** · 2020/08/02(日) 08:37:26.17

本来ならInternet archiveをメインに使いたいところだが、いかんせん取れないままではなぁ
サイトに繋がるだけじゃ意味がない
337や339のレスと同じ結果ばかりで、もう一週間くらい取れてないから渋々archive.todayメインに切り替えてる

**名無しさん＠お腹いっぱい。** · 2020/08/02(日) 17:49:10.54

いざとなったらspnフォームのHTTP通信解析してcurlで直接叩けばいいやと思ってるから特に気にしてない

**名無しさん＠お腹いっぱい。** · 2020/08/02(日) 19:09:18.50

もう使い物にならんな

**名無しさん＠お腹いっぱい。** · 2020/08/02(日) 20:24:52.19

Tweetsaveもタイムアウトなどクラウドフレアのエラーばっか出て心折れそう

**名無しさん＠お腹いっぱい。** · 2020/08/02(日) 20:27:40.48

Tweetsaveは年間通して繋がらないことは頻繁にあるからもう慣れた

**名無しさん＠お腹いっぱい。** · 2020/08/02(日) 20:41:54.12

>>351
1年前はcurlで1分間400回ぐらいはエラーなしで保存できたんだよな
今は10回やって2～5分休むを繰り返すしかできない
もちろん串刺すかIPアドレス変えれば無限にできるけど、遅すぎる

**名無しさん＠お腹いっぱい。** · 2020/08/02(日) 23:24:33.52

>>355
1分間400回とかそれは多すぎるよ、逮捕者が出た岡崎図書館事件ですら1回のアクセス毎に2秒の間隔を置いてたくらいなのに
みんながそんなことやりすぎたからアクセス回数の制限入ったんじゃないの？
万が一訴えられた時のことも考えて、どんなサイトでも1回のリクエスト送ってから最低1秒空けるのが不文律

**名無しさん＠お腹いっぱい。** · 2020/08/02(日) 23:27:33.15

どうしても早く保存したいなら自分で保存対象サイトにwgetを走らせて、
そこからInternet Archiveのmetadataとしてアップロードすりゃいい
Wayback Machineには収録されないが、早くやりたいんならそれくらい我慢しなきゃ仕方ないだろ

**名無しさん＠お腹いっぱい。** · 2020/08/02(日) 23:31:20.30

どうしても高速でWayback Machineに保存したいなら、
ArchiveTeamのIRCから「このサイトを保存してほしい」と依頼してArchiveBotで作業してもらうという手もある
https://www.archiveteam.org/index.php?title=ArchiveBot

**名無しさん＠お腹いっぱい。** · 2020/08/03(月) 01:38:24.57

>>355
何をそんなに保存するものがあるのか興味あるわ
IAからしたら負荷かけまくりの悪質荒らしと変わらんな

**名無しさん＠お腹いっぱい。** · 2020/08/03(月) 02:02:51.37

ﾅﾆｺﾚ
ttps://i.imgur.com/eYAu2fb.png

**名無しさん＠お腹いっぱい。** · 2020/08/03(月) 03:21:13.16

>>360
自分も全部それになる…

**名無しさん＠お腹いっぱい。** · 2020/08/03(月) 10:30:06.00

なぜかTweetsaveを素早く庇う奴が常駐してる
不思議だ

**名無しさん＠お腹いっぱい。** · 2020/08/03(月) 10:45:09.75

>>356
その辺の画像多用のブログをsave nowで保存するだけで画像やスクリプトで200のURLを一気に保存するんだが
考えてみればsave nowの方がサーバーに優しくないんだよ

**名無しさん＠お腹いっぱい。** · 2020/08/03(月) 14:19:45.15

save page nowのリンク先保存は読み込まれる数に制限あるぞ

**名無しさん＠お腹いっぱい。** · 2020/08/03(月) 14:46:11.43

>>362
確かに怖すぎ・・・

**名無しさん＠お腹いっぱい。** · 2020/08/03(月) 15:59:02.06

庇ってるか？
年間通して続いてるから事実を言っただけだ
改善する希望なんて持てないしさ

**名無しさん＠お腹いっぱい。** · 2020/08/03(月) 16:26:43.83

常駐ご苦労さん

**名無しさん＠お腹いっぱい。** · 2020/08/03(月) 16:32:26.47

保存するのは芸能人のブログとかじゃないの

芸能人の画像をPCに保存にしないでIAを、クラウド代わりにする。