Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:08:09.83

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

**名無しさん＠お腹いっぱい。** · 2020/12/26(土) 11:36:52.53

　
archive.org ? ウェブサイト全体をアーカイブする方法は？

http://web.archive.org/web/20201220090718/https://www.it-swarm-ja.tech/ja/archive.org/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B5%E3%82%A4%E3%83%88%E5%85%A8%E4%BD%93%E3%82%92%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%81%AF%EF%BC%9F/965342469/
　

**名無しさん＠お腹いっぱい。** · 2020/12/26(土) 17:10:27.56

>>686
これArchive Teamが保存したものをWayback Machineに移管したやつだね
Save Page Nowでは取れないけど、外部の人間が取ったものを移管したから結果的に取れてるように見えてる

**名無しさん＠お腹いっぱい。** · 2020/12/30(水) 16:01:54.23

寄付を煽るためにわざとエラー連発させるように仕込んでるのかな

**名無しさん＠お腹いっぱい。** · 2020/12/30(水) 17:30:24.61

そんなリスキーなことしないでしょ

**名無しさん＠お腹いっぱい。** · 2021/01/02(土) 23:03:35.16

>>684のHrmのままのページは保存し直せば反映されるようになった
放置しとくと日付だけ表示されるHrmのまま

**名無しさん＠お腹いっぱい。** · 2021/01/03(日) 14:23:02.24

Hrmって何て発音するんだ

**名無しさん＠お腹いっぱい。** · 2021/01/04(月) 09:24:29.97

「ふーむ」って言う途中でちょっと舌を丸める感じだと思っている
正確な発音はわからん

**名無しさん＠お腹いっぱい。** · 2021/01/04(月) 21:44:38.49

ﾊｧｰﾝﾑｯって読んでた

**名無しさん＠お腹いっぱい。** · 2021/01/07(木) 05:03:25.08

>>688
Collectionsのところ見たけど、Focused CrawlsとTop DomainsはArchive Teamが収集してるものじゃないよ
ブロックされているURLも移管してるのはそういう仕組みだろうけど
ヤフージャパンはアクセス数多いドメインとはいえ、ニュース系のページは収集してくれないんだなぁ

**名無しさん＠お腹いっぱい。** · 2021/01/07(木) 13:28:13.11

ヤフーニュースはSavePageNowでも取れるよ
ただ一部の記事で何故かBlockListエラーが出る
理由は謎（メールすれば聞けるのかもしれないけど）

**名無しさん＠お腹いっぱい。** · 2021/01/07(木) 13:35:08.85

なんか待ち時間すごい長くて全然アーカイブできない

**名無しさん＠お腹いっぱい。** · 2021/01/07(木) 14:27:18.78

既アーカイブへのURL検索落ちてる？

**名無しさん＠お腹いっぱい。** · 2021/01/07(木) 16:30:50.05

The capture is estimated to start in xxx minutes
今日はこればっかり

**名無しさん＠お腹いっぱい。** · 2021/01/08(金) 02:00:41.10

今は直ったかな?

**名無しさん＠お腹いっぱい。** · 2021/01/08(金) 10:11:43.26

The capture is estimated to start in 61 minutes.

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 00:15:31.32

https://i.imgur.com/2aUfX6u.jpg

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 04:00:24.16

改憲などという重要なものをアニメ絵に頼るカス団体は信用しない

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 11:27:19.35

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 11:47:42.84

落ち着いたかと思ったらJob failed祭り

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 16:52:25.91

ヨブ無能

**名無しさん＠お腹いっぱい。** · 2021/01/09(土) 21:56:53.82

実はちうごくじんなんじゃね

**名無しさん＠お腹いっぱい。** · 2021/01/11(月) 04:45:59.10

寄付した人間のジョブは優先して処理するみたいな仕組みが導入されたらできる限り寄付したい

**名無しさん＠お腹いっぱい。** · 2021/01/11(月) 13:33:23.25

年収20万ドルのエンジニア雇うだけの金があるのに、金で困ってすらないよ
その割にサーバーはザコだが

**名無しさん＠お腹いっぱい。** · 2021/01/12(火) 10:01:11.50

Job failed.ばかりで全然アーカイブできない

**名無しさん＠お腹いっぱい。** · 2021/01/14(木) 08:53:53.82

Sorry
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.

これは今日10回じゃなくて過去24時間に10回の文間違いじゃないの
内容が変わりまくるサイトを保存できなくなった

**名無しさん＠お腹いっぱい。** · 2021/01/14(木) 11:03:11.23

自分以外の誰かも同じサイト保存してる可能性もあるしな

**名無しさん＠お腹いっぱい。** · 2021/01/14(木) 15:57:48.45

一覧性は下がるが、とりあえず後ろに適当なパラメーターでもつければどうか。?1とか。
サイト側にとって未定義のパラメーターなら大抵のサイトはパラメーターなしと同じものを返してくるだろう。

**名無しさん＠お腹いっぱい。** · 2021/01/14(木) 22:53:43.10

またスポーツ新聞野郎か

**名無しさん＠お腹いっぱい。** · 2021/01/15(金) 05:48:54.80

例の人は書き込みの中に必ずスポーツ新聞の話を含めるから多分別人

**名無しさん＠お腹いっぱい。** · 2021/01/15(金) 05:50:45.57

まあ別にスポーツ新聞のアーカイブを手作業で何回取ろうがそれは個人の勝手だから、外野がどうこう言うもんじゃないよ
随分遠回りなことしてるように見えても本人にとっては大事なんだろ、ほっとけ

**名無しさん＠お腹いっぱい。** · 2021/01/16(土) 00:22:05.68

Please email us at "info@archive.org" if you would like to discuss this more.
ってあるんだから
ここで愚痴言うくらいならメール送ったらいいんじゃない？

**名無しさん＠お腹いっぱい。** · 2021/01/16(土) 16:38:22.29

皆さんに質問です！
アーカイブされたページを全文検索できるようになるまで、
あと何年くらいかかると思いますか？

**名無しさん＠お腹いっぱい。** · 2021/01/16(土) 20:12:08.58

昔はできてたこともある気がするから負の数じゃないかな

**名無しさん＠お腹いっぱい。** · 2021/01/17(日) 00:21:40.84

いつにも増して調子悪いな

**名無しさん＠お腹いっぱい。** · 2021/01/18(月) 13:51:31.62

undefined is not an object (evaluating 'e.map')

これって保存できてるの?

**721** · 2021/01/18(月) 15:47:47.92

公開待ち状態みたいだったらしく、1時間後に見たら保存したページが見れるようになった。
マッピングが届いてないとかそんな感じっぽい。

**名無しさん＠お腹いっぱい。** · 2021/01/21(木) 23:18:29.78

Sorry
Live page is not available: chrome-error://chromewebdata/

**名無しさん＠お腹いっぱい。** · 2021/01/22(金) 15:38:58.53

Changesの項目消えた？
あんま使ってなかったからいいけどさ

**名無しさん＠お腹いっぱい。** · 2021/01/22(金) 16:01:35.20

724
今見たら復活してた
タイミングが悪かっただけかな

**名無しさん＠お腹いっぱい。** · 2021/01/22(金) 16:51:49.89

4日ぐらい前に保存した画像でSaved 2 timesとなってるのに青い丸が出ないが
遅れてるだけなのかこれ

**名無しさん＠お腹いっぱい。** · 2021/01/22(金) 22:31:31.69

>>719
Internet Archive サービス終了までに実現できると思う？
いくら遅くてもいいけど

**名無しさん＠お腹いっぱい。** · 2021/01/24(日) 01:33:05.61

ただRecallを復活させればよくね

**名無しさん＠お腹いっぱい。** · 2021/01/24(日) 04:31:27.21

ttps://blog.archive.org/2019/10/23/the-wayback-machines-save-page-now-is-new-and-improved/
ここに載ってる、savepagenow@archive.orgに他人から来たメールをFwdで送ったら
URLを抽出して保存された後に保存済URLが返ってくるのって今も機能してるのか?
メールが返ってこないんだが
ブログ記事の数日後に書かれたコメント欄の時点でメール返ってこねぇって書いてる人いるけども

**名無しさん＠お腹いっぱい。** · 2021/01/24(日) 14:34:02.42

>>662
英語での交渉が得意な人しか使えないじゃん

**名無しさん＠お腹いっぱい。** · 2021/01/24(日) 19:17:01.62

>>730
今時DeepLあたりでも使えばそこまで英語で苦戦することは無いよ
というか英語圏のボランティア団体なんだからこちらが英語に合わせるのは当然のことじゃない？

**名無しさん＠お腹いっぱい。** · 2021/01/24(日) 19:18:46.98

英語が嫌だったらArchiveTeamの日本支部でも作るしかないよね
まあそうなったとしても誰かが英語で本部とやり取りしないといけない訳だからあんまり意味無いけど

**名無しさん＠お腹いっぱい。** · 2021/01/25(月) 09:13:54.98

おいおい何だよこれ

**名無しさん＠お腹いっぱい。** · 2021/01/25(月) 10:13:47.99

>>733
>>721-722
反映を待ってればいい、ダメならもう一度撮り直すしかない

**名無しさん＠お腹いっぱい。** · 2021/01/25(月) 20:24:16.53

次スレの>>1にはアーカイブが取れない問題のQ&A入れないとダメだな

**名無しさん＠お腹いっぱい。** · 2021/01/26(火) 20:37:45.84

エラー文が多すぎて週に1個は新しいのが増えてるからまとめるのめんどくさいわw

**名無しさん＠お腹いっぱい。** · 2021/02/07(日) 15:31:24.66

おまえ今日もう10回とったからダメーっていうのやめて欲しいわ
そもそもエラーだったから取り直してるのはカウントすんなよ

**名無しさん＠お腹いっぱい。** · 2021/02/14(日) 16:09:56.27

archive.isの同じurlの取得間隔が伸びてるっぽい
前にとってから10時間以上経つのに取れない

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 17:54:43.88

追記
やっぱり丸一日経たないと同じurlのアーカイブ取得出来なくなってるっぽい全てのurlかどうかは不明

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 19:35:35.74

>>739
>>739
毎日保存してるのに24時間以上たたないと保存できないのは困る

----------

> このサイトにアクセスできませんweb.archive.org で接続が拒否されました。
> ERR_CONNECTION_REFUSED

保存しすぎて個人的に Web.archive.org にアクセス拒否されたかと思ったｗ

Down for Everyone or Just Me
https://downforeveryoneorjustme.com/web.archive.org
> Web.archive.org Status
> Is web.archive.org down right now?
> It's not just you! web.archive.org is down.

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 19:36:14.63

Internet Archive 鯖落ち？繋がらないわ

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 19:40:02.46

>>740
その表示初めて見るけどブラウザ何使ってる？

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 19:52:03.70

wayback machineぶっ壊れた

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 20:02:02.56

>>742
Google Chrome
https://i.imgur.com/xmvdeg3.png

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 20:18:19.09

telnet で web.archive.org:80 へ接続を仕掛けても繋がらない。
鯖が死んでるわ。

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 21:30:42.26

アメリカは今早朝だから運営寝てるのか

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 22:21:55.65

メンテナンス情報も書いてない。まさか、F5アタックなのか?

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 22:24:25.21

あぁ朝鮮半島からか

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 23:18:16.36

復活したね
保存もできるよ

**名無しさん＠お腹いっぱい。** · 2021/02/15(月) 23:21:29.92

あ、何ページか保存したら接続エラーの連続だらけになった
まだ完全復活できてない模様

**名無しさん＠お腹いっぱい。** · 2021/02/16(火) 01:10:12.48

>>747
てかIAは鯖落ちしようが何も言わない
サンフランシスコ時間で朝になったから、今日も@internetarchiveは更新を始めたようだが、
いつも通りだんまりだね。4時間近く止まってたんだから一言欲しいけど

**名無しさん＠お腹いっぱい。** · 2021/02/16(火) 02:53:38.24

>>717
そこにメールしても返信すらないから意味ないよ
送っても誰もメール見てないんじゃね

**名無しさん＠お腹いっぱい。** · 2021/02/16(火) 10:22:33.21

APIのレスポンス増やしてほしいな
せめて落ちてるときは今落ちてるよ的なのを返して欲しい

**名無しさん＠お腹いっぱい。** · 2021/02/16(火) 22:20:35.70

https://twitter.com/internetarchive/status/1361387442410938370
午前中に技術的な問題が発生
https://twitter.com/internetarchive/status/1361454580869947395
鯖落ちは一時的なバグが原因
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2021/02/17(水) 23:26:58.40

東京大学総合図書館、Internet Archiveとの連携を開始：同館デジタルアーカイブ資料4,000点以上が対象
ttps://current.ndl.go.jp/node/43304

**名無しさん＠お腹いっぱい。** · 2021/02/19(金) 13:11:41.55

job failedの連打

**名無しさん＠お腹いっぱい。** · 2021/02/19(金) 18:11:43.08

job failed多すぎて笑う
APIの反映も遅いし

**名無しさん＠お腹いっぱい。** · 2021/02/19(金) 22:14:59.50

job failedでも保存はされてるか

**名無しさん＠お腹いっぱい。** · 2021/02/20(土) 20:16:11.82

job failedは保存されてなくね？
internal server errorは一応されてるみたいだけど

**名無しさん＠お腹いっぱい。** · 2021/02/21(日) 09:59:06.84

時間おいてやり直すしかないね

**名無しさん＠お腹いっぱい。** · 2021/02/21(日) 13:11:02.40

あれ？job failedでもThis URL has been already captured 10 times todayが出たな
ということは内部的には取れてるのか・・・？よく分からん

**名無しさん＠お腹いっぱい。** · 2021/02/22(月) 14:27:20.34

Fail with status: 498 No Reason Phrase
なんやこれ

**名無しさん＠お腹いっぱい。** · 2021/02/24(水) 15:46:58.89

>>761
上でも書いてる人いるけど、多分保存できてないと思う
最新から10個前の保存時間から24時間経たないとできない

**名無しさん＠お腹いっぱい。** · 2021/02/25(木) 00:31:49.91

job faildばっかり(´・ω・`)

**名無しさん＠お腹いっぱい。** · 2021/02/25(木) 14:27:18.94

job faildは取れている時と取れていない時があるから困りもの

**名無しさん＠お腹いっぱい。** · 2021/02/27(土) 10:54:16.04

We're sorry ― something's gone wrong.
Our team has been notified.
これしか表示されなくなった
完全にぶっ壊れてる

**名無しさん＠お腹いっぱい。** · 2021/02/27(土) 21:12:05.69

チームは何してるの

**名無しさん＠お腹いっぱい。** · 2021/02/28(日) 11:46:27.82

Save Page Nowで保存中に他人が保存したアドレスがたまに表示されてるんだけど、これやばくない?
試しにcurlで/save/から保存するのと同時に、WebブラウザからVPN使って別のIPアドレスにした上でSPNで別のサイトを保存してみたら、
curlで保存中の画像やJavascriptのアドレスがWebブラウザの方に出てきてしまった。
普通に情報流出していてワロタ

このスレでも他人のアドレスが出てくる状態になった報告があるみたいだけど、直す気ないのかな。マジで直したほうがいいと思う。
>>568-570
>>584-589

**名無しさん＠お腹いっぱい。** · 2021/03/01(月) 20:37:48.02

ここ２週間ぐらい、

archive.todayで、

インスタグラムを保存できなくなってるの　俺だけ？

２週間くらい前までは、インスタグラム保存できてたのに。

他にインスタグラムを保存できる魚拓サイトありますか？

**名無しさん＠お腹いっぱい。** · 2021/03/01(月) 23:25:20.89

インスタビューア的な外部サイトがいくつもあるから
それを介して保存するって方法がある
URLをしっかり記録しておかないと参照できなくなるってのが面倒だけど

**名無しさん＠お腹いっぱい。** · 2021/03/02(火) 14:01:49.74

web.archive.org/save であるべーじを保存できた(3月2日)
保存出来た時に表示されるリンクをクリック
→二月中旬に保存したものに飛ぶ

カレンダーを見ると3月2日に保存マークがある
→それをクリックすると二月中旬に保存したものに飛ぶ

これって3月2日に保存は出来たけど閲覧できない状態ということ？

**名無しさん＠お腹いっぱい。** · 2021/03/03(水) 13:37:44.10

>>770

＞インスタビューア的な外部サイトがいくつもあるから
＞それを介して保存するって方法がある

回答ありがとうございます。
「インスタビューア的な外部サイト」でググっていますが、見つかりませんorz。
ちなみにパソコンユーザーです。

保存ができる、おすすめのインスタビューア的な外部サイトを教えていただければ幸いです。ｍ（＿　＿）ｍ

**名無しさん＠お腹いっぱい。** · 2021/03/03(水) 15:26:40.68

この保存職人たちの怒りのスレいわく、
ttps://archive.org/post/1105471/pages-refusing-to-save-this-is-asinine
Poster: Hitsmello Date: Nov 29, 2020 10:39am

Also, lately, I've noticed that the "Job failed" only seems to happen if I check the "Save outlinks" AND the "Please email me the results" boxes.
It WILL save properly if I just check "Save also in my web archive" and "Save outlinks". Gee, I wonder why...

ログインしてSave outlinksとPlease email me the resultsにチェックを入れるとjob failedが出ずに保存できるらしい
俺はアカウントから保存して、ファイルに名前が残るのはやだから、試してないけど

**名無しさん＠お腹いっぱい。** · 2021/03/03(水) 15:31:00.65

>>771
反映待ち状態になってるから、数日後に見れるようになったか確認してみて
大抵は24時間、遅くても2日以内に見れるようになるはず
急いでるか保存失敗してそうなら、同じURLなら30分後以降にまた保存できるので再度保存するのもあり

**名無しさん＠お腹いっぱい。** · 2021/03/03(水) 18:22:54.32

This URL has been already captured 10 times today

同じURLで連続10回保存失敗した場合でもこのエラーが出る。
失敗してるのにこれはないだろ。capturedできてねーぞ。

**名無しさん＠お腹いっぱい。** · 2021/03/03(水) 20:33:32.32

>>772
instagram viewerとかでググって出てきたサイトに投稿を表示させて、その内容を保存するってこと
サイトによって表示される情報量がまちまちだから色々試して使いやすいのを探す必要がある

(例) プロフィール画面
https://web.archive.org/web/20210303101254/https://instastory.net/profile/cristiano
(例) 投稿画面
https://web.archive.org/web/20210303090845/https://instastory.net/post/CL7sxQPgvB6

可能な限りは公式サイトを保存したいところだけど
どうしても無理ならこうするしかないんじゃないかな

**名無しさん＠お腹いっぱい。** · 2021/03/04(木) 17:47:00.70

save画面でキャプチャできたのかリンクが出たからクリックしたらサイトは保存されていませんと出る

**名無しさん＠お腹いっぱい。** · 2021/03/05(金) 04:44:26.90

なんか調子悪いな？

**名無しさん＠お腹いっぱい。** · 2021/03/05(金) 16:53:21.35

さっき知ったけど、IAの社員でWayback Machine責任者のマーク・グラハムさんがSave Page Nowや/save/のAPIの仕様説明書を公開してくれた
ttps://webapps.stackexchange.com/a/151360

自動翻訳かけても読む価値あると思う

Save Page Now 2 Public API Docs Draft
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit
https://docs.google.com/document/d/19RJsRncGUw2qHqGGg9lqYZYf7KKXMDL1Mro5o1Qw6QI/edit

Limitationsのところに制限について書いてあるのを拾ってみると
・同じIPアドレスから同時に6ページ以上SPNや/save/で保存すると自動でエラーになる
・10秒でレスポンス戻ってこなかったらタイムアウト
・50秒で保存先URLはタイムアウト
・spn@archive.org宛に保存したいURLのメールを送ると500個まで保存してくれる(俺の経験上結果がエラーだらけになる可能性大なので確実に保存したいなら手動で)
・ログインしてない同じIPアドレスから画像なども含めて1日2万ページ以上は保存リクエストだせない、ログインしてれば制限なし
・ログインしてAPIキーを取得すれば、プログラムから保存するのもできる

この制限に引っかからないようにすれば、大量保存してる人はうまくいくはず
サンプルコードにも失敗したら保存を繰り返すようなコードになってるから、保存エラーが多いのは認識してるんだろう

**名無しさん＠お腹いっぱい。** · 2021/03/05(金) 16:59:20.94

あとこんなのを発見

IAにログインした上で、Googleスプレットシートに保存したいURLを並べて登録すると保存してくれるサービス
https://archive.org/services/wayback-gsheets

**名無しさん＠お腹いっぱい。** · 2021/03/05(金) 18:13:28.08

>>776

ありがとうございます。上手くいきました

**名無しさん＠お腹いっぱい。** · 2021/03/05(金) 19:51:34.90

A snapshot was captured.が出ればとりあえずは様子見でいいんかな
スナップショット等への反応が即時でないが

**名無しさん＠お腹いっぱい。** · 2021/03/05(金) 20:16:22.56

保存できてもその保存できたページが表示できるまで時間かかってるっぽい？
カレンダーで確かに今日の日付で保存されてるのにそこをクリックしても過去に保存されたページしか出ない
first archiveの場合は成功しましたのリンククリックしても保存されてないになっちゃう

**名無しさん＠お腹いっぱい。** · 2021/03/05(金) 21:10:51.47

>>9を見ろ

**名無しさん＠お腹いっぱい。** · 2021/03/06(土) 02:15:27.01

>>779
思ってたより全然神サービスだったわありがてー

**名無しさん＠お腹いっぱい。** · 2021/03/06(土) 17:13:17.16

>>775
これが一番腹立つ