Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:08:09.83

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

**名無しさん＠お腹いっぱい。** · 2021/05/28(金) 10:04:26.18

>>899
> ジオシティーズみたいな普通のホームページサービスだったみたいだけど

ﾜﾛﾀ

**名無しさん＠お腹いっぱい。** · 2021/05/28(金) 15:24:41.10

ジオシティーズやトクトクは普通だけどフリーティケットシアターは普通じゃない的な

**名無しさん＠お腹いっぱい。** · 2021/05/30(日) 04:42:48.43

/*/はFail with status: 498 No Reason Phrase

**名無しさん＠お腹いっぱい。** · 2021/05/30(日) 17:45:08.98

なるべく円高米ドル安の時に寄付したほうがいいんだろうな。

**名無しさん＠お腹いっぱい。** · 2021/05/30(日) 19:21:56.74

batchのページ開いてもトップに飛ばされてしまうようになった

**名無しさん＠お腹いっぱい。** · 2021/05/31(月) 01:22:39.81

batchのページが復活したっぽい。よかった

**名無しさん＠お腹いっぱい。** · 2021/06/01(火) 03:49:59.92

ｓｗｆのあるページの取得厳しいんだっけ
Cannot fetch the target URL due to system overload.がでる

todayのほうで試したらプロセスが空白で進行せず
megarodonは見かけ上はとれてるがソースからswfの現物アドレスを消して保存してるっぽい

ファイル固有の問題だろうか
デバッガでは開けるんだが

**名無しさん＠お腹いっぱい。** · 2021/06/01(火) 04:36:21.94

swfってただのファイルじゃないの
どうしてそんなことが起こるのですか

**名無しさん＠お腹いっぱい。** · 2021/06/01(火) 11:28:13.18

We only allow new captures of the same URL every 45 minutes.

**名無しさん＠お腹いっぱい。** · 2021/06/01(火) 13:18:27.55

That's too hard to me...

**名無しさん＠お腹いっぱい。** · 2021/06/01(火) 13:20:35.24

激遅の/save/で行けたりしない？＞swf
保存できても表示が更新されないので本当に保存されているか未確認だけど

**名無しさん＠お腹いっぱい。** · 2021/06/01(火) 17:10:58.68

flash表示システムってどうなったんだっけ

**名無しさん＠お腹いっぱい。** · 2021/06/01(火) 19:40:12.28

サポート終了で表示できないっぽい

**名無しさん＠お腹いっぱい。** · 2021/06/02(水) 01:04:22.30

ファイル1個だけなら画像の確認とかやらないから拡張子関係なく超高速で保存できるはずだけど

**名無しさん＠お腹いっぱい。** · 2021/06/02(水) 01:50:07.20

Cannot fetch the target URL due to system overload.
出すぎ

**名無しさん＠お腹いっぱい。** · 2021/06/02(水) 04:57:26.97

>>910
個別のswfのアドレス投げ込んだら保存できたからひとまずはいいことにする
開くときは開けるアドレスを知ってないとあかんね
デバッガだと「swfを置いてるページ」では開けないんでarchiveのソースに書かれてる現物のアドレスを掘り出してデバッガに渡すまでしないと開かない
（開けるのは確認できた）

>>911
なんかアナウンスされてたよね　archiveのswf全部を勝手にブラウザ上で再生してくれるようなものを期待しちゃうけど
そこまでするのは結構大変なはず

**名無しさん＠お腹いっぱい。** · 2021/06/02(水) 08:47:16.75

3Gガラケーの本体自体にフラッシュの再生機能付いててアーカイブ含め見れるが画面が小さいのがあかんな
ガラケー向けの時計フラッシュまちうけフラッシュは本体が壊れない限り確実に永遠に見れるけどペリーのピアノ講師ネタとか永遠に失われそう

**名無しさん＠お腹いっぱい。** · 2021/06/02(水) 14:33:51.58

SPNを保存されたかの確認に使うというわけ分からん状況になってる。
誰かが過去に保存したであろう複数ページの記事が途中歯抜けで保存されているのを見かけた。保存失敗か？
元の記事はもう見れないから補完してあげることもできなかった。

**名無しさん＠お腹いっぱい。** · 2021/06/02(水) 14:54:32.98

twitterの保存だけやけに時間かかるんだけど

**名無しさん＠お腹いっぱい。** · 2021/06/09(水) 00:42:55.87

「Ruffle」というchrome拡張機能使えばFlash見れるよ

**名無しさん＠お腹いっぱい。** · 2021/06/09(水) 01:11:29.08

Sorry
You have already reached the limit of active sessions
↑
先週からエラー出まくり

**名無しさん＠お腹いっぱい。** · 2021/06/09(水) 06:03:50.69

>>920
おまいさんのやり方が悪いだけ。先月の制限強化に引っ掛かってるんだろ。
https://docs.google.com/document/d/19RJsRncGUw2qHqGGg9lqYZYf7KKXMDL1Mro5o1Qw6QI/edit
> 2021-05-23
> Anonymous users have lower concurrent captures limit (limit=3) compared to authenticated users (limit=5).

制限値を超えないよう、保存開始のタイミングを調整するしか無い。
アカウントを作ってログインすれば従前の制限値に戻る上、空きセッション数を API で
得られるようになるので、自動的に空きを待ってから保存するようなシステムも
組めるようになる。
https://web.archive.org/save/status/user (ログインしていなければ 503 エラー)

Change Log に記載は無いが、ログイン済みユーザの制限値は 6 に緩和されている模様。
("available":6)

**名無しさん＠お腹いっぱい。** · 2021/06/09(水) 15:34:51.37

なんかリファラー変更ができなくなったっぽいんだけど俺環？

**名無しさん＠お腹いっぱい。** · 2021/06/09(水) 16:25:44.73

ブラウザが (IA のヘッドレスブラウザも含めて) リファラを送らなくなったとか
そういう話じゃ無くて?

**名無しさん＠お腹いっぱい。** · 2021/06/09(水) 17:46:21.43

マジか。じゃもうリファラ必要なサイトは保存できなくなったのか

**名無しさん＠お腹いっぱい。** · 2021/06/09(水) 18:29:55.92

制限するぐらいなら、有料化しろよ

**名無しさん＠お腹いっぱい。** · 2021/06/10(木) 05:14:53.41

金ローの画像はどういう仕組みなんだろう
https://kinro.ntv.co.jp/lineup/20210611
保存ができてるのかできてないのかがようわからん

/*/上の階層/*/ってファイルサイズは見れんよね

**名無しさん＠お腹いっぱい。** · 2021/06/10(木) 09:28:25.29

API を使うとクッキーも送れるけど、ハイジャック耐性の無いユルいサイトしか使い道が無いな。
http://web.archive.org/web/20210610001000/taruo.net/e/
ちなみに force_get を 0 (または省略) にしておかないと capture_cookie を指定しても無視される。

**名無しさん＠お腹いっぱい。** · 2021/06/10(木) 09:46:43.59

そうそう、IA のアーカイブはサーバのレスポンスヘッダが丸ごと保存されていることに留意。
つまり Set-Cookie でクッキーが返されていた場合、それも保存されているという事。
ログイン管理にクッキーを利用しているサイトで、アーカイブのデータを利用して
誰かに勝手にログインされるという事も起こりうる。

**名無しさん＠お腹いっぱい。** · 2021/06/10(木) 16:53:57.18

なにそれこわい

**名無しさん＠お腹いっぱい。** · 2021/06/12(土) 22:30:39.38

また繋がらなくなった?
保存しようとしても503やら404の画面になるんだけど…

**名無しさん＠お腹いっぱい。** · 2021/06/12(土) 22:36:49.23

そうみたい

**名無しさん＠お腹いっぱい。** · 2021/06/12(土) 22:49:26.53

しばらくは駄目そうだな

**名無しさん＠お腹いっぱい。** · 2021/06/12(土) 23:14:58.67

最近、頻繁に使うようになったけど、今繋がらないみたいだね。
だいたいどれくらいで復帰するんだろうか？
1日2日はかかるかな？

**名無しさん＠お腹いっぱい。** · 2021/06/12(土) 23:18:19.16

503エラー？

**名無しさん＠お腹いっぱい。** · 2021/06/13(日) 00:44:05.86

さっき見たときは直ってた

**名無しさん＠お腹いっぱい。** · 2021/06/13(日) 08:29:59.22

親切な表示が出るようになってる
You may close your browser window and the page will still be saved.

**名無しさん＠お腹いっぱい。** · 2021/06/13(日) 17:29:48.96

さじをなげたか

**名無しさん＠お腹いっぱい。** · 2021/06/14(月) 11:43:37.62

Batch Archiveに入れない

**名無しさん＠お腹いっぱい。** · 2021/06/15(火) 07:00:28.90

向こうで計画停電が起こるみたいだから、こっちの時刻で16日の0時30分からしばらくサービス停止するらしい。
https://i.imgur.com/upjcBi3.png
https://www.jisakeisan.com/?y=2021&;m=6&d=15&hh=8&mm=30&t1=pdt&t2=jst

**名無しさん＠お腹いっぱい。** · 2021/06/15(火) 09:25:17.87

>>939
Due to a planned power outage, our services will be reduced on Tuesday, June 15th, starting at 8:30am PDT until the work is complete. We apologize for the inconvenience.

この程度の英文すら機械翻訳使わなきゃ読めない低能

**名無しさん＠お腹いっぱい。** · 2021/06/15(火) 14:04:45.44

喧嘩はよそで一人でやってろよ

**名無しさん＠お腹いっぱい。** · 2021/06/15(火) 15:21:07.34

人は上から目線で間違いを訂正するときに性行為より快感を感じるらしい

**イモー虫** · 2021/06/18(金) 20:45:23.13

読み込み機能は機能しているのか

**名無しさん＠お腹いっぱい。** · 2021/06/19(土) 14:06:16.43

The capture is estimated to start in 120 minutes. You may close your browser window and the page will still be saved.

うっかりログインし忘れるとこれだわw

**名無しさん＠お腹いっぱい。** · 2021/06/19(土) 18:36:08.03

523分待ちだったわ　撮ってくれるんならまあいいけど

**名無しさん＠お腹いっぱい。** · 2021/06/19(土) 19:35:06.80

>>899
members.jcom.home.ne.jpも This URL has been excluded from the Wayback Machine.になるね

**名無しさん＠お腹いっぱい。** · 2021/06/19(土) 21:03:13.89

残り763分

**名無しさん＠お腹いっぱい。** · 2021/06/19(土) 23:24:40.50

今968分待ち、今日中に1000分超えるかな

**名無しさん＠お腹いっぱい。** · 2021/06/20(日) 00:40:25.87

1085分、てかアカウントでログインして保存しようとしてもこの表示出るじゃん
アカウント作った意味ないわ

**名無しさん＠お腹いっぱい。** · 2021/06/20(日) 01:26:26.34

待ち時間が一度表示されてしまうと、その後ログインして
同じURLの再保存を試みても待ち時間が延びるだけ。

**名無しさん＠お腹いっぱい。** · 2021/06/20(日) 03:44:33.22

1393分待ちになってる

**名無しさん＠お腹いっぱい。** · 2021/06/20(日) 12:42:15.80

保存は匿名で出来るんですか?

**名無しさん＠お腹いっぱい。** · 2021/06/20(日) 12:58:58.94

まだログインしないと待ち時間が出る状態なの?
ご愁傷様w

**名無しさん＠お腹いっぱい。** · 2021/06/20(日) 15:59:50.29

今は直ってるな
というか別に待ち時間があっても後で保存されるんだから良くね？

**名無しさん＠お腹いっぱい。** · 2021/06/21(月) 02:12:27.28

伊是名夏子のブログのアーカイブを見ようとすると
6月初めぐらいからThis URL has been excluded〜が出るようになってるんだけど、
非表示化か削除依頼出したみたいだねこれ。

**名無しさん＠お腹いっぱい。** · 2021/06/21(月) 10:45:02.62

アーカイブのアーカイブが必要になりそう

**名無しさん＠お腹いっぱい。** · 2021/06/21(月) 14:15:21.05

archive.isなら消されない

**名無しさん＠お腹いっぱい。** · 2021/06/21(月) 14:49:55.10

archive.is 自体が消えてしまったりしないの? という話が。

**名無しさん＠お腹いっぱい。** · 2021/06/21(月) 19:46:33.38

永久不滅アーカイヴが必要

**名無しさん＠お腹いっぱい。** · 2021/06/22(火) 06:37:35.24

Cannot get status of spn2-2afbf2c51be876410f7a78331b331ea74cd21c67-5a282757

**名無しさん＠お腹いっぱい。** · 2021/06/24(木) 00:03:38.03

>>953
ログインしてても普通に待ち時間表示出るけど、時間帯によって変わったりするの？

**名無しさん＠お腹いっぱい。** · 2021/06/27(日) 13:37:52.83

>>952
>>57

問題なのは関連付けされてる場合はログインしている時のメールアドレスやユーザ名、ログイン関係なくハッシュ化したIPアドレスやUserAgent部分がWARCファイルの名前フィールド部分に保存される可能性がある。
気になるなら保存するときだけUserAgentやIPアドレス変えたり保存するページごとに別ければいい。

**名無しさん＠お腹いっぱい。** · 2021/06/28(月) 11:48:52.21

何度許可してもログインしなおしてもBatchのArchive URLｓに入れない

**名無しさん＠お腹いっぱい。** · 2021/07/02(金) 11:56:14.72

Batch入れないけど、騒いでるの俺だけっぽいから俺環なのか

**名無しさん＠お腹いっぱい。** · 2021/07/02(金) 15:17:24.60

皆さん自前でバッチ処理しているから使ってない、に一票

**名無しさん＠お腹いっぱい。** · 2021/07/12(月) 07:09:59.53

あるWEBサイトの一部が消えているのだけれど、
インターネットアーカイブでも履歴が残っていないことがある
忍者とかいうブログサイトを使っているのだが、
あそこって削除した画像とかの履歴を残さないようにする機能とかあるのだろうか

**名無しさん＠お腹いっぱい。** · 2021/07/12(月) 16:06:59.65

>>966
他の魚拓サイトにも残ってないの?まあブログはアーカイブされてないことが多いからなぁ。

**名無しさん＠お腹いっぱい。** · 2021/07/12(月) 16:33:16.08

忍者って昔やたらボット除けに精を出してた所じゃないか
って今時の人は知らんのか

で、もうそろそろ次スレテンプレの話題でも

**名無しさん＠お腹いっぱい。** · 2021/07/12(月) 23:07:03.45

〓テンプレ（案

現行の関連スレ
https://refind2ch.org/search?q=archive.

**名無しさん＠お腹いっぱい。** · 2021/07/14(水) 01:47:06.23

ツイッターのアーカイブ保存、回収の法則テンプレに入れようぜ。
アーカイブ保存は
mobile.ツイッター.com
でなければならないが
回収web.archive.org/web/9999/はmobile.を外さなきゃならない
ってこれガラケーだけ？

**名無しさん＠お腹いっぱい。** · 2021/07/14(水) 04:14:39.67

ガラケー？そんなものの情報要るの？

**名無しさん＠お腹いっぱい。** · 2021/07/16(金) 04:27:32.78

普通にTwitterをアーカイブすればmobileは付かないと思うんだが・・・
それは置いといて>>5とかの話は入れたほうが良さそう

**名無しさん＠お腹いっぱい。** · 2021/07/16(金) 13:46:21.98

最近は反映が早い

**名無しさん＠お腹いっぱい。** · 2021/07/18(日) 03:03:30.60

Hrm.
The Wayback Machine has not archived that URL.って出るサイトは
どうやってもみれないんですか？

**名無しさん＠お腹いっぱい。** · 2021/07/18(日) 18:09:30.90

>>974
アーカイブしてないからそもそも保存されてない

**名無しさん＠お腹いっぱい。** · 2021/07/18(日) 19:27:16.87

ttps://wiki.archiveteam.org/images/e/e6/Archiveteam.jpg
archiveteamが保存した一部のスナップショットを見ると、この「俺たちが保存したぜ」画像のURLを読み込むから、
誰がどのページを見たかarchiveteamのウィキサイトに情報が漏れるんだけど、ただのスパイじゃねーか。
Internet Archiveの人は誰も気付いてないのかなこれ。

**名無しさん＠お腹いっぱい。** · 2021/07/18(日) 20:43:46.80

と、自分でスクリプトを組んでアーカイブできない無能が文句を垂れております。

**名無しさん＠お腹いっぱい。** · 2021/07/19(月) 02:22:16.98

>>977
個人がアップロードしたWARCファイルは扱ってないじゃん
結局のところ制限引っかからないように/save/にURL投げるコードしか組めんよ
何も知らない無能はお前だ

**名無しさん＠お腹いっぱい。** · 2021/07/19(月) 05:43:32.79

そのレベルの情報を気にするなら個人でproxyなりVPNなり使えばいいのでは
なぜArchiveTeamだけを気にしてるのかは知らんが

**名無しさん＠お腹いっぱい。** · 2021/07/19(月) 22:59:58.68

>>976
ほんまや
About this captureの説明のところに埋め込んであった
でもブラウザの挙動はCSPで読み込みブロックってなってるから
インターネットアーカイブ側の対策でデータは送信されてない感じかね

**名無しさん＠お腹いっぱい。** · 2021/07/23(金) 00:21:19.80

25周年記念サイト
https://anniversary.archive.org/

**名無しさん＠お腹いっぱい。** · 2021/07/23(金) 16:15:09.58

インターネットアーカイブが25歳になったら、知識がすべての人にとってよりアクセスしやすくなった極めて重要な瞬間を経て、戻る方法から進む方法への旅にあなたを招待します。

アレクサンドリア図書館からヨハネスグーテンベルクによる印刷機の発明まで。
情報への権利の第一修正の保証からワールドワイドウェブの作成まで、知識へのアクセスは常に建設者と夢想家のおかげでした。

さて、ブリュースター・ケールという若いコンピューター科学者がデジタル時代の「すべての図書館」を建設することを夢見ていた1996年にさかのぼります。
人類の出版されたすべての作品を含み、一般に無料で、時代を超えて非営利団体として構成されたライブラリ。彼はこのデジタルライブラリをインターネットアーカイブと名付けました。
その使命は、すべての人に「すべての知識への普遍的なアクセス」を提供することです。

この25年のマイルストーンに関するブリュースターの考察を読む

バーチャルセレブレーションに参加する
あなたが世界のどこにいても、私たちと一緒に祝いに来てください。

ウェイバックからウェイフォワードへ：25のインターネットアーカイブ
星を目指して到達したビルダーと夢想家との仮想の旅。
10月21日木曜日午後6時PT（午後9時ET）

**名無しさん＠お腹いっぱい。** · 2021/07/24(土) 02:54:26.16

YoutubeのURL取ったら下のメッセージが出た
It may take a few days for YouTube videos to become available for playback.

動画もアーカイブされてるってことでいいのかな？

**名無しさん＠お腹いっぱい。** · 2021/07/24(土) 13:53:59.14

Youtubeを保存したいなら手動保存が望ましい。クローラーの保存だと再生できないケースあり。

**名無しさん＠お腹いっぱい。** · 2021/07/31(土) 03:20:35.58

そろそろ６０００億超えるか

**名無しさん＠お腹いっぱい。** · 2021/07/31(土) 19:00:56.16

<title>だけでも検索できるといいんだけどなあ

**名無しさん＠お腹いっぱい。** · 2021/07/31(土) 21:11:28.65

いまツイッターの動画って保存できねえんだっけ

**名無しさん＠お腹いっぱい。** · 2021/08/01(日) 03:48:55.71

そうなの？（そうなの？）

**名無しさん＠お腹いっぱい。** · 2021/08/01(日) 16:10:13.05

>>987
これ使ってURL変換すると保存できるよ
https://lab.syncer.jp/Tool/Twitter-Video-URL-Converter/

**名無しさん＠お腹いっぱい。** · 2021/08/01(日) 18:08:12.29

ページからたどれなくならね

**名無しさん＠お腹いっぱい。** · 2021/08/01(日) 18:27:20.02

それはしゃーない

**名無しさん＠お腹いっぱい。** · 2021/08/01(日) 19:07:49.48

次スレたのんます

**名無しさん＠お腹いっぱい。** · 2021/08/13(金) 03:38:50.58

>>992

Internet Archive総合 (web.archive.org) #4
https://mevius.5ch.net/test/read.cgi/esite/1628793497/

**名無しさん＠お腹いっぱい。** · 2021/08/13(金) 07:19:48.01

Tor clients have already done 200,000 captures today. Please email us at "info@archive.org" if you would like to discuss this more.
とか出てきたんやけど・・・

**名無しさん＠お腹いっぱい。** · 2021/08/13(金) 09:36:18.65

Tor使ってないのに俺も今日初めてそのエラーが出てきた
9時過ぎたので、一応リセットされて表示されなくなったが、
毎日これが出たら困るな、特に朝保存したい場合は

**名無しさん＠お腹いっぱい。** · 2021/08/13(金) 13:38:54.09

健康のための朝保存

**名無しさん＠お腹いっぱい。** · 2021/08/13(金) 19:21:46.35

>>993

おつでござんす

**名無しさん＠お腹いっぱい。** · 2021/08/13(金) 19:26:23.91

IAの中の人はTorがどういうものか分かってないらしいw

**名無しさん＠お腹いっぱい。** · 2021/08/13(金) 20:25:45.61

999!

**名無しさん＠お腹いっぱい。** · 2021/08/13(金) 20:56:15.43

【 html化されたこのスレを読んでいるお前へ】

おい、お前。そう、お前だよ。
「このスレおもろいから見てみ」「２ちゃんの歴史に残る名スレだぜ」とか言われてホイホイと
このhtml化されたスレを見にきた、お前のことだ。
どうだ？このスレおもしれーだろ。
でもな、お前はこのスレを読むだけで、参加することはできねーんだよ。
可愛そうにな、ﾌﾟﾌﾟﾌﾟ。
俺は今、ライブでこのスレに参加してる。
すっげー貴重な経験したよ。この先いつまでも自慢できる。
まあ、お前みたいな出遅れ君は、html化されたこのスレを指くわえて眺めてろってこった。