Internet Archive総合 (web.archive.org) #4

**名無しさん＠お腹いっぱい。** · 2021/08/13(金) 03:38:17.64

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #3
https://mevius.5ch.net/test/read.cgi/esite/1585760889/

**名無しさん＠お腹いっぱい。** · 2023/05/20(土) 07:54:28.80

PDFファイルのURLを保存させたらその1ページ目しか保存されないのだけど仕様？
なわけないよなぁ

**名無しさん＠お腹いっぱい。** · 2023/05/20(土) 14:46:31.42

>>900
閲覧環境によっては、1ページ目しか表示されない場合がある
(iOSとかだとダメっぽいな)

解決策は、閲覧したいページのURLを編集して数字の後ろにid_ をつけ加えると保存されたまんまの状態で表示されるから、これで全ページ閲覧できるようになるよ

↓こんな感じ
https://web.archive.org/web/数字id_/ページURL

**名無しさん＠お腹いっぱい。** · 2023/05/21(日) 08:54:49.03

>>901
thx。たしかにiOSのSafariで見てた
保存ではなく閲覧環境の問題なのね

**名無しさん＠お腹いっぱい。** · 2023/05/22(月) 06:19:18.94

>>893

https://github.com/overcast07/wayback-machine-spn-scripts
これいいよーs3キーも渡せて
URLリストがあるテキストファイルも渡せる
あと便利なのが再試行機能がある

**名無しさん＠お腹いっぱい。** · 2023/05/22(月) 23:11:28.24

>>903
WSL使うのが嫌だったので遠ざけていましたが使ってみます。
ありがとうございます。

**名無しさん＠お腹いっぱい。** · 2023/05/23(火) 00:08:11.50

画像類似検索に対応しないのだろうか

**名無しさん＠お腹いっぱい。** · 2023/05/23(火) 00:11:24.51

「リンクと画像の抜き出しツール」のアーカイブから画像のURLを入れると画像が保存されているか確認できる。

**名無しさん＠お腹いっぱい。** · 2023/05/23(火) 00:13:41.17

「URLからタイトルゲット君」というサイトも保存確認できる。

**名無しさん＠お腹いっぱい。** · 2023/05/23(火) 05:22:57.93

>>904
そんなに量がないんだったら無料版Colabで走らせてもいいかもね

**名無しさん＠お腹いっぱい。** · 2023/05/23(火) 20:02:46.33

>>892
3月までtodayでアーカイブしたGoogle検索結果をorgで重バックアップしたり出来たが（アクセス環境により検索ワード化けが生じるため）、4月からエラーで弾かれるようになってしまった。

ヤフオクの出品物もorgから取れなくなったし

**名無しさん＠お腹いっぱい。** · 2023/05/25(木) 06:53:09.12

302エラーの無限ループってなんか解決法ある

**名無しさん＠お腹いっぱい。** · 2023/05/25(木) 23:16:17.83

Something went wrong. Try reloading.

ツイッターのアーカイブ閲覧しようとするとこうなるけど、おま環？

**名無しさん＠お腹いっぱい。** · 2023/05/27(土) 13:07:42.53

ふとIAの動画ブラウジングしてたんだけど字幕付きのアニメとか滅茶苦茶うpされて、無法地帯になっててワロタ
アメリカのフェアユースってそんな強いのか

**名無しさん＠お腹いっぱい。** · 2023/05/28(日) 00:55:59.95

>>912
いや普通にアウトだし消されてるよ、いたちごっこだけど
IAの人も何が重要なデータか分からなくなるから止めろってツイートしてたりする
基本的にIAのアカウントがアップしたもの以外は信用しない方がいい

**名無しさん＠お腹いっぱい。** · 2023/05/30(火) 00:40:42.53

502エラーだ

**名無しさん＠お腹いっぱい。** · 2023/06/07(水) 14:18:47.51

アイテムの方にある動画、一定以上のサイズだとブラウザで再生出来ないっぽいな
自分が見たのは20GB超だけど読み込みがされなかった
curlでダウンロードしてローカルで再生は出来たので、ちゃんとアーカイブはされてるらしい

**名無しさん＠お腹いっぱい。** · 2023/06/07(水) 16:00:32.06

それってエンコード時の設定に依ったりしない？
例えば mp4 なら moov atom をファイル先頭に持ってきていないとか。

**名無しさん＠お腹いっぱい。** · 2023/06/11(日) 12:01:40.24

トップページの保存数（Explore more than XXX billion）がたまに十億単位で減るの
何なんだろうか？

**名無しさん＠お腹いっぱい。** · 2023/06/14(水) 11:09:59.33

詳しいことよく知らなくてTorのブラウザでarchivetoday使おうとしたらTor使ってないときでもarchivetodayにアクセスできなくなった
クッキー消去したらまた使えるようになったけどブラックリスト的なものに載ってないか不安

**名無しさん＠お腹いっぱい。** · 2023/06/14(水) 13:17:02.82

>>918
まともにTor使ってるなら、生IPとの関連付けが出来ないんだからTor使ってないときにアクセス不可になるはずがない
それすら分からないならtorは使わない方が良いよ、絶対にどこかでやらかす

**名無しさん＠お腹いっぱい。** · 2023/06/14(水) 13:48:21.90

なんでわざわざTorブラウザでarchivetoday使おうとしたの？普通のブラウザでも使えるよ

**名無しさん＠お腹いっぱい。** · 2023/06/14(水) 14:07:59.22

>>920
10年以上前にTor使えばInstagramでも魚拓取れるって書き込みを見つけたので試したくなったんです
無知ですいませんでした

**名無しさん＠お腹いっぱい。** · 2023/06/14(水) 15:38:07.85

IP紐づいてなくてもフィンガープリントで同一デバイスだと疑われてる可能性はある

とは言っても、torブラウザでtoday使うとCloudflareにブロックされて要JSの認証要求されるから回避も難しいんだよな

唯一の回避策は、使えそうなweb串探してtor→web串→todayでアクセスするくらいか

フィンガープリント追跡防止の拡張機能とかもあるからそういうのを普段使いしてみるのも対策の一つになるかもね

**名無しさん＠お腹いっぱい。** · 2023/06/16(金) 02:07:18.67

今更だけど3200ツイート保存のやつエラーで動かなくなってる
Twitterの仕様が変わった辺りからかな？確認してなかった

**名無しさん＠お腹いっぱい。** · 2023/06/16(金) 14:06:14.26

collections情報死んでるなぁ

**名無しさん＠お腹いっぱい。** · 2023/06/22(木) 18:22:40.12

IAでTwitter取れなくなってる？

**925** · 2023/06/23(金) 19:17:09.24

今やったら取れた、何だったんだろう

**名無しさん＠お腹いっぱい。** · 2023/06/23(金) 19:17:24.81

>>867>>869
Twitterの鍵垢を保存したら犬のエラーが保存されたわ。原因はこれじゃない?

**名無しさん＠お腹いっぱい。** · 2023/06/24(土) 10:29:59.86

>>927
いや普通の公開アカウントだった
なぜか木曜日だけどのツイートも犬のエラーになってた

**名無しさん＠お腹いっぱい。** · 2023/06/27(火) 20:37:16.58

https://esica.shop/collections/weekly-ranking/products/eset-4660

↑みたいなサイトを保存すると保存直後は画像が表示されてるのに数か月後保存ページにアクセスすると、
一部画像が表示されないって事が多々あるんだけどおま環？
そのページの画像（大きい小さい表示されるの全て）を一括で保存する方法って無いのかな

**名無しさん＠お腹いっぱい。** · 2023/06/28(水) 09:49:10.92

>>929
数か月後どころか、保存直後も大量の画像が欠落してるんだけど・・・

スクリプトで読み込ませてる画像の一括取得は現状では無理。
ブラウザでアーカイブを表示したときに初めて取得リクエストが発行されるが、
毎分 2 個か 3 個の画像を取得するだけで、あとは 429 Too Many Requests エラーが返ってしまう。
必要な画像を拾い終えるまで、同じアーカイブを数分おきにブラウザで繰り返し表示するしかない。

昨晩ここの画像を全部拾わせてみたので、数か月後にどうなってるか見てみよう。
https://web.archive.org/web/20230627123623/esica.shop/collections/weekly-ranking/products/eset-4160

**名無しさん＠お腹いっぱい。** · 2023/06/29(木) 14:23:51.75

今風のスクリプトマシマシ動的サイトはアーカイブするのが難しいからね
画像だけ欠落するならまだマシで、サイト自体が取れないことも珍しくない

**名無しさん＠お腹いっぱい。** · 2023/06/30(金) 19:13:53.48

Twitterの投稿、wayback machineはアーカイブできるけどarchive todayはできなくなってない？

**名無しさん＠お腹いっぱい。** · 2023/06/30(金) 23:57:35.95

>>932
Twitterの仕様変更でログイン状態じゃないとログインページにリダイレクトされるようになったっぽいな
Internet Archiveは何か特別な処理挟んでるのかね

**名無しさん＠お腹いっぱい。** · 2023/07/01(土) 08:31:58.04

save-page-now-outlinksって今動いてないの?
リンク先の保存もやらなきゃいけないじゃんか

**名無しさん＠お腹いっぱい。** · 2023/07/01(土) 23:20:07.49

>>933
ほんとだログインしたらアーカイブできた
どうやってログイン状態検出してるのかも謎だ

**名無しさん＠お腹いっぱい。** · 2023/07/02(日) 15:59:18.82

Pixivのページを保存したいとき、英語ページのURL（en）へ転送されないようにするにはヘッダーに何を指定すればいい？
なんか方法ある？

**名無しさん＠お腹いっぱい。** · 2023/07/02(日) 17:27:30.52

Pixiv から user_language=ja ってクッキーを食べたことにしておけば、
つまりそれを capture_cookie 引数に与えて Save Page Now すれば
転送はされなくなるけど・・・どこも真っ白だぁ

**名無しさん＠お腹いっぱい。** · 2023/07/02(日) 18:18:54.77

waybackもtodayもtwitter保存できねえ

**名無しさん＠お腹いっぱい。** · 2023/07/02(日) 19:09:16.35

Twitter自体が現在不調だからね直してもらわないと

**名無しさん＠お腹いっぱい。** · 2023/07/02(日) 20:01:41.67

仕様やぞ

**名無しさん＠お腹いっぱい。** · 2023/07/03(月) 00:38:46.97

Twitterの仕様変更で
魚拓取れなくなるのかな…
アカウント必須になったら魚拓取れない…

**名無しさん＠お腹いっぱい。** · 2023/07/05(水) 02:00:10.44

Twitterは仕様変更するわ、IAは保存しても読み込めるまで1日以上かかるわ、インターネットに波乱起きすぎ

**名無しさん＠お腹いっぱい。** · 2023/07/05(水) 17:06:56.09

やっとTwitter直ったか？

**名無しさん＠お腹いっぱい。** · 2023/07/06(木) 15:44:51.95

今保存できない?

**名無しさん＠お腹いっぱい。** · 2023/07/06(木) 16:39:15.39

archive.org/details/save-page-now?sort=-addeddate
日本時間13時21分のファイル以降、SPNの新しいコレクションファイルが増えてないので止まってたっぽいが、今は復帰して保存できるっぽい。

**名無しさん＠お腹いっぱい。** · 2023/07/07(金) 16:44:02.26

Twitter、一応取れるようにはなったが単体ツイートしか取れなくなったな
前はリプライも全部保存出来たが不可能になった
あとプロフィールページも保存出来ない

IAの問題ではなく、Twitter側が非ログイン状態での表示を止めたせい

**名無しさん＠お腹いっぱい。** · 2023/07/10(月) 20:27:23.81

5chもぼちぼちアーカイブしていかないとヤバイ感じか？

**名無しさん＠お腹いっぱい。** · 2023/07/10(月) 21:07:05.59

5ちゃんのスレも個人的に保存はちょくちょくやってはいるんだけど、すぐ人大杉になって作業が止まるのが難点。
自分の住民やってるスレやその過去スレからでいいので、やっておいた方がいいよ。

**名無しさん＠お腹いっぱい。** · 2023/07/11(火) 00:09:37.44

これはヤバいな
過去ログごと消えたら洒落にならない

**名無しさん＠お腹いっぱい。** · 2023/07/11(火) 00:36:08.07

筑波大吉田光男准教授が公開してる5chスレタイのデータセット
http://open.ceek.jp

**名無しさん＠お腹いっぱい。** · 2023/07/11(火) 06:54:39.48

IAのチームに過去ログ全部クロールして欲しいな。今はなんとか過去ログが見れるけど、明日急に全部見れなくなっても全く不思議じゃないからヒヤヒヤしてる
似たようなサイトでredditって過去ログ保管されてるんだろうか

**名無しさん＠お腹いっぱい。** · 2023/07/12(水) 22:56:55.39

threadsってアーカイブ出来ないタイプのサイトかぁ・・・

**名無しさん＠お腹いっぱい。** · 2023/07/12(水) 22:56:57.12

threadsってアーカイブ出来ないタイプのサイトかぁ・・・

**名無しさん＠お腹いっぱい。** · 2023/07/14(金) 06:06:42.35

埋まるからちとｓｃに貼っとこ

**名無しさん＠お腹いっぱい。** · 2023/07/15(土) 00:51:33.90

「好き嫌い.com」は魚拓サイトで魚拓を取ってもコメント欄だけが保存されない

どうすればコメント欄も保存できるかな？

i.imgur.com/2uPwBGz.png　archive.li/6nRmy

**名無しさん＠お腹いっぱい。** · 2023/07/15(土) 05:12:26.78

5chを保存しようとクロールしたらクロールが全く意味を成さないわね…なにかいい方法あるだろうか？

**名無しさん＠お腹いっぱい。** · 2023/07/15(土) 20:07:35.02

Internet ArchiveのFlashエミュレータが改良されてより多くの作品をサポートできるようになった模様
これにより今まで利用できなかった作品がコレクションに加わるとのこと

詳細
https://mastodon.archive.org/@textfiles/110697893762381822q
新たに実行可能になった作品例
https://twitter.com/internetarchive/status/1679948028008955904
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2023/07/16(日) 13:40:10.97

これからAI時代になると、IAのデータってますます重要になりそうだな（AIとIAでややこしい）

**名無しさん＠お腹いっぱい。** · 2023/07/17(月) 19:01:14.10

5chの過去ログほとんどアーカイブされてないのか

**名無しさん＠お腹いっぱい。** · 2023/07/18(火) 18:40:50.87

yahooニュースのコメント保存できるようになったな

**名無しさん＠お腹いっぱい。** · 2023/07/19(水) 01:28:09.90

>>959
板にもよるだろうけど軽く触ってみた感じは全部first archiveだな
https://litter.catbox.moe/bk9qgj.png

**名無しさん＠お腹いっぱい。** · 2023/07/19(水) 08:24:09.27

過去ログ取ろうとしたけど膨大やな
自分の環境だと七時間で2500urlぐらい

**名無しさん＠お腹いっぱい。** · 2023/07/20(木) 17:51:13.77

>>961
2chから5chにURL変わった影響もありそう

てかTwitterの会話取れなくなったの不便すぎるな

**名無しさん＠お腹いっぱい。** · 2023/07/20(木) 17:53:22.93

ここ最近やる気を感じないな、アクティブチームは。
自動アーカイブも全然取れてないし。

**名無しさん＠お腹いっぱい。** · 2023/07/20(木) 22:16:04.23

>>964
>>595

アクティブチームｗ

**名無しさん＠お腹いっぱい。** · 2023/07/20(木) 23:04:52.71

アクティブチームって何だArchive-teamのこと？

**名無しさん＠お腹いっぱい。** · 2023/07/21(金) 00:44:18.55

URLが.phから.isに変わった？

**名無しさん＠お腹いっぱい。** · 2023/07/21(金) 03:00:05.35

>>967
すれち＆時代遅れ
https://itest.5ch.net/mevius/test/read.cgi/internet/1554553882/

**名無しさん＠お腹いっぱい。** · 2023/07/22(土) 00:46:07.17

うーん、ボタンを押しても即座にこれが返ってくる

**名無しさん＠お腹いっぱい。** · 2023/07/22(土) 01:02:42.11

俺もや、ついに規制くらったかと思ったけど
サーバー側の問題か

**名無しさん＠お腹いっぱい。** · 2023/07/22(土) 01:16:32.28

どこか特定のサイトを取得する場合の問題かと思ったら別のサイトで試しても>>969

**969** · 2023/07/22(土) 06:28:15.78

https://web.archive.org/web/1im_/o.5ch.net/21i4q.png
復活っ!!

**名無しさん＠お腹いっぱい。** · 2023/07/23(日) 01:54:01.56

https://web.archive.org/web/*/mevius.5ch.net/esite/oyster/*
過去ログdatのアーカイブ取ってる人って居ないよなぁ

**名無しさん＠お腹いっぱい。** · 2023/07/23(日) 04:07:26.60

過去ログはとってるけど全然追いついてないな

**名無しさん＠お腹いっぱい。** · 2023/07/24(月) 07:55:27.47

放置してたらURL8万行分集めてて、もう飽きたからこれアーカイブしてdatアーカイブやめます
保存されるやつみたら文字化けしてるし意味あるのかなといった感じでもある
普通の過去ログやる方が有意義におもう

**名無しさん＠お腹いっぱい。** · 2023/07/25(火) 22:01:25.69

スクリプト回してるのにim_とかid_とか知らないって嘘くせぇ

**名無しさん＠お腹いっぱい。** · 2023/07/25(火) 23:00:40.88

Twitchもyoutubeみたいにアーカイブ保存出来るようにならんかなぁ
というかyoutubeと違って一定期間で消えるから、むしろこっちを優先して欲しいまである

**名無しさん＠お腹いっぱい。** · 2023/07/26(水) 07:00:14.47

動画ファイルバカでかいししゃーないでしょ
キリないもん、あとtubeupえばupはできると思う
だけどあれ待機時間がすげー長いんだよなぁ

**名無しさん＠お腹いっぱい。** · 2023/07/26(水) 16:48:33.58

>>976
それなに？スクリプト使ってないから知らない

**名無しさん＠お腹いっぱい。** · 2023/07/27(木) 08:29:32.45

>>975
どうやって8万行も集めたの？
詳しく聞かせてほしい

Googleの拡張機能でアーカイブ常に取る設定にしてたとか？

**名無しさん＠お腹いっぱい。** · 2023/07/27(木) 16:31:17.56

>>980

ただずっと>903のスクリプト動かしてただけ
outlinkの取得先は全板の過去ログのurlを指定した

**名無しさん＠お腹いっぱい。** · 2023/07/27(木) 18:44:11.66

スクリプト回してるのにim_とかid_とか知らないって嘘くせぇ

**名無しさん＠お腹いっぱい。** · 2023/07/28(金) 05:52:22.75

次スレたのんます

**名無しさん＠お腹いっぱい。** · 2023/07/28(金) 07:03:23.87

Internet Archive総合 (web.archive.org) #5
https://mevius.5ch.net/test/read.cgi/esite/1690495133/

**名無しさん＠お腹いっぱい。** · 2023/07/28(金) 16:20:58.19

おつでごわす

**名無しさん＠お腹いっぱい。** · 2023/07/31(月) 10:21:47.20

立て乙

**名無しさん＠お腹いっぱい。** · 2023/08/01(火) 08:12:52.33

1週前ぐらいに取得した（ことになってる）はずなのに取得できてないのがいくつも・・・
The snapshot may not be available right now, please try again later.
最近が↑たまに出るが、
それとの関係だろうか・・・
せっかく時間かけて取得したはずができてないのは残念

**名無しさん＠お腹いっぱい。** · 2023/08/01(火) 08:14:32.08

最近が↑→最近↑が

**名無しさん＠お腹いっぱい。** · 2023/08/09(水) 21:27:34.47

>>975
エアプ乙ｗ

**名無しさん＠お腹いっぱい。** · 2023/08/09(水) 22:47:57.99

todayの話題はここでいいの？

**名無しさん＠お腹いっぱい。** · 2023/08/10(木) 05:28:04.06

archive.isはもう3日ほど繋がらないし
Wayback Machineは相変わらずツイッタープロフィールとリプがダメで
リプで繋がってるものも個々でしか取れないから面倒くさい

**名無しさん＠お腹いっぱい。** · 2023/08/10(木) 18:48:05.30

todayは普通に使えるが
おま環では？

**名無しさん＠お腹いっぱい。** · 2023/08/10(木) 21:07:26.73

archive.today は、まだ Cloudflare の DNS(1.1.1.1) を拒否しているのかな？

**名無しさん＠お腹いっぱい。** · 2023/08/11(金) 20:59:13.51

>>991
おま環なのかわからないけどtodayは4日前までは普通に繋がってたけど
急に繋がらくなって今も繋がない
このサイトにアクセスできませんarchive.is により途中で接続が切断されましたって出る
chrome・edge・Fire Foxの全部で繋がらないから環境だとしたら何が原因なのかさっぱり
因みにCloudflare の DNS(1.1.1.1)ではないよ

**名無しさん＠お腹いっぱい。** · 2023/08/11(金) 21:46:49.16

レス間違えましたすみません
>>994　は　>>992　が正しいです

**名無しさん＠お腹いっぱい。** · 2023/08/11(金) 23:46:35.07

>>993
とか言うだけで、実際に叩いてみたりしないんだ

所詮その程度ｗ

**名無しさん＠お腹いっぱい。** · 2023/08/13(日) 12:11:34.23

あれarchive.org落ちてる？spnエラー吐いてる

**名無しさん＠お腹いっぱい。** · 2023/08/13(日) 12:18:35.35

直ってた

**名無しさん＠お腹いっぱい。** · 2023/08/13(日) 13:16:40.27

>>997-998
ここ数日 web.archive.org への接続自体がエラーとなるケースが増えてると思うよ。

**名無しさん＠お腹いっぱい。** · 2023/08/13(日) 13:17:17.00

次スレ
Internet Archive総合 (web.archive.org) #5
https://mevius.5ch.net/test/read.cgi/esite/1690495133/

他所のアーカイブの話題はこちら
【保存・記録】ウェブアーカイブ総合 Page.01
https://mevius.5ch.net/test/read.cgi/internet/1554553882/