X



Internet Archive総合 (web.archive.org) #4

レス数が1000を超えています。これ以上書き込みはできません。
0001名無しさん@お腹いっぱい。
垢版 |
2021/08/13(金) 03:38:17.64
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #3
https://mevius.5ch.net/test/read.cgi/esite/1585760889/
0901名無しさん@お腹いっぱい。
垢版 |
2023/05/20(土) 14:46:31.42
>>900
閲覧環境によっては、1ページ目しか表示されない場合がある
(iOSとかだとダメっぽいな)

解決策は、閲覧したいページのURLを編集して数字の後ろにid_ をつけ加えると保存されたまんまの状態で表示されるから、これで全ページ閲覧できるようになるよ

↓こんな感じ
https://web.archive.org/web/数字id_/ページURL
0904名無しさん@お腹いっぱい。
垢版 |
2023/05/22(月) 23:11:28.24
>>903
WSL使うのが嫌だったので遠ざけていましたが使ってみます。
ありがとうございます。
0905名無しさん@お腹いっぱい。
垢版 |
2023/05/23(火) 00:08:11.50
画像類似検索に対応しないのだろうか
0906名無しさん@お腹いっぱい。
垢版 |
2023/05/23(火) 00:11:24.51
「リンクと画像の抜き出しツール」のアーカイブから画像のURLを入れると画像が保存されているか確認できる。
0907名無しさん@お腹いっぱい。
垢版 |
2023/05/23(火) 00:13:41.17
「URLからタイトルゲット君」というサイトも保存確認できる。
0908名無しさん@お腹いっぱい。
垢版 |
2023/05/23(火) 05:22:57.93
>>904
そんなに量がないんだったら無料版Colabで走らせてもいいかもね
0909名無しさん@お腹いっぱい。
垢版 |
2023/05/23(火) 20:02:46.33
>>892
3月までtodayでアーカイブしたGoogle検索結果をorgで重バックアップしたり出来たが(アクセス環境により検索ワード化けが生じるため)、4月からエラーで弾かれるようになってしまった。

ヤフオクの出品物もorgから取れなくなったし
0912名無しさん@お腹いっぱい。
垢版 |
2023/05/27(土) 13:07:42.53
ふとIAの動画ブラウジングしてたんだけど字幕付きのアニメとか滅茶苦茶うpされて、無法地帯になっててワロタ
アメリカのフェアユースってそんな強いのか
0913名無しさん@お腹いっぱい。
垢版 |
2023/05/28(日) 00:55:59.95
>>912
いや普通にアウトだし消されてるよ、いたちごっこだけど
IAの人も何が重要なデータか分からなくなるから止めろってツイートしてたりする
基本的にIAのアカウントがアップしたもの以外は信用しない方がいい
0915名無しさん@お腹いっぱい。
垢版 |
2023/06/07(水) 14:18:47.51
アイテムの方にある動画、一定以上のサイズだとブラウザで再生出来ないっぽいな
自分が見たのは20GB超だけど読み込みがされなかった
curlでダウンロードしてローカルで再生は出来たので、ちゃんとアーカイブはされてるらしい
0916名無しさん@お腹いっぱい。
垢版 |
2023/06/07(水) 16:00:32.06
それってエンコード時の設定に依ったりしない?
例えば mp4 なら moov atom をファイル先頭に持ってきていないとか。
0918名無しさん@お腹いっぱい。
垢版 |
2023/06/14(水) 11:09:59.33
詳しいことよく知らなくてTorのブラウザでarchivetoday使おうとしたらTor使ってないときでもarchivetodayにアクセスできなくなった
クッキー消去したらまた使えるようになったけどブラックリスト的なものに載ってないか不安
0919名無しさん@お腹いっぱい。
垢版 |
2023/06/14(水) 13:17:02.82
>>918
まともにTor使ってるなら、生IPとの関連付けが出来ないんだからTor使ってないときにアクセス不可になるはずがない
それすら分からないならtorは使わない方が良いよ、絶対にどこかでやらかす
0921名無しさん@お腹いっぱい。
垢版 |
2023/06/14(水) 14:07:59.22
>>920
10年以上前にTor使えばInstagramでも魚拓取れるって書き込みを見つけたので試したくなったんです
無知ですいませんでした
0922名無しさん@お腹いっぱい。
垢版 |
2023/06/14(水) 15:38:07.85
IP紐づいてなくてもフィンガープリントで同一デバイスだと疑われてる可能性はある

とは言っても、torブラウザでtoday使うとCloudflareにブロックされて要JSの認証要求されるから回避も難しいんだよな

唯一の回避策は、使えそうなweb串探してtor→web串→todayでアクセスするくらいか

フィンガープリント追跡防止の拡張機能とかもあるからそういうのを普段使いしてみるのも対策の一つになるかもね
0923名無しさん@お腹いっぱい。
垢版 |
2023/06/16(金) 02:07:18.67
今更だけど3200ツイート保存のやつエラーで動かなくなってる
Twitterの仕様が変わった辺りからかな?確認してなかった
0926925
垢版 |
2023/06/23(金) 19:17:09.24
今やったら取れた、何だったんだろう
0929名無しさん@お腹いっぱい。
垢版 |
2023/06/27(火) 20:37:16.58
https://esica.shop/collections/weekly-ranking/products/eset-4660

↑みたいなサイトを保存すると保存直後は画像が表示されてるのに数か月後保存ページにアクセスすると、
一部画像が表示されないって事が多々あるんだけどおま環?
そのページの画像(大きい小さい表示されるの全て)を一括で保存する方法って無いのかな
0930名無しさん@お腹いっぱい。
垢版 |
2023/06/28(水) 09:49:10.92
>>929
数か月後どころか、保存直後も大量の画像が欠落してるんだけど・・・

スクリプトで読み込ませてる画像の一括取得は現状では無理。
ブラウザでアーカイブを表示したときに初めて取得リクエストが発行されるが、
毎分 2 個か 3 個の画像を取得するだけで、あとは 429 Too Many Requests エラーが返ってしまう。
必要な画像を拾い終えるまで、同じアーカイブを数分おきにブラウザで繰り返し表示するしかない。

昨晩ここの画像を全部拾わせてみたので、数か月後にどうなってるか見てみよう。
https://web.archive.org/web/20230627123623/esica.shop/collections/weekly-ranking/products/eset-4160
0931名無しさん@お腹いっぱい。
垢版 |
2023/06/29(木) 14:23:51.75
今風のスクリプトマシマシ動的サイトはアーカイブするのが難しいからね
画像だけ欠落するならまだマシで、サイト自体が取れないことも珍しくない
0933名無しさん@お腹いっぱい。
垢版 |
2023/06/30(金) 23:57:35.95
>>932
Twitterの仕様変更でログイン状態じゃないとログインページにリダイレクトされるようになったっぽいな
Internet Archiveは何か特別な処理挟んでるのかね
0936名無しさん@お腹いっぱい。
垢版 |
2023/07/02(日) 15:59:18.82
Pixivのページを保存したいとき、英語ページのURL(en)へ転送されないようにするにはヘッダーに何を指定すればいい?
なんか方法ある?
0937名無しさん@お腹いっぱい。
垢版 |
2023/07/02(日) 17:27:30.52
Pixiv から user_language=ja ってクッキーを食べたことにしておけば、
つまりそれを capture_cookie 引数に与えて Save Page Now すれば
転送はされなくなるけど・・・どこも真っ白だぁ
0938名無しさん@お腹いっぱい。
垢版 |
2023/07/02(日) 18:18:54.77
waybackもtodayもtwitter保存できねえ
0941名無しさん@お腹いっぱい。
垢版 |
2023/07/03(月) 00:38:46.97
Twitterの仕様変更で
魚拓取れなくなるのかな…
アカウント必須になったら魚拓取れない…
0942名無しさん@お腹いっぱい。
垢版 |
2023/07/05(水) 02:00:10.44
Twitterは仕様変更するわ、IAは保存しても読み込めるまで1日以上かかるわ、インターネットに波乱起きすぎ
0945名無しさん@お腹いっぱい。
垢版 |
2023/07/06(木) 16:39:15.39
archive.org/details/save-page-now?sort=-addeddate
日本時間13時21分のファイル以降、SPNの新しいコレクションファイルが増えてないので止まってたっぽいが、今は復帰して保存できるっぽい。
0946名無しさん@お腹いっぱい。
垢版 |
2023/07/07(金) 16:44:02.26
Twitter、一応取れるようにはなったが単体ツイートしか取れなくなったな
前はリプライも全部保存出来たが不可能になった
あとプロフィールページも保存出来ない

IAの問題ではなく、Twitter側が非ログイン状態での表示を止めたせい
0948名無しさん@お腹いっぱい。
垢版 |
2023/07/10(月) 21:07:05.59
5ちゃんのスレも個人的に保存はちょくちょくやってはいるんだけど、すぐ人大杉になって作業が止まるのが難点。
自分の住民やってるスレやその過去スレからでいいので、やっておいた方がいいよ。
0951名無しさん@お腹いっぱい。
垢版 |
2023/07/11(火) 06:54:39.48
IAのチームに過去ログ全部クロールして欲しいな。今はなんとか過去ログが見れるけど、明日急に全部見れなくなっても全く不思議じゃないからヒヤヒヤしてる
似たようなサイトでredditって過去ログ保管されてるんだろうか
0955名無しさん@お腹いっぱい。
垢版 |
2023/07/15(土) 00:51:33.90
「好き嫌い.com」は魚拓サイトで魚拓を取ってもコメント欄だけが保存されない

どうすればコメント欄も保存できるかな?

i.imgur.com/2uPwBGz.png archive.li/6nRmy
0956名無しさん@お腹いっぱい。
垢版 |
2023/07/15(土) 05:12:26.78
5chを保存しようとクロールしたらクロールが全く意味を成さないわね…なにかいい方法あるだろうか?
0957名無しさん@お腹いっぱい。
垢版 |
2023/07/15(土) 20:07:35.02
Internet ArchiveのFlashエミュレータが改良されてより多くの作品をサポートできるようになった模様
これにより今まで利用できなかった作品がコレクションに加わるとのこと

詳細
https://mastodon.archive.org/@textfiles/110697893762381822q
新たに実行可能になった作品例
https://twitter.com/internetarchive/status/1679948028008955904
https://twitter.com/5chan_nel (5ch newer account)
0959名無しさん@お腹いっぱい。
垢版 |
2023/07/17(月) 19:01:14.10
5chの過去ログほとんどアーカイブされてないのか
0960名無しさん@お腹いっぱい。
垢版 |
2023/07/18(火) 18:40:50.87
yahooニュースのコメント保存できるようになったな
0962名無しさん@お腹いっぱい。
垢版 |
2023/07/19(水) 08:24:09.27
過去ログ取ろうとしたけど膨大やな
自分の環境だと七時間で2500urlぐらい
0966名無しさん@お腹いっぱい。
垢版 |
2023/07/20(木) 23:04:52.71
アクティブチームって何だArchive-teamのこと?
0975名無しさん@お腹いっぱい。
垢版 |
2023/07/24(月) 07:55:27.47
放置してたらURL8万行分集めてて、もう飽きたからこれアーカイブしてdatアーカイブやめます
保存されるやつみたら文字化けしてるし意味あるのかなといった感じでもある
普通の過去ログやる方が有意義におもう
0977名無しさん@お腹いっぱい。
垢版 |
2023/07/25(火) 23:00:40.88
Twitchもyoutubeみたいにアーカイブ保存出来るようにならんかなぁ
というかyoutubeと違って一定期間で消えるから、むしろこっちを優先して欲しいまである
0978名無しさん@お腹いっぱい。
垢版 |
2023/07/26(水) 07:00:14.47
動画ファイルバカでかいししゃーないでしょ
キリないもん、あとtubeupえばupはできると思う
だけどあれ待機時間がすげー長いんだよなぁ
0981名無しさん@お腹いっぱい。
垢版 |
2023/07/27(木) 16:31:17.56
>>980

ただずっと>903のスクリプト動かしてただけ
outlinkの取得先は全板の過去ログのurlを指定した
0983名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 05:52:22.75
次スレたのんます
0985名無しさん@お腹いっぱい。
垢版 |
2023/07/28(金) 16:20:58.19
おつでごわす
0987名無しさん@お腹いっぱい。
垢版 |
2023/08/01(火) 08:12:52.33
1週前ぐらいに取得した(ことになってる)はずなのに取得できてないのがいくつも・・・
The snapshot may not be available right now, please try again later.
最近が↑たまに出るが、
それとの関係だろうか・・・
せっかく時間かけて取得したはずができてないのは残念
0991名無しさん@お腹いっぱい。
垢版 |
2023/08/10(木) 05:28:04.06
archive.isはもう3日ほど繋がらないし
Wayback Machineは相変わらずツイッタープロフィールとリプがダメで
リプで繋がってるものも個々でしか取れないから面倒くさい
0994名無しさん@お腹いっぱい。
垢版 |
2023/08/11(金) 20:59:13.51
>>991
おま環なのかわからないけどtodayは4日前までは普通に繋がってたけど
急に繋がらくなって今も繋がない
このサイトにアクセスできませんarchive.is により途中で接続が切断されましたって出る
chrome・edge・Fire Foxの全部で繋がらないから環境だとしたら何が原因なのかさっぱり
因みにCloudflare の DNS(1.1.1.1)ではないよ
0997名無しさん@お腹いっぱい。
垢版 |
2023/08/13(日) 12:11:34.23
あれarchive.org落ちてる?spnエラー吐いてる
0998名無しさん@お腹いっぱい。
垢版 |
2023/08/13(日) 12:18:35.35
直ってた
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況