【保存・記録】ウェブアーカイブ総合 Page.02

2023/11/21(火) 07:23:34.80ID:QN4SUfby0
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。

・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/

・関連スレ
Internet Archive総合 (web,archive,org) #2
https://mevius.5ch.net/test/read.cgi/esite/1690495133/
ウェブ魚拓 Part3
https://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
https://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
https://mevius.5ch.net/test/read.cgi/blog/1554380939/

・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう
2025/06/07(土) 13:52:53.08ID:S9o9v/wR0
>>122
手を抜いて capture_outlinks=on も追加してしまうと、outlinks として飛んだ先では
target_username も target_password も使用されないのは盲点だった
せめて同じドメインなら認証情報も使い回してくれよw
2025/06/09(月) 05:38:35.19ID:g/YpZEvX0
UAの設定なんかも外部リンクには適用されないんだよな(´・ω・`)
ただcapture_allとかskip_first_archiveなんかは適用されたり

おかしなところがいくつかあったので一応
https://www.maple.town/bbs/11/ ここはリストとレス番に若干ズレがあれどちゃんと見れる
https://www.maple.town/bbs/130/ ここは前ページに遡れないなと思ったら
どうやら古いレスは消える板らしい https://www.maple.town/bbs/130/1
でも連番でレス自体は見れるようです
2025/06/19(木) 18:59:11.21ID:lJyJlJ5s0
Ghostarchive、今朝から取得できてんだかできてないんだか
検索では取得できてることになってるが、それを見ようとすると
「An unexpected error occured: QuotaExceededError」
archive.today同様上限(同じドメインは5000件まで。Ghostarchiveではもっと少ないようだ)に引っかかったのか、それともたまたま・・・
IAだけでは心もとなくて複数のアーカイブサイトで取得するようにしてるが、結局IAしか勝たんてか
2025/06/19(木) 19:34:49.02ID:lJyJlJ5s0
訂正
archive.todayでは上限5000件までだが、もしGhostarchiveで上限があるとしたら(5000件も取得してないゆえに)それより少ないことに
2025/06/29(日) 18:30:52.23ID:V9QrwJqA0
125-126の件、別のブラウザで試したら取得できた
上限の問題ではないのならarchive.todayより増しなんだろうが、惜しむらくは検索が200件までしか表示されないのとブラウザによっては安定しないところか
ちなみにarchive.todayの検索はたしか3000件、IAの検索は10000件
2025/08/17(日) 15:49:16.40ID:EQLJjoS80
Sage
2025/08/17(日) 15:49:24.24ID:EQLJjoS80
Sag
2025/08/18(月) 21:12:47.94ID:ilmx9LNo0
閉鎖の続くブログはオワコンなのか 惜しむ声、でも保存議論は進まず:朝日新聞
https://www.asahi.com/articles/AST8F2SJ2T8FULFA00FM.html
2025/10/07(火) 22:06:40.64ID:Y5oIV8NM0
Ghostarchive、昨日から取得できず

Archiving error
There was an issue trying to archive your webpage or video. Usually, webpages that are bigger than 50 megabytes, or videos longer than 15 minutes, may fail to archive.

You can try to archive the page again, and if it still doesn't work, report it by clicking here and we will try to rectify the issue.

普段はこれが出ても一遍か二遍かやり直せば取得できるのに、何遍やり直してもこれが出る

1年前のIAのあの一件ほど長引かなければ良いが・・・
2025/10/10(金) 15:51:57.48ID:GY4PACd70
なぜかXだけは取得できる
道理でここ数日の記録があるわけか
ttps://ghostarchive.org/search?term=https%3A%2F%2Fx.com
2025/10/21(火) 23:36:19.14ID:OMBGwnIl0
131の件は10/11遅くに解消
その後、別の日に20分程度間隔でつながらないようなことがあったが
向こうの問題か、それともこっちがなんらかの規制に引っかかったのか・・・
2025/10/23(木) 02:58:51.49ID:SSQtUAlc0
アーカイブ閲覧かつ取得ができるサイト
・Internet Archive(Wayback Machine)
・ウェブ魚拓
・archive.today
・GhostArchive
以外にArquivo.ptというのがあるのか
ttps://arquivo.pt
ttps://arquivo.pt/services/archivepagenow

IA+Ghostのようにアクセスしづらいことがあるとか、魚拓のように24時間に○件までしか取得できないとか、todayのように同じドメインのURLは○件までしか取得できないとか
そういうことがなければArquivo.ptという手があるが、今年絡みのアーカイブが見あたらないのが引っかかる
後日反映される仕組みのようだが、↑ということがあるとなると反映には何か月かかかるんだろうな
2025/10/30(木) 03:54:39.42ID:Ra9guvLU0
403 ERROR
The request could not be satisfied.
Request blocked. We can't connect to the server for this app or website at this time. There might be too much traffic or a configuration error. Try again later, or contact the app or website owner.
If you provide content to customers through CloudFront, you can find steps to troubleshoot and help prevent this error by reviewing the CloudFront documentation.
Generated by cloudfront (CloudFront)
Request ID: ○○(←そのとき次第)

一部だけならGhost Archive側の問題ではなく取得するサイト側の問題だろうか
2025/10/30(木) 03:59:40.77ID:Ra9guvLU0
135補足、というかこれを先に書くべきだったもの
「Ghost Archive、先ほどから一部のサイトでのことだが、取得するとこれが出る」
137192.168.0.774
垢版 |
2025/11/04(火) 21:17:38.95ID:ZRIG0CTs0
fandomというサイト、どうあがいてもwebpでしか保存できなくなった・・・
138192.168.0.774
垢版 |
2025/11/04(火) 21:19:09.85ID:ZRIG0CTs0
>>137
IEモードで表示すれば元のファイルで保存できたが、それも塞がれた・・・
2025/11/04(火) 21:20:22.76ID:ZRIG0CTs0
>>138
具体的には
画像が表示されず問答無用でダウンロードになる
2025/11/07(金) 13:14:51.24ID:AAADdqGF0
.todayはドメインレジストラTucowsにFBIが照会
2025/11/07(金) 13:30:38.48ID:fDrIFf260
FBIがウェブ魚拓サービス「archive.today」の所有者の身元を捜索中
https://gigazine.net/news/20251107-archive-today-fbi/
142192.168.0.774
垢版 |
2025/11/07(金) 16:00:28.00ID:BMrvEZBj0
結局わからなさそう
143192.168.0.774
垢版 |
2025/11/10(月) 00:31:58.96ID:PVnHVZaQ0
ボランティア有志が「Warrior」というソフトを使ってInternet Archiveにgooブログを保存しているんだけど、
日本国外からのアクセスが制限されててアーカイブ速度がだいぶ落ちてる
このスレを見ててWarriorを動かしてない民がいたらどうか手元でWarriorを動かしてほしい。頼む

やり方は以下の記事に書いてある。かなり簡単に導入できる。

ArchiveTeam Warriorで知識を守る(やり方) (※マウス操作による導入方法の解説)
https://clavis.info/wiki/running_archiveteam_warrior

ArchiveTeam Warriorでウェブアーカイブ活動に貢献しよう (※Dockerによる導入方法の解説。エンジニア向け)
https://stepney141.hatena;blog.com/entry/2025/02/17/182148 (規制回避。「; 」は消すこと)
2025/11/12(水) 09:19:53.30ID:7zma6hJs0
archive.today、アクセスできないが、まさか>>141の絡みか
2025/11/12(水) 10:04:18.40ID:7zma6hJs0
144の件、先ほど復旧
2025/11/16(日) 04:29:30.01ID:HtyLo8zV0
Archive.todayへの疑わしい圧力に関する調査(AdGuard DNS)
https://adguard-dns.io/en/blog/archive-today-adguard-dns-block-demand.html
147192.168.0.774
垢版 |
2025/11/19(水) 11:50:06.81ID:Gld0MY4Z0
【お知らせ】ご利用のない無料ブログの削除について│てぃーだ スタッフブログ
https://staff.ti-da.net/e13030131.html
2025/11/20(木) 17:07:32.40ID:Erso1Nji0
 
Gooブログも結局、完全アーカイブ化は無理だったみたいだな。
 
某右翼政治アカウントの投稿記事はだいぶ取りそびれになってる。
 
 
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況