【保存・記録】ウェブアーカイブ総合 Page.02

2023/11/21(火) 07:23:34.80ID:QN4SUfby0
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。

・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/

・関連スレ
Internet Archive総合 (web,archive,org) #2
https://mevius.5ch.net/test/read.cgi/esite/1690495133/
ウェブ魚拓 Part3
https://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
https://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
https://mevius.5ch.net/test/read.cgi/blog/1554380939/

・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう
2025/10/21(火) 23:36:19.14ID:OMBGwnIl0
131の件は10/11遅くに解消
その後、別の日に20分程度間隔でつながらないようなことがあったが
向こうの問題か、それともこっちがなんらかの規制に引っかかったのか・・・
2025/10/23(木) 02:58:51.49ID:SSQtUAlc0
アーカイブ閲覧かつ取得ができるサイト
・Internet Archive(Wayback Machine)
・ウェブ魚拓
・archive.today
・GhostArchive
以外にArquivo.ptというのがあるのか
ttps://arquivo.pt
ttps://arquivo.pt/services/archivepagenow

IA+Ghostのようにアクセスしづらいことがあるとか、魚拓のように24時間に○件までしか取得できないとか、todayのように同じドメインのURLは○件までしか取得できないとか
そういうことがなければArquivo.ptという手があるが、今年絡みのアーカイブが見あたらないのが引っかかる
後日反映される仕組みのようだが、↑ということがあるとなると反映には何か月かかかるんだろうな
2025/10/30(木) 03:54:39.42ID:Ra9guvLU0
403 ERROR
The request could not be satisfied.
Request blocked. We can't connect to the server for this app or website at this time. There might be too much traffic or a configuration error. Try again later, or contact the app or website owner.
If you provide content to customers through CloudFront, you can find steps to troubleshoot and help prevent this error by reviewing the CloudFront documentation.
Generated by cloudfront (CloudFront)
Request ID: ○○(←そのとき次第)

一部だけならGhost Archive側の問題ではなく取得するサイト側の問題だろうか
2025/10/30(木) 03:59:40.77ID:Ra9guvLU0
135補足、というかこれを先に書くべきだったもの
「Ghost Archive、先ほどから一部のサイトでのことだが、取得するとこれが出る」
137192.168.0.774
垢版 |
2025/11/04(火) 21:17:38.95ID:ZRIG0CTs0
fandomというサイト、どうあがいてもwebpでしか保存できなくなった・・・
138192.168.0.774
垢版 |
2025/11/04(火) 21:19:09.85ID:ZRIG0CTs0
>>137
IEモードで表示すれば元のファイルで保存できたが、それも塞がれた・・・
2025/11/04(火) 21:20:22.76ID:ZRIG0CTs0
>>138
具体的には
画像が表示されず問答無用でダウンロードになる
2025/11/07(金) 13:14:51.24ID:AAADdqGF0
.todayはドメインレジストラTucowsにFBIが照会
2025/11/07(金) 13:30:38.48ID:fDrIFf260
FBIがウェブ魚拓サービス「archive.today」の所有者の身元を捜索中
https://gigazine.net/news/20251107-archive-today-fbi/
142192.168.0.774
垢版 |
2025/11/07(金) 16:00:28.00ID:BMrvEZBj0
結局わからなさそう
143192.168.0.774
垢版 |
2025/11/10(月) 00:31:58.96ID:PVnHVZaQ0
ボランティア有志が「Warrior」というソフトを使ってInternet Archiveにgooブログを保存しているんだけど、
日本国外からのアクセスが制限されててアーカイブ速度がだいぶ落ちてる
このスレを見ててWarriorを動かしてない民がいたらどうか手元でWarriorを動かしてほしい。頼む

やり方は以下の記事に書いてある。かなり簡単に導入できる。

ArchiveTeam Warriorで知識を守る(やり方) (※マウス操作による導入方法の解説)
https://clavis.info/wiki/running_archiveteam_warrior

ArchiveTeam Warriorでウェブアーカイブ活動に貢献しよう (※Dockerによる導入方法の解説。エンジニア向け)
https://stepney141.hatena;blog.com/entry/2025/02/17/182148 (規制回避。「; 」は消すこと)
2025/11/12(水) 09:19:53.30ID:7zma6hJs0
archive.today、アクセスできないが、まさか>>141の絡みか
2025/11/12(水) 10:04:18.40ID:7zma6hJs0
144の件、先ほど復旧
2025/11/16(日) 04:29:30.01ID:HtyLo8zV0
Archive.todayへの疑わしい圧力に関する調査(AdGuard DNS)
https://adguard-dns.io/en/blog/archive-today-adguard-dns-block-demand.html
147192.168.0.774
垢版 |
2025/11/19(水) 11:50:06.81ID:Gld0MY4Z0
【お知らせ】ご利用のない無料ブログの削除について│てぃーだ スタッフブログ
https://staff.ti-da.net/e13030131.html
2025/11/20(木) 17:07:32.40ID:Erso1Nji0
 
Gooブログも結局、完全アーカイブ化は無理だったみたいだな。
 
某右翼政治アカウントの投稿記事はだいぶ取りそびれになってる。
 
 
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況