【保存・記録】ウェブアーカイブ総合 Page.02

2023/11/21(火) 07:23:34.80ID:QN4SUfby0
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。

・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/

・関連スレ
Internet Archive総合 (web,archive,org) #2
https://mevius.5ch.net/test/read.cgi/esite/1690495133/
ウェブ魚拓 Part3
https://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
https://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
https://mevius.5ch.net/test/read.cgi/blog/1554380939/

・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう
2024/10/10(木) 08:25:31.73ID:O0Wa5OT40
Internet Archiveがハッキング被害、3,100万人分の個人情報流出
現在はDDoS攻撃を受けている模様
Internet Archive hacked, data breach impacts 31 million users
https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/
82192.168.0.774
垢版 |
2024/10/10(木) 11:25:28.61ID:mRA5njFO0
始まりがあるものには、すべて終わりがある
2024/10/11(金) 10:59:00.08ID:+0ZVN28A0
努力次第で終わりは遅延できる
2024/10/11(金) 14:43:21.46ID:4/k0xNoP0
Googleというビッグブラザーのキャッシュ代替になったことで標的にされやすくなったんだよ
2024/10/19(土) 01:14:25.80ID:yNdJY+Db0
>>80
匿名ネットでも情報は消えまくってるので消えないは幻想
結局のところ保存しておくインセンティブが無いので消える
価値のある情報は残るけどそれはクリアネットでも同じ

(現在のところ)価値が無い情報をどう保存させるかが問題
2024/10/19(土) 18:29:44.21ID:7gZrEMne0
>>85
価値が無い情報も保存される仕組みを悪用して、
価値がある情報を悪意で埋めるのが荒らしの手口なんだけどなw
2024/10/20(日) 01:29:10.31ID:YC/XYbnS0
IPFSだ、IPFSしかない
2024/10/20(日) 17:28:03.78ID:jErutBf90
よく勘違いされるけどIPFSってアーカイブには向いて無いよ
あれこそ価値のある情報は残って価値がない情報は消えるシステムだよ
89あめ ◆P0jSlC5fJs
垢版 |
2024/10/20(日) 19:38:03.16ID:vNuKrZxb0
それはそう、arweaveみたいなものではない
でも同じデータは誰が提供しても同じURLになるとか、httpよりはずっといい
歴史に残らなかったものまですべて保存は現状のハードウェアでは無理だろうし、歴史に残ったものは全部残るで十分に及第点かなぁ
2024/10/23(水) 01:58:39.75ID:TBBqAAjr0
分散型はとりあえず業界の標準が決まってくれないとより良いものが出るたびにデータを投げ捨てることになりかねないな
2024/10/23(水) 13:52:50.47ID:TBBqAAjr0
分散型ストレージのautonomiは10月29日に一般公開予定
https://docs.autonomi.com/learn
Webサイトの公開はできるっぽいけど他の分散型プロジェクトと同様に閲覧のためにクライアントを動かさないといけないので手間
この手のプロジェクトのいいところはサイト制作者が自分で保存されることを選ぶから他者のアーカイブ行為による著作権侵害の心配がないところだね
2024/10/23(水) 14:44:11.43ID:p8DuKr1h0
>>91
このプロジェクト初めて聞いたけど書いてある事が理想的過ぎて疑ってしまうな
特に1回限りの料金で永続保存のところ、Arweaveはストレージ料金が低下し続ける仮設を根拠にしてるが(これはこれでどうかと思うが)
autonomiはどういう理屈なんだろ

というかこの手のプロジェクトって何で1回限りの料金にこだわるんだろうか
分散ストレージで安いなら普通に月額でも払うが
2024/10/23(水) 14:56:52.25ID:TBBqAAjr0
>>92
そうなんだよね、なんか良さげな理想並べてるけど「そんなんうまくいくのかぁ〜?」というのが正直なところ
ノードがオンライン状態でデータを保持し続ければ報酬が生成されるらしいけど、そのインセンティブを無視してノードを削除したらどうなるのか?というのがわからない
1回限りが重要なのはアップロード者が管理放棄してもデータが残るようにじゃない?

あと一応言っておくとautonomiは今年頭まではMaidsafeという名前だったけど開発18年目を迎えてリブランドしたプロジェクト
開発長過ぎるんだよなProject Xanaduほどじゃないけども
8年ぐらい前から見ててようやくローンチ迎えそうだから期待してるんだけどどうなるかなぁ・・・
2024/10/28(月) 05:32:04.83ID:yhg3dtvQ0
ベクターHPが12月20日で終了
95192.168.0.774
垢版 |
2024/11/14(木) 11:40:47.87ID:e5vP7i/90
mangazも閉鎖で絶版本が無間地獄に帰るね
2024/12/01(日) 22:45:19.04ID:tuRpdWYB0
>>78
訂正 サービス終了は来年3月31日だった
2024/12/27(金) 13:26:37.17ID:fYcmXIUr0
goo IDが2017年以降ログインなしで削除
ブログが消されるかどうかは知らん
2024/12/28(土) 10:08:50.49ID:xIi08uhi0
>>97
ID削除のソース
https://login.mail.goo.ne.jp/id/common/custom_content?newsid=ucaeywpp3ds
ブログ削除のソース
https://blog.goo.ne.jp/staffblog/e/57385bcaa324c9153f93a03375d70336

10年代前半で更新止まったブログは全削除されそうだな
2024/12/30(月) 13:37:58.45ID:mp0Tkkna0
削除するぞメール来たってえきねっと退会スパムみたいなもんかと思って放置されるだろうな
100192.168.0.774
垢版 |
2025/01/17(金) 00:03:32.08ID:0d/D0Jtj0
ニコニコ春画29日終了
2025/02/08(土) 19:45:26.63ID:wXhKO+uW0
最近は魚拓回避意図か知らんがクリックしないと表示されない系が増えてきてるけどこれ録れないよね?
coinloan.tech
2025/02/22(土) 00:01:37.07ID:1+yNfjxb0
【オウム真理教問題デジタルアーカイブ】
— 記憶の風化を防ぎ、次世代に記憶を継承するオウム真理教問題デジタルアーカイブサイトです。
https://www.moj.go.jp/psia/aumarchive/index.html
2025/02/26(水) 17:48:15.08ID:zrJmYLce0
「熱量と情報量が凄まじい個人サイトよ、いずこに…」 2000年代にたくさんあった個人ブログ、テキストサイトが消えた理由
https://news.careerconnection.jp/entame/134251/
2025/03/03(月) 18:32:56.97ID:l3vle4lQ0
Internet Archive総合 (web.archive.org) #6
https://mevius.5ch.net/test/read.cgi/esite/1733289042
105192.168.0.774
垢版 |
2025/03/04(火) 14:13:18.85ID:pZipXde+0
「ぷらら」の個人向けホームページが3月末に終了 古参ネットユーザー「歴史が消えていく」 - ITmedia NEWS
https://www.itmedia.co.jp/news/articles/2503/04/news125.html
2025/03/10(月) 03:58:04.00ID:AUECZsGf0
Internet Archive総合 (web.archive.org) #6
https://mevius.5ch.net/test/read.cgi/esite/1733289042
2025/03/16(日) 07:33:18.12ID:kKDe6Rv/0
OSCHINA、スラドと OSDN の受け入れ先募集を打ち切ってサービス終了へ
https://srad.jp/story/25/03/14/1844223/

スラド、継続不能になった模様
108192.168.0.774
垢版 |
2025/03/31(月) 15:37:25.63ID:Y56lREV80
このスレでよく名前が挙がるArchive Teamについて

ArchiveTeam Warriorでウェブアーカイブ活動に貢献しよう - Project Fx 2.0
(ドメイン名の規制回避に失敗したのでX (Twitter)の短縮リンクを貼る。カッコは消してくれ)
https://t[.]co/SgvHmY6hPA

ArchiveTeam Warriorで知識を守る - The Great Underground Home Page
https://clavis.info/wiki/running_archiveteam_warrior
2025/04/01(火) 03:44:11.98ID:3bUxAbnt0
ss-blogは何故かまだ生きてるな
不可視化の処理が完了するまでタイムラグがあるのか?
2025/04/04(金) 09:30:39.65ID:Ap+qSSew0
>>103
「熱量と情報量が凄まじい個人サイトよ、いずこに…」 2000年代にたくさんあった個人ブログ、テキストサイトが消えた理由 [851834166]
https://greta.5ch.net/test/read.cgi/poverty/1651208035/
2025/04/04(金) 22:16:45.45ID:d/O8B0Nf0
http://www.fc2web.com/
>FC2WEB は 2025年6月30日 (月) をもって、
サービスを終了とさせていただくこととなりました。

悪名高き?FC2ホームページとは別物で
今後はFC2ホームページに統合らしい
無料なので放置されたまま消滅するサイトも多いか
2025/04/07(月) 11:32:10.86ID:rkOq5lFK0
Pocketとかの代替でkarakeep(Hoarder)というのを使ってて見つけたんだけど、
Webページを単一のHTMLにしてくれるmonolithというのがなかなか良い
https://github.com/Y2Z/monolith
ローカル保存におすすめ
113192.168.0.774
垢版 |
2025/04/07(月) 22:58:04.30ID:G0iokGQw0
こんなのあったのか
114192.168.0.774
垢版 |
2025/04/12(土) 02:39:17.31ID:xmRuIA6s0
「みんなFC2WEBばっかり目が行ってるけど、実際は55 STREET、Easter、Finito Web、http://OJIJI.nethttp://Zero-yen.comhttp://k-free.net、GOOSIDE、KATOWEB(→KTNET)、http://ZERO-CITY.com、K-Serverも2025年6月30日に終わることになっている。 注意するんだ。」
https://x.com/n121mt/status/1907388961032708487
2025/04/15(火) 02:45:02.64ID:5qeSSvyR0
WARC で保存できる Webrecorder もいいぞ
https://chromewebstore.google.com/detail/webrecorder-archivewebpag/fpeoodllldobpkbkabpblcfaogecpndd
2025/04/19(土) 10:37:20.38ID:em1R2zGM0
「ゲームのアーカイブ」をテーマに研究者、保存団体、社長などが一堂に会すシンポジウムが開催。ヨーロッパの博物館はゲーセンの雰囲気を再現、マイナー作品を移植するには“ドサクサに紛れてコッソリ入れ込む”──など気になるトピック多数
https://news.denfaminicogamer.jp/kikakuthetower/2504152e
2025/05/06(火) 15:07:47.60ID:K61FRbpu0
archive.todayが最近不調な件
・先月中ごろから一部のサイトが取得できない
・数日前から「Not Found (yet?)」が多い
2025/05/07(水) 06:37:54.86ID:6n/1y+tk0
Not Found (yet?)はarchive.today本体が調子悪い時も取得先が調子悪い時もarchive.todayが取得先から弾かれてるだけの時も出るから本体に濡れ衣着せてしまいがちではある
特にXのセンシティブ設定されてる画像ポスト&アカウント自体が強制センシティブ設定食らってる人のポストは今のarchive.todayの仕様だとNot Found (yet?)にほぼ全部なるから、
あれ?と思ったらghost archive等の別の魚拓サイトを毎回試すようにしてる
2025/05/07(水) 10:41:30.46ID:BeikZYi90
Googleキャッシュの廃止以来、国内大学のレポジトリに多く上がってるPDF論文がHTML形式でアーカイブ出来なくなり悔しい…。
 
2025/05/07(水) 11:04:11.83ID:R8dy5vO80
>>117-118
Xの魚拓取ってると場合によっては(yet?)が出まくってarchive.todayがまた死にかけてる!となりがちだなw
あと保存してる最中にちょうどアカウント主が鍵かけちゃって(yet?)のページがお出しされる悲しいパターン
2025/05/21(水) 19:36:28.43ID:gBGNftSt0
117だが、前者の原因はIAスレ(6スレ目)のとある書き込みにあった
道理で取得できないわけか
IAだけでは心もとなくて使ってたのに、まさかそういう上限があったとは・・・

Ghostarchive、そこもそういう仕様でなければ良いが、果たして・・・
2025/06/07(土) 08:49:11.47ID:aN87fLV/0
https://www.maple.town/
こんなサイトを発見
1986年からある電子掲示板のほぼ全てのログが保管されてる貴重なサイト
IDとパスワードで保護されている為archive.orgにはほとんどアーカイブされていない
しかしIDもパスワードもトップページに書かれてるので
target_username=<XXX>
target_password=<YYY>
でアーカイブ可能
今のうちにアーカイブしておこう
2025/06/07(土) 13:52:53.08ID:S9o9v/wR0
>>122
手を抜いて capture_outlinks=on も追加してしまうと、outlinks として飛んだ先では
target_username も target_password も使用されないのは盲点だった
せめて同じドメインなら認証情報も使い回してくれよw
2025/06/09(月) 05:38:35.19ID:g/YpZEvX0
UAの設定なんかも外部リンクには適用されないんだよな(´・ω・`)
ただcapture_allとかskip_first_archiveなんかは適用されたり

おかしなところがいくつかあったので一応
https://www.maple.town/bbs/11/ ここはリストとレス番に若干ズレがあれどちゃんと見れる
https://www.maple.town/bbs/130/ ここは前ページに遡れないなと思ったら
どうやら古いレスは消える板らしい https://www.maple.town/bbs/130/1
でも連番でレス自体は見れるようです
2025/06/19(木) 18:59:11.21ID:lJyJlJ5s0
Ghostarchive、今朝から取得できてんだかできてないんだか
検索では取得できてることになってるが、それを見ようとすると
「An unexpected error occured: QuotaExceededError」
archive.today同様上限(同じドメインは5000件まで。Ghostarchiveではもっと少ないようだ)に引っかかったのか、それともたまたま・・・
IAだけでは心もとなくて複数のアーカイブサイトで取得するようにしてるが、結局IAしか勝たんてか
2025/06/19(木) 19:34:49.02ID:lJyJlJ5s0
訂正
archive.todayでは上限5000件までだが、もしGhostarchiveで上限があるとしたら(5000件も取得してないゆえに)それより少ないことに
2025/06/29(日) 18:30:52.23ID:V9QrwJqA0
125-126の件、別のブラウザで試したら取得できた
上限の問題ではないのならarchive.todayより増しなんだろうが、惜しむらくは検索が200件までしか表示されないのとブラウザによっては安定しないところか
ちなみにarchive.todayの検索はたしか3000件、IAの検索は10000件
2025/08/17(日) 15:49:16.40ID:EQLJjoS80
Sage
2025/08/17(日) 15:49:24.24ID:EQLJjoS80
Sag
2025/08/18(月) 21:12:47.94ID:ilmx9LNo0
閉鎖の続くブログはオワコンなのか 惜しむ声、でも保存議論は進まず:朝日新聞
https://www.asahi.com/articles/AST8F2SJ2T8FULFA00FM.html
2025/10/07(火) 22:06:40.64ID:Y5oIV8NM0
Ghostarchive、昨日から取得できず

Archiving error
There was an issue trying to archive your webpage or video. Usually, webpages that are bigger than 50 megabytes, or videos longer than 15 minutes, may fail to archive.

You can try to archive the page again, and if it still doesn't work, report it by clicking here and we will try to rectify the issue.

普段はこれが出ても一遍か二遍かやり直せば取得できるのに、何遍やり直してもこれが出る

1年前のIAのあの一件ほど長引かなければ良いが・・・
2025/10/10(金) 15:51:57.48ID:GY4PACd70
なぜかXだけは取得できる
道理でここ数日の記録があるわけか
ttps://ghostarchive.org/search?term=https%3A%2F%2Fx.com
2025/10/21(火) 23:36:19.14ID:OMBGwnIl0
131の件は10/11遅くに解消
その後、別の日に20分程度間隔でつながらないようなことがあったが
向こうの問題か、それともこっちがなんらかの規制に引っかかったのか・・・
2025/10/23(木) 02:58:51.49ID:SSQtUAlc0
アーカイブ閲覧かつ取得ができるサイト
・Internet Archive(Wayback Machine)
・ウェブ魚拓
・archive.today
・GhostArchive
以外にArquivo.ptというのがあるのか
ttps://arquivo.pt
ttps://arquivo.pt/services/archivepagenow

IA+Ghostのようにアクセスしづらいことがあるとか、魚拓のように24時間に○件までしか取得できないとか、todayのように同じドメインのURLは○件までしか取得できないとか
そういうことがなければArquivo.ptという手があるが、今年絡みのアーカイブが見あたらないのが引っかかる
後日反映される仕組みのようだが、↑ということがあるとなると反映には何か月かかかるんだろうな
2025/10/30(木) 03:54:39.42ID:Ra9guvLU0
403 ERROR
The request could not be satisfied.
Request blocked. We can't connect to the server for this app or website at this time. There might be too much traffic or a configuration error. Try again later, or contact the app or website owner.
If you provide content to customers through CloudFront, you can find steps to troubleshoot and help prevent this error by reviewing the CloudFront documentation.
Generated by cloudfront (CloudFront)
Request ID: ○○(←そのとき次第)

一部だけならGhost Archive側の問題ではなく取得するサイト側の問題だろうか
2025/10/30(木) 03:59:40.77ID:Ra9guvLU0
135補足、というかこれを先に書くべきだったもの
「Ghost Archive、先ほどから一部のサイトでのことだが、取得するとこれが出る」
137192.168.0.774
垢版 |
2025/11/04(火) 21:17:38.95ID:ZRIG0CTs0
fandomというサイト、どうあがいてもwebpでしか保存できなくなった・・・
138192.168.0.774
垢版 |
2025/11/04(火) 21:19:09.85ID:ZRIG0CTs0
>>137
IEモードで表示すれば元のファイルで保存できたが、それも塞がれた・・・
2025/11/04(火) 21:20:22.76ID:ZRIG0CTs0
>>138
具体的には
画像が表示されず問答無用でダウンロードになる
2025/11/07(金) 13:14:51.24ID:AAADdqGF0
.todayはドメインレジストラTucowsにFBIが照会
2025/11/07(金) 13:30:38.48ID:fDrIFf260
FBIがウェブ魚拓サービス「archive.today」の所有者の身元を捜索中
https://gigazine.net/news/20251107-archive-today-fbi/
142192.168.0.774
垢版 |
2025/11/07(金) 16:00:28.00ID:BMrvEZBj0
結局わからなさそう
143192.168.0.774
垢版 |
2025/11/10(月) 00:31:58.96ID:PVnHVZaQ0
ボランティア有志が「Warrior」というソフトを使ってInternet Archiveにgooブログを保存しているんだけど、
日本国外からのアクセスが制限されててアーカイブ速度がだいぶ落ちてる
このスレを見ててWarriorを動かしてない民がいたらどうか手元でWarriorを動かしてほしい。頼む

やり方は以下の記事に書いてある。かなり簡単に導入できる。

ArchiveTeam Warriorで知識を守る(やり方) (※マウス操作による導入方法の解説)
https://clavis.info/wiki/running_archiveteam_warrior

ArchiveTeam Warriorでウェブアーカイブ活動に貢献しよう (※Dockerによる導入方法の解説。エンジニア向け)
https://stepney141.hatena;blog.com/entry/2025/02/17/182148 (規制回避。「; 」は消すこと)
2025/11/12(水) 09:19:53.30ID:7zma6hJs0
archive.today、アクセスできないが、まさか>>141の絡みか
2025/11/12(水) 10:04:18.40ID:7zma6hJs0
144の件、先ほど復旧
2025/11/16(日) 04:29:30.01ID:HtyLo8zV0
Archive.todayへの疑わしい圧力に関する調査(AdGuard DNS)
https://adguard-dns.io/en/blog/archive-today-adguard-dns-block-demand.html
147192.168.0.774
垢版 |
2025/11/19(水) 11:50:06.81ID:Gld0MY4Z0
【お知らせ】ご利用のない無料ブログの削除について│てぃーだ スタッフブログ
https://staff.ti-da.net/e13030131.html
2025/11/20(木) 17:07:32.40ID:Erso1Nji0
 
Gooブログも結局、完全アーカイブ化は無理だったみたいだな。
 
某右翼政治アカウントの投稿記事はだいぶ取りそびれになってる。
 
 
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況