ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
https://mevius.5ch.net/test/read.cgi/esite/1690495133/
ウェブ魚拓 Part3
https://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
https://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
https://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう
探検
【保存・記録】ウェブアーカイブ総合 Page.02
2023/11/21(火) 07:23:34.80ID:QN4SUfby0
2998
2023/11/22(水) 11:01:01.11ID:QZxCudHS0 勝手に次スレ立てたなら、前スレのURLぐらい貼れよ
https://mevius.5ch.net/test/read.cgi/internet/1554553882/
https://mevius.5ch.net/test/read.cgi/internet/1554553882/
4998
2023/11/22(水) 11:30:01.04ID:QZxCudHS0 前スレで、残り書き込めれるレス数が少ないのに悪口で埋めるのかよ。阿保らしい
2023/11/22(水) 12:17:26.13ID:DuzB/ozg0
>>2
うるせえよ死ねゴミ
うるせえよ死ねゴミ
2023/11/22(水) 12:58:35.19ID:gLGwnryk0
次スレどうする云々は早めに議論始めないと大抵こうなるんだよね。
5CH自体、人減ったからそういうのを仕切れる人も減った。
5CH自体、人減ったからそういうのを仕切れる人も減った。
2023/11/22(水) 13:08:04.66ID:R+bORu+V0
2023/11/22(水) 20:45:03.42ID:RBjZhLtj0
例のスレを私物化してるというかひたすら日記帳にしてた句読点空改行マンは正直叩かれても仕方ないかと
2023/11/23(木) 16:21:52.04ID:M5PJ+4vU0
2023/11/29(水) 19:55:45.97ID:Bv4X1MKX0
今さらだがtok2の無料プラン6月に死んでたのね
2023/11/29(水) 20:05:03.99ID:hfZzT9ef0
長期で見たらどのアーカイバが飛ぶかわからない砂上の楼閣感がある
2023/11/30(木) 15:45:33.23ID:CeXtDLxF0
信用度で言ったら
インターネットアーカイブ>>>>>>>>>today>その他
って感じだしな
特に運営元が分からない奴はいつ飛んでもおかしくない
インターネットアーカイブ>>>>>>>>>today>その他
って感じだしな
特に運営元が分からない奴はいつ飛んでもおかしくない
2023/12/01(金) 20:55:06.14ID:/RlTQaSn0
.orgで連続で弾かれた内部的な仕様変更だろうか
"Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again."
"Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again."
2023/12/01(金) 21:02:28.18ID:/RlTQaSn0
Windows版FireFox、Chrome、BraveとSafariで同じ症状
2023/12/01(金) 23:14:24.37ID:WQmdyjUL0
IAのスレでもその話題出てるけどIAの不具合ぽい
2023/12/06(水) 10:23:22.54ID:9VVxiS460
archive.is
日本時間今朝10時7分にサーバ証明書期限切れ、更新されてない
日本時間今朝10時7分にサーバ証明書期限切れ、更新されてない
17192.168.0.774
2023/12/12(火) 19:22:42.21ID:hW2qVqPj0 archive todayで気軽にアーカイブ化できるようなショートカットとかないですか?
2023/12/13(水) 12:39:45.28ID:pBChJXnH0
公式にブックマークレットあったはずだけど使えなくなったのか?
19192.168.0.774
2023/12/18(月) 14:32:47.54ID:rr5iksGZ0 ブックマークレット見当たらないんだけどどこにある?
2023/12/18(月) 22:09:24.58ID:VHkEpDN70
>>19
確かにそんなものがあったなぁ。
https://web.archive.org/web/20191022034909/archive.is/
archive.today で定期的にアーカイブさせるスクリプトを動かしていたことがあるけど、
ブックマークレットが行っていたような「保存したい URL を付けて送信するだけ」という方法が
何年か前に受け付けられなくなり、http://archive.is/ のトップページでトークン (submitid) を
得ることを要求するようになった。
ブックマークレットが掲載されなくなったのはその頃。
確かにそんなものがあったなぁ。
https://web.archive.org/web/20191022034909/archive.is/
archive.today で定期的にアーカイブさせるスクリプトを動かしていたことがあるけど、
ブックマークレットが行っていたような「保存したい URL を付けて送信するだけ」という方法が
何年か前に受け付けられなくなり、http://archive.is/ のトップページでトークン (submitid) を
得ることを要求するようになった。
ブックマークレットが掲載されなくなったのはその頃。
2023/12/18(月) 23:02:56.83ID:SRfhFfWq0
今も一応第三者が作ってGithubに上げてるブックマークレットならちゃんと今見てるページのワンポチ魚拓取得出来るよ
トップページ一回経由するやつ
トップページ一回経由するやつ
22192.168.0.774
2023/12/19(火) 14:10:59.19ID:be8ZnnnO0 >>21
ま?探してくるわ
ま?探してくるわ
23192.168.0.774
2023/12/28(木) 15:22:56.59ID:aVvZh5OJ0 archive.today
今朝、運良く取得できたけど、welcome to nginx病・・・
しかも一度出ると再アクセスしても接続がタイムアウトして繋がらなくなる・・・
回避方法あったら教えて
今朝、運良く取得できたけど、welcome to nginx病・・・
しかも一度出ると再アクセスしても接続がタイムアウトして繋がらなくなる・・・
回避方法あったら教えて
2023/12/28(木) 15:53:07.15ID:eQrjkTct0
>>23
見た感じ archive.today の応答がかなり悪くなってるみたいだけど
archive.is とか archive.md とか archive.li とか、リダイレクトの生じない名前なら
サクサク返って来るんだよね
見た感じ archive.today の応答がかなり悪くなってるみたいだけど
archive.is とか archive.md とか archive.li とか、リダイレクトの生じない名前なら
サクサク返って来るんだよね
25192.168.0.774
2023/12/29(金) 16:14:00.57ID:mcUEm1710 今日もarchive.todayでWelcome to nginx!になって取得できない・・・
取得するコツってないの?
取得するコツってないの?
2023/12/29(金) 16:24:41.89ID:56/eqjqc0
>>25
あるよw
あるよw
2023/12/29(金) 16:30:00.41ID:QoMdPNgl0
2023/12/29(金) 16:44:03.51ID:QoMdPNgl0
>>7
関連スレの「#2」の部分は直さなかったのかw #5なのに
関連スレの「#2」の部分は直さなかったのかw #5なのに
2023/12/29(金) 16:53:00.74ID:QoMdPNgl0
まあ、>>5 >7 >8はもう居ないだろうけど。
2023/12/29(金) 21:39:19.78ID:BeXMuX5W0
スレを日記帳にしてた連投句読点おじさん帰ってきちゃったじゃん…
2024/01/02(火) 12:32:26.24ID:W/dfs4mD0
質問です
このサイトをそのままの形で落としたいのですが
https://goodsmileshop.com/ja/
HTTrackでやったら、商品ページまで落とせず終わったり商品の画像が表示されません
そこでwgetで
wget -m -p -E -k -np をつけてやってみました。コマンドはよく分かりませんがネットでサイトそのまま再現
で検索したらこのコマンドを使えと記載がありました
まだ終わってませんがindexを覗いてみたら、カテゴリページを延々とダウンロードしてるようで
商品ページはまだで、途中ですがやっぱり画像が表示されてません
またいつまで経っても終わりません
画像が表示されないのは、表示方法にjavascriptとかを使っているからなんでしょうか
放置してダウンロードが終了すれば、きちんと表示されるんでしょうか
このサイトをそのままの形で落としたいのですが
https://goodsmileshop.com/ja/
HTTrackでやったら、商品ページまで落とせず終わったり商品の画像が表示されません
そこでwgetで
wget -m -p -E -k -np をつけてやってみました。コマンドはよく分かりませんがネットでサイトそのまま再現
で検索したらこのコマンドを使えと記載がありました
まだ終わってませんがindexを覗いてみたら、カテゴリページを延々とダウンロードしてるようで
商品ページはまだで、途中ですがやっぱり画像が表示されてません
またいつまで経っても終わりません
画像が表示されないのは、表示方法にjavascriptとかを使っているからなんでしょうか
放置してダウンロードが終了すれば、きちんと表示されるんでしょうか
2024/01/02(火) 16:22:32.88ID:lNtBlc7t0
2024/01/02(火) 19:16:28.75ID:W/dfs4mD0
wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
って書かれてたんで来ちゃいました。すみません
wgetの使い方に詳しい方がいる板ってどのあたりなんでしょうかね
って書かれてたんで来ちゃいました。すみません
wgetの使い方に詳しい方がいる板ってどのあたりなんでしょうかね
34192.168.0.774
2024/01/09(火) 19:48:58.47ID:p24Ans9E02024/01/22(月) 15:30:21.91ID:YHuj1Ww20
スラド終了のお知らせ
https://srad.jp/story/24/01/22/0311225/
https://srad.jp/story/24/01/22/0311225/
36192.168.0.774
2024/01/22(月) 15:33:31.38ID:BqifyO/10 スラドの保存を依頼しに来たが、既に書かれてた
1月いっぱいで閉鎖との事なので、技術を持ってる方がいたらWayback Machineへの保存をお願いします
1月いっぱいで閉鎖との事なので、技術を持ってる方がいたらWayback Machineへの保存をお願いします
37192.168.0.774
2024/02/01(木) 03:41:51.12ID:uruf4q6/0 >>31
亀レスだけど、落とそうとしてるファイルが多すぎる&サイトにJavaScriptが使われてる、の両方では
でかいサイトをwgetでまともにクロールするなら1週間くらい置いといた方がいい
あと最近のサイトは大概JavaScriptを多用してるから、Heritrixを使った方が楽かもしれん
参考にしたというのは多分このサイトだな
https://tex2e.github.io/blog/shell/wget-entire-website
あと>>32は間違ってる、ローカルアーカイブもれっきとしたWebアーカイブの一種だよ
>>1にもちゃんとwgetも含むと書いてあるし
亀レスだけど、落とそうとしてるファイルが多すぎる&サイトにJavaScriptが使われてる、の両方では
でかいサイトをwgetでまともにクロールするなら1週間くらい置いといた方がいい
あと最近のサイトは大概JavaScriptを多用してるから、Heritrixを使った方が楽かもしれん
参考にしたというのは多分このサイトだな
https://tex2e.github.io/blog/shell/wget-entire-website
あと>>32は間違ってる、ローカルアーカイブもれっきとしたWebアーカイブの一種だよ
>>1にもちゃんとwgetも含むと書いてあるし
2024/02/04(日) 23:33:32.14ID:wTdVULUN0
採択
2024/02/20(火) 12:53:52.46ID:cyS+ObVG0
『OKMusic』サービス終了のお知らせ
https://okmusic.jp/news/548328
<終了までのスケジュール>
・2024年3月31日(日)午後11時59分
記事更新を終了
・2024年4月1日(月)午前11時59分
会員機能の提供を終了
※以降会員登録、ログインできません
・2024年5月以降(予定)
サイトの公開を終了
※終了日時に関しては、このページにて改めて告知させていただきます
https://okmusic.jp/news/548328
<終了までのスケジュール>
・2024年3月31日(日)午後11時59分
記事更新を終了
・2024年4月1日(月)午前11時59分
会員機能の提供を終了
※以降会員登録、ログインできません
・2024年5月以降(予定)
サイトの公開を終了
※終了日時に関しては、このページにて改めて告知させていただきます
2024/02/25(日) 02:04:04.75ID:cjUiDYTX0
自作ツールの話だけど、DLしたデータを保存するファイル形式って何かいいのある?
例えば https://example.com/blog/article?mode=view&page=10 とかのURLを保存する時、
リクエストしたURL、レスポンスヘッダー、日時等のメタデータ、もちろんレスポンス本文 を保存したい。
もちろんレスポンス本文はバイナリの場合もある。
wgetだとローカルに example.com フォルダの中に blogフォルダの中に article_mode=view&page=10 というファイルを作る(半角の?はファイル名で使えないので置換される)
みたいなのがベタだと思うけど、それだとまずURL文字列の情報が失われてるし、レスポンスヘッダも消えてる。
それに1URLが1ファイルに保存されるから1サイトまるごとだとファイル数が多すぎて取り回しがしにくくなる。
warcファイルでいいやと思ったけど、一般的にはマイナーでエコシステムが力不足な事があるし
じゃあsqlteに自分でテーブルやカラムを作ってやればいいけど独自規格は後々困りそうだし…。
どうすればいいんすかね。
例えば https://example.com/blog/article?mode=view&page=10 とかのURLを保存する時、
リクエストしたURL、レスポンスヘッダー、日時等のメタデータ、もちろんレスポンス本文 を保存したい。
もちろんレスポンス本文はバイナリの場合もある。
wgetだとローカルに example.com フォルダの中に blogフォルダの中に article_mode=view&page=10 というファイルを作る(半角の?はファイル名で使えないので置換される)
みたいなのがベタだと思うけど、それだとまずURL文字列の情報が失われてるし、レスポンスヘッダも消えてる。
それに1URLが1ファイルに保存されるから1サイトまるごとだとファイル数が多すぎて取り回しがしにくくなる。
warcファイルでいいやと思ったけど、一般的にはマイナーでエコシステムが力不足な事があるし
じゃあsqlteに自分でテーブルやカラムを作ってやればいいけど独自規格は後々困りそうだし…。
どうすればいいんすかね。
2024/02/25(日) 15:52:11.05ID:6fhfw2DW0
warcで良いだろ
今後どれだけ時を経てもエコシステムが充足することはないから考慮する必要もない
今後どれだけ時を経てもエコシステムが充足することはないから考慮する必要もない
2024/02/25(日) 19:29:29.32ID:cjUiDYTX0
うーん、それもそうか…
2024/02/26(月) 21:52:37.14ID:badvTVSb0
warcは腐ってもISO規格で標準化されてて、マイナーな業界とはいえ世界中の専門機関で使われてる訳だしな
下手に自作するよりはずっと良い
下手に自作するよりはずっと良い
2024/02/26(月) 21:58:07.39ID:badvTVSb0
エコシステムが不足してるなら自分が貢献できるよう頑張ろう、位のガッツがあった方が良いよ(実際に貢献できるかは別として)
何しろマイナーな技術分野で先駆者が少ないから、それくらいの意気込みがないと現実的にやっていられない
何しろマイナーな技術分野で先駆者が少ないから、それくらいの意気込みがないと現実的にやっていられない
2024/02/27(火) 00:51:18.39ID:o1ZUbZhQ0
流行ると後から来たお客様にオワコンにされる流れ多すぎるのが悪い
先駆者利益も大きなお客様に乗っ取られた後の利益と比べたらリスクとリターン見合ってないし
先駆者利益も大きなお客様に乗っ取られた後の利益と比べたらリスクとリターン見合ってないし
2024/02/27(火) 12:09:56.51ID:ncN5iY7H0
オープンソースかつアーカイブ界隈でそれ気にする必要ある?
47192.168.0.774
2024/03/12(火) 13:39:21.51ID:DaYLFx9E0 どなたかArchiveTeamに連絡お願いします
>> このたび、ODN「ホームページサービス」につきましては、ご利用者の減少に伴い、2023年6月30日(金)に新規受付を終了し、
>> 2024年3月31日(日)をもちましてサービスを終了させていただくこととなりましたので、ご案内申し上げます。
https://www.odn.ne.jp/odn_info/20230413.html
>> このたび、ODN「ホームページサービス」につきましては、ご利用者の減少に伴い、2023年6月30日(金)に新規受付を終了し、
>> 2024年3月31日(日)をもちましてサービスを終了させていただくこととなりましたので、ご案内申し上げます。
https://www.odn.ne.jp/odn_info/20230413.html
レスを投稿する
ニュース
- 【工作員】「X」のアカウント所在地公開機能が暴いた世論操作の実態 MAGA支持著名アカウントの多くが米国外から運営 日本にも波及 ★2 [ごまカンパチ★]
- 【大阪】日本一高い観覧車が落雷で緊急停止 約20人乗客が閉じ込められ9時間にわたり救助活動 [七波羅探題★]
- 【・(ェ)・】「くまちゃんがいた」散歩中の2歳園児が発見 クリ林に1頭のクマ…保育士「ワンちゃんだね…」と声かけて移動 [Ailuropoda melanoleuca★]
- 【大阪】「もっとこっち来てよ」女子高校生を電車内に連れ込み 小学校教諭再逮捕「話をしたかっただけ [七波羅探題★]
- 【芸能】安達祐実 44歳の最新姿「ぇーーーーー!!!」「声出た」「なんなの」「まって」「ワオ」 [湛然★]
- ラピダス、第2工場建設でも見えぬ顧客 技術開発も難題山積 [蚤の市★]
- 🖐( -᷄ὢ)これから>>2の>>3なんで……
- 小田原城行ってみようかな
- 【悲報】日本の田舎、もう住める場所じゃないと話題に
- えっ?肉離れって菜食主義の事じゃないの?俺ずっと
- 【悲報】『たぬかな』ファンのホビット、絶望「こうして36歳年収650万円身長155cmの底辺独身男性が残りましたとさ…どうすればいいんだよ [257926174]
- 【悲報】スポーツ報知のYouTube、松本剛獲得で大炎上WWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWW
