ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
https://mevius.5ch.net/test/read.cgi/esite/1690495133/
ウェブ魚拓 Part3
https://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
https://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
https://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう
【保存・記録】ウェブアーカイブ総合 Page.02
2023/11/21(火) 07:23:34.80ID:QN4SUfby0
2998
2023/11/22(水) 11:01:01.11ID:QZxCudHS0 勝手に次スレ立てたなら、前スレのURLぐらい貼れよ
https://mevius.5ch.net/test/read.cgi/internet/1554553882/
https://mevius.5ch.net/test/read.cgi/internet/1554553882/
4998
2023/11/22(水) 11:30:01.04ID:QZxCudHS0 前スレで、残り書き込めれるレス数が少ないのに悪口で埋めるのかよ。阿保らしい
2023/11/22(水) 12:17:26.13ID:DuzB/ozg0
>>2
うるせえよ死ねゴミ
うるせえよ死ねゴミ
2023/11/22(水) 12:58:35.19ID:gLGwnryk0
次スレどうする云々は早めに議論始めないと大抵こうなるんだよね。
5CH自体、人減ったからそういうのを仕切れる人も減った。
5CH自体、人減ったからそういうのを仕切れる人も減った。
2023/11/22(水) 13:08:04.66ID:R+bORu+V0
2023/11/22(水) 20:45:03.42ID:RBjZhLtj0
例のスレを私物化してるというかひたすら日記帳にしてた句読点空改行マンは正直叩かれても仕方ないかと
2023/11/23(木) 16:21:52.04ID:M5PJ+4vU0
2023/11/29(水) 19:55:45.97ID:Bv4X1MKX0
今さらだがtok2の無料プラン6月に死んでたのね
2023/11/29(水) 20:05:03.99ID:hfZzT9ef0
長期で見たらどのアーカイバが飛ぶかわからない砂上の楼閣感がある
2023/11/30(木) 15:45:33.23ID:CeXtDLxF0
信用度で言ったら
インターネットアーカイブ>>>>>>>>>today>その他
って感じだしな
特に運営元が分からない奴はいつ飛んでもおかしくない
インターネットアーカイブ>>>>>>>>>today>その他
って感じだしな
特に運営元が分からない奴はいつ飛んでもおかしくない
2023/12/01(金) 20:55:06.14ID:/RlTQaSn0
.orgで連続で弾かれた内部的な仕様変更だろうか
"Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again."
"Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again."
2023/12/01(金) 21:02:28.18ID:/RlTQaSn0
Windows版FireFox、Chrome、BraveとSafariで同じ症状
2023/12/01(金) 23:14:24.37ID:WQmdyjUL0
IAのスレでもその話題出てるけどIAの不具合ぽい
2023/12/06(水) 10:23:22.54ID:9VVxiS460
archive.is
日本時間今朝10時7分にサーバ証明書期限切れ、更新されてない
日本時間今朝10時7分にサーバ証明書期限切れ、更新されてない
17192.168.0.774
2023/12/12(火) 19:22:42.21ID:hW2qVqPj0 archive todayで気軽にアーカイブ化できるようなショートカットとかないですか?
2023/12/13(水) 12:39:45.28ID:pBChJXnH0
公式にブックマークレットあったはずだけど使えなくなったのか?
19192.168.0.774
2023/12/18(月) 14:32:47.54ID:rr5iksGZ0 ブックマークレット見当たらないんだけどどこにある?
2023/12/18(月) 22:09:24.58ID:VHkEpDN70
>>19
確かにそんなものがあったなぁ。
https://web.archive.org/web/20191022034909/archive.is/
archive.today で定期的にアーカイブさせるスクリプトを動かしていたことがあるけど、
ブックマークレットが行っていたような「保存したい URL を付けて送信するだけ」という方法が
何年か前に受け付けられなくなり、http://archive.is/ のトップページでトークン (submitid) を
得ることを要求するようになった。
ブックマークレットが掲載されなくなったのはその頃。
確かにそんなものがあったなぁ。
https://web.archive.org/web/20191022034909/archive.is/
archive.today で定期的にアーカイブさせるスクリプトを動かしていたことがあるけど、
ブックマークレットが行っていたような「保存したい URL を付けて送信するだけ」という方法が
何年か前に受け付けられなくなり、http://archive.is/ のトップページでトークン (submitid) を
得ることを要求するようになった。
ブックマークレットが掲載されなくなったのはその頃。
2023/12/18(月) 23:02:56.83ID:SRfhFfWq0
今も一応第三者が作ってGithubに上げてるブックマークレットならちゃんと今見てるページのワンポチ魚拓取得出来るよ
トップページ一回経由するやつ
トップページ一回経由するやつ
22192.168.0.774
2023/12/19(火) 14:10:59.19ID:be8ZnnnO0 >>21
ま?探してくるわ
ま?探してくるわ
23192.168.0.774
2023/12/28(木) 15:22:56.59ID:aVvZh5OJ0 archive.today
今朝、運良く取得できたけど、welcome to nginx病・・・
しかも一度出ると再アクセスしても接続がタイムアウトして繋がらなくなる・・・
回避方法あったら教えて
今朝、運良く取得できたけど、welcome to nginx病・・・
しかも一度出ると再アクセスしても接続がタイムアウトして繋がらなくなる・・・
回避方法あったら教えて
2023/12/28(木) 15:53:07.15ID:eQrjkTct0
>>23
見た感じ archive.today の応答がかなり悪くなってるみたいだけど
archive.is とか archive.md とか archive.li とか、リダイレクトの生じない名前なら
サクサク返って来るんだよね
見た感じ archive.today の応答がかなり悪くなってるみたいだけど
archive.is とか archive.md とか archive.li とか、リダイレクトの生じない名前なら
サクサク返って来るんだよね
25192.168.0.774
2023/12/29(金) 16:14:00.57ID:mcUEm1710 今日もarchive.todayでWelcome to nginx!になって取得できない・・・
取得するコツってないの?
取得するコツってないの?
2023/12/29(金) 16:24:41.89ID:56/eqjqc0
>>25
あるよw
あるよw
2023/12/29(金) 16:30:00.41ID:QoMdPNgl0
2023/12/29(金) 16:44:03.51ID:QoMdPNgl0
>>7
関連スレの「#2」の部分は直さなかったのかw #5なのに
関連スレの「#2」の部分は直さなかったのかw #5なのに
2023/12/29(金) 16:53:00.74ID:QoMdPNgl0
まあ、>>5 >7 >8はもう居ないだろうけど。
2023/12/29(金) 21:39:19.78ID:BeXMuX5W0
スレを日記帳にしてた連投句読点おじさん帰ってきちゃったじゃん…
2024/01/02(火) 12:32:26.24ID:W/dfs4mD0
質問です
このサイトをそのままの形で落としたいのですが
https://goodsmileshop.com/ja/
HTTrackでやったら、商品ページまで落とせず終わったり商品の画像が表示されません
そこでwgetで
wget -m -p -E -k -np をつけてやってみました。コマンドはよく分かりませんがネットでサイトそのまま再現
で検索したらこのコマンドを使えと記載がありました
まだ終わってませんがindexを覗いてみたら、カテゴリページを延々とダウンロードしてるようで
商品ページはまだで、途中ですがやっぱり画像が表示されてません
またいつまで経っても終わりません
画像が表示されないのは、表示方法にjavascriptとかを使っているからなんでしょうか
放置してダウンロードが終了すれば、きちんと表示されるんでしょうか
このサイトをそのままの形で落としたいのですが
https://goodsmileshop.com/ja/
HTTrackでやったら、商品ページまで落とせず終わったり商品の画像が表示されません
そこでwgetで
wget -m -p -E -k -np をつけてやってみました。コマンドはよく分かりませんがネットでサイトそのまま再現
で検索したらこのコマンドを使えと記載がありました
まだ終わってませんがindexを覗いてみたら、カテゴリページを延々とダウンロードしてるようで
商品ページはまだで、途中ですがやっぱり画像が表示されてません
またいつまで経っても終わりません
画像が表示されないのは、表示方法にjavascriptとかを使っているからなんでしょうか
放置してダウンロードが終了すれば、きちんと表示されるんでしょうか
2024/01/02(火) 16:22:32.88ID:lNtBlc7t0
2024/01/02(火) 19:16:28.75ID:W/dfs4mD0
wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
って書かれてたんで来ちゃいました。すみません
wgetの使い方に詳しい方がいる板ってどのあたりなんでしょうかね
って書かれてたんで来ちゃいました。すみません
wgetの使い方に詳しい方がいる板ってどのあたりなんでしょうかね
34192.168.0.774
2024/01/09(火) 19:48:58.47ID:p24Ans9E02024/01/22(月) 15:30:21.91ID:YHuj1Ww20
スラド終了のお知らせ
https://srad.jp/story/24/01/22/0311225/
https://srad.jp/story/24/01/22/0311225/
36192.168.0.774
2024/01/22(月) 15:33:31.38ID:BqifyO/10 スラドの保存を依頼しに来たが、既に書かれてた
1月いっぱいで閉鎖との事なので、技術を持ってる方がいたらWayback Machineへの保存をお願いします
1月いっぱいで閉鎖との事なので、技術を持ってる方がいたらWayback Machineへの保存をお願いします
37192.168.0.774
2024/02/01(木) 03:41:51.12ID:uruf4q6/0 >>31
亀レスだけど、落とそうとしてるファイルが多すぎる&サイトにJavaScriptが使われてる、の両方では
でかいサイトをwgetでまともにクロールするなら1週間くらい置いといた方がいい
あと最近のサイトは大概JavaScriptを多用してるから、Heritrixを使った方が楽かもしれん
参考にしたというのは多分このサイトだな
https://tex2e.github.io/blog/shell/wget-entire-website
あと>>32は間違ってる、ローカルアーカイブもれっきとしたWebアーカイブの一種だよ
>>1にもちゃんとwgetも含むと書いてあるし
亀レスだけど、落とそうとしてるファイルが多すぎる&サイトにJavaScriptが使われてる、の両方では
でかいサイトをwgetでまともにクロールするなら1週間くらい置いといた方がいい
あと最近のサイトは大概JavaScriptを多用してるから、Heritrixを使った方が楽かもしれん
参考にしたというのは多分このサイトだな
https://tex2e.github.io/blog/shell/wget-entire-website
あと>>32は間違ってる、ローカルアーカイブもれっきとしたWebアーカイブの一種だよ
>>1にもちゃんとwgetも含むと書いてあるし
2024/02/04(日) 23:33:32.14ID:wTdVULUN0
採択
2024/02/20(火) 12:53:52.46ID:cyS+ObVG0
『OKMusic』サービス終了のお知らせ
https://okmusic.jp/news/548328
<終了までのスケジュール>
・2024年3月31日(日)午後11時59分
記事更新を終了
・2024年4月1日(月)午前11時59分
会員機能の提供を終了
※以降会員登録、ログインできません
・2024年5月以降(予定)
サイトの公開を終了
※終了日時に関しては、このページにて改めて告知させていただきます
https://okmusic.jp/news/548328
<終了までのスケジュール>
・2024年3月31日(日)午後11時59分
記事更新を終了
・2024年4月1日(月)午前11時59分
会員機能の提供を終了
※以降会員登録、ログインできません
・2024年5月以降(予定)
サイトの公開を終了
※終了日時に関しては、このページにて改めて告知させていただきます
レスを投稿する
ニュース
- 浜崎あゆみ、上海公演中止を発表「急遽中止の要請を受け…まだ信じられず、言葉になりません」 [征夷大将軍★]
- 【滋賀】不良グループのメンバーの「タイマン」で17歳が重体 殺人未遂容疑で岐阜市の19歳を逮捕 頭蓋骨骨折や脳挫傷、急性硬膜下血腫… [ぐれ★]
- 【プロ野球】巨人 オコエ瑠偉外野手が自由契約 [あずささん★]
- 今後50年間、毎年100万人ずつ人口が減る…「少子化対策」の失敗で日本が迎える「死ぬまで搾取」というヤバい未来 ★2 [ぐれ★]
- 立憲・原口議員がキレキレ「日本にレアアース来なければ中国は精製できない」「“旧敵国条項”明らかなやりすぎ」 [少考さん★]
- 「おこめ券知られていない」農水省が説明会実施へ 「税金でおこめ券配ると、発行2団体に利益集中するのでは?」記者の問いに鈴木農水大臣 [ぐれ★]
- 【高市悲報】経団連会長、政府が話にならないので中国大使と直接会談🥺経済交流の重要性訴える [359965264]
- 【悲報】浜崎あゆみさんの上海コンサートが前日に急きょ中止 [452836546]
- 立憲原口「レアアースを精製する技術は日本が持ってる。中国は日本に頼らないと精製できない」高市「そうなの?!」 [931948549]
- メモリ価格高騰でスマホもPCも今年が最安値 [667744927]
- 【画像】夫に買い物を頼む妻、有能すぎるwwwwwwwwwwwwwwwwww [242521385]
- 【速報】たぬかなさん「もしだまされたと感じてる方がいるならお金返そうと思います。連絡してや~」聖人君子かな?🤔 [339712612]
