X



【保存・記録】ウェブアーカイブ総合 Page.02
0001192.168.0.774
垢版 |
2023/11/21(火) 07:23:34.80ID:QN4SUfby0
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。

・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/

・関連スレ
Internet Archive総合 (web,archive,org) #2
https://mevius.5ch.net/test/read.cgi/esite/1690495133/
ウェブ魚拓 Part3
https://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
https://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
https://mevius.5ch.net/test/read.cgi/blog/1554380939/

・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう
0003998
垢版 |
2023/11/22(水) 11:13:01.57ID:QZxCudHS0
>>1の関連リンクや関連スレのリンク先の状況確認もしてなさそうだし
0004998
垢版 |
2023/11/22(水) 11:30:01.04ID:QZxCudHS0
前スレで、残り書き込めれるレス数が少ないのに悪口で埋めるのかよ。阿保らしい
0006192.168.0.774
垢版 |
2023/11/22(水) 12:58:35.19ID:gLGwnryk0
次スレどうする云々は早めに議論始めないと大抵こうなるんだよね。
5CH自体、人減ったからそういうのを仕切れる人も減った。
0007192.168.0.774
垢版 |
2023/11/22(水) 13:08:04.66ID:R+bORu+V0
>>3
リンク先の確認はしてる
文句言う前にお前こそ確認しろ
0008192.168.0.774
垢版 |
2023/11/22(水) 20:45:03.42ID:RBjZhLtj0
例のスレを私物化してるというかひたすら日記帳にしてた句読点空改行マンは正直叩かれても仕方ないかと
0009192.168.0.774
垢版 |
2023/11/23(木) 16:21:52.04ID:M5PJ+4vU0
次スレ立ったんだし別になんでも良いでしょ
仮にこのスレの次スレが立つなら>>950が立てれば良いさ
テンプレは使い回しして
0010192.168.0.774
垢版 |
2023/11/29(水) 19:55:45.97ID:Bv4X1MKX0
今さらだがtok2の無料プラン6月に死んでたのね
0011192.168.0.774
垢版 |
2023/11/29(水) 20:05:03.99ID:hfZzT9ef0
長期で見たらどのアーカイバが飛ぶかわからない砂上の楼閣感がある
0012192.168.0.774
垢版 |
2023/11/30(木) 15:45:33.23ID:CeXtDLxF0
信用度で言ったら
インターネットアーカイブ>>>>>>>>>today>その他
って感じだしな

特に運営元が分からない奴はいつ飛んでもおかしくない
0013192.168.0.774
垢版 |
2023/12/01(金) 20:55:06.14ID:/RlTQaSn0
.orgで連続で弾かれた内部的な仕様変更だろうか
"Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again."
0014192.168.0.774
垢版 |
2023/12/01(金) 21:02:28.18ID:/RlTQaSn0
Windows版FireFox、Chrome、BraveとSafariで同じ症状
0015192.168.0.774
垢版 |
2023/12/01(金) 23:14:24.37ID:WQmdyjUL0
IAのスレでもその話題出てるけどIAの不具合ぽい
0016192.168.0.774
垢版 |
2023/12/06(水) 10:23:22.54ID:9VVxiS460
archive.is
日本時間今朝10時7分にサーバ証明書期限切れ、更新されてない
0017192.168.0.774
垢版 |
2023/12/12(火) 19:22:42.21ID:hW2qVqPj0
archive todayで気軽にアーカイブ化できるようなショートカットとかないですか?
0018192.168.0.774
垢版 |
2023/12/13(水) 12:39:45.28ID:pBChJXnH0
公式にブックマークレットあったはずだけど使えなくなったのか?
0019192.168.0.774
垢版 |
2023/12/18(月) 14:32:47.54ID:rr5iksGZ0
ブックマークレット見当たらないんだけどどこにある?
0020192.168.0.774
垢版 |
2023/12/18(月) 22:09:24.58ID:VHkEpDN70
>>19
確かにそんなものがあったなぁ。
https://web.archive.org/web/20191022034909/archive.is/

archive.today で定期的にアーカイブさせるスクリプトを動かしていたことがあるけど、
ブックマークレットが行っていたような「保存したい URL を付けて送信するだけ」という方法が
何年か前に受け付けられなくなり、http://archive.is/ のトップページでトークン (submitid) を
得ることを要求するようになった。
ブックマークレットが掲載されなくなったのはその頃。
0021192.168.0.774
垢版 |
2023/12/18(月) 23:02:56.83ID:SRfhFfWq0
今も一応第三者が作ってGithubに上げてるブックマークレットならちゃんと今見てるページのワンポチ魚拓取得出来るよ
トップページ一回経由するやつ
0022192.168.0.774
垢版 |
2023/12/19(火) 14:10:59.19ID:be8ZnnnO0
>>21
ま?探してくるわ
0023192.168.0.774
垢版 |
2023/12/28(木) 15:22:56.59ID:aVvZh5OJ0
archive.today
今朝、運良く取得できたけど、welcome to nginx病・・・
しかも一度出ると再アクセスしても接続がタイムアウトして繋がらなくなる・・・
回避方法あったら教えて
0024192.168.0.774
垢版 |
2023/12/28(木) 15:53:07.15ID:eQrjkTct0
>>23
見た感じ archive.today の応答がかなり悪くなってるみたいだけど
archive.is とか archive.md とか archive.li とか、リダイレクトの生じない名前なら
サクサク返って来るんだよね
0025192.168.0.774
垢版 |
2023/12/29(金) 16:14:00.57ID:mcUEm1710
今日もarchive.todayでWelcome to nginx!になって取得できない・・・
取得するコツってないの?
0027192.168.0.774
垢版 |
2023/12/29(金) 16:30:00.41ID:QoMdPNgl0
>>5
お前みたいな人はボランティアとかに向いていないから、ここのスレとかに来ない方が良いんだけどな。

>>8
ここ匿名なのに、「日記帳にしてた人」と「指摘した人」同じに見える能力があるんだな。すげえな。

もし有事があっても朝鮮人の所為にするなよ。
0028192.168.0.774
垢版 |
2023/12/29(金) 16:44:03.51ID:QoMdPNgl0
>>7
関連スレの「#2」の部分は直さなかったのかw #5なのに
0029192.168.0.774
垢版 |
2023/12/29(金) 16:53:00.74ID:QoMdPNgl0
まあ、>>5 >7 >8はもう居ないだろうけど。
0030192.168.0.774
垢版 |
2023/12/29(金) 21:39:19.78ID:BeXMuX5W0
スレを日記帳にしてた連投句読点おじさん帰ってきちゃったじゃん…
0031192.168.0.774
垢版 |
2024/01/02(火) 12:32:26.24ID:W/dfs4mD0
質問です
このサイトをそのままの形で落としたいのですが
https://goodsmileshop.com/ja/
HTTrackでやったら、商品ページまで落とせず終わったり商品の画像が表示されません

そこでwgetで
wget -m -p -E -k -np をつけてやってみました。コマンドはよく分かりませんがネットでサイトそのまま再現
で検索したらこのコマンドを使えと記載がありました
まだ終わってませんがindexを覗いてみたら、カテゴリページを延々とダウンロードしてるようで
商品ページはまだで、途中ですがやっぱり画像が表示されてません
またいつまで経っても終わりません

画像が表示されないのは、表示方法にjavascriptとかを使っているからなんでしょうか
放置してダウンロードが終了すれば、きちんと表示されるんでしょうか
0032192.168.0.774
垢版 |
2024/01/02(火) 16:22:32.88ID:lNtBlc7t0
>>31
スレタイ
❌ ローカルアーカイブ総合
⭕ ウェブアーカイブ総合
0033192.168.0.774
垢版 |
2024/01/02(火) 19:16:28.75ID:W/dfs4mD0
wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。

って書かれてたんで来ちゃいました。すみません
wgetの使い方に詳しい方がいる板ってどのあたりなんでしょうかね
0034192.168.0.774
垢版 |
2024/01/09(火) 19:48:58.47ID:p24Ans9E0
最近インターネットアーカイブで見れる閉鎖サイトを丸々コピーしてる攻略サイトが増えてるわ
代表的なのはこれ
https://xneo.jp/
https://kouryaku7.com/
0036192.168.0.774
垢版 |
2024/01/22(月) 15:33:31.38ID:BqifyO/10
スラドの保存を依頼しに来たが、既に書かれてた
1月いっぱいで閉鎖との事なので、技術を持ってる方がいたらWayback Machineへの保存をお願いします
0037192.168.0.774
垢版 |
2024/02/01(木) 03:41:51.12ID:uruf4q6/0
>>31
亀レスだけど、落とそうとしてるファイルが多すぎる&サイトにJavaScriptが使われてる、の両方では
でかいサイトをwgetでまともにクロールするなら1週間くらい置いといた方がいい
あと最近のサイトは大概JavaScriptを多用してるから、Heritrixを使った方が楽かもしれん

参考にしたというのは多分このサイトだな
https://tex2e.github.io/blog/shell/wget-entire-website

あと>>32は間違ってる、ローカルアーカイブもれっきとしたWebアーカイブの一種だよ
>>1にもちゃんとwgetも含むと書いてあるし
0039192.168.0.774
垢版 |
2024/02/20(火) 12:53:52.46ID:cyS+ObVG0
『OKMusic』サービス終了のお知らせ
https://okmusic.jp/news/548328

<終了までのスケジュール>
・2024年3月31日(日)午後11時59分
 記事更新を終了

・2024年4月1日(月)午前11時59分
 会員機能の提供を終了
 ※以降会員登録、ログインできません

・2024年5月以降(予定)
 サイトの公開を終了
 ※終了日時に関しては、このページにて改めて告知させていただきます
0040192.168.0.774
垢版 |
2024/02/25(日) 02:04:04.75ID:cjUiDYTX0
自作ツールの話だけど、DLしたデータを保存するファイル形式って何かいいのある?

例えば https://example.com/blog/article?mode=view&page=10 とかのURLを保存する時、
リクエストしたURL、レスポンスヘッダー、日時等のメタデータ、もちろんレスポンス本文 を保存したい。
もちろんレスポンス本文はバイナリの場合もある。

wgetだとローカルに example.com フォルダの中に blogフォルダの中に article_mode=view&page=10 というファイルを作る(半角の?はファイル名で使えないので置換される)
みたいなのがベタだと思うけど、それだとまずURL文字列の情報が失われてるし、レスポンスヘッダも消えてる。
それに1URLが1ファイルに保存されるから1サイトまるごとだとファイル数が多すぎて取り回しがしにくくなる。

warcファイルでいいやと思ったけど、一般的にはマイナーでエコシステムが力不足な事があるし
じゃあsqlteに自分でテーブルやカラムを作ってやればいいけど独自規格は後々困りそうだし…。

どうすればいいんすかね。
0041192.168.0.774
垢版 |
2024/02/25(日) 15:52:11.05ID:6fhfw2DW0
warcで良いだろ
今後どれだけ時を経てもエコシステムが充足することはないから考慮する必要もない
0042192.168.0.774
垢版 |
2024/02/25(日) 19:29:29.32ID:cjUiDYTX0
うーん、それもそうか…
0043192.168.0.774
垢版 |
2024/02/26(月) 21:52:37.14ID:badvTVSb0
warcは腐ってもISO規格で標準化されてて、マイナーな業界とはいえ世界中の専門機関で使われてる訳だしな
下手に自作するよりはずっと良い
0044192.168.0.774
垢版 |
2024/02/26(月) 21:58:07.39ID:badvTVSb0
エコシステムが不足してるなら自分が貢献できるよう頑張ろう、位のガッツがあった方が良いよ(実際に貢献できるかは別として)
何しろマイナーな技術分野で先駆者が少ないから、それくらいの意気込みがないと現実的にやっていられない
0045192.168.0.774
垢版 |
2024/02/27(火) 00:51:18.39ID:o1ZUbZhQ0
流行ると後から来たお客様にオワコンにされる流れ多すぎるのが悪い
先駆者利益も大きなお客様に乗っ取られた後の利益と比べたらリスクとリターン見合ってないし
0046192.168.0.774
垢版 |
2024/02/27(火) 12:09:56.51ID:ncN5iY7H0
オープンソースかつアーカイブ界隈でそれ気にする必要ある?
0047192.168.0.774
垢版 |
2024/03/12(火) 13:39:21.51ID:DaYLFx9E0
どなたかArchiveTeamに連絡お願いします

>> このたび、ODN「ホームページサービス」につきましては、ご利用者の減少に伴い、2023年6月30日(金)に新規受付を終了し、
>> 2024年3月31日(日)をもちましてサービスを終了させていただくこととなりましたので、ご案内申し上げます。
https://www.odn.ne.jp/odn_info/20230413.html
0048192.168.0.774
垢版 |
2024/03/12(火) 14:00:43.70ID:kcrHEzLE0
個人サイトなんだけど、todayが消してくれないのどうにかならんかな。
0049192.168.0.774
垢版 |
2024/03/12(火) 14:24:31.31ID:XJRNS97w0
>>48
残されて困るようなものを公開したお前が悪い
0050192.168.0.774
垢版 |
2024/03/12(火) 20:00:28.00ID:rAwzeJQ40
長期的には.orgや.todayが潰される可能性も
0051192.168.0.774
垢版 |
2024/03/12(火) 21:27:17.34ID:XJRNS97w0
.org は無いと思うが .today はわからんな
0052192.168.0.774
垢版 |
2024/03/14(木) 17:05:30.27ID:4OkU93Wi0
.todayが重宝されてる一番の理由って日本語どころか.todayが運営してる国の言葉で正式な削除依頼を出しても突っぱねられて消えない事だからなあ
それこそ生半可な弁護士雇っても無理で某春○ちゃんの後任弁護士が英語と現地法律ガチった結果ようやく削除依頼が通ったみたいな記事書いてた気がする
0053192.168.0.774
垢版 |
2024/03/14(木) 21:27:55.19ID:iPr/ZwFh0
スクリプト爆撃対策できない5ch自体もそろそろやばそうだ
0054192.168.0.774
垢版 |
2024/03/27(水) 10:00:12.13ID:VvChnD9t0
過去の悪行をアーカイブされてる変態新聞がAI児ポに絡めてアーカイバを悪に仕立てる構図
0055192.168.0.774
垢版 |
2024/03/27(水) 10:47:01.22ID:/iyhPo8d0
archive.is

Loading.

Not Found (yet?)

All site
0056192.168.0.774
垢版 |
2024/03/27(水) 16:16:54.74ID:VvChnD9t0
.todayで俺もなった
0057192.168.0.774
垢版 |
2024/04/02(火) 01:43:49.44ID:1ckoJKH40
2024/4/1、長年Google検索トップに鎮座していた
【文字数カウント】がODNホームページサービス終了に伴い消滅

SNSでは突然の別れに惜しむ声が絶えない
このツールは2002年から存在していた模様
https://i.imgur.com/i3wHZKp.jpg
http://www1.odn.ne.jp/megukuma/count.htm

【文字数カウント】サイト閉鎖 ユーザー「一番使いやすかった」「ありがとうございました」
https://www.itmedia.co.jp/news/spv/2404/01/news121.html
0060192.168.0.774
垢版 |
2024/04/18(木) 16:23:26.26ID:31KqVUKw0
.todayでXの保存ができなくなったか
ユーザーごとに魚拓を検索できたから重宝してたんだが
0061192.168.0.774
垢版 |
2024/04/19(金) 04:12:56.08ID:f+QDn1hh0
画像とかクリックして別タブで開かずそのページでポップアップみたいな感じで開くやつは
archive.org、arhive.isどちらでもアーカイブとってもクリックにその箇所が反応しないな
0062192.168.0.774
垢版 |
2024/04/19(金) 04:29:19.53ID:Cp941s2b0
>>61
archive.org の場合はサイト次第
0063192.168.0.774
垢版 |
2024/04/19(金) 18:52:53.74ID:f+QDn1hh0
>>62
そうなの
MEN'S NON-NOのサイトだが画像をクリックすると、それとともに取材相手への質問が表示されるやつ
先にアーカイブとられてたやつは画像が表示されてなかったから改めてアーカイブしたら
画像表示自体はしたがクリックに無反応
レスを投稿する


ニューススポーツなんでも実況