Windows版FireFox、Chrome、BraveとSafariで同じ症状
archive.is
日本時間今朝10時7分にサーバ証明書期限切れ、更新されてない
0017192.168.0.7742023/12/12(火) 19:22:42.21ID:hW2qVqPj0
archive todayで気軽にアーカイブ化できるようなショートカットとかないですか?
公式にブックマークレットあったはずだけど使えなくなったのか?
0019192.168.0.7742023/12/18(月) 14:32:47.54ID:rr5iksGZ0
ブックマークレット見当たらないんだけどどこにある?
今も一応第三者が作ってGithubに上げてるブックマークレットならちゃんと今見てるページのワンポチ魚拓取得出来るよ
トップページ一回経由するやつ
0022192.168.0.7742023/12/19(火) 14:10:59.19ID:be8ZnnnO0
0023192.168.0.7742023/12/28(木) 15:22:56.59ID:aVvZh5OJ0
archive.today
今朝、運良く取得できたけど、welcome to nginx病・・・
しかも一度出ると再アクセスしても接続がタイムアウトして繋がらなくなる・・・
回避方法あったら教えて
>>23
見た感じ archive.today の応答がかなり悪くなってるみたいだけど
archive.is とか archive.md とか archive.li とか、リダイレクトの生じない名前なら
サクサク返って来るんだよね 0025192.168.0.7742023/12/29(金) 16:14:00.57ID:mcUEm1710
今日もarchive.todayでWelcome to nginx!になって取得できない・・・
取得するコツってないの?
>>5
お前みたいな人はボランティアとかに向いていないから、ここのスレとかに来ない方が良いんだけどな。
>>8
ここ匿名なのに、「日記帳にしてた人」と「指摘した人」同じに見える能力があるんだな。すげえな。
もし有事があっても朝鮮人の所為にするなよ。 >>7
関連スレの「#2」の部分は直さなかったのかw #5なのに スレを日記帳にしてた連投句読点おじさん帰ってきちゃったじゃん…
質問です
このサイトをそのままの形で落としたいのですが
https://goodsmileshop.com/ja/
HTTrackでやったら、商品ページまで落とせず終わったり商品の画像が表示されません
そこでwgetで
wget -m -p -E -k -np をつけてやってみました。コマンドはよく分かりませんがネットでサイトそのまま再現
で検索したらこのコマンドを使えと記載がありました
まだ終わってませんがindexを覗いてみたら、カテゴリページを延々とダウンロードしてるようで
商品ページはまだで、途中ですがやっぱり画像が表示されてません
またいつまで経っても終わりません
画像が表示されないのは、表示方法にjavascriptとかを使っているからなんでしょうか
放置してダウンロードが終了すれば、きちんと表示されるんでしょうか >>31
スレタイ
❌ ローカルアーカイブ総合
⭕ ウェブアーカイブ総合 wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
って書かれてたんで来ちゃいました。すみません
wgetの使い方に詳しい方がいる板ってどのあたりなんでしょうかね
0034192.168.0.7742024/01/09(火) 19:48:58.47ID:p24Ans9E0
0036192.168.0.7742024/01/22(月) 15:33:31.38ID:BqifyO/10
スラドの保存を依頼しに来たが、既に書かれてた
1月いっぱいで閉鎖との事なので、技術を持ってる方がいたらWayback Machineへの保存をお願いします
0037192.168.0.7742024/02/01(木) 03:41:51.12ID:uruf4q6/0
『OKMusic』サービス終了のお知らせ
https://okmusic.jp/news/548328
<終了までのスケジュール>
・2024年3月31日(日)午後11時59分
記事更新を終了
・2024年4月1日(月)午前11時59分
会員機能の提供を終了
※以降会員登録、ログインできません
・2024年5月以降(予定)
サイトの公開を終了
※終了日時に関しては、このページにて改めて告知させていただきます 自作ツールの話だけど、DLしたデータを保存するファイル形式って何かいいのある?
例えば https://example.com/blog/article?mode=view&page=10 とかのURLを保存する時、
リクエストしたURL、レスポンスヘッダー、日時等のメタデータ、もちろんレスポンス本文 を保存したい。
もちろんレスポンス本文はバイナリの場合もある。
wgetだとローカルに example.com フォルダの中に blogフォルダの中に article_mode=view&page=10 というファイルを作る(半角の?はファイル名で使えないので置換される)
みたいなのがベタだと思うけど、それだとまずURL文字列の情報が失われてるし、レスポンスヘッダも消えてる。
それに1URLが1ファイルに保存されるから1サイトまるごとだとファイル数が多すぎて取り回しがしにくくなる。
warcファイルでいいやと思ったけど、一般的にはマイナーでエコシステムが力不足な事があるし
じゃあsqlteに自分でテーブルやカラムを作ってやればいいけど独自規格は後々困りそうだし…。
どうすればいいんすかね。 warcで良いだろ
今後どれだけ時を経てもエコシステムが充足することはないから考慮する必要もない
warcは腐ってもISO規格で標準化されてて、マイナーな業界とはいえ世界中の専門機関で使われてる訳だしな
下手に自作するよりはずっと良い
エコシステムが不足してるなら自分が貢献できるよう頑張ろう、位のガッツがあった方が良いよ(実際に貢献できるかは別として)
何しろマイナーな技術分野で先駆者が少ないから、それくらいの意気込みがないと現実的にやっていられない
流行ると後から来たお客様にオワコンにされる流れ多すぎるのが悪い
先駆者利益も大きなお客様に乗っ取られた後の利益と比べたらリスクとリターン見合ってないし
オープンソースかつアーカイブ界隈でそれ気にする必要ある?
0047192.168.0.7742024/03/12(火) 13:39:21.51ID:DaYLFx9E0
0048192.168.0.7742024/03/12(火) 14:00:43.70ID:kcrHEzLE0
個人サイトなんだけど、todayが消してくれないのどうにかならんかな。
>>48
残されて困るようなものを公開したお前が悪い 長期的には.orgや.todayが潰される可能性も
.org は無いと思うが .today はわからんな
.todayが重宝されてる一番の理由って日本語どころか.todayが運営してる国の言葉で正式な削除依頼を出しても突っぱねられて消えない事だからなあ
それこそ生半可な弁護士雇っても無理で某春○ちゃんの後任弁護士が英語と現地法律ガチった結果ようやく削除依頼が通ったみたいな記事書いてた気がする
スクリプト爆撃対策できない5ch自体もそろそろやばそうだ
過去の悪行をアーカイブされてる変態新聞がAI児ポに絡めてアーカイバを悪に仕立てる構図
archive.is
Loading.
↓
Not Found (yet?)
All site
.todayでXの保存ができなくなったか
ユーザーごとに魚拓を検索できたから重宝してたんだが
画像とかクリックして別タブで開かずそのページでポップアップみたいな感じで開くやつは
archive.org、arhive.isどちらでもアーカイブとってもクリックにその箇所が反応しないな
>>61
archive.org の場合はサイト次第 >>62
そうなの
MEN'S NON-NOのサイトだが画像をクリックすると、それとともに取材相手への質問が表示されるやつ
先にアーカイブとられてたやつは画像が表示されてなかったから改めてアーカイブしたら
画像表示自体はしたがクリックに無反応