X



Internet Archive総合 (web.archive.org) #6

2025/01/27(月) 22:33:22.00
こんな辺境の地でうだうだ言ってないでお前がアーカイブしろ
お前と違って真面目に保存活動してる奴はいるぞ
https://archive.ragtag.moe/

>>104
一括確認はその方法以外は無い・・・はず
2025/01/27(月) 22:33:29.35
>>106
自分が関わっている領域のアーカイブは機械化もしながら自分てやってるんだよ
ただお前の面倒まで見るつもりは無い
111名無しさん@お腹いっぱい。
垢版 |
2025/01/27(月) 23:09:10.13
>>104
https://archive.org/services/wayback-gsheets/
いつもこれでチェックして保存されてないやつspnに投入してる
2025/01/28(火) 16:59:46.82
>>109 そうやって皆さんは私に丸投げするのか?
それが保存活動の重要性を軽視したり、「どうせ誰かが保存しているだろう」といった心理が蔓延したりしている証拠だ。
>>106 どうしても嫌なら無理して協力しなくても結構です。
2025/01/28(火) 18:41:19.18
>>112自身が精力的に保存をしているのに
>>97などは「112が自分では何もせず全部丸投げしている」という認識
全然話が噛み合ってない
2025/01/28(火) 19:33:49.32
じゃあ聞くが昨日と今日でいくつ保存したんだ?
2025/01/28(火) 19:57:19.78
議論の場所が間違っているので、ホロライブ総合スレで言ってみたほうがいいんじゃないかな?
2025/01/28(火) 20:12:33.99
>>114 今日は今のところ5本くらい。
2025/01/29(水) 00:03:14.89
ホロライブスレで相手されないからこっち書いてるの?
2025/01/29(水) 00:11:55.39
私に自分が早く保存しろとか言ってる人の皆さんはみんな私に全部押し付けるの?
仕事や就寝の都合で早くチェックできない時があるのに?
だから保存活動の重要性を軽視したり、「どうせ誰かが保存しているだろう」といった心理が蔓延したりしているってことですか。
そういう考えだから保存する必然性を感じないって事だろう?

ホロライブだけではありません。レオンチャンネルなど他の動画もそうです。
2025/01/29(水) 00:24:22.55
ホンモノの人っぽすぎて触れづらい
2025/01/29(水) 06:01:48.85
Yahoo!ニュースでそこそこ見る中国人みたいな奴で草
最近だと新婚旅行で来日した痴漢ゴブリン
2025/01/29(水) 21:03:10.92
>>118
必要性を感じない←答え出てるじゃないか
その必要性をより具体的に説明する方法をもってこい
それがない限り作業を押し付けてるのは君の方だし
現状全く必要性を感じないし
なぜここで喚くのかもわからない

必要だと思ったら個人でやればいい
仕事で見れないならサーバーでも作ってジョブ登録させたりして自動保存しろよ
これ以上Vのイメージ下げないでほしい
2025/01/29(水) 21:04:48.87
VならVスレの方に書けよ
そっちの方が住民の協力も得られると思うけど
123名無しさん@お腹いっぱい。
垢版 |
2025/01/29(水) 21:41:03.87
レオンチャンネルも...
いらんな()
そもそも歴史的価値がある動画なんてそうそうないだろうし
124名無しさん@お腹いっぱい。
垢版 |
2025/01/29(水) 22:23:58.88
話し変えるけど今日からoutlinksの取得数ごっそり減ってない?
2025/01/29(水) 23:19:19.57
>>124
減ってる
確か 100 件くらいまでは拾えてたはずが今は 10 件だけ
2025/01/30(木) 00:13:29.51
>>111
ありがとうございます!
2025/01/30(木) 00:40:12.68
ページ画像なんかspnじゃ全部取れないから仕方なく黙々と手作業で確認してるけどやるならそれくらいの気概でやれって感じ
2025/01/30(木) 00:41:06.57
spn △
outlinks 〇

spnだけじゃ画像取り切れないサイトもあるから間違いではない
2025/01/30(木) 00:49:46.23
スクレイピングで取得したURLをSPNで全部処理させて
間接的にOutlinksの処理させるスクリプトでアーカイブしてるんだけど
ちゃんと記録されてんのかなこれ
2025/01/30(木) 01:02:11.01
いつの間にかdaily_captures_limitが10000になってた
outlinks上限が10件になったりとかなり絞ってるな
2025/01/30(木) 14:14:58.28
スラド、受け入れ先が決まる前に死亡したかぁ
https://web.archive.org/web/20250130051154/srad.jp/
2025/01/30(木) 18:18:15.73
todayいいよtoday
2025/01/30(木) 19:11:43.34
ボット除け入ってるのは論外
2025/01/30(木) 20:32:35.64
そんなぁ
2025/01/31(金) 02:25:19.71
>>131
うぉっ、これは大きいな…
2025/02/01(土) 14:53:03.33
>>121 みんな自分勝手すぎる。
自分が良ければそれでいいのか。
2025/02/01(土) 15:01:32.48
失せろ
2025/02/01(土) 17:37:41.68
スラド戻った。
そして雑談用トピックも1月28日付けで立ってる
2025/02/01(土) 18:47:25.57
iPhoneのお気に入りに保存してるURL
いつの間にかリンク切れ多数
Webページの寿命って10年行くか行かないかくらいじゃないか?
2025/02/01(土) 19:25:28.46
daily_captures_limit が 40000 に戻った
outlinks の上限はおそらく 75
141代行
垢版 |
2025/02/02(日) 00:44:22.51
【本文】
『Save outlinks』の機能使いたいんですけど、ログインしてるのに「Sign in to use extra features:」と表示されてそこのボタンを押すと、入力した保存したいURLが外れて保存が出来ないままなのですが、どうすればいいのでしょうか?
2025/02/02(日) 02:41:16.13
なることあるみたいねー
Firefox で生挿入しているときは専用オプション出るので支障無かったけど
Tor Browser で試すとログインできて右上にユーザ名も出てるのに Save error pages だけ
アカウントは同じ、もしかして回線別の規制が始まった?
2025/02/02(日) 12:46:14.84
>>141
俺もなってる
2025/02/04(火) 12:21:24.62
You have already reached the limit of active Save Page Now sessions. Please wait for a minute and then try again.
2025/02/04(火) 12:30:17.41
wait for a minute というのが字面通りなんだな
時計の秒針が進んで 0 秒を過ぎるのを待てばよい
146名無しさん@お腹いっぱい。
垢版 |
2025/02/04(火) 18:04:00.51
テスト
2025/02/04(火) 18:05:31.69
みんな保存活動の重要性を軽視したり、「どうせ誰かが保存しているだろう」といった心理が蔓延したりしすぎ。
アーカイブ保存が遅過ぎるケースがかなり増えていますのに、どうして危機感がないんですかね?
私がしつこいのは、みんな動画が公開されてすぐにチェックしてもアーカイブ保存は行わず、みんなアーカイブ保存をするのが遅いからです。
何か問題でも?
2025/02/04(火) 18:15:58.01
と、割れ厨がクレクレ音頭を躍っており
2025/02/04(火) 18:33:52.53
>>145
サーバーの時計ってそんなぴったり合ってるものなの?
2025/02/04(火) 19:26:49.79
ここにいる連中はVチューバーに1ミリも興味ない
お前に協力する義理もない
もう来ないでね
2025/02/04(火) 19:49:23.10
へえ、そんな香ばしいことになってたのか
2025/02/04(火) 19:54:10.54
>>150 お前ら本当に軽視しすぎ。
本当は初期データなんかどうでも良いと思ってんだろ。
その危機感の無さがアーカイブ保存の遅延を招いた結果だ。
2025/02/04(火) 19:57:37.33
この人こわい
俺に安価つけないでよ
2025/02/04(火) 20:02:38.44
>>149
電波時計を横に置いて手作業で連続アーカイブを掛けたりすることがあるけど
少なくとも 1 秒くらいの精度では合っていると思うね
2025/02/04(火) 20:02:47.15
保存を決意する前のお前がまさに
保存活動の重要性を軽視して、
「どうせ誰かが保存しているだろう」といった心理
だったわけだがw
2025/02/04(火) 21:08:02.76
ここは保存活動スレじゃないからね
Youtube板に専用スレ立てて言ったほうがいいね
2025/02/05(水) 02:37:53.50
みんながかまうから日本語あやしい中国人居座ってて草
ホロライブの桐生ココは中国の荒らしによって理不尽な引退に追い込まれたらしいっすね(検索結果でしか知らない)
中国人に好かれるvかわいそう
2025/02/05(水) 07:35:01.64
もうくんな
2025/02/05(水) 11:54:17.20
Vに興味なければただのゴミでしかないのに協力するわけない
2025/02/05(水) 12:58:03.32
ファンを装った競合弱小事務所の関係者だったりして
2025/02/05(水) 17:54:54.72
outlinksのチェックボックス復活したけど使う用事無いから使えるかは未確認
2025/02/06(木) 16:39:36.61
APIドキュメント見る限り一つのURLに使う時間は2分が上限らしいけど
ギガバイト級のファイルとか絶対に2分超えてると思うんだがな
まぁドキュメントは割とガバガバだから当てにならんと言えばそれまでだけども
2025/02/06(木) 18:55:42.60
Job status JSON の duration_sec を見てると確か 300 秒か 360 秒は行ってた気がする
164名無しさん@お腹いっぱい。
垢版 |
2025/02/07(金) 22:16:47.65
https://www.youtube.com/watch?v=uBFTCK1EzM4
上記のURLが上がったのですぐにアーカイブ保存しようとしたらサーバーの負荷ですぐにアーカイブ保存が出来ない状態になってる・・・。
この状態では公開から10分以内のデータがどうやってもアーカイブ保存できないぞ。改善されるまで待つしかないか。
2025/02/07(金) 22:18:39.90
>> 156 分かった。

>>159 お前にゴミ呼ばわりされる筋合いはない。どうしても利用者のことをゴミ呼ばわりするならお前も5ちゃんねる全体から出て行ってもらうぞ。
2025/02/07(金) 23:23:52.46
1人で言ってろ
2025/02/07(金) 23:56:45.51
ゴミ呼ばわりはさすがにひどいわこんなのと一緒にしたらゴミに失礼だろ
2025/02/08(土) 07:50:08.72
>>167
たしかに
ゴミはリサイクルされたり熱回収されるけど
どっかのよくわかんない人は迷惑しかかけないからなぁ…
2025/02/09(日) 01:57:26.94
ログイン状態なのにoutlinksまた使えなくなった
2025/02/09(日) 23:31:20.26
outlinksが消えたり復活したりを繰り返している
2025/02/11(火) 02:29:43.50
ここずっと調子悪いな
ろくに使えない
2025/02/11(火) 09:48:37.07
実際問題どの程度寄付で動かされてんのかね?
寄付なかったらいずれは100%終わるだろうし
2025/02/11(火) 14:37:59.04
俺はちょこちょこ寄付してるよ
別に大人だから1000円くらい大したことないし
日常的に使ってるならそれくらい出してやれって
wikipediaもな。
2025/02/11(火) 17:33:19.06
みんな金持ちだな
2025/02/11(火) 17:51:13.54
出世払いで
2025/02/15(土) 12:15:13.49
もしかしてマイナビニュースの画像、手動で一枚一枚保存しないとダメなんか
177名無しさん@お腹いっぱい。
垢版 |
2025/02/15(土) 18:03:03.98
寄附控除利かないから501(C)(3)のあるアの国に任せよう
2025/02/16(日) 17:19:34.23
アルゾン終了すんのか
2025/02/18(火) 19:44:48.61
追い、海外ニキ!アーカイブチーム何やってんだよ💢
2025/02/18(火) 19:50:57.71
うるせえ!ちんぽこ見せろ!!
2025/02/18(火) 22:14:51.59
アーカイブチームとか海外ニキとかが利用者がすぐさま迅速に対応しないし、アーカイブ保存の遅延が続いてるからだよ💢
これでは不便じゃないか。

>>180 うるさいのはお前だ。ちんぽことか言うなら出て行け。お前にコメントする資格はない。
2025/02/18(火) 22:29:40.41
「アーカイブチーム」ってのを NG ワードに追加すれば良いのだな
2025/02/19(水) 00:01:07.81
キチガイまだ居たのか
184名無しさん@お腹いっぱい。
垢版 |
2025/02/19(水) 09:01:24.58
次スレからワッチョイかどんぐりほしい
2025/02/19(水) 16:14:16.89
ここで言うなよ邪魔くさいなぁ
scで壁打ちしてなよ…
186名無しさん@お腹いっぱい。
垢版 |
2025/02/21(金) 11:19:45.86
うんこ!
2025/02/23(日) 13:36:03.59
Save Page Now API は生きてるけどブラウザでは全く使えんな
上の黒いバーが表示されず進捗も更新されない、よくあるやつ
まぁ、バックグラウンドで保存は進行するんだけど

ついでに確認したら一分当たりのリクエスト数上限は 12 に増えてる
2025/02/24(月) 03:25:21.89
2024/09/30 閉鎖 アキバ総研 https://akiba-souken.com/article/66874/ https://www.itmedia.co.jp/news/articles/2408/01/news124.html
2024/11/26 閉鎖 マンガ図書館Z https://closing.mangaz.com/info/2114/index.html
2024/12/20 閉鎖 vectorの作者個人ページ https://www.itmedia.co.jp/news/articles/2407/18/news117.html
2025/03/20 閉鎖? 検索してはいけない言葉wiki https://w.atwiki.jp/mustnotsearch/pages/6128.html
2025/03/31 閉鎖 魔法のiらんど https://maho.jp/info/entry/maho_i_will_no_longer_available
2025/03/31 閉鎖 SSブログ https://blog-wn.blog.ss-blog.jp/2024-11-15
2025/03/31 閉鎖 ぷららのHPスペース https://www.docomo.ne.jp/info/notice/page/240627_01.html

久々に更新したら、魔法のiらんどとか今年度末に消えるサイトいっぱいあった…
189名無しさん@お腹いっぱい。
垢版 |
2025/02/24(月) 08:47:17.23
disable ad blockerなる項目が出来てるけど広告系もまとめて保存するときにチェック入れる項目なのかな
2025/02/24(月) 09:56:42.82
>>188
めちゃくちゃ消えるな…
てか検索してはいけない言葉wikiとか
アニオタwikiとか
ポリシーに合致できないから消えるってのも
なかなか悲しいな
時代の歴史として残せないもんなのかね
2025/02/24(月) 12:53:27.78
atwikiは
https://w.atwiki.jp/mustnotsearch/?cmd=backup&action=source&pageid=1&id=478097
等の、過去の記事のソース表示 を連続で行うと (errno=deny-sv-ax) で弾かれる。
めんどくっさ。
2025/02/24(月) 15:26:01.05
webarchiveてSAVEしたら画像が歯抜けになるのは何でなん?web魚拓やarchive todayとかはしっかり画像も全部記録するんだけど
2025/02/24(月) 17:16:14.66
リンクの上限に引っかかってるんじゃない?、よっぽど枚数が多くないとあり得ないとは思うけど
もしくはWBM側の問題、アーカイブされてから時間を置かないと表示されない時がある
2025/02/25(火) 04:27:50.00
ページを閲覧や保存しようとするといや応なしに503になるな…
そんなにいっぱいいっぱいなん?
2025/02/25(火) 13:17:25.66
ここ数日は重いのでそれが原因じゃね
2025/02/25(火) 21:07:46.91
5ちゃんの過去ログ
どうにかして端から端までアーカイブできないかな?
前みたいに過去ログ見れなくなって
今度こそ復旧不可になると困るし
2025/02/25(火) 21:08:55.83
現行スレのテンプレとかにURL載ってれば
スクレイピングして抽出して
アーカイブ残すことはできると思うんだが
現行スレにURLが載ってない場合はどうすれば良いかね?
2025/02/25(火) 21:56:50.47
現行鯖は 鯖名.5ch.net/板名/oyster/ 以下のディレクトリインデックスが取れるから
HTML をアーカイブするにしてもそこから URL を逆生成すれば何とかなる
問題は kako 鯖か
2025/02/26(水) 14:18:16.21
せめてスレッドIDの一覧は定期的にアーカイブしておくべきだよな
2025/02/26(水) 20:53:41.53
とりあえず今アクセス出来るスレッドの一覧を公開しているサイトを張っておくか。*はそのまま抜いてくれ
http://m imi*zun.com/ httpsではアクセス出来ないのでhttp でアクセスする事。2ch初期からあって一応サーバーが止まっていない唯一の例か
http://op en.c*eek.jp/
https://ka kol*og.jp/
http://www.lo *gso* ku.c* om/ 昔有名だったサイト。今ではdnsすら止まってて完全に閉鎖
http://unk ar.org/ ここも同じく。昔あったサイト

ホスト名・板名(esite)・スレッドid・スレタイ の網羅的な一覧を作りたい。
数年前に当時生きてた過去ログを全部スクレイピングしたんだけど、それが入ったSSDが死んじゃったんだよな…
sqliteで1ファイルにしたんだが、あれがどこかに残っていれば…
2025/02/28(金) 02:35:03.43
5chの過去ログ個人的には保存&URLとっててもWebではアーカイブしてなかったけど
2019年あたりの一部スレッドなくなってるわ
2025/02/28(金) 09:46:58.00
かころぐβからデータ収集するならAPI使うといい
https://kakolog.jp/ajax/ajax_search.v16.cgi?q=&custom_date=&d=&o=&resnum=&bbs=&custom_resnum=&custom_resnum_dir=up&p=0&star=&mode=
2025/02/28(金) 09:50:33.74
q: 検索ワード
d: 年
bbs: 板名
p: ページ数(50スレずつ表.示される)
mode: infoを指定すると板ごとのスレ数が見れる
なんかここ数か月qを指定しつつmodeをinfoにするとエラーが返ってくるせいで現行しか検索結果に表示されないんだが、dをI999~2O25まで一つ一つ指定していけば全て見れる
2O24年1月時点のinfoのアーカイブを見る限りallは1O28万程だから抜けはそこそこあるだろうけどな
2025/02/28(金) 22:02:12.56
来月末で終了

「ファミ通App」サイト更新停止に関するお知らせ | ファミ通App【スマホゲーム情報サイト】 https://app.famitsu.com/article/202502/34931
2025/03/02(日) 05:02:27.86
ぷららは2014年頃までHPスペースを開設しているサイト一覧があったっぽい
カテゴリはサイトのオーナーが個別に登録する必要があるけど、ユーザーネームの頭文字の一覧があってこっちは全部ありそう?
https://web.archive.org/web/20140309134953/http://www.plala.or.jp/access/community/mhps

2014/10/31に「めんばーず・いんでっくす」が終了
https://www.plala.or.jp/support/info/2014/0714/index.html

「めんばーず・いんでっくす」 からHPスペースごとのURL一覧を作るのと、
それに全部http getして今も生きているHPスペースの一覧を作るくらいかな。
余裕があれば今も生きているHPスペースをwgetでリンク再起取得してhtmlファイル一覧を作ってInternetArchiveに保存したいけど、もう間に合わない。

閉鎖したサービス、IAでURLを直打ちすれば見れます!なんてのは無いのと同じだから、インデックスはちゃんと作ってアクセス可能な状態にしておいてあげたい
2025/03/02(日) 05:22:18.89
SSブログは網羅的な一覧は無いっぽいけど、
カテゴリごとの妙に細かいランキングがあるからそれを舐めるしかないかな。
https://blog.ss-blog.jp/_contents/recent_articles/

魔法のiらんどは検索が1ページ20件でMAX500ページ=1万件まで取得可能
https://maho.jp/search?page=500
フッターにカテゴリごとの検索リンクがある。
https://maho.jp/search?genre_name=love_comedy&order=published_at

ジャンル全てで検索すると作品数が703K=70.3万本と出るけど
ジャンル:その他 が32.5万でほぼ半分その他。
完全な一覧は無理だけど、検索から取れる作品で作者の一覧を作成→作者の作品一覧ページから作品の個別取得がベターかな。

小説作品はgraphQLをpostして取得してるから取るのは無理っぽい。
それでも作品の表紙テキストだけで結構な資料
2025/03/02(日) 05:24:02.83
>>204
スマホアプリこそサービスが終わると跡形もなくなるから、これが消えるのも残念すぎるよな…
2025/03/02(日) 05:29:43.86
ファミ通App、最古の記事はこのあたりかな。15年分の記事が消失と
https://app.famitsu.com/20101024_90800
2025/03/02(日) 13:06:44.88
>>194
と同じ現象が今起きてるな…
トップページは開けるけどまたサイバー攻撃でも食らってるのだろうか?
2025/03/02(日) 13:31:48.84
>>209
同じく
30〜40分前までなんてことなかったのに突然つながらなくなった
数分前はトップすらつながらず
2025/03/02(日) 15:28:22.77
ファミ通AppはAPI使えばデータ収集できるな
2024-07以降
https://app.famitsu.com/api/archive?year=2024&month=07&order=asc&page=1&executedPagePath=/archive
2024-07以前
https://app.famitsu.com/api/archive?year=2010&month=10&order=asc&page=1&executedPagePath=/archive-history

URLパターン
https://app.famitsu.com/article/202503/35240
https://app.famitsu.com/20240701_2251205

2024-07以降の場合
"redirectUrl"が空であれば①
そうでなければ②

2024-07以前の場合
"historaArticleUrl"から②を取得可.能

タイトルとURLだけ集めてみたけどざっと6万5000件ある
これ以外にも特設サイトが何個か
2025/03/02(日) 17:13:24.77
>>211
いいね。apiが動いてる間にデータ取らないと…

スラドはちょっと前はテストドメインやスマホページでajaxで色々取れた記憶があるけど
今年に入ってからはコメント残り表示のperl以外が全部止まってるっぽくて凹んだ
2025/03/04(火) 09:12:35.31
ttps://x.com/tiyu12sai/status/1896502262291464539
ぷららが消えるという事は侍魂も消えるという事?という指摘
2025/03/04(火) 13:25:15.88
SPNにDisable ad blockerなる機能が追加されたみたいだな…
某生まれたばかりの掲示板のスレで試してみたけど結果は時間によってまちまちだな…
2025/03/04(火) 14:16:35.01
内部リンクを辿りながら一つのサイトを丸ごとWayback Machineに保存できるようなツールってある?
2025/03/04(火) 20:56:59.83
wgetで再起でやるとか?
調べたらローカルにファイルは保存しないでurlだけたどるオプションがあるらしい。

しかし今どきのサイトはそれじゃ補足してきれないよな。wgetもどこまで対応しているのかよくわからんし。
jsで動的に組み上げるurlは流石に対応してないだろうけど。

完璧にやるならchromeを自動化してurlを表示→devtoolからアクセスが発生したURL一覧をチェック→表示したページから別ページへのリンク一覧を抽出
→繰り返し
するかんじ?
2025/03/05(水) 02:30:40.49
>>203
見つからなかったスレ見つけられたわ
ありがとう
2025/03/05(水) 16:31:58.23
ヤフオクのページを取得すると、ご覧になろうとしているページは現在表示できません。となって取得できない・・・
archive.todayは取得できる
2025/03/05(水) 16:35:37.21
取得できないのか取得してるっぽいけどアーカイブが表示できないのか
2025/03/05(水) 16:36:25.58
>>218追記
ウェブ魚拓もOK
2025/03/05(水) 23:57:42.99
ぷららのHPスペースで生きているサイトの一覧を作りました

可能な限り全部のHPスペースのトップページにhttp getしたところ、ステータスコードが200になっているスペースは約1万件ありました
レスポンスヘッダーのlast-modifiedが1997年になってるサイトも9件。これが消えるのは予想以上にヤバい
生データのsqliteもあるから使ってくださいませ
作業に使ったソースコードも全部公開する予定です

https://i.imgur.com/3gMXlng.png
https://gist.github.com/fushihara/ef646feaf3b71f46adad2de26dd155f2
2025/03/06(木) 01:37:17.91
検索してはいけないwiki、本来3月20日まで投票してその結果に応じて判断のはずだったのに
今日方針転換があって即日閉鎖されてる。もう既にサイト404。したらばの掲示板も同じ
ttps://x.com/0X228liszt/status/1897293635584188830
ttps://x.com/MustNotSearch2/status/1897281908276646320

管理人暴走してねーかって気がするけど、とにかく消えてる
いやいやいや
2025/03/06(木) 14:06:02.19
どうやら復旧したらしい
ひとまずよかった
https://x.com/MustNotSearch2/status/1897481604056088752
https://i.imgur.com/lKLbikZ.png

https://w.atwiki.jp/mustnotsearch/
2025/03/06(木) 16:16:50.90
atwikiは他にもアニオタwikiとか、
10年前に流行ってた2ch大辞典とか、理不尽な点を強引に解釈するスレのまとめとか色々あったよなぁ
早めに保存しとかないとな
2025/03/07(金) 03:53:31.01
>>221
ありがとうございます、アーカイブに使用させていただきますm(__)m
2025/03/08(土) 13:29:16.11
https非対応のサイトとれなくなってんだな
2025/03/08(土) 20:15:53.31
>>225
反応ありがとう。

ぷららの全サイトに対してwget -r -np -nd してサブディレクトリにあるファイル一覧をDBにテーブルに追加した
index.101.sqlite.7z にactive_plala_hp_space_child_file_list テーブル

理論上はこのurl一覧を全部archiveすれば完全なアーカイブが出来るはず
と、思ったら--level の指定を忘れて5階層分までしか取れてなかった…

--level=inf を指定して取り直すかどうしよう
2025/03/08(土) 21:03:02.69
>>226
それは困る
2025/03/08(土) 21:55:30.73
結局検索してはいけない言葉wikiはどうなったんだろうか
マジで閉鎖するならアーカイブしないといけないんだが…
2025/03/09(日) 02:59:17.16
ぷららのHP、今アクティブなのが約1万サイト
中途半端だけどwgetでそのサイトのファイルをクロールしたURLの一覧が250万件
*.html,*.html に絞るとして約35万件。
全部新規にアーカイブを登録するのは到底不可能で、既にInternetArchiveに保存されているURLを除外しても間に合うかどうか。

URL一覧を渡せばアーカイブチーム側で取得してくれたりしないかな
90年代のHPも残ってますって言えば特例してくれんか
2025/03/09(日) 03:10:13.92
見てたサイトや見たことないけど役立つサイトとかもありそうなんだよな
2025/03/09(日) 03:34:44.35
ファミ通app、SSブログ、魔法のiらんどはとても手が回らない
魔法のiランドも多分00年代の小説残ってるんだよな…
しかもこっちは小説本文の表示にapi使ってるからアーカイブじゃ読めないし
2025/03/09(日) 05:06:06.16
ぷららの話ばかりで申し訳ない。

ぷらら、www\d.plala.or.jp だけだと思ったら以下の形式のurlもあるのか…多分これ有料プランっぽいな
http://www.t-gesui.hs.plala.or.jp/gesuidoukouhoukatudounituite.html
http://academic3.plala.or.jp/uragaku/
相当数を見逃してるんだろうな。もう無理ぽ
2025/03/09(日) 06:32:34.34
>>232
ファミ通APPに関してはAPIから取得できる2024年以前の記事は全てアーカイブされていました
確認方法はcdxからstatus_code200の総URLを取得してそこにあるかないか判別
特設サイトは未確認です
2025/03/09(日) 07:22:53.76
>>230
既にURLリストがあるなら話は早い
リンクのみを75個並べたページを用意する
そのページをsave_outlinksをオンにしアーカイブ
1分に75URLをアーカイブできるという荒業
URL一覧を渡して75個ずつのグループに分けURLリストを作成し、github pagesに自動デプロイすれば完全自動化可能
250万を75で割れば3万3333
それでも理論上3万分=約23日、アーカイブ失敗を考慮すればもっとかかるからアカウント何個か作って同時並行するしかないけどIPごとに制限されてるのかな
その場合は串も必要かもしれない
アーカイブ済みURLを削ればURL総数は大幅に減るから、まずはアーカイブされているかどうかを確認するのが現実的
スプレッドシートに5000ずつ500回投げるか、1万URL分CDXからゲットして照合していくか
ぜひとも手伝わせてほしい
2025/03/09(日) 11:43:52.53
>>234
いいね

>>235
すごい力技な方法だw

抽出したURL一覧をcsvにして以下にupしました。
https://81.gigafile.nu/0408-ccb7cfdb73fd53f011b40d508ff56db8f

ただ>>227 でも書いたけど、wgetの指定方法を間違えて plala.or.jp/xxxxx/ から5階層分しか抽出出来てなかった。
--level=inf を指定してurl一覧を取得し直してるけど、数日かかります
それでも閉鎖まであと20日しか無いし、ここで数日待つよりかは。貴重な土日だし
2025/03/09(日) 17:45:49.09
普通にアーカイブしようとしたら4回目からはじかれるけど
それを回避する何か方法があるのか
2025/03/09(日) 19:26:03.30
「普通」の定義次第だな
一分間(ほぼ正確な時計で0秒から次の0秒まで)に12回までアーカイブできる
別の「普通」ではその期間に5回まで
2025/03/09(日) 20:01:52.87
>>236
サンクス
アーカイブチェックしていきます
同一ドメインのurlが例えば1000以上あるものはcdx、1000以下のものはスプレッドシートと使い分けたら少しばかりは効率いいかもしれない
2025/03/09(日) 20:12:40.61
SSブログのURLが3万4000ほど集まったのでひとまず共有
自由に使ってOK。再配布もOK
https://81.gigafile.nu/0617-d4afe33e5f49115ada5a24891f09da0da
タグで検索しまくって収集しました
ssblog_urls:ブログURL一覧
checked_tags:チェック済みのタグ
check_scheduled_tags:これからチェックする予定のタグ
other_tags:ついでに集めたタグ

できる限り全て集めるにはother_tagsも含めて全てチェックする必要があるが、数が膨大だから最低限多くの人が使ってるであろうタグのみチェックすればよさそう
またSSブログは名称が変わったせいで未アーカイブチェックがより大変な気が。。。
https://xxx.blog.so-net.ne.jp/ → https://xxx.blog.ss-blog.jp/
参照: https://blog-wn.blog.ss-blog.jp/archive/201909-1
2025/03/09(日) 20:58:23.50
>>240
いいね!

昨日InternetArchiveのIRCに入って会話してみたんだけど、URL一覧のテキストを作成したら以下のircに投げるとアーカイブボットに登録してくれるらしい。
俺の場合は「日本の90年代からあるplalaというホスティングサービスが今月末にダウンする事になって、
URLの一覧を作ったんだけどこれをardchivebotに登録お願いできますか」って書き込んだら親切な人が教えてくれた。
https://chat.hackint.org/?join=%23archiveteam-bs
だからarchiebotに投げるのは多分ここが窓口
IRCなんて超久々に触って慣れなかった。ログが残らないからクライアントで接続しようとしてるんだけど、もうIRCってクライアントすら全然無くて困った

実際、今plalaのジョブが動いている。
http://archivebot.com/?initialFilter=plala
最終的にこれがweb.archive.org で見れるようになる という事を言っていた。
2025/03/09(日) 22:10:33.49
ここにいる人たちすごいね
言ってることさっぱりわからないけど
アーカイブへの信念が伝わってくる

微力だけど自分は見たいページを
一個一個手動でアーカイブしたり
拡張機能で自動でアーカイブさせたりして頑張ります…
そのうち色々archivebotとか上手く使えるようになりたいな
2025/03/10(月) 02:29:44.96
広告ブロッカーの間違ったフィルター¹のため読み込みに失敗しました。
エラーメッセージ:
Failed to load script: Error: Script not found
244名無しさん@お腹いっぱい。
垢版 |
2025/03/10(月) 07:06:35.78
今月でAV通販サイトのarzonが閉鎖されるぞ

bot登録、NGかな
245名無しさん@お腹いっぱい。
垢版 |
2025/03/10(月) 07:10:58.73
ttps://www.arzon.jp/vhs.html

これね
2025/03/10(月) 07:59:28.39
>>241
おお...こんな頼もしいものがあったとは
色々調べてみる、ありがとう
247名無しさん@お腹いっぱい。
垢版 |
2025/03/10(月) 11:17:32.77
なんか、アーカイブがごっそり消えてんな。
2025/03/10(月) 15:55:37.25
ArchiveTeamに投げればいいのかな
2025/03/11(火) 13:26:31.80
裏技的なことだけど、ウェイバックマシンはtorブラウザから閲覧すると、接続拒否エラーが出にくい
接続拒否エラーになってもtorならipを変更すれば回避できる
250名無しさん@お腹いっぱい。
垢版 |
2025/03/11(火) 17:39:11.85
Arzonのarchivebotの登録、誰かお願い

このままではFANZAに登録されていない、VHS時代のAV女優のデータが見れなくなる。
2025/03/11(火) 20:21:49.40
ほんとだ、>>250 このサイトも発売日1999年のVHSとかあるのか
2025/03/11(火) 20:55:11.33
どーせ藻有りなんて見ねーからと思ったけど、AV 女優のデータとしては重要か。
https://web.archive.org/web/20250311114322/www.arzon.jp/vhs.html

年齢認証は前スレのオリエント工業のサイトと同じやり方で通るけど、
それって archivebot で対応できるの?
https://mevius.5ch.net/test/read.cgi/esite/1690495133/588
2025/03/12(水) 12:16:40.73
archivebotは指定されたURLの下にあるコンテンツを再帰的に取得してWARCファイルに記録
そのWARCをArchiveTeamサーバーにアップロードして、最終的にWayback Machineに挿入されるという仕組みらしい
その再帰的にダウンロードする部分のコードはここに公開されてる
https://github.com/ArchiveTeam/ArchiveBot/blob/master/pipeline/archivebot/seesaw/wpull.py
これによるとredditとBlogspotの場合R18認証用にクッキー噛ませてるけど、それ以外は特に指定されてない
ドキュメント見た感じcookie指定するコマンドもない
https://github.com/ArchiveTeam/ArchiveBot/blob/master/doc/commands.rst
恐らく対応できないと思われる
2025/03/12(水) 21:02:36.16
こんなんどこで見つけるんだよ
よく調べてるなぁ素晴らしい
2025/03/13(木) 04:25:27.94
httpのページを保存しようとしたら何故かsave後のアドレスがhttpsに変わってエラーページが保存されちゃうけど何か良い対処法は無いものだろうか…
2025/03/13(木) 05:59:13.82
HTTP しか喋らないサーバはアーカイブ不可とか何なんだこれ
https://web.archive.org/web/1/mediaryugyong.com.kp/?lang=jp
オレオレ証明書な上に発行先とホスト名が一致しないとかいう完全に狂った相手でもアーカイブするのに
2025/03/13(木) 11:23:31.14
>>255
archive.isやウェブ魚拓を使えば保存出来なくもない。
ただ、archive.isの場合はjava scriptやらが動作しないし、ウェブ魚拓だとページ全体の容量が21MBを超えるとスクショのみの保存になってしまうという…。
2025/03/14(金) 18:48:38.21
TwitterをIAに入れる方法って何かある?Nitterはどこも無理だった
2025/03/14(金) 20:23:01.90
スラドがまたbad gatewayになってる…
2025/03/15(土) 16:30:37.16
https://srad.jp/
スラド、閉鎖確定。これも3/31かよ!
2025/03/15(土) 17:33:45.88
ラッシュだな
2025/03/16(日) 01:28:20.49
archivebotの処理履歴を眺めてるんだが
たまに元のサイトにアクセスしてみると
懐かしい気分に浸れるな
plala関連に絞り込みつつ無差別に覗けるの
割といいな
2025/03/16(日) 02:30:20.16
Blueskyって昔のTwitterみたいにスレッドごと取れる訳じゃないのか・・・
2025/03/16(日) 16:07:49.37
とりあえずぷららのサイト一覧を作った。
例えば吉野家コピペで有名な侍魂のサイトは http://www6.plala.or.jp/private-hp/ で、
↓のNo.2974 がそれ。▼を押すとサイト内のhtmlの一覧を見れる
https://fushihara.github.io/plala-archive/list/has-contents-page-10/
internetArchiveに登録された日付も表示してみたけど、htmlでも抜けが結構あるんだよな・・・
2025/03/16(日) 18:31:23.44
またIRCのarchiveteam-bs に入って、internetArchiveに不足しているファイルの一覧のURLを渡してarchivebotに登録してもらった。
やんわりと メールの archiveteam[@]archiveteam.org に送ってくれやと言われた。
ファイルは transfer.archivete.am にアップロードする事を要求された。

渡したURL一覧が登録されたら、
www\d.plala.or.jp/* はほぼ残る・・・と思う。ベストは尽くせたかな
2025/03/16(日) 19:25:45.08
乙っす、ありがとう。
2025/03/16(日) 19:29:56.11
おつ
2025/03/17(月) 20:28:51.50
ssブログのアーカイブをIRCに依頼した人がいた。
https://wiki.archiveteam.org/index.php/SS_Blog
個別のプロジェクトが立ってるからそっちに書いてくれって誘導されてたけど、そっちのチャンネルでは受け入れてもらえたんだろうか。
IRCって過去の発言見れないのが本当しんどいわ。

url一覧はこれ
https://transfer.archivete.am/W4clI/ssblog_urls.txt
2025/03/18(火) 01:40:14.88
リポジトリ自体は作られてるね、中身はまだないけど
https://github.com/archiveteam
2025/03/18(火) 09:39:15.42
これとこれだな。魔法のiランドもある!と思ったけど中身空っぽ
00年代のショート小説とかも文化なのに消えてしまうのか・・・

https://github.com/ArchiveTeam/sonetblog-grab
https://github.com/ArchiveTeam/mahonoiland-grab
2025/03/18(火) 18:08:45.84
>>268
それ俺だ
あのあと#sos-blog ってとこにリンク載せたんだけど深夜だったからか数時間反応なく
あの後放置してたら電源落ちてしまいどんな反応があったか確認できてない
チャンネルへのリンクはこれ
https://chat.hackint.org/#/connect?join=%23sos-blog
どんなことしてるのか右も左もわからないからまずはROMっといた方がいいのかな
とりあえず14万5000に増えたからうpし直した
https://transfer.archivete.am/9p1Fk/ssblog_urls.txt
2025/03/18(火) 20:54:58.80
>>270
中身ないってことはなにも着手されてないのか
ブログ等はarchivebotでの再帰クロールは非効率だから各自でスクリプト組んで集めろってことなのかな?
とりあえず記事一覧もパターン化されてるから最低限/index/{数字}から記事URLを
プロフィールの画像一覧から画像URLを全てゲットしてdbに保存するコードをgptに聞きながら作ってみた
記事URL全部取得してからarchivebotへの登録(再帰取得なしで)を頼んだら受け入れてくれるかもしれない
ブログ100個分の記事を集めるのに23分かかった。もちろん記事の量によって変わるから何とも言えないけどこのままじゃ結構時間かかる
同時リクエスト数増やせば時短できるけどサイト側はどこまで許してくれるのか...
もっと効率よく記事集められる方法があったら教えとくれ
2025/03/18(火) 22:22:37.03
>>272
俺も軽く作ってみたけど、10分で60サイト分だからそんなもんかな。
何も考えずに速度最優先にするなら、 /index/[数字] で1づつ増やすんじゃなくて一気に10づつ取得すれば10倍とはいかないけど、3倍には少なくともいくと思う。
そこは怒られないかのチキンレース

しかし、URL一覧をいくつか開いてみたがほとんどアフェリエイトばっか・・・
というか、10個くらいURLをランダムに選んだけど全部アフェリエイトブログだったっていう
ちょっとやる気がなくなるやつ。
2025/03/18(火) 22:24:59.49
電子工作メディア「fabcross」閉鎖 4月以降、記事の閲覧不能に
https://www.itmedia.co.jp/news/articles/2503/18/news175.html
↓ここの2つ
https://engineer.fabcross.jp/
https://fabcross.jp/

ざっと見た感じ、ハードウェア系の技術者サイトでちょっと貴重かな
しかしもう半月もないっていう
もう無理です
2025/03/19(水) 00:57:43.67
>>273
ありがとう、もうちょいペース上げてみる
覗いてみたらたしかにアフィリエイト異様に多いな。。
先にa8.net等のアフィリンクが貼られてるかどうかチェックしたらだいぶ総数減りそう
2025/03/19(水) 20:48:13.32
a8.netだのvaluecommerce.comだの除いたら
https://10.gigafile.nu/0627-db129cd03494bcd234b32a6892c9beb44
2025/03/19(水) 20:50:14.52
誤爆
SSブログのアフィリンク除いたら5万まで減ったw
まだ取りこぼしあるかもしれないけどこれでかなり楽になった
2025/03/19(水) 21:35:13.29
おめでとう
14万5000がアフィブログを除いたら5万て・・・
そりゃサービス終了するわ
2025/03/19(水) 22:24:53.74
下記のサイトのURLの画像がarchive todayやウェブ魚拓で保存出来ません。
またウェブ魚拓は1か月〜3週間ぐらい前からどんなサイトの保存を試みても
『失敗しました!』と表示されて保存出来なくなりました。
ウェブ魚拓への対処方法が最悪改善しなくとも、
下記のサイトのURLの画像だけは何とかして保存したいんですが、何か良い対処法はありませんか?
キャプチャーやスクリーンショットを取るしか方法はないでしょうか…?

画像https://ryuryumall.jp/onlineprod/2J/84ZHIB-007/84ZHIB-007_00_500_500.jpg
画像https://ryuryumall.jp/onlineprod/2J/84ZHIB-007/84ZHIB-007_04_500_500.jpg
出典元(保存済み)https://ryuryumall.jp/shop/miniministore/goods/2JA5PA/
2025/03/20(木) 00:35:39.95
日本国外からのアクセスを弾いてるとか、そういうやつかな。
2025/03/22(土) 08:23:05.49
アルゾン無理ですかね…
2025/03/22(土) 10:25:55.60
>>281
やるかはともかく、
商品個別のURLの形式と、商品の一覧ページを提示してくれるとやりやすくて助かる

商品個別のURLはこれだと思うけど、これ1から全部ある訳じゃないっぽいのと、最新の番号はいくつ?
https://www.arzon.jp/item_696056.html

一覧はこれかな。メディア全て、状態全て、在庫全て、範囲全て、新着順、1ページ120アイテムで5835ページ。全70万アイテム
https://www.arzon.jp/index.php?action=adult_itemlist&t=all&s=all&menu=new&m=all&mkt=all&sort=-udate&disp=120&from=2

https://www.arzon.jp/item_1426230.html 商品ページ
https://img.arzon.jp/image/1/1426/1426230L.jpg パッケージはこれ。URL推測できそうだな
1つの商品ページに複数の画像があるパターンある?


アダルト認証突破するにはセッションIDを送る必要がある。cookieでR18=true みたいのではない
htmlに入ってるトークン的なのは↓これくらいか
<meta name="verify-v1" content="xxx" />
<meta name="verify-v1" content="xxx" />
<meta name="msvalidate.01" content="xxx" />
<meta name="msvalidate.01" content="xxx" />
2025/03/22(土) 10:26:33.31
画像も直リン不可でセッションIDを送る必要があると
2025/03/22(土) 16:53:05.75
アルゾン、↓を見ると2025/03/14〜18あたりに誰かが大量に保存してるっぽいな。画像も保存されてるっぽい
これでいいんじゃね?
https://web.archive.org/web/*/https://www.arzon.jp/item_*
2025/03/22(土) 16:55:55.55
>>1,188
閉鎖サイト更新
2024/09/30 閉鎖 アキバ総研 https://akiba-souken.com/article/66874/ https://www.itmedia.co.jp/news/articles/2408/01/news124.html
2024/11/26 閉鎖 マンガ図書館Z https://closing.mangaz.com/info/2114/index.html
2024/12/20 閉鎖 vectorの作者個人ページ https://www.itmedia.co.jp/news/articles/2407/18/news117.html
2025/03/20 閉鎖→回避 検索してはいけない言葉wiki https://w.atwiki.jp/mustnotsearch/pages/6128.html
2025/03/31 閉鎖 魔法のiらんど https://maho.jp/info/entry/maho_i_will_no_longer_available
2025/03/31 閉鎖 SSブログ https://blog-wn.blog.ss-blog.jp/2024-11-15
2025/03/31 閉鎖 ぷららのHPスペース https://www.docomo.ne.jp/info/notice/page/240627_01.html
2025/03/31 閉鎖 ARZON https://www.arzon.jp/
2025/03/31 閉鎖 電子工作サイト fabcross https://www.itmedia.co.jp/news/articles/2503/18/news175.html
2025/03/31 閉鎖 スラド https://srad.jp/
2025/03/25(火) 21:39:50.06
なんかアーカイブbotが動いてたような…
誰か投げたのかね?
287名無しさん@お腹いっぱい。
垢版 |
2025/03/25(火) 22:35:14.61
Arzonの出演者も希望
https://web.archive.org/web/*/https://www.arzon.jp/cast_*
2025/03/26(水) 23:01:28.38
plalaのarchive bot動いてない…?
終わった?
2025/03/27(木) 08:25:48.02
Sorry.
This snapshot cannot be displayed due to an internal error.
2025/03/27(木) 15:31:34.13
>>279
どなたか対策ないかアドバイスお願い致します。
2025/03/27(木) 16:44:05.72
ArchiveTeamはあくまでボランティアだからこれ(>>285)全部やってくれるかは分らんなぁ
しかも今はトランプ関連の方に力入れてるっぽいから普通に放置される可能性はある
2025/03/27(木) 17:19:58.68
>>291
ある程度はやっぱ個人でやるしかないな
それかBotに投げるか
2025/03/27(木) 18:00:43.43
量が多すぎて間に合わないからぷららだけやってくれたらな…
2025/03/27(木) 18:01:13.94
少しでもいいから
2025/03/27(木) 23:08:03.48
ぷららは個人的にある程度(80GB弱)wgetしたけど、-kでやるとタイムスタンプ飛んじゃうのね…
2025/03/28(金) 00:52:42.01
ぷららのURL一覧は少なくともarchiveTeamには渡したけど
どんだけarchiveされたのかよくわかんないんだよな

https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit?tab=t.0#heading=h.1gmodju1d6p0
↑ここに書いてあるapiを使えば、InternetArchiveのwebArchiveにURLを渡して、それが実際にアーカイブ完了されたかのステータスを取ることが出来るから自動化出来るんだけど
archiveTeamが動かしてるbotは速度が段違い
あれを動かす権限、もしくは方法教えてくれたらな
2025/03/28(金) 01:19:01.40
3/31閉鎖のはこれ以上はもうどうしようもないと思うけど、
今度webサービスが閉鎖されると発表された時はもっとうまくやりたい

多分アーカイブする基本的な流れは
webサイトのURL一覧を作る→archiveTeam に一覧のテキストを渡してArchiveBotに登録を依頼する
が基本だと思うけど、うまく連携取れてなかったのが心残り

正直この辺に日本語で作業issue立てるのが手っ取り早い気もするけど、気が引けるしな…
https://github.com/ArchiveTeam/sonetblog-grab
298名無しさん@お腹いっぱい。
垢版 |
2025/03/28(金) 04:34:45.17
たぶん有志が渡してくれたURLリストをもとにアーカイブbotのジョブが17日に走ってるっぽい
間に合うかはわからんが
2025/03/28(金) 22:17:06.85
あのジョブ画面も見方がよくわからんのだよな
なんか個別のジョブが終わったのか処理中なのかURL決め打ちで見れないもんか

https://archive.fart.website/archivebot/viewer/
https://archive.fart.website/archivebot/viewer/items?page=59
こっから辿れんのかな
2025/03/29(土) 10:29:26.72
FC2WEBサービス終了のお知らせ(2025年6月30日)
ttp://www.fc2web.com/
2025/03/29(土) 11:35:44.12
ホームページとWEBで二種類あるのか紛らわしくてビビった
2025/03/29(土) 11:46:24.56
>>300
これでランキング見れるかと思ったけど、一部のカテゴリ以外は機能していなくて見れない
http://cgiserv01.fc2web.com/g-i-m-g-s/top/003/top_00000017_week_001.html
2025/03/29(土) 11:55:30.32
20日くらいにもう発表されてたのか…知らなかった
2025/03/29(土) 11:59:06.32
>>302
ランキングのアーカイヴがここにあった
https://web.archive.org/web/*/http://cgiserv01.fc2web.com/g-i-m-g-s/top/*
多分更新されてないランキングは表示されないんだと思う
2025/03/29(土) 15:07:19.47
fc2見てるとhttps://じゃないサイトわりとあるけどアーカイブできないならめんどいな
2025/03/29(土) 15:10:50.54
fc2web
2025/03/29(土) 21:25:21.30
4月からは少しゆっくりするかと思ったらFC2WEBか
休まらねえ
308名無しさん@お腹いっぱい。
垢版 |
2025/03/29(土) 21:26:29.71
キモい
2025/03/29(土) 21:37:56.87
fc2webの対象はここかな
http://*.fc2web.com/
2025/03/29(土) 22:06:55.58
>>307
そうなんだ
>>309
無料のは全部これっぽいのかな
311215
垢版 |
2025/03/30(日) 00:07:24.86
>>215
自己補足。色々調べて、katanaというWebクローラでURLリストを作るのが良さそうという結論になった
https://github.com/projectdiscovery/katana
高機能だし速いけど、CUI操作に慣れてるプログラマじゃないと上手く使えないかも
2025/03/30(日) 00:38:20.46
>>311
イイネ
wgetでオプション指定して頑張ってたけど、オプションの指定が不足していてこ条件のページが全部取れてなかった!って何回かあったから
専用ツールのほうがいいな
goだし、リリースにビルド済みあるし
313215
垢版 |
2025/03/30(日) 01:46:52.94
たぶんもうArchiveTeamが手をつけてるとは思うけど、katanaでfabcrossのURLリストを作ってる途中
もう少し早くこのツールを見つけられてればな
314215
垢版 |
2025/03/30(日) 01:54:57.03
Wayback Machineへの保存プログラムも色々試したけど、このシェルスクリプトが一番安定して動く気がする
https://github.com/overcast07/wayback-machine-spn-scripts

次に良さそうだったのがgolang製のツール
ただ自分の環境だと実行時に大量のエラーを吐いたり、一度に多くのURLを読み込ませるとプロセスが落ちたりする(ちゃんとデバッグすれば回避策がわかるかもしれないけど時間がない)
https://github.com/wabarc/wayback

Python製のツールはどれも数年単位でメンテがされてないものばかりで、Wayback Machine側の仕様変更に追従できてるのかはっきりしない
2025/03/30(日) 03:42:31.68
そのシェルはいいね
軽く読んでみると結局はhttps://web.archive.org/save/ にpostして、jobの状態を見たり自分の状態を見てるだけっぽいかな
2025/03/30(日) 18:01:48.15
web.fc2
の方じゃないからそんなにはないかと思ったけど
更新止まってるとはいえ専門知識のサイトとかやっば結構あるな
2025/03/30(日) 19:28:25.75
archive,todayへの保存プログラムってないんですか?
Wayback Machineは数か月〜1年後ぐらいには表示されなくなった画像が多すぎて嫌なんです…。
2025/03/30(日) 20:58:37.82
こっちの環境だと200MBまでの通常のcatbox含めて↓の画像みたいなエラーになって全く保存されんな…
https://archive.is/DnhAx/8dd7d0a207c3695fc8d9e174f3db909a6be501b8.webp
2025/03/30(日) 22:43:21.25
え、Wayback Machineって時間経過でファイルが消える事って実際あんの?
2025/03/30(日) 22:50:56.16
画像をスクリプトでロードしていたため実は元画像を参照してたとか
2025/03/30(日) 22:57:05.20
動的なページはリソースのurlがフルパスで書かれていて本サイトから読み込んでる場合あるよな
それを防ぐことは多分出来ないけど、chromeのdevtoolで通信しているドメインを確認して検知するしかない。

chrome拡張のSingleFileってやつはそれの対策で初期状態だとjsを全部無効化してリソースを全部埋め込んだ状態のhtmlを作ってくれる。
それをwaybackmachineで見れたらいいのにね
2025/03/30(日) 23:46:14.96
外務省のページを録ろうとすると403返される
2025/03/30(日) 23:50:20.58
ssblog動き始めたっぽい
https://tracker.archiveteam.org/sonetblog/
2025/03/31(月) 16:30:27.67
スターサーバーフリー提供終了2025年3月31日正午
https://www.star.ne.jp/news/detail.php?view_id=14014
終わってた
2025/03/31(月) 16:34:48.17
京成今日までか
326215
垢版 |
2025/03/31(月) 17:34:26.81
>>317
上で貼ったgolang製のツールでは対応してる。探せば他にもあると思う
https://github.com/wabarc/wayback
2025/03/31(月) 17:37:19.41
>>323
数分前の進捗状況はこんな感じだった。自分もWarriorを動かしてるけど厳しいかもな
> claims: 1456057
> done: 1959622
> todo: 8537225
2025/03/31(月) 19:13:53.01
>>323
これの登録ってどこから申請すればいいの?
せこせこurl一覧作ってたのってもしかして無駄だったか
2025/03/31(月) 21:23:58.34
Virtualboxにwarrior入れるだけでクロールに参加できるんだな
330名無しさん@お腹いっぱい。
垢版 |
2025/03/31(月) 21:49:13.85
>>328
直接的な窓口はIRCチャットしかないかも
>>241,265,268あたりで話題が出てるけど、書いてる自分も依頼したことはないからよく分からない
2025/03/31(月) 22:52:44.77
YouTubeやニコニコなどの動画をメタデータつきでInternet Archiveにアップできるツールを見つけた
動画再生ページを保存するんじゃなく、mp4みたいな動画ファイルを保存するためのものなので注意
https://github.com/bibanon/tubeup
2025/03/31(月) 23:38:37.34
>>300 fc2系では他にもgooside.comが2025//6/30で終了するそうだ
2025/04/01(火) 00:20:32.24
色んなWEBサイト保存するの強迫観念の域でやってるけど、ここの住人みたいにPC知識無いから何書いてるのか全然理解出来ないし、手動で1人でやってるだけだから、貢献したいのに全然貢献出来てない…
みんなどこでこのスレに書いてあるような知識身に着けてるの?
どういう専門分野学べばいいの
334215
垢版 |
2025/04/01(火) 04:04:54.31
>>333
自分の場合は本業のIT関係の知識が元からある上でWebアーカイブをやってるからなあ

大前提として
・Webサイトを保存するには、Webサイトの裏側がどういう仕組み(プログラム)で動いてるのか分かればやりやすい
・何百個ものWebサイトを保存するには、人間が手作業でやるのはとても無理だから、プログラムを組んでパソコンに自動でやらせると楽になる
どちらにしてもITの知識が多かれ少なかれ必要

だから最低限この2つが出来るようになればいいと思う
・Webサイトがどういうプログラムを使って作られてる&動いてるのか知る
・プログラムを組んで、大量の作業を自分の代わりにパソコンに自動でやらせる方法を知る

今どきはChatGPTを先生代わりに活用するとだいぶやりやすい
2025/04/01(火) 04:14:02.60
エイプリルフール仕様のページを保存しなければ
2025/04/01(火) 04:46:35.74
>>330
うーん、またIRCか…
確認点は
以下のレポジトリのpipeline.pyとsonetblog.lua がssblog専用らしい。他のプロジェクトと比較すると共通点もあるけど、ssblog専用の違いもある
https://github.com/ArchiveTeam/sonetblog-grab/tree/master

ここの「Warrior-based projects」に入れてもらっている
https://wiki.archiveteam.org/index.php/Projects
https://wiki.archiveteam.org/index.php/SS_Blog

くらいか。
archiveteamのwiki読み込んだら全部書いてあるのかな
2025/04/01(火) 04:54:45.36
>>285
2025/06/18 閉鎖 gooニュース https://www.oricon.co.jp/news/2376944/full/

1998年からの歴史があるっぽいからアーカイブの腕まくりしたけど、
ニュース記事って配信元の契約でもともと一ヶ月程度?しか残ってないからアーカイブするものは無いかな
1998年の一般ニュースがゴロゴロしてたら宝の山だったけど。
IT系のニュースサイトは大昔のも残ってるってのに
2025/04/01(火) 06:20:30.03
今どきはPython覚えるのが一番なんですかね
2025/04/01(火) 06:25:06.28
pythonが人気の方法である事は間違いない。
でも個人的には型がしっかり定義されている&コンパイルとかが不要という理由でnodejs+typescriptをしている。
2025/04/01(火) 07:44:37.71
Webアーカイブ系のツールはPythonで書かれているものが多いので良い選択肢だと思う
バックエンド(Webサイトの裏側で動いてるサーバ部分のプログラムのこと)系の勉強にもまあまあ手を出しやすいし

ただJavaScriptは絶対に知っておくべき
なぜならフロントエンド(一般のユーザが見れるWebサイトの表側部分)はJavaScriptをバリバリ使って動いているから
このスレでも時々話題になる「JavaScriptを使ってるサイトはwgetで保存できない」みたいな話とも関わってくる

あとは保存用のプログラムをパソコンで動かす時、CUI操作を覚えておくと作業が楽になるかもな
2025/04/01(火) 07:52:54.45
>>336
ArchiveTeamは原則全ての窓口がIRCなのは勘弁してほしいよね。
英語圏で昔から活動してるギーク系コミュニティは今でも独自フォーラムやIRCを使い続けていがちな気がするけど、
最近の使いやすいツール(Discordとか)も併用しないと新規参加者が先細りするんじゃないだろうか
2025/04/01(火) 11:58:49.12
ぷららは無事閉鎖?されたのか、侍魂は接続がタイムアウトになる。雑な閉鎖処理だ…
http://www6.plala.or.jp/private-hp/samuraidamasii/

スラドは2025/04/01 11:56時点でまだアクセスは出来る
https://srad.jp/

ss-blogもまだ繋がる
https://blog.ss-blog.jp/
https://kousaku23.blog.ss-blog.jp/2025-03-30

ちゃんと閉鎖アナウンスページがある
https://maho.jp/
https://www.meitec.co.jp/fabcross.html
2025/04/01(火) 12:13:47.97
>>341
以前「質問はこのIRCでいい?」ってIRCで聞いたら archiveteam@archiveteam.org のメールでもいいって言われたけど
それだと完全に担当者しか見れなくなるんだよな… 閉鎖的なコミュニケーションがしたい訳じゃないし。
だからしょうがなくIRCで色々質問をする。

hexchatというクライアントを見つけたけど、UIも日本語化出来るし今のところ結構お気に入りかな。
hackintもデフォルトでサーバー一覧に入ってるし、ログもテキストで残るのがデフォルト。
日本語で有名なIRCクライアントは自分の環境だとどうしてもhackintに繋がらなかったから困ってたけど、これならいい。
セットアップがexeでzipじゃないのが気に入らないが、もうそんな事言ってらんない
2025/04/01(火) 12:25:02.60
IRCで色々聞いてきた内容をシェア。回答してくれてる人は複数居るし、その人がどんな人なのか知らんから下手したら全部嘘の可能性もあるけど。
・Warrior ( https://tracker.archiveteam.org/sonetblog/ で表示されるもの) は
https://archive.org/details/archiveteam?tab=collection&query=ssblog のarchive.ord/details/ に保存される
https://archive.org/download/archiveteam_ssblog_20250330234906_cb04757b 現時点だとwarc.gz ファイルに鍵がかかっているけど、これは"ある程度"の時間経過で開放されるらしい。
他のコンテンツを見ると2月にアップロードされたけどまだ鍵マークがかかってwarc.gzがDL出来ないのもある。これは今後監視してどのくらいで公開されるのかチェックしたい。

・Warrior で取得されたものは /details/に保存されるけど、weyback machineのデータには入らないの?!と思ったけど入るらしい。
https://share.dl.je/2025/03/2025-03-31_20-44-57_B5182IVlFY.png アーカイブのここにcollected by "Archive Team SSブログ:" と出るらしい。
逆に言うとcollected byから逆検索は出来ないから、ちまちま確認するしか無さそう。apiがあれば自動化出来るけど…
collected by "Archive Team SSブログ:" って表示された weyback machineのアーカイブがあったら誰か教えてくれ

・/github.com/ArchiveTeam/sonetblog-grab/ とかは誰に申請すれば作成される?
ss-blogのWarriorは結局1日前に稼働した?らしくて、それでも感謝なんだけど出来ればもっと早くから準備したい。
誰に何を言えばいいの?と聞いたら arkiver というユーザーがsetup/code writingをしているらしい。(arkiver というユーザーは確かにIRCに居る)
でもコントリビューションは IRCの#archiveteam-bs とか、https://wiki.archiveteam.org/index.php/Deathwatch に追記してくれよ!との事
次に閉鎖サイトが発覚したら速攻やろう。gooニュースは別にいいや

との事。だから次に閉鎖がアナウンスされてアーカイブしたいと思ったサイトが出来たらまずは
https://wiki.archiveteam.org/index.php/Deathwatch に追記(このwikiもアカウント作成必要か…)
IRCの #archiveteam-bs に報告。かな
2025/04/01(火) 12:33:34.33
archiveteamはwikiのフッターに「archiveteamはarchive.orgとは一切関係ありません」って書いてあるけど、これもどんな事情なのかよくわからんのだよな
Warriorのプログラムを作って、それをarchiveTeam名義で archive.org/details/ に保存するというのは無関係の有志でも出来るだろうけど
それをweyback machineのソースに入れるというのは通常では出来ないはずで、 archiveteamは何らかの特別扱いされてるよねと思ってしまう
(もちろん特別扱いをする事になんの異論も無い)

1クリックでwebページが表示できるweyback machineにどうすれば効率よくデータを流し込めるのかという事で結構苦心してるんだけど
archiveteamが特別扱いを一切受けていないというのが真であれば、
Warrior が各利用者のPCから取得したhttpレスポンスの内容をweyback machineのデータソースに追加出来るAPIが存在するって事になるから是非知りたい。
もちろん各利用者が嘘の内容を申請する可能性だって充分にあるはずだし。今で言うoracleクラウドの件とか
2025/04/01(火) 12:36:53.19
https://wiki.archiveteam.org/index.php/5ch.net
5chもアーカイブプロジェクトは無いけどwikiのページはあるんだな
消滅した過去ログはどうしようもないけど、今のサーバーの過去ログ・datのurl形式を教えたらクロール対象にしてくれんかな
2025/04/01(火) 13:10:30.68
>>327
sonetblogのWarrior、 https://tracker.archiveteam.org/sonetblog/
2025/03/31 17:30頃
1,456,057 claims
1,959,622 done
8,537,225 todo

2025/04/01 12:40頃
3,072,444 claims
11,683,257 done
10,163,088 todo

claimsとdoneの値は増えていくけど、todoは減っていく
19時間で割り算すると
85,073件/h、2,041,752件/day claims
511,770件/h、12,282,480件/day done
という感じか
doneの数だけ見ればあと24時間あれば 1228万件処理出来るからtodoの1000万件を処理しきれるって事になるのかな
claimsとdoneの違いわかんね。

https://tracker.archiveteam.org/sonetblog/ のページ上部にあるカウンタは
items 11.69M(done) + 3.08M(out) + 17.84M(to do)で、doneはいいんだけどtodoの数が全然違うのが気になる
2025/04/01(火) 16:05:55.48
急に訳わからなくなってきた
個人でぽちぽち頑張ります…
ツールを上手く使いこなしたいなぁ
349名無しさん@お腹いっぱい。
垢版 |
2025/04/01(火) 17:12:38.28
今見たらss-blogがサービス終了画面になってた。ArchiveTeamに連絡してBot稼働を止めてもらったほうがいいかも
2025/04/02(水) 00:51:08.02
>>285
桜のように散ってしまったサービス群…悲しe
351名無しさん@お腹いっぱい。
垢版 |
2025/04/02(水) 09:25:18.32
漫画図書館Zは今月再起動するとか
2025/04/02(水) 17:05:52.74
>>345
ArchiveTeamは特別にwarcのアップロードを許可されてたはず。一般人はアイテムの方にアップロードはできてもWBMに表示させることは出来ない。

ArchiveTeamが保存したものはここにある、ssblogとかもここに入るはず
https://archive.org/details/archiveteam
2025/04/03(木) 01:05:37.32
たまーに調べると閉鎖されてるサイトが増えてて悲しい
2025/04/03(木) 01:25:40.78
スラド結局消えたのか
2025/04/03(木) 04:22:02.11
「gooニュース」が6月18日で終了
https://www.watch.impress.co.jp/docs/news/2003384.html
2025/04/03(木) 05:20:13.27
マジか
2025/04/03(木) 08:48:05.84
>>300
FC2といえばミニブログPIYOも6月2日で終了だな
こっちはアーカイブしておくようなコンテンツはないだろうけど
2025/04/03(木) 09:37:20.74
>>352
なるほど、やっぱりそうか
次からWarriorを早めに動かせるように、申請だけでも早めにしたほうが良さそうだな
早めにWarriorを動かせればURLi一覧を作るのも正直不要になりそう
2025/04/03(木) 09:38:33.87
>>285
閉鎖サイト更新
2024/09/30 閉鎖 アキバ総研 https://akiba-souken.com/article/66874/ https://www.itmedia.co.jp/news/articles/2408/01/news124.html
2024/11/26 閉鎖 マンガ図書館Z https://closing.mangaz.com/info/2114/index.html
2024/12/20 閉鎖 vectorの作者個人ページ https://www.itmedia.co.jp/news/articles/2407/18/news117.html
2025/03/20 閉鎖→回避 検索してはいけない言葉wiki https://w.atwiki.jp/mustnotsearch/pages/6128.html
2025/03/31 閉鎖 魔法のiらんど https://maho.jp/info/entry/maho_i_will_no_longer_available
2025/03/31 閉鎖 SSブログ https://blog-wn.blog.ss-blog.jp/2024-11-15
2025/03/31 閉鎖 ぷららのHPスペース https://www.docomo.ne.jp/info/notice/page/240627_01.html
2025/03/31 閉鎖 ARZON https://www.arzon.jp/
2025/03/31 閉鎖 電子工作サイト fabcross https://www.itmedia.co.jp/news/articles/2503/18/news175.html
2025/03/31 閉鎖 スラド https://srad.jp/
2025/06/18 閉鎖 gooニュース https://www.oricon.co.jp/news/2376944/full/
2025/06/30 閉鎖 FC2WEBサービス https://www.fc2web.com/

うむ…
2025/04/03(木) 10:27:10.26
>>337で言われている
けどニュース配信元ではないから気になるものないな
ちゃんと調べたらYahoo!みたくよそのではない独自記事もあるのかもしれんけど
361名無しさん@お腹いっぱい。
垢版 |
2025/04/03(木) 15:31:46.34
このサイトってYourFileHostの動画って再生できないですかね?
ページにアクセスできても動画をRuffleで読み込み⇒エラーでエラーログ見ても読み込めないっぽいです。
362名無しさん@お腹いっぱい。
垢版 |
2025/04/03(木) 19:20:39.81
ファンブログ今月22日にサービス終了らしい
2025/04/03(木) 19:41:37.05
>>359
2025/04/22 閉鎖 https://f/a/n/b/logs.jp/fanbloginfo/archive/297/0
去年12月からアナウンスしてたのか
でも大半がアフィって感じだな…
2025/04/03(木) 21:20:24.15
欲しいバージョンの実行ファイルがちょうど歯抜で悲しい
2025/04/03(木) 23:28:52.07
色々減ってんだなぁ
2025/04/05(土) 16:12:03.66
インターネットはデータが永久に残るとか言ってた奴誰だよ
2025/04/05(土) 17:12:44.20
ほんまそれや
2025/04/05(土) 18:37:11.68
消えてほしい情報は消すと増えて残る
貴重な情報はどうでもいい情報に埋もれ静かに消えゆく
2025/04/06(日) 17:11:57.34
みんなが価値があると思ってる情報は残る、価値が無いと思われてる情報は消える
問題は現時点で価値が無いと思われていても後世では価値があったりすること
2025/04/06(日) 17:14:35.23
俺が残したいと思う情報はみんな興味がないから「みんな」なんて何も信用できんのよな
2025/04/06(日) 17:20:33.57
たとえ1000人くらいに愛されたサイトでもその中にアーカイブを取ろうと思ったやつが含まれてなかったら全然消えるしな
2025/04/06(日) 17:33:06.10
消えてほしくないと思ってるやつがたくさんいても消えるもんな
アーカイブとれないサイトとかもあるし
2025/04/06(日) 21:35:02.15
モダンな動的なwebサイトをアーカイブする為のインターフェイスが全く無いからなあ
iframe側でタグ指定するとその中でfetchするとproxyされるとかそういう仕組がないと、魔法のiらんどみたいにページ表示後にコンテンツをgraphQLで取ってるサイトは厳しい
2025/04/06(日) 22:57:42.54
芸術家なんて死んでから評価されますしお寿司
2025/04/07(月) 08:24:41.69
>>371
「誰もアーカイブしてないのである!!」
2025/04/07(月) 20:16:58.20
2chの過去ログ問題、今ならまだ昔から使っているPCにdatが残っている人が居るはずだから
datのファイル名一覧だけ募集してスレッド一覧を作るアイディアを思いついた。

今のブラウザだと許可さえ与えればローカルのファイル一覧を取る事が出来るから
それで専ブラのdatフォルダを指定してもらえたらdatのファイル名一覧をアップロード出来るサイトを作ると結構集まるかも。

自分のPCでやったらdatは21万個あって一覧のテキストは12MB。
適切に圧縮したらもっと縮まりそう。大半は10桁の数字のはずだし
2025/04/07(月) 22:57:05.43
良いアイデアかもしれないが
果たして集まるんだろうか?
引退した人多いだろうし…

でもやらないよりは遥かにマシか
ファイル名さえ集められれば良い訳だし
探るよりかマシかぁ
そういうプラットフォーム作るしかないかな
378名無しさん@お腹いっぱい。
垢版 |
2025/04/09(水) 17:39:33.00
archiveってアカウント作って非公開で個人用のアプロダとして使えたりすんの?
2025/04/09(水) 23:06:07.10
Internet archiveって
どこにサーバー置いてるんだろ
アメリカの政局情勢不安定だから
検閲とか起きてInternet archive閉鎖とかなったら
洒落にならん
むしろめっぽうから対抗しそうだけどどうなるか
2025/04/10(木) 10:59:41.60
サブドメインをカウントするツールで少し調べた感じだと、web fc2上にはかなり膨大な量(少なくとも1万個規模)のテキストサイトがあるみたい
今度は早めにArchiveTeamと連携で作業を始めて漏れなく保存したいな

ArchiveTeamのDeathwatchにはもうweb fc2のことが書いてあるけど、流石にまだ作業を始めてるはずはないし、
URLリストを作るだけでもこちらでやっておくべきかな
2025/04/10(木) 20:55:40.28
URLリストってどうやって作る?
web.archive.org/cdx/search/cdx の検索結果をドメインごとに正規化するくらいしか思いつかないや
それも既に1ファイル以上がアーカイブされているサイトに限定されるし
改めて取り直す事にも意味はあるけど
2025/04/12(土) 00:39:03.18
>>381
サブドメイン列挙ツールで*.web.fc2.comをリストアップして、その中で404エラーにならないものを上で出てたkatanaクローラで辿ることを考えてる
2025/04/12(土) 01:54:52.38
でも6月に終わるのはfc2web.comの方で
web.fc2の方はまだ続くんだよね?
まあいつかは…と考えるとそっちもやっておく方がいいか
2025/04/12(土) 02:35:02.17
今回終わるのはfc2web.comの方で、web.fc2.comはまだ終了しないから大丈夫。ややこしいから仕方ない
ただこれと連動して、「旧fc2web系」と呼ばれる別ドメインのサービスが同時に10個くらい終了するらしい
(この情報はまだこのスレに貼られてないよね?)
http://tyousen.pv.land.to/oldfc2/
2025/04/12(土) 12:45:12.89
>>384
そのリンク先、自分が利用しているドメインのサイトが終わるのか終わらないかも詳細不明な状況なんだな
2025/04/12(土) 13:40:35.62
発表ないのに突然終了もありえるのか
387名無しさん@お腹いっぱい。
垢版 |
2025/04/12(土) 15:13:13.98
fc2色々サービス終わるの?
2025/04/12(土) 22:18:45.03
fc2アクセスアナライザーが6月ぐらいで終わるアナウンスされたと思ったら旧ホームページも終了。
ブログ?掲示板?っぽいものや簡易コメントなども同時に終了アナウンス
2025/04/12(土) 22:39:52.83
FC2動画のarchive保存とか無理なんかなあ
2025/04/14(月) 10:50:29.50
ずっと Job failed.
2025/04/14(月) 13:15:17.68
goo blogと教えて!gooもサ終
2025/04/14(月) 14:04:23.67
「教えて!goo」は2025年9月17日(水)をもちまして、サービスを終了することとなりました。
https://blog.goo.ne.jp/oshietegoo/e/40d490c48e92fdd8dc2a18b8e904aeb0

この度、2025年11月18日をもちまして、
goo blogはサービスを終了することとなりました。
https://blog.goo.ne.jp/info/close.html

これは全力でやるか。
2025/04/14(月) 14:20:20.28
gooブログはやらないとな
2025/04/14(月) 14:20:37.74
教えての方も
2025/04/14(月) 16:17:00.22
今年はサイト閉鎖が相次ぐな
396名無しさん@お腹いっぱい。
垢版 |
2025/04/14(月) 18:08:29.96
gooブログは去年の年末から3月までに大量虐殺されてるはず
https://login.mail.goo.ne.jp/id/common/custom_content?newsid=ucaeywpp3ds
https://blog.goo.ne.jp/staffblog/e/57385bcaa324c9153f93a03375d70336
2025/04/14(月) 18:15:25.27
>>396
終わらせたあとにこれやってくれよ…
2025/04/14(月) 18:53:35.31
.*fc2web.com
昔流行ったポイントサイトとかが多いな
個人開発のマイナーエロゲみたいなのもあった
教えてgooは無いと困るな
blog.ss-blog.jpが検索にヒットするが終わって見れないし、Googleもキャッシュが無くなったし本当困ったなが
2025/04/14(月) 20:34:43.49
gooブログ手持ちの奴全部保存したいけどwayback手動だとエラーになりやすくて使いづらいんだよなあ
画像も保存されてないのか表示されない事多いし困ったなあ
2025/04/14(月) 21:28:32.22
そこでtodayですよ
2025/04/15(火) 03:56:05.46
無料ホームページスペース「FC2 WEB」6月末で終了へ…後継サービスは継続も、ゲーム関連サイト消失の危機か
https://www.gamespark.jp/article/2025/04/14/151458.html

「goo blog」「教えて! goo」サービス終了へ―20年以上にわたり積み上げられてきたレトロゲーム情報喪失の危機迫る
https://www.gamespark.jp/article/2025/04/14/151477.html
402名無しさん@お腹いっぱい。
垢版 |
2025/04/15(火) 10:45:38.99
FC2とかgooって経営ヤバイの?
2025/04/15(火) 11:38:44.92
>>400
todayは長期保存には信用できん
2025/04/15(火) 15:45:50.15
today消えるのか?
2025/04/15(火) 15:48:40.45
たまに不安定時期はある
過去に何度かわりと長い日数だめだったことがあった
406名無しさん@お腹いっぱい。
垢版 |
2025/04/15(火) 15:51:52.07
エロ動画専門で保存できるアーカイブサイトって無いのかね
2025/04/15(火) 18:50:39.52
archive.today は、先月末から保存した画像の元のパスを <img> に
埋め込んで返さなくなったので元の URI を知る術がなくなった。
新規保存したページだけでなく何年も前に保存したページからも消えている。

 <img alt="サムネイル"
  new-cursrc="https://〜/〜.jpg" ←廃止
  old-src="https://〜/〜.jpg"   ←廃止
  src="/アーカイブ短縮コード/画像ハッシュコード.jpg" …>

なので today 上で JavaScript が動かず保存されていない画像を探して
保存するスクリプト(サムネイルのパスから XL や L サイズのパスを
作って API に問い合わせ保存されていなければ保存する)が動かなく
なった。また、過去に保存したそれらをパスが不明なので参照することが
できなくなった。

復活するかもしれないので毎日、大きい画像の保存も続け、他人が
先にページを保存していた場合、保存元の大きい画像だけ抽出して
保存している...

あと、https://archive.today/?run=1&url=… の run=1 で
「ページを保存」ボタンが自動的に押される機能も動かなくなった。

こちらは、ブラウザの拡張機能を自作して対処した。
2025/04/16(水) 03:57:09.61
一応シェア
2025/06/30 mimic終了
https://x.com/illustmimic/status/1912027602954686912?t=PNe_GJAW1aKJkxwA3UM-9g&s=19
https://illustmimic.com/
2025/04/16(水) 13:54:52.75
fc2webは更新されてないゲーム関連サイトとかもやっぱけっこうあるな…
まだ普通に遊ばれてるゲームの攻略や資料まで消えるのはもったいないな
2025/04/16(水) 22:06:13.93
買い切りゲーの新規が死に体な代わりにレトロゲーのリメイクブームだから、流用できるかもしれんレトロゲーの攻略は需要あるんよな
新規が死に体なのはゲームに限らんけど
世間が名作再放送の方が低予算新作より既視感あってもまだ面白いのに気付き始めた感
2025/04/17(木) 04:08:13.91
教えて!gooについて色々と...

まずURLは完全なる連番
https://oshiete.goo.ne.jp/qa/{数字}.html
数字は1から(現時点で)14084106まで入る
でも1から全てをアーカイブする必要はなさそう?

>QA Partner
>前述のように、ASP方式でOKWAVEと共通のデータベースを使っているサイト。かつては、60以上のサイトと提携しており(gooの 教えて!goo とは2015年1月に提携解消)、質問と回答内容のデータが各サイト間で共用されていた。

>2015年1月 - gooの「教えて!goo」との提携が解消されデータベースを分離、完全に別サイトとなった。
https://ja.wikipedia.org/wiki/OKWAVE#:~:text=2015,%E5%88%A5%E3%82%B5%E3%82%A4%E3%83%88%E3%81%A8%E3%81%AA%E3%81%A3%E3%81%9F%E3%80%82

要するにデータベース共有してたから2015年1月27日以前の質問は全てOKWave側でも見れるので優先度は下がる
しかもgoo側だと「この質問の掲載は終了しました。続きはOKWaveで~」で見れないことも多いから

分離したのはおそらくここから
https://oshiete.goo.ne.jp/qa/8905308.html
(8905301まではOKWave側と一致、goo側の8905302~8905307は404、8905308から不一致)

性の悩みのような18禁カテゴリはURLに?check_ok=1をつけるだけでアーカイブできる
https://web.archive.org/web/20250416175207/https://oshiete.goo.ne.jp/qa/10082822.html?check_ok=1

あとは回答が11件以上ある場合は2ページ以上に分かれることくらいかな
2025/04/17(木) 17:57:19.16
ホントだ、ブックマークで取れるやつが自動取得じゃなくなっとる
todayはonionアーカイブ出来るから便利だし、削除要請にも応じないのがいいが同一ドメインで5000超えるとwelcome Eginxに飛ばされる
2025/04/17(木) 21:45:07.76
fc2webってどんなのがある?

>>411
乙、めっちゃいいね
2025/04/18(金) 00:30:28.56
imgur埋め込みだと画像全滅なのがなあ
2025/04/18(金) 13:08:26.41
fc2web以外にもけっこうサ終するっぽい
日本時間 2025年06月02日 (月) 午前10時をもちまして終了させていただくこととなりました。
https://fc {} 2information.blog.fc {} 2.com/blog-entry-2307.html
2003年開始
FC2アイコン、 FC2絵日記、 FC2ケータイホームページ、 FC2投票
2007年開始
FC2プロフ、 FC2ミニブログPIYO

>>384にも貼られてるけどこれも
https://tyousen.nomaki.jp/oldfc2/
2025/04/18(金) 15:08:47.33
>>392にあるGoo.ne.jpのブログも同様だが
ブログは結構情報あるから消えて欲しくないんだよなぁ
2025/04/19(土) 06:07:55.79
サービスが消える時にURLを探す手段として、スタンダードだけど忘れられがちなのがWikipediaの外部リンク
(百科事典としては本来良くないのかもしれないが)ブログとか個人サイトとかも結構貼られてる
ジオシティーズの時も結構な数のURLをここから抽出した記憶がある
2025/04/19(土) 09:41:39.16
地方とかのマイナーな民族学漁ってるとよくあるある
2025/04/20(日) 05:47:12.39
FC2ケータイホームページのサイトを保存しようとしたらどれもエラーで取れない
The capture failed because Save Page Now does not have access rights http://k2.fc2.com/cgi-bin/hp.cgi/tebukuro/?pnum=0_1 (HTTP status=403).
archive todayから取ろうとしてもhttps://fc2.com/ にリダイレクトされてダメ
http://k.fc2.com/ で保存してもダメでした
海外からのアクセスが規制されてたりするんですかね?
2025/04/20(日) 13:01:51.94
コロモーっていう質問サイト(大喜利サイト?)が4月30日で終了
https://coromoo.com/
https://note.com/coromoo/n/n499adf0abff9
2025/04/20(日) 13:21:14.45
>>420
軽くチェックしたけど3月下旬あたりにアーカイブチームが取ってはいるのかな?
wikiのDeathwatchには載ってた
2025/04/20(日) 14:04:45.29
Warriorって自身が動かしてるIPでアーカイブするっぽいから大丈夫かな?
調べたら国別でアクセスできないサイトを保存したいならArchiveteamに連絡してくださいって…IRCは依頼し辛いんだよな
2025/04/21(月) 06:40:28.40
http://cgiserv01.gooside.com/g-i-m-g-s/top/004/top_00000002_total_001.html
この004の数字を変えてみたら他のfc2系列のランキングにつながることがわかった
GOOSIDEと55 STREETの検索UIが同じだからもしやと思ってfc2webやEasterのURLに置き換えてみたら検索画面が出てきた...!
サ終する旧fc2系列ほぼ全て検索できるから一覧にまとめておいた
https://pastes.io/fc2-58900

cgi-bin/se.cgi(2つある場合はどちらでもよい)へアクセスして文字を指定せず検索したらホームページの総数が分かると思うfc2webの場合は約40万、次点で多いのがEasterで約12万
ただ検索だけでは抜けがある可能性もあるから、念のためg-i-m-g-s/top/○○/ にアクセスすると出てくるURL(カテゴリごとのアクセスランキングページ)全てにリクエスト送って検索のと重複してないURL集めれば可能な限り網羅できるはず
GOOSIDEと55STREETのは既に集まったから自由に使ってもらえれば
https://uu.getuploader.com/archive_share/download/5
https://uu.getuploader.com/archive_share/download/6
424名無しさん@お腹いっぱい。
垢版 |
2025/04/21(月) 12:01:05.48
fc2とかgooとか片っ端からクロールしてarchiveに保存する自動化ツールとかないのかね
2025/04/21(月) 12:07:18.17
人のもんを勝手に自社のサーバーに保存するなよ
2025/04/21(月) 21:46:26.28
ヤフオクって今はアーカイブできるのか、以前は拒否みたいなことを色々やってたけど。
https://web.archive.org/web/1/auctions.yahoo.co.jp/jp/auction/x1181113804
2025/04/22(火) 03:05:33.06
>>405
昨秋の一件を考えるとここだけでは心もとなくてarchive.todayも使ってるが、10日ぐらい前から一部のサイトが取得できない
これももしかして・・・
2025/04/24(木) 01:47:00.09
“Save Page Now could not capture this URL because it was unreachable.” って表示が出た。保存先ページは当然生きてるしアクセスもできるんだけど何のエラー?
429名無しさん@お腹いっぱい。
垢版 |
2025/04/24(木) 02:43:14.64
日本からは見れるけど海外からは見れないサイト
2025/04/24(木) 03:14:34.88
本当にそういう事もあるかもしれんけど大抵は一時的なエラー、
同じリクエストを何回か再発行すればアーカイブできる。
2025/04/24(木) 12:00:32.43
ドメインによって保存できない事があるがその範囲が広くなった
2025/04/24(木) 15:42:50.46
fc2web含め旧fc2ドメイン系のホームページURL全て集めてArchiveteamに頼み込んだけど動かしてくれるかどうか
ついでに>>422のことについても聞いてみたけど
>結局、日本のArchiveBotパイプラインは実現したのでしょうか?
>ストレージ容量が非常に少ないものを試してみましたが、どのサイトでテストしても地域制限がかかりました。
とのことでうまくいかなかったらしいから海外規制してるサイトは自分で取るしかなさそう。。
とりあえずゲットしたホームページURL、タイトル、サイト説明一覧はすべてここに置いときます
(以前上げた55 STREETのはデータに抜けがあったから再うpした)
https://uu.getuploader.com/archive_share/
もし動いてくれなかったら404のページ抜き取ってもう一度頼むしかないか
2025/04/24(木) 16:02:22.38
おつです
2025/04/25(金) 12:19:35.19
なんとか登録してもらえた...(涙)
https://i.imgur.com/6BG4zit.png
あと二ヵ月と時間は十分あるからfc2web含む旧fc2web系列はこれでほとんど残る
ただh.fc2.com(アダルト専用 63615ホームページ)とk.fc2.com(ケータイホームページ 全28万)は海外規制のせいでwayback machineでも取れないしもうどうすることもできないのか
ケータイホームページの集めたURLはロダにうpしといたからarchive.orgに保存するなにかいい方法があれば...

goo blogとgoo newsは既に再帰クロールで動いてるみたい
https://i.imgur.com/eYlv3pW.png
2025/04/25(金) 12:37:22.69
乙です
ありがとう
2025/04/25(金) 12:42:47.66

海外規制がなかなかキッツイな
日本鯖とかないのかな?
437名無しさん@お腹いっぱい。
垢版 |
2025/04/25(金) 13:53:04.94
archiveって無料アカウント作るメリットってある?
2025/04/25(金) 15:27:21.19
>>437
1分あたりの最大キャプチャ数が4から12に増える
1日あたりの最大キャプチャ数が4000から4万に増える
archive outlinksが使えるようになる(外部リンク取得上限75)
これらの数字はたまに変動
Save also in my web archiveをオンにしてアーカイブすれば後からアカウントページで見返すことができる
おまけ:たまにメアドとパスワードが流出する
登録する際は捨てメアドと適当に生成したパスワードを使用しよう
2025/04/25(金) 16:28:08.06
>>438
サンキュー
2025/04/26(土) 17:12:17.01
>>436
申請すれば新しくArchiveBotの鯖を建てられるみたいだけど、ArchiveTeamに一定期間(※具体的な期間は載ってない)参加してる人じゃないとダメとのこと
たぶん「信頼できる人にしか大事なアーカイブは任せられない」という理由なんだろう
ただ、今回は海外の鯖からアクセスできないという事情があるし特例として申請できそうな気もする。コンタクトを取らないとなんとも言えない

必要なサーバスペックも書いてあるが、どこかの国内VPSを借りれば現実的に運用できるレベルだと思う
もし申請が通るなら自分の自腹でやってもいい
- lots of disk space (40 GB minimum / 200 GB recommended / 500 GB atypical)
- 512 MB RAM (2 GB recommended, 2 GB swap recommended)
- 10 Mb/s upload/download speeds (100 Mb/s recommended)
- long-term availability and uptime (a few months minimum)
- always-on unrestricted internet access (absolutely no firewall/proxies/censorship/ISP-injected-ads/DNS-redirection/free-cafe-wifi)
441440
垢版 |
2025/04/26(土) 17:12:58.78
>>440
情報元のリンク貼り忘れてた
https://wiki.archiveteam.org/index.php/ArchiveBot#Volunteer_to_run_a_Pipeline
2025/04/26(土) 21:35:40.93
>>440
なるほどね
まあそりゃ情報いくらでも改竄できるかもしれないし
信頼は重要だよね
VPSだと転送量で金かかりそうだけど大丈夫だろうか?
必要Local disk spaceもminimum 40GBだし結構多いよな…
443名無しさん@お腹いっぱい。
垢版 |
2025/04/26(土) 23:08:39.16
このスレ他の場所に宣伝してもいい?
YouTuber(theつぶろとか)やロストメディア系に興味がある人たちに協力してもらえるかも
2025/04/26(土) 23:26:12.46
個人的には賛成しかねるな
あんまり広まりすぎても著作権的にはヤバそうだし
excludeに指定されるURLも増えるだろうし
コミュニティ破壊されかねないし
2025/04/26(土) 23:27:00.70
でも人がいないとアーカイブ作業も捗らないというジレンマ
2025/04/26(土) 23:30:28.62
挙げられてる連中の目的は保存じゃなくてミステリーを解きたいとかロマンを追いたいとかで動機が違うんじゃね?
2025/04/26(土) 23:42:24.79
"今"保存しないと意味ないのに"過去"しか興味ない連中に共有されても
2025/04/26(土) 23:59:31.44
IAからの排除とか、SEO業者の飯のタネを増やすだけだわ
449名無しさん@お腹いっぱい。
垢版 |
2025/04/27(日) 00:19:53.01
アーカイブを助けてくれる人や情報を集めてくれる人が増えたらいいなと思ったんだけどね
2025/04/27(日) 00:31:48.64
megalodon.jpなら取れるんだけどな
https://megalodon.jp/2025-0426-2250-19/k1.fc2.com/cgi-bin/hp.cgi/yuki007ut/
24時間に60回という制限がある
しかもCloudflare Turnstile付きで自動化もダメ
となるとarchiveteamの人に日本向けのVPS契約してもらって日本用のpipelineをこしらえてもらうか
自分で片端からクロール、WARCに記録するか
(信頼性はないけどないよりはマシの領域)
fc2に連絡送って特定ドメインの海外規制を解除させるか
そもそもなんで規制するようになったんだろうな。2020年から一切の海外アクセスを受け付けなくなってる
451名無しさん@お腹いっぱい。
垢版 |
2025/04/27(日) 02:43:58.87
>>449
あのへんの界隈、「過去のアーカイブに眠ってるコンテンツ」を消費したい人がメインじゃない?
能動的に「今」をアーカイブすることに興味を持ってる人はあんまいないと思うから宣伝したところでメリット薄そう
452名無しさん@お腹いっぱい。
垢版 |
2025/04/27(日) 02:54:10.17
>>450
> そもそもなんで規制するようになったんだろうな
海外IPの不正アクセス防止のためじゃないか?

日本人相手の商売が前提の小規模なWebサービスだと、
「海外IP=意味もなくアクセスしてくる怪しい奴=クラッカー」という理屈で海外からのアクセスを全遮断してる場合がよくある
開発者側に細かなセキュリティ対策してる余裕がないとなおさらそうなる
不正アクセスを自動化してサーバに負荷をかけてくるbotも多くて、その予防という理由もある
2025/04/27(日) 10:28:49.59
FC2関しては訴訟対策だったかな最近の裁判で負けたが
自分でも日本語サイトだったら海外弾く
2025/04/27(日) 10:58:21.65
>>444
わかる
2025/04/27(日) 11:02:13.71
>>448のいうようなデメリットのが増えそうだしね
456名無しさん@お腹いっぱい。
垢版 |
2025/04/27(日) 11:50:57.42
漫画の無料配信サイト「マンガ図書館Z」5ヶ月ぶりにサービス再開 クラウドファンディングが実を結ぶ(KAI-YOU) - Yahoo!ニュース
ttps://news.yahoo.co.jp/articles/e4eb6280112df09f552fb42894d1b79cb19d1910
2025/04/27(日) 15:10:39.74
超絶朗報 5chの過去ログ、復活
https://kako.5ch.net/

総数1億1750万8501スレが復活しました

※スクロールするとなぜか大量のfetchが実行されるのでjavascript無効を推奨
※まだまだUIが変わる可能性あり
2025/04/28(月) 14:50:34.71
catbox側が遮断するようになったっぽい?litterの方は保存出来るみたいだが…
https://dfc50ffbj60093.archive.is/uiIo3/7638d06982e0df78a8631c9ccb48d4a8a6da36e8.webp
2025/04/28(月) 20:37:22.11
>>458
マジかよ
2025/04/29(火) 12:53:48.27
消えてたリンクをwaybackするとひっそりとアーカイブされてりするんだよな
2025/04/29(火) 12:54:46.91
それは過去に誰かが保存をしたほうがいいと思ってやったからやね
2025/04/29(火) 22:16:50.21
>>457
うおっ、ついに来たか!
またいつ落ちるともしれないからやることやっとかないと・・・
2025/04/29(火) 23:29:47.01
kako 鯖は /oyster/ ディレクトリが見えないのよね
まぁ欲しい人はごく一部だろうけど
2025/04/30(水) 08:44:48.61
これでもまだ全部のスレって訳じゃないみたいだな
例えば台風コロッケ発端のスレはURLが特定されてるけどアクセスしてもdatが無いよになってる
全体の何割かは不明だけど、一部は完全に消えてるんだろうな
2025/04/30(水) 11:48:04.42
3月はじめ頃一部見れてたけどその後また見れなくなってたの?
2025/04/30(水) 12:07:48.50
「BIGLOBEニュース」サービス終了を発表 「BIGLOBEサーチ」「BIGLOBE天気予報」とともに6月下旬に
https://www.sankei.com/article/20250402-UGJ4BSJS7NMMLBVNGOIANNSBWU/

BIGLOBEニュース サービス終了のお知らせ
平素よりBIGLOBEニュースをご利用いただき、誠にありがとうございます。
BIGLOBEニュースは、2025年6月2日にサービスを終了させていただくこととなりました。
長らくのご愛顧、誠にありがとうございました。
2025/04/30(水) 14:28:52.91
そこ他所のニュース引っ張ってきてる以外に何かオリジナルのコンテンツあるの?
ただのポータルサイトなら勝手に死なせておけば良い
468名無しさん@お腹いっぱい。
垢版 |
2025/04/30(水) 17:39:26.37
ウィキペディアの出典で使われてんだからリンク切れになる
2025/04/30(水) 18:06:40.79
>>468
元記事に当たらずポータルサイトのリンクだけ貼る低レベル編集者なんか無視しろよ
2025/04/30(水) 20:40:16.73
job_idの有効期限ってピッタリ一時間?
2025/04/30(水) 20:43:14.73
gooのアーカイブ
botに投げてくれたと思うんだけど
びっくりするほどRemainが多いね
これ間に合うかな
2025/04/30(水) 20:48:00.60
gooってoshiete?
2025/04/30(水) 23:20:36.62
>>471
多分大丈夫じゃないかな
今日閉鎖したcoromoo.comは3/29からbotが稼働してたけど間に合ってなかったからQwarcというツールで一気に取得したらしい
deathWatchにも日本最大級のブログサービスと書かれているからなんとかやってくれるはず

oshieteはまだ登録されてないな
サイトマップに質問URL、ページが分かれてる場合の回答URLが1から全て載ってた
https://oshiete.goo.ne.jp/sitemap/sitemap_index.xml.gz
数えてみたら総数10650846url。今も増え続ける
性の悩みカテゴリには?check_ok=1が必要でURLだけじゃどのカテゴリかわからんからbotじゃ無理?
と思ったけど<a>リンクに?check_ok=1付きURLが埋め込まれてるから再帰取得すれば問題ないか
474名無しさん@お腹いっぱい。
垢版 |
2025/05/01(木) 05:57:23.90
>>469
出典として使われてるんだから無視しようがないだろw
頭大丈夫か?
2025/05/01(木) 09:24:21.97
そのうち誰かが他のサイトの同じ話題についての記事にはりかえるだろ
2025/05/01(木) 09:27:52.05
ポータルサイトのニュースを出典するんじゃなくて元ソースのニュースURLをアーカイブしろよとしか言いようがない
2025/05/01(木) 15:34:32.22
ベストゲート3/31に運営終了してたのか
まあConeco.netと違ってレビュー無かったからそこまで惜しくは無いけどたまに使ってたから悲しい
コネコのレビューはCPUのグリス比較レビューが一番記憶に残って助かってたな
2025/05/01(木) 17:35:09.83
https://vote1.fc2.com/ をアーカイブしてたらだいたい1万URL目あたりから全てError! Job failed.が出るようになった
新しく作ったアカウントでも全てError! Job failed.なんだがIPごとに同一ドメインのアーカイブ上限決まってるのか?
2025/05/01(木) 19:04:25.10
8000当たりからでるよね
2025/05/01(木) 19:13:15.46
自治には何とも思っとらんがwikipediaにリンクされてるのは一次ソースだろうか二次ソースだろうがアーカイブ走ってる
2025/05/01(木) 23:32:27.97
 
【  Internet Archive|

http://jbbs.shitaraba.net/bbs/read.cgi/otaku/12897/1635243692/



6 名無しさん sage 2025/05/01(木) 23:13 ID:???

>>452
>
> http://mevius.5ch.net/test/read.cgi/esite/1733289042/452
>




↑archive.org や archive.md 側の同一アドレス|時間制限等をすり抜けるため一部掲示板のログをアノニマス( anonymous )のWebプロキシ通すURLでアーカイビングすることがあるけど海外IP制限を強化なのか 2ch_sc スレッド/一覧などはこの手段も弾かれるようになってしまった。


ま、アノニマス串 自体がまだ Cloudflareどころか TLS1.2以上の https://~; サイトに対応してないためいまだ 非SSL( http://~; )のサイトへしかアクセス出来ない現状。


( ただし、こちらとしてはメイン端末の仕様からして未だ 非SSL~TLS1.1 以下なんでアノニマス側が 非SSLアクセスを切り捨てる形で https:// 対応にされても迷惑なだけだけどな… )   】




  __
http://anonymouse.org/cgi-bin/anon-www.cgi/http://www.google.co.jp/
__
 
2025/05/02(金) 17:26:43.22
>>481
なるほど、アノニマス串を参考に日本の鯖にCGIProxyを設置してそれ経由でアーカイブすれば海外規制突破できるわけか
どっかの無料鯖に設置できないもんかな
2025/05/03(土) 01:20:04.19
ググったら出てきたプロキシサイトを使用してみたらfc2の海外アクセス規制突破できた
(公開されているということは恐らく使ってもいいやつ?XServer上で運営されてるっぽい)
URLはbase64でエンコードされててわかりづらいけどそこは後から変換すれば問題なさそう
http://k1.fc2.com/cgi-bin/hp.cgi/mikazuk-mobile/
https://web.archive.org/web/20250502104032/https://helloapp.site/proxy/index.php?_proxurl=aHR0cDovL2sxLmZjMi5jb20vY2dpLWJpbi9ocC5jZ2kvbWlrYXp1ay1tb2JpbGUv&_proxfl=1eb

https://helloapp.site/proxy/index.php?_proxurl={base64_url}
そのまま投げて取れるから自動化も可能
2025/05/03(土) 22:02:33.33
無料レンタルサーバーサービス「Xfree」の提供終了のお知らせ
https://www.xfree.ne.jp/old/news_detail.php?view_id=2240
【2025年7月31日(木) 正午】 Webサイトへのアクセス停止
2025/05/03(土) 23:24:11.65
どんなURLが多いのかわからぬ
2025/05/05(月) 07:53:26.46
fc2web.comの個人サイトをアーカイブしたいのですが、
ページ数が100ページ以上あり、ひとつひとつ手でSave Page Nowするのはしんどいです
複数のURLを一括でSave Page Nowする方法はありませんか?

それともfc2web.comは有志が全部アーカイブしてくれるから別に個人は何もしなくていいのでしょうか?
2025/05/05(月) 07:59:43.09
スレ内を検索したところ、>>432 >>434の方が、
すでにご対応されていたようですね、感謝です

一応、個人用としてSingleFileで保存だけはしておこうと思います
488名無しさん@お腹いっぱい。
垢版 |
2025/05/05(月) 19:17:09.28
先月からcurlでの保存が途中で停止する。
489名無しさん@お腹いっぱい。
垢版 |
2025/05/07(水) 21:38:14.63
FC2絵日記とケータイホームページは https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/ のcapture_all=1&force_get=1&use_user_agent=Googlebotでキャプチャできる
埋め込み画像とかは別途リクエストしないと保存されない
2025/05/08(木) 15:16:37.39
Googlebotのユーザーエージェントを勝手に使うと「Googleを騙る行儀の悪いクローラ」と見なされてIPブロックされる事あるからやめた方がいいよ
2025/05/09(金) 18:03:49.91
>>489
ほんとだすごい助かる
これならbotでも取れるかもしれん
ブロックされるかどうかだな
492名無しさん@お腹いっぱい。
垢版 |
2025/05/10(土) 03:58:34.80
みんなのAVというサイトが無修正のデータを削除するようです。
2025/05/11(日) 09:55:46.17
そもそもInternet Archiveって未成年NGデータ(ポルノとかグロとか)はOKだったっけ?
そういうサイトをWayback Machineで保存するのはたぶん大丈夫だろうけど、動画や画像をアップロードするのはどうなんだ
2025/05/11(日) 10:54:49.57
消されるよ
2025/05/13(火) 01:33:47.11
急なんだけど助けてほしい。何回試してもYouTubeの動画がアーカイブできない
2025/05/13(火) 01:36:11.68
やだぴょん
2025/05/13(火) 01:37:59.02
>>495
動画部分にエラーメッセージしか出てこない
2025/05/13(火) 02:03:31.89
馬鹿すぎる
2025/05/13(火) 02:32:21.36
規制対策で3連投になってしまって申し訳ない。一応保存したい対象を
明後日で非公開になるチャンネルをアーカイブしたい 規制で記事貼れないけど破局カップルと調べると出る
保存後に確認すると全く動画ファイルが保存されてない。3スレ目860のようにすれば保存できるらしいことはわかったけど肝心の方法がわからない
2025/05/13(火) 14:56:54.62
tubeup (>>5参照) 使えば?
Wayback Machineであらゆるものを取ろうとすると沼る。「Internet Archiveに残す」ことを優先して、動画とメタデータを保存すればいい
2025/05/13(火) 15:01:07.79
tubeup使うにはPythonの知識が必要だが、やり方はAIに質問すればどうとでもなる
2025/05/13(火) 16:01:55.54
アーカイブの目的は何だろ
ただの保存目的ならyt-dlpでチャンネルごとダウンロードすればよい
Internet Archiveに残す理由があるのか
2025/05/14(水) 02:25:35.10
fc2ケータイホームページの子ページ一覧を作成してみた。約107万ページ集まった
https://uu.getuploader.com/archive_share/download/23
archiveteamに相談してみたところarchivebotではgooglebotのUAは指定できないらしく、代わりにgrab-siteというツールなら自由にUA指定可能ということでやってもらえることになった
>>489に感謝
504名無しさん@お腹いっぱい。
垢版 |
2025/05/14(水) 16:39:10.97
寄付ってクレカでするのがいいんか?
2025/05/14(水) 19:16:31.01
https://help.goo.ne.jp/help/article/2889/

「goo辞書」サービス終了のお知らせ
「goo辞書」は2025年6月25日(水)をもちまして、サービスを終了することとなりました。
2025/05/14(水) 19:49:47.92
IAってグウグルに買収されたからカネの心配なくなったんじゃないっけ

gooは2000年に出来たgoogleより2年先に出来たのにパチモンみたいな扱いになってたなw
507名無しさん@お腹いっぱい。
垢版 |
2025/05/14(水) 19:50:29.34
使ってたのに…
2025/05/14(水) 20:28:07.42
「goo辞書」サービス終了のお知らせ(2025/05/14)
「gooランキング」サービス終了のお知らせ(2025/04/30)
「gooメール」サービス終了のお知らせ(2025/04/22)
「教えて!goo」サービス終了のお知らせ(2025/04/14)
「goo blog」サービス終了のお知らせ(2025/04/14)
「gooニュース」サービス終了のお知らせ(2025/03/31)
2025/05/14(水) 20:41:27.26
>>506
どこの並行世界の話だよ
2025/05/14(水) 23:06:23.33
消されたくないならtodayを使うしか無い
511名無しさん@お腹いっぱい。
垢版 |
2025/05/14(水) 23:11:53.08
どれの話?
2025/05/15(木) 00:53:39.42
>>508
一気に畳んでいくな
経営厳しくなったんかね
2025/05/15(木) 01:07:57.30
鯖運営費は年々嵩むし古くなったら交換で大金が飛ぶから畳んだんだろうな
利用者が金落として黒字だったなら存続してたかもね
514名無しさん@お腹いっぱい。
垢版 |
2025/05/15(木) 06:13:50.55
gooの辞書とかに有料あったっけ?
2025/05/15(木) 07:24:01.61
NTTドコモのサービスだから経営がどうとかいう事はないだろうけど
あまりにも閑職・人材墓場パソナルーム的になってたから止めただけではw
516名無しさん@お腹いっぱい。
垢版 |
2025/05/15(木) 09:22:31.95
>>508
「閉鎖日」を書いてね
2025/05/15(木) 18:40:10.34
FC2絵日記
http://diary.fc2.com/cgi-sys/ed.cgi/{username}/
http://diary{1-3}.fc2.com/cgi-sys/ed.cgi/{username}/
検索もカテゴリも無し
cdx APIやgoogle検索等で取っても4600程度しか集まらず・・・なんかリンク集とかないもんか
古いサイトばっかなのに未アーカイブだらけで惜しいな
2025/05/15(木) 23:57:47.10
ページ内をスクレイピングして無差別にリンク辿ったりして
ホリホリいけたりしないかな?
サーバーの負担かかりそうだけど…

あとはランダムな文字列で総当たりで確認していくしか方法ない気がする…
519名無しさん@お腹いっぱい。
垢版 |
2025/05/16(金) 06:45:17.81

(  Internet Archive <インターネット・アーカイブ>

http://jbbs.shitaraba.net/bbs/read.cgi/otaku/12897/1635243692/7


7 名前:[sage] 投稿日:2025/05/15(木) 21:49 ID:???


>>513
ガラケーUIのブログ/HP開設サービスも今となっては貴重だし絶滅は嫌だ・・・。     )

2025/05/16(金) 16:24:24.82
今更な情報なのかもしれんけど、結構前に閉鎖したNAVERまとめってmatome.eternalcollegest.comってサイトで結構?見れるんだね
個人でやってるらしい(2022年で更新止まってる)けど有益な人も世の中にはいるんだ…って思ったチラシの裏
2025/05/16(金) 22:02:04.66
>>518
トップページからはサンプル絵日記しかリンクされてないからなぁ...
連番でも結構あるみたいだからまずは連番から探してあとは文字列総当たりか
Xでもそこそこヒットするからまずそっから集めるのもいいかもしれない(なおAPI
2025/05/19(月) 11:45:41.96
アニメ情報サイト「アニメ@wiki」が有料会員制に移行 Wikipediaへの“まるまる転載”に対策
https://news.yahoo.co.jp/articles/ddd32cbee1c64746c7fde6e55a664cdaf54ceb1c
2025/05/22(木) 17:31:59.01
今年中に1兆アーカイブになるかな
レスを投稿する

5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況