>>215
自己補足。色々調べて、katanaというWebクローラでURLリストを作るのが良さそうという結論になった
https://github.com/projectdiscovery/katana
高機能だし速いけど、CUI操作に慣れてるプログラマじゃないと上手く使えないかも
探検
Internet Archive総合 (web.archive.org) #6
311215
2025/03/30(日) 00:07:24.862025/03/30(日) 00:38:20.46
>>311
イイネ
wgetでオプション指定して頑張ってたけど、オプションの指定が不足していてこ条件のページが全部取れてなかった!って何回かあったから
専用ツールのほうがいいな
goだし、リリースにビルド済みあるし
イイネ
wgetでオプション指定して頑張ってたけど、オプションの指定が不足していてこ条件のページが全部取れてなかった!って何回かあったから
専用ツールのほうがいいな
goだし、リリースにビルド済みあるし
313215
2025/03/30(日) 01:46:52.94 たぶんもうArchiveTeamが手をつけてるとは思うけど、katanaでfabcrossのURLリストを作ってる途中
もう少し早くこのツールを見つけられてればな
もう少し早くこのツールを見つけられてればな
314215
2025/03/30(日) 01:54:57.03 Wayback Machineへの保存プログラムも色々試したけど、このシェルスクリプトが一番安定して動く気がする
https://github.com/overcast07/wayback-machine-spn-scripts
次に良さそうだったのがgolang製のツール
ただ自分の環境だと実行時に大量のエラーを吐いたり、一度に多くのURLを読み込ませるとプロセスが落ちたりする(ちゃんとデバッグすれば回避策がわかるかもしれないけど時間がない)
https://github.com/wabarc/wayback
Python製のツールはどれも数年単位でメンテがされてないものばかりで、Wayback Machine側の仕様変更に追従できてるのかはっきりしない
https://github.com/overcast07/wayback-machine-spn-scripts
次に良さそうだったのがgolang製のツール
ただ自分の環境だと実行時に大量のエラーを吐いたり、一度に多くのURLを読み込ませるとプロセスが落ちたりする(ちゃんとデバッグすれば回避策がわかるかもしれないけど時間がない)
https://github.com/wabarc/wayback
Python製のツールはどれも数年単位でメンテがされてないものばかりで、Wayback Machine側の仕様変更に追従できてるのかはっきりしない
2025/03/30(日) 03:42:31.68
そのシェルはいいね
軽く読んでみると結局はhttps://web.archive.org/save/ にpostして、jobの状態を見たり自分の状態を見てるだけっぽいかな
軽く読んでみると結局はhttps://web.archive.org/save/ にpostして、jobの状態を見たり自分の状態を見てるだけっぽいかな
2025/03/30(日) 18:01:48.15
web.fc2
の方じゃないからそんなにはないかと思ったけど
更新止まってるとはいえ専門知識のサイトとかやっば結構あるな
の方じゃないからそんなにはないかと思ったけど
更新止まってるとはいえ専門知識のサイトとかやっば結構あるな
2025/03/30(日) 19:28:25.75
archive,todayへの保存プログラムってないんですか?
Wayback Machineは数か月〜1年後ぐらいには表示されなくなった画像が多すぎて嫌なんです…。
Wayback Machineは数か月〜1年後ぐらいには表示されなくなった画像が多すぎて嫌なんです…。
2025/03/30(日) 20:58:37.82
こっちの環境だと200MBまでの通常のcatbox含めて↓の画像みたいなエラーになって全く保存されんな…
https://archive.is/DnhAx/8dd7d0a207c3695fc8d9e174f3db909a6be501b8.webp
https://archive.is/DnhAx/8dd7d0a207c3695fc8d9e174f3db909a6be501b8.webp
2025/03/30(日) 22:43:21.25
え、Wayback Machineって時間経過でファイルが消える事って実際あんの?
2025/03/30(日) 22:50:56.16
画像をスクリプトでロードしていたため実は元画像を参照してたとか
2025/03/30(日) 22:57:05.20
動的なページはリソースのurlがフルパスで書かれていて本サイトから読み込んでる場合あるよな
それを防ぐことは多分出来ないけど、chromeのdevtoolで通信しているドメインを確認して検知するしかない。
chrome拡張のSingleFileってやつはそれの対策で初期状態だとjsを全部無効化してリソースを全部埋め込んだ状態のhtmlを作ってくれる。
それをwaybackmachineで見れたらいいのにね
それを防ぐことは多分出来ないけど、chromeのdevtoolで通信しているドメインを確認して検知するしかない。
chrome拡張のSingleFileってやつはそれの対策で初期状態だとjsを全部無効化してリソースを全部埋め込んだ状態のhtmlを作ってくれる。
それをwaybackmachineで見れたらいいのにね
2025/03/30(日) 23:46:14.96
外務省のページを録ろうとすると403返される
2025/03/30(日) 23:50:20.58
ssblog動き始めたっぽい
https://tracker.archiveteam.org/sonetblog/
https://tracker.archiveteam.org/sonetblog/
2025/03/31(月) 16:30:27.67
2025/03/31(月) 16:34:48.17
京成今日までか
326215
2025/03/31(月) 17:34:26.812025/03/31(月) 17:37:19.41
2025/03/31(月) 19:13:53.01
2025/03/31(月) 21:23:58.34
Virtualboxにwarrior入れるだけでクロールに参加できるんだな
330名無しさん@お腹いっぱい。
2025/03/31(月) 21:49:13.852025/03/31(月) 22:52:44.77
YouTubeやニコニコなどの動画をメタデータつきでInternet Archiveにアップできるツールを見つけた
動画再生ページを保存するんじゃなく、mp4みたいな動画ファイルを保存するためのものなので注意
https://github.com/bibanon/tubeup
動画再生ページを保存するんじゃなく、mp4みたいな動画ファイルを保存するためのものなので注意
https://github.com/bibanon/tubeup
2025/03/31(月) 23:38:37.34
>>300 fc2系では他にもgooside.comが2025//6/30で終了するそうだ
2025/04/01(火) 00:20:32.24
色んなWEBサイト保存するの強迫観念の域でやってるけど、ここの住人みたいにPC知識無いから何書いてるのか全然理解出来ないし、手動で1人でやってるだけだから、貢献したいのに全然貢献出来てない…
みんなどこでこのスレに書いてあるような知識身に着けてるの?
どういう専門分野学べばいいの
みんなどこでこのスレに書いてあるような知識身に着けてるの?
どういう専門分野学べばいいの
334215
2025/04/01(火) 04:04:54.31 >>333
自分の場合は本業のIT関係の知識が元からある上でWebアーカイブをやってるからなあ
大前提として
・Webサイトを保存するには、Webサイトの裏側がどういう仕組み(プログラム)で動いてるのか分かればやりやすい
・何百個ものWebサイトを保存するには、人間が手作業でやるのはとても無理だから、プログラムを組んでパソコンに自動でやらせると楽になる
どちらにしてもITの知識が多かれ少なかれ必要
だから最低限この2つが出来るようになればいいと思う
・Webサイトがどういうプログラムを使って作られてる&動いてるのか知る
・プログラムを組んで、大量の作業を自分の代わりにパソコンに自動でやらせる方法を知る
今どきはChatGPTを先生代わりに活用するとだいぶやりやすい
自分の場合は本業のIT関係の知識が元からある上でWebアーカイブをやってるからなあ
大前提として
・Webサイトを保存するには、Webサイトの裏側がどういう仕組み(プログラム)で動いてるのか分かればやりやすい
・何百個ものWebサイトを保存するには、人間が手作業でやるのはとても無理だから、プログラムを組んでパソコンに自動でやらせると楽になる
どちらにしてもITの知識が多かれ少なかれ必要
だから最低限この2つが出来るようになればいいと思う
・Webサイトがどういうプログラムを使って作られてる&動いてるのか知る
・プログラムを組んで、大量の作業を自分の代わりにパソコンに自動でやらせる方法を知る
今どきはChatGPTを先生代わりに活用するとだいぶやりやすい
2025/04/01(火) 04:14:02.60
エイプリルフール仕様のページを保存しなければ
2025/04/01(火) 04:46:35.74
>>330
うーん、またIRCか…
確認点は
以下のレポジトリのpipeline.pyとsonetblog.lua がssblog専用らしい。他のプロジェクトと比較すると共通点もあるけど、ssblog専用の違いもある
https://github.com/ArchiveTeam/sonetblog-grab/tree/master
ここの「Warrior-based projects」に入れてもらっている
https://wiki.archiveteam.org/index.php/Projects
https://wiki.archiveteam.org/index.php/SS_Blog
くらいか。
archiveteamのwiki読み込んだら全部書いてあるのかな
うーん、またIRCか…
確認点は
以下のレポジトリのpipeline.pyとsonetblog.lua がssblog専用らしい。他のプロジェクトと比較すると共通点もあるけど、ssblog専用の違いもある
https://github.com/ArchiveTeam/sonetblog-grab/tree/master
ここの「Warrior-based projects」に入れてもらっている
https://wiki.archiveteam.org/index.php/Projects
https://wiki.archiveteam.org/index.php/SS_Blog
くらいか。
archiveteamのwiki読み込んだら全部書いてあるのかな
2025/04/01(火) 04:54:45.36
>>285
2025/06/18 閉鎖 gooニュース https://www.oricon.co.jp/news/2376944/full/
1998年からの歴史があるっぽいからアーカイブの腕まくりしたけど、
ニュース記事って配信元の契約でもともと一ヶ月程度?しか残ってないからアーカイブするものは無いかな
1998年の一般ニュースがゴロゴロしてたら宝の山だったけど。
IT系のニュースサイトは大昔のも残ってるってのに
2025/06/18 閉鎖 gooニュース https://www.oricon.co.jp/news/2376944/full/
1998年からの歴史があるっぽいからアーカイブの腕まくりしたけど、
ニュース記事って配信元の契約でもともと一ヶ月程度?しか残ってないからアーカイブするものは無いかな
1998年の一般ニュースがゴロゴロしてたら宝の山だったけど。
IT系のニュースサイトは大昔のも残ってるってのに
2025/04/01(火) 06:20:30.03
今どきはPython覚えるのが一番なんですかね
2025/04/01(火) 06:25:06.28
pythonが人気の方法である事は間違いない。
でも個人的には型がしっかり定義されている&コンパイルとかが不要という理由でnodejs+typescriptをしている。
でも個人的には型がしっかり定義されている&コンパイルとかが不要という理由でnodejs+typescriptをしている。
2025/04/01(火) 07:44:37.71
Webアーカイブ系のツールはPythonで書かれているものが多いので良い選択肢だと思う
バックエンド(Webサイトの裏側で動いてるサーバ部分のプログラムのこと)系の勉強にもまあまあ手を出しやすいし
ただJavaScriptは絶対に知っておくべき
なぜならフロントエンド(一般のユーザが見れるWebサイトの表側部分)はJavaScriptをバリバリ使って動いているから
このスレでも時々話題になる「JavaScriptを使ってるサイトはwgetで保存できない」みたいな話とも関わってくる
あとは保存用のプログラムをパソコンで動かす時、CUI操作を覚えておくと作業が楽になるかもな
バックエンド(Webサイトの裏側で動いてるサーバ部分のプログラムのこと)系の勉強にもまあまあ手を出しやすいし
ただJavaScriptは絶対に知っておくべき
なぜならフロントエンド(一般のユーザが見れるWebサイトの表側部分)はJavaScriptをバリバリ使って動いているから
このスレでも時々話題になる「JavaScriptを使ってるサイトはwgetで保存できない」みたいな話とも関わってくる
あとは保存用のプログラムをパソコンで動かす時、CUI操作を覚えておくと作業が楽になるかもな
2025/04/01(火) 07:52:54.45
>>336
ArchiveTeamは原則全ての窓口がIRCなのは勘弁してほしいよね。
英語圏で昔から活動してるギーク系コミュニティは今でも独自フォーラムやIRCを使い続けていがちな気がするけど、
最近の使いやすいツール(Discordとか)も併用しないと新規参加者が先細りするんじゃないだろうか
ArchiveTeamは原則全ての窓口がIRCなのは勘弁してほしいよね。
英語圏で昔から活動してるギーク系コミュニティは今でも独自フォーラムやIRCを使い続けていがちな気がするけど、
最近の使いやすいツール(Discordとか)も併用しないと新規参加者が先細りするんじゃないだろうか
2025/04/01(火) 11:58:49.12
ぷららは無事閉鎖?されたのか、侍魂は接続がタイムアウトになる。雑な閉鎖処理だ…
http://www6.plala.or.jp/private-hp/samuraidamasii/
スラドは2025/04/01 11:56時点でまだアクセスは出来る
https://srad.jp/
ss-blogもまだ繋がる
https://blog.ss-blog.jp/
https://kousaku23.blog.ss-blog.jp/2025-03-30
ちゃんと閉鎖アナウンスページがある
https://maho.jp/
https://www.meitec.co.jp/fabcross.html
http://www6.plala.or.jp/private-hp/samuraidamasii/
スラドは2025/04/01 11:56時点でまだアクセスは出来る
https://srad.jp/
ss-blogもまだ繋がる
https://blog.ss-blog.jp/
https://kousaku23.blog.ss-blog.jp/2025-03-30
ちゃんと閉鎖アナウンスページがある
https://maho.jp/
https://www.meitec.co.jp/fabcross.html
2025/04/01(火) 12:13:47.97
>>341
以前「質問はこのIRCでいい?」ってIRCで聞いたら archiveteam@archiveteam.org のメールでもいいって言われたけど
それだと完全に担当者しか見れなくなるんだよな… 閉鎖的なコミュニケーションがしたい訳じゃないし。
だからしょうがなくIRCで色々質問をする。
hexchatというクライアントを見つけたけど、UIも日本語化出来るし今のところ結構お気に入りかな。
hackintもデフォルトでサーバー一覧に入ってるし、ログもテキストで残るのがデフォルト。
日本語で有名なIRCクライアントは自分の環境だとどうしてもhackintに繋がらなかったから困ってたけど、これならいい。
セットアップがexeでzipじゃないのが気に入らないが、もうそんな事言ってらんない
以前「質問はこのIRCでいい?」ってIRCで聞いたら archiveteam@archiveteam.org のメールでもいいって言われたけど
それだと完全に担当者しか見れなくなるんだよな… 閉鎖的なコミュニケーションがしたい訳じゃないし。
だからしょうがなくIRCで色々質問をする。
hexchatというクライアントを見つけたけど、UIも日本語化出来るし今のところ結構お気に入りかな。
hackintもデフォルトでサーバー一覧に入ってるし、ログもテキストで残るのがデフォルト。
日本語で有名なIRCクライアントは自分の環境だとどうしてもhackintに繋がらなかったから困ってたけど、これならいい。
セットアップがexeでzipじゃないのが気に入らないが、もうそんな事言ってらんない
2025/04/01(火) 12:25:02.60
IRCで色々聞いてきた内容をシェア。回答してくれてる人は複数居るし、その人がどんな人なのか知らんから下手したら全部嘘の可能性もあるけど。
・Warrior ( https://tracker.archiveteam.org/sonetblog/ で表示されるもの) は
https://archive.org/details/archiveteam?tab=collection&query=ssblog のarchive.ord/details/ に保存される
https://archive.org/download/archiveteam_ssblog_20250330234906_cb04757b 現時点だとwarc.gz ファイルに鍵がかかっているけど、これは"ある程度"の時間経過で開放されるらしい。
他のコンテンツを見ると2月にアップロードされたけどまだ鍵マークがかかってwarc.gzがDL出来ないのもある。これは今後監視してどのくらいで公開されるのかチェックしたい。
・Warrior で取得されたものは /details/に保存されるけど、weyback machineのデータには入らないの?!と思ったけど入るらしい。
https://share.dl.je/2025/03/2025-03-31_20-44-57_B5182IVlFY.png アーカイブのここにcollected by "Archive Team SSブログ:" と出るらしい。
逆に言うとcollected byから逆検索は出来ないから、ちまちま確認するしか無さそう。apiがあれば自動化出来るけど…
collected by "Archive Team SSブログ:" って表示された weyback machineのアーカイブがあったら誰か教えてくれ
・/github.com/ArchiveTeam/sonetblog-grab/ とかは誰に申請すれば作成される?
ss-blogのWarriorは結局1日前に稼働した?らしくて、それでも感謝なんだけど出来ればもっと早くから準備したい。
誰に何を言えばいいの?と聞いたら arkiver というユーザーがsetup/code writingをしているらしい。(arkiver というユーザーは確かにIRCに居る)
でもコントリビューションは IRCの#archiveteam-bs とか、https://wiki.archiveteam.org/index.php/Deathwatch に追記してくれよ!との事
次に閉鎖サイトが発覚したら速攻やろう。gooニュースは別にいいや
との事。だから次に閉鎖がアナウンスされてアーカイブしたいと思ったサイトが出来たらまずは
https://wiki.archiveteam.org/index.php/Deathwatch に追記(このwikiもアカウント作成必要か…)
IRCの #archiveteam-bs に報告。かな
・Warrior ( https://tracker.archiveteam.org/sonetblog/ で表示されるもの) は
https://archive.org/details/archiveteam?tab=collection&query=ssblog のarchive.ord/details/ に保存される
https://archive.org/download/archiveteam_ssblog_20250330234906_cb04757b 現時点だとwarc.gz ファイルに鍵がかかっているけど、これは"ある程度"の時間経過で開放されるらしい。
他のコンテンツを見ると2月にアップロードされたけどまだ鍵マークがかかってwarc.gzがDL出来ないのもある。これは今後監視してどのくらいで公開されるのかチェックしたい。
・Warrior で取得されたものは /details/に保存されるけど、weyback machineのデータには入らないの?!と思ったけど入るらしい。
https://share.dl.je/2025/03/2025-03-31_20-44-57_B5182IVlFY.png アーカイブのここにcollected by "Archive Team SSブログ:" と出るらしい。
逆に言うとcollected byから逆検索は出来ないから、ちまちま確認するしか無さそう。apiがあれば自動化出来るけど…
collected by "Archive Team SSブログ:" って表示された weyback machineのアーカイブがあったら誰か教えてくれ
・/github.com/ArchiveTeam/sonetblog-grab/ とかは誰に申請すれば作成される?
ss-blogのWarriorは結局1日前に稼働した?らしくて、それでも感謝なんだけど出来ればもっと早くから準備したい。
誰に何を言えばいいの?と聞いたら arkiver というユーザーがsetup/code writingをしているらしい。(arkiver というユーザーは確かにIRCに居る)
でもコントリビューションは IRCの#archiveteam-bs とか、https://wiki.archiveteam.org/index.php/Deathwatch に追記してくれよ!との事
次に閉鎖サイトが発覚したら速攻やろう。gooニュースは別にいいや
との事。だから次に閉鎖がアナウンスされてアーカイブしたいと思ったサイトが出来たらまずは
https://wiki.archiveteam.org/index.php/Deathwatch に追記(このwikiもアカウント作成必要か…)
IRCの #archiveteam-bs に報告。かな
2025/04/01(火) 12:33:34.33
archiveteamはwikiのフッターに「archiveteamはarchive.orgとは一切関係ありません」って書いてあるけど、これもどんな事情なのかよくわからんのだよな
Warriorのプログラムを作って、それをarchiveTeam名義で archive.org/details/ に保存するというのは無関係の有志でも出来るだろうけど
それをweyback machineのソースに入れるというのは通常では出来ないはずで、 archiveteamは何らかの特別扱いされてるよねと思ってしまう
(もちろん特別扱いをする事になんの異論も無い)
1クリックでwebページが表示できるweyback machineにどうすれば効率よくデータを流し込めるのかという事で結構苦心してるんだけど
archiveteamが特別扱いを一切受けていないというのが真であれば、
Warrior が各利用者のPCから取得したhttpレスポンスの内容をweyback machineのデータソースに追加出来るAPIが存在するって事になるから是非知りたい。
もちろん各利用者が嘘の内容を申請する可能性だって充分にあるはずだし。今で言うoracleクラウドの件とか
Warriorのプログラムを作って、それをarchiveTeam名義で archive.org/details/ に保存するというのは無関係の有志でも出来るだろうけど
それをweyback machineのソースに入れるというのは通常では出来ないはずで、 archiveteamは何らかの特別扱いされてるよねと思ってしまう
(もちろん特別扱いをする事になんの異論も無い)
1クリックでwebページが表示できるweyback machineにどうすれば効率よくデータを流し込めるのかという事で結構苦心してるんだけど
archiveteamが特別扱いを一切受けていないというのが真であれば、
Warrior が各利用者のPCから取得したhttpレスポンスの内容をweyback machineのデータソースに追加出来るAPIが存在するって事になるから是非知りたい。
もちろん各利用者が嘘の内容を申請する可能性だって充分にあるはずだし。今で言うoracleクラウドの件とか
2025/04/01(火) 12:36:53.19
https://wiki.archiveteam.org/index.php/5ch.net
5chもアーカイブプロジェクトは無いけどwikiのページはあるんだな
消滅した過去ログはどうしようもないけど、今のサーバーの過去ログ・datのurl形式を教えたらクロール対象にしてくれんかな
5chもアーカイブプロジェクトは無いけどwikiのページはあるんだな
消滅した過去ログはどうしようもないけど、今のサーバーの過去ログ・datのurl形式を教えたらクロール対象にしてくれんかな
2025/04/01(火) 13:10:30.68
>>327
sonetblogのWarrior、 https://tracker.archiveteam.org/sonetblog/
2025/03/31 17:30頃
1,456,057 claims
1,959,622 done
8,537,225 todo
2025/04/01 12:40頃
3,072,444 claims
11,683,257 done
10,163,088 todo
claimsとdoneの値は増えていくけど、todoは減っていく
19時間で割り算すると
85,073件/h、2,041,752件/day claims
511,770件/h、12,282,480件/day done
という感じか
doneの数だけ見ればあと24時間あれば 1228万件処理出来るからtodoの1000万件を処理しきれるって事になるのかな
claimsとdoneの違いわかんね。
https://tracker.archiveteam.org/sonetblog/ のページ上部にあるカウンタは
items 11.69M(done) + 3.08M(out) + 17.84M(to do)で、doneはいいんだけどtodoの数が全然違うのが気になる
sonetblogのWarrior、 https://tracker.archiveteam.org/sonetblog/
2025/03/31 17:30頃
1,456,057 claims
1,959,622 done
8,537,225 todo
2025/04/01 12:40頃
3,072,444 claims
11,683,257 done
10,163,088 todo
claimsとdoneの値は増えていくけど、todoは減っていく
19時間で割り算すると
85,073件/h、2,041,752件/day claims
511,770件/h、12,282,480件/day done
という感じか
doneの数だけ見ればあと24時間あれば 1228万件処理出来るからtodoの1000万件を処理しきれるって事になるのかな
claimsとdoneの違いわかんね。
https://tracker.archiveteam.org/sonetblog/ のページ上部にあるカウンタは
items 11.69M(done) + 3.08M(out) + 17.84M(to do)で、doneはいいんだけどtodoの数が全然違うのが気になる
2025/04/01(火) 16:05:55.48
急に訳わからなくなってきた
個人でぽちぽち頑張ります…
ツールを上手く使いこなしたいなぁ
個人でぽちぽち頑張ります…
ツールを上手く使いこなしたいなぁ
349名無しさん@お腹いっぱい。
2025/04/01(火) 17:12:38.28 今見たらss-blogがサービス終了画面になってた。ArchiveTeamに連絡してBot稼働を止めてもらったほうがいいかも
2025/04/02(水) 00:51:08.02
>>285
桜のように散ってしまったサービス群…悲しe
桜のように散ってしまったサービス群…悲しe
351名無しさん@お腹いっぱい。
2025/04/02(水) 09:25:18.32 漫画図書館Zは今月再起動するとか
2025/04/02(水) 17:05:52.74
>>345
ArchiveTeamは特別にwarcのアップロードを許可されてたはず。一般人はアイテムの方にアップロードはできてもWBMに表示させることは出来ない。
ArchiveTeamが保存したものはここにある、ssblogとかもここに入るはず
https://archive.org/details/archiveteam
ArchiveTeamは特別にwarcのアップロードを許可されてたはず。一般人はアイテムの方にアップロードはできてもWBMに表示させることは出来ない。
ArchiveTeamが保存したものはここにある、ssblogとかもここに入るはず
https://archive.org/details/archiveteam
2025/04/03(木) 01:05:37.32
たまーに調べると閉鎖されてるサイトが増えてて悲しい
2025/04/03(木) 01:25:40.78
スラド結局消えたのか
2025/04/03(木) 04:22:02.11
「gooニュース」が6月18日で終了
https://www.watch.impress.co.jp/docs/news/2003384.html
https://www.watch.impress.co.jp/docs/news/2003384.html
2025/04/03(木) 05:20:13.27
マジか
2025/04/03(木) 08:48:05.84
2025/04/03(木) 09:37:20.74
2025/04/03(木) 09:38:33.87
>>285
閉鎖サイト更新
2024/09/30 閉鎖 アキバ総研 https://akiba-souken.com/article/66874/ https://www.itmedia.co.jp/news/articles/2408/01/news124.html
2024/11/26 閉鎖 マンガ図書館Z https://closing.mangaz.com/info/2114/index.html
2024/12/20 閉鎖 vectorの作者個人ページ https://www.itmedia.co.jp/news/articles/2407/18/news117.html
2025/03/20 閉鎖→回避 検索してはいけない言葉wiki https://w.atwiki.jp/mustnotsearch/pages/6128.html
2025/03/31 閉鎖 魔法のiらんど https://maho.jp/info/entry/maho_i_will_no_longer_available
2025/03/31 閉鎖 SSブログ https://blog-wn.blog.ss-blog.jp/2024-11-15
2025/03/31 閉鎖 ぷららのHPスペース https://www.docomo.ne.jp/info/notice/page/240627_01.html
2025/03/31 閉鎖 ARZON https://www.arzon.jp/
2025/03/31 閉鎖 電子工作サイト fabcross https://www.itmedia.co.jp/news/articles/2503/18/news175.html
2025/03/31 閉鎖 スラド https://srad.jp/
2025/06/18 閉鎖 gooニュース https://www.oricon.co.jp/news/2376944/full/
2025/06/30 閉鎖 FC2WEBサービス https://www.fc2web.com/
うむ…
閉鎖サイト更新
2024/09/30 閉鎖 アキバ総研 https://akiba-souken.com/article/66874/ https://www.itmedia.co.jp/news/articles/2408/01/news124.html
2024/11/26 閉鎖 マンガ図書館Z https://closing.mangaz.com/info/2114/index.html
2024/12/20 閉鎖 vectorの作者個人ページ https://www.itmedia.co.jp/news/articles/2407/18/news117.html
2025/03/20 閉鎖→回避 検索してはいけない言葉wiki https://w.atwiki.jp/mustnotsearch/pages/6128.html
2025/03/31 閉鎖 魔法のiらんど https://maho.jp/info/entry/maho_i_will_no_longer_available
2025/03/31 閉鎖 SSブログ https://blog-wn.blog.ss-blog.jp/2024-11-15
2025/03/31 閉鎖 ぷららのHPスペース https://www.docomo.ne.jp/info/notice/page/240627_01.html
2025/03/31 閉鎖 ARZON https://www.arzon.jp/
2025/03/31 閉鎖 電子工作サイト fabcross https://www.itmedia.co.jp/news/articles/2503/18/news175.html
2025/03/31 閉鎖 スラド https://srad.jp/
2025/06/18 閉鎖 gooニュース https://www.oricon.co.jp/news/2376944/full/
2025/06/30 閉鎖 FC2WEBサービス https://www.fc2web.com/
うむ…
2025/04/03(木) 10:27:10.26
361名無しさん@お腹いっぱい。
2025/04/03(木) 15:31:46.34 このサイトってYourFileHostの動画って再生できないですかね?
ページにアクセスできても動画をRuffleで読み込み⇒エラーでエラーログ見ても読み込めないっぽいです。
ページにアクセスできても動画をRuffleで読み込み⇒エラーでエラーログ見ても読み込めないっぽいです。
362名無しさん@お腹いっぱい。
2025/04/03(木) 19:20:39.81 ファンブログ今月22日にサービス終了らしい
2025/04/03(木) 19:41:37.05
>>359
2025/04/22 閉鎖 https://f/a/n/b/logs.jp/fanbloginfo/archive/297/0
去年12月からアナウンスしてたのか
でも大半がアフィって感じだな…
2025/04/22 閉鎖 https://f/a/n/b/logs.jp/fanbloginfo/archive/297/0
去年12月からアナウンスしてたのか
でも大半がアフィって感じだな…
2025/04/03(木) 21:20:24.15
欲しいバージョンの実行ファイルがちょうど歯抜で悲しい
2025/04/03(木) 23:28:52.07
色々減ってんだなぁ
2025/04/05(土) 16:12:03.66
インターネットはデータが永久に残るとか言ってた奴誰だよ
2025/04/05(土) 17:12:44.20
ほんまそれや
2025/04/05(土) 18:37:11.68
消えてほしい情報は消すと増えて残る
貴重な情報はどうでもいい情報に埋もれ静かに消えゆく
貴重な情報はどうでもいい情報に埋もれ静かに消えゆく
2025/04/06(日) 17:11:57.34
みんなが価値があると思ってる情報は残る、価値が無いと思われてる情報は消える
問題は現時点で価値が無いと思われていても後世では価値があったりすること
問題は現時点で価値が無いと思われていても後世では価値があったりすること
2025/04/06(日) 17:14:35.23
俺が残したいと思う情報はみんな興味がないから「みんな」なんて何も信用できんのよな
2025/04/06(日) 17:20:33.57
たとえ1000人くらいに愛されたサイトでもその中にアーカイブを取ろうと思ったやつが含まれてなかったら全然消えるしな
2025/04/06(日) 17:33:06.10
消えてほしくないと思ってるやつがたくさんいても消えるもんな
アーカイブとれないサイトとかもあるし
アーカイブとれないサイトとかもあるし
2025/04/06(日) 21:35:02.15
モダンな動的なwebサイトをアーカイブする為のインターフェイスが全く無いからなあ
iframe側でタグ指定するとその中でfetchするとproxyされるとかそういう仕組がないと、魔法のiらんどみたいにページ表示後にコンテンツをgraphQLで取ってるサイトは厳しい
iframe側でタグ指定するとその中でfetchするとproxyされるとかそういう仕組がないと、魔法のiらんどみたいにページ表示後にコンテンツをgraphQLで取ってるサイトは厳しい
2025/04/06(日) 22:57:42.54
芸術家なんて死んでから評価されますしお寿司
2025/04/07(月) 08:24:41.69
>>371
「誰もアーカイブしてないのである!!」
「誰もアーカイブしてないのである!!」
2025/04/07(月) 20:16:58.20
2chの過去ログ問題、今ならまだ昔から使っているPCにdatが残っている人が居るはずだから
datのファイル名一覧だけ募集してスレッド一覧を作るアイディアを思いついた。
今のブラウザだと許可さえ与えればローカルのファイル一覧を取る事が出来るから
それで専ブラのdatフォルダを指定してもらえたらdatのファイル名一覧をアップロード出来るサイトを作ると結構集まるかも。
自分のPCでやったらdatは21万個あって一覧のテキストは12MB。
適切に圧縮したらもっと縮まりそう。大半は10桁の数字のはずだし
datのファイル名一覧だけ募集してスレッド一覧を作るアイディアを思いついた。
今のブラウザだと許可さえ与えればローカルのファイル一覧を取る事が出来るから
それで専ブラのdatフォルダを指定してもらえたらdatのファイル名一覧をアップロード出来るサイトを作ると結構集まるかも。
自分のPCでやったらdatは21万個あって一覧のテキストは12MB。
適切に圧縮したらもっと縮まりそう。大半は10桁の数字のはずだし
2025/04/07(月) 22:57:05.43
良いアイデアかもしれないが
果たして集まるんだろうか?
引退した人多いだろうし…
でもやらないよりは遥かにマシか
ファイル名さえ集められれば良い訳だし
探るよりかマシかぁ
そういうプラットフォーム作るしかないかな
果たして集まるんだろうか?
引退した人多いだろうし…
でもやらないよりは遥かにマシか
ファイル名さえ集められれば良い訳だし
探るよりかマシかぁ
そういうプラットフォーム作るしかないかな
378名無しさん@お腹いっぱい。
2025/04/09(水) 17:39:33.00 archiveってアカウント作って非公開で個人用のアプロダとして使えたりすんの?
2025/04/09(水) 23:06:07.10
Internet archiveって
どこにサーバー置いてるんだろ
アメリカの政局情勢不安定だから
検閲とか起きてInternet archive閉鎖とかなったら
洒落にならん
むしろめっぽうから対抗しそうだけどどうなるか
どこにサーバー置いてるんだろ
アメリカの政局情勢不安定だから
検閲とか起きてInternet archive閉鎖とかなったら
洒落にならん
むしろめっぽうから対抗しそうだけどどうなるか
2025/04/10(木) 10:59:41.60
サブドメインをカウントするツールで少し調べた感じだと、web fc2上にはかなり膨大な量(少なくとも1万個規模)のテキストサイトがあるみたい
今度は早めにArchiveTeamと連携で作業を始めて漏れなく保存したいな
ArchiveTeamのDeathwatchにはもうweb fc2のことが書いてあるけど、流石にまだ作業を始めてるはずはないし、
URLリストを作るだけでもこちらでやっておくべきかな
今度は早めにArchiveTeamと連携で作業を始めて漏れなく保存したいな
ArchiveTeamのDeathwatchにはもうweb fc2のことが書いてあるけど、流石にまだ作業を始めてるはずはないし、
URLリストを作るだけでもこちらでやっておくべきかな
2025/04/10(木) 20:55:40.28
URLリストってどうやって作る?
web.archive.org/cdx/search/cdx の検索結果をドメインごとに正規化するくらいしか思いつかないや
それも既に1ファイル以上がアーカイブされているサイトに限定されるし
改めて取り直す事にも意味はあるけど
web.archive.org/cdx/search/cdx の検索結果をドメインごとに正規化するくらいしか思いつかないや
それも既に1ファイル以上がアーカイブされているサイトに限定されるし
改めて取り直す事にも意味はあるけど
2025/04/12(土) 00:39:03.18
>>381
サブドメイン列挙ツールで*.web.fc2.comをリストアップして、その中で404エラーにならないものを上で出てたkatanaクローラで辿ることを考えてる
サブドメイン列挙ツールで*.web.fc2.comをリストアップして、その中で404エラーにならないものを上で出てたkatanaクローラで辿ることを考えてる
2025/04/12(土) 01:54:52.38
でも6月に終わるのはfc2web.comの方で
web.fc2の方はまだ続くんだよね?
まあいつかは…と考えるとそっちもやっておく方がいいか
web.fc2の方はまだ続くんだよね?
まあいつかは…と考えるとそっちもやっておく方がいいか
2025/04/12(土) 02:35:02.17
今回終わるのはfc2web.comの方で、web.fc2.comはまだ終了しないから大丈夫。ややこしいから仕方ない
ただこれと連動して、「旧fc2web系」と呼ばれる別ドメインのサービスが同時に10個くらい終了するらしい
(この情報はまだこのスレに貼られてないよね?)
http://tyousen.pv.land.to/oldfc2/
ただこれと連動して、「旧fc2web系」と呼ばれる別ドメインのサービスが同時に10個くらい終了するらしい
(この情報はまだこのスレに貼られてないよね?)
http://tyousen.pv.land.to/oldfc2/
2025/04/12(土) 12:45:12.89
>>384
そのリンク先、自分が利用しているドメインのサイトが終わるのか終わらないかも詳細不明な状況なんだな
そのリンク先、自分が利用しているドメインのサイトが終わるのか終わらないかも詳細不明な状況なんだな
2025/04/12(土) 13:40:35.62
発表ないのに突然終了もありえるのか
387名無しさん@お腹いっぱい。
2025/04/12(土) 15:13:13.98 fc2色々サービス終わるの?
2025/04/12(土) 22:18:45.03
fc2アクセスアナライザーが6月ぐらいで終わるアナウンスされたと思ったら旧ホームページも終了。
ブログ?掲示板?っぽいものや簡易コメントなども同時に終了アナウンス
ブログ?掲示板?っぽいものや簡易コメントなども同時に終了アナウンス
2025/04/12(土) 22:39:52.83
FC2動画のarchive保存とか無理なんかなあ
2025/04/14(月) 10:50:29.50
ずっと Job failed.
2025/04/14(月) 13:15:17.68
goo blogと教えて!gooもサ終
2025/04/14(月) 14:04:23.67
「教えて!goo」は2025年9月17日(水)をもちまして、サービスを終了することとなりました。
https://blog.goo.ne.jp/oshietegoo/e/40d490c48e92fdd8dc2a18b8e904aeb0
この度、2025年11月18日をもちまして、
goo blogはサービスを終了することとなりました。
https://blog.goo.ne.jp/info/close.html
これは全力でやるか。
https://blog.goo.ne.jp/oshietegoo/e/40d490c48e92fdd8dc2a18b8e904aeb0
この度、2025年11月18日をもちまして、
goo blogはサービスを終了することとなりました。
https://blog.goo.ne.jp/info/close.html
これは全力でやるか。
2025/04/14(月) 14:20:20.28
gooブログはやらないとな
2025/04/14(月) 14:20:37.74
教えての方も
2025/04/14(月) 16:17:00.22
今年はサイト閉鎖が相次ぐな
396名無しさん@お腹いっぱい。
2025/04/14(月) 18:08:29.962025/04/14(月) 18:15:25.27
>>396
終わらせたあとにこれやってくれよ…
終わらせたあとにこれやってくれよ…
2025/04/14(月) 18:53:35.31
.*fc2web.com
昔流行ったポイントサイトとかが多いな
個人開発のマイナーエロゲみたいなのもあった
教えてgooは無いと困るな
blog.ss-blog.jpが検索にヒットするが終わって見れないし、Googleもキャッシュが無くなったし本当困ったなが
昔流行ったポイントサイトとかが多いな
個人開発のマイナーエロゲみたいなのもあった
教えてgooは無いと困るな
blog.ss-blog.jpが検索にヒットするが終わって見れないし、Googleもキャッシュが無くなったし本当困ったなが
2025/04/14(月) 20:34:43.49
gooブログ手持ちの奴全部保存したいけどwayback手動だとエラーになりやすくて使いづらいんだよなあ
画像も保存されてないのか表示されない事多いし困ったなあ
画像も保存されてないのか表示されない事多いし困ったなあ
2025/04/14(月) 21:28:32.22
そこでtodayですよ
2025/04/15(火) 03:56:05.46
無料ホームページスペース「FC2 WEB」6月末で終了へ…後継サービスは継続も、ゲーム関連サイト消失の危機か
https://www.gamespark.jp/article/2025/04/14/151458.html
「goo blog」「教えて! goo」サービス終了へ―20年以上にわたり積み上げられてきたレトロゲーム情報喪失の危機迫る
https://www.gamespark.jp/article/2025/04/14/151477.html
https://www.gamespark.jp/article/2025/04/14/151458.html
「goo blog」「教えて! goo」サービス終了へ―20年以上にわたり積み上げられてきたレトロゲーム情報喪失の危機迫る
https://www.gamespark.jp/article/2025/04/14/151477.html
402名無しさん@お腹いっぱい。
2025/04/15(火) 10:45:38.99 FC2とかgooって経営ヤバイの?
2025/04/15(火) 11:38:44.92
>>400
todayは長期保存には信用できん
todayは長期保存には信用できん
2025/04/15(火) 15:45:50.15
today消えるのか?
2025/04/15(火) 15:48:40.45
たまに不安定時期はある
過去に何度かわりと長い日数だめだったことがあった
過去に何度かわりと長い日数だめだったことがあった
406名無しさん@お腹いっぱい。
2025/04/15(火) 15:51:52.07 エロ動画専門で保存できるアーカイブサイトって無いのかね
2025/04/15(火) 18:50:39.52
archive.today は、先月末から保存した画像の元のパスを <img> に
埋め込んで返さなくなったので元の URI を知る術がなくなった。
新規保存したページだけでなく何年も前に保存したページからも消えている。
<img alt="サムネイル"
new-cursrc="https://〜/〜.jpg" ←廃止
old-src="https://〜/〜.jpg" ←廃止
src="/アーカイブ短縮コード/画像ハッシュコード.jpg" …>
なので today 上で JavaScript が動かず保存されていない画像を探して
保存するスクリプト(サムネイルのパスから XL や L サイズのパスを
作って API に問い合わせ保存されていなければ保存する)が動かなく
なった。また、過去に保存したそれらをパスが不明なので参照することが
できなくなった。
復活するかもしれないので毎日、大きい画像の保存も続け、他人が
先にページを保存していた場合、保存元の大きい画像だけ抽出して
保存している...
あと、https://archive.today/?run=1&url=… の run=1 で
「ページを保存」ボタンが自動的に押される機能も動かなくなった。
こちらは、ブラウザの拡張機能を自作して対処した。
埋め込んで返さなくなったので元の URI を知る術がなくなった。
新規保存したページだけでなく何年も前に保存したページからも消えている。
<img alt="サムネイル"
new-cursrc="https://〜/〜.jpg" ←廃止
old-src="https://〜/〜.jpg" ←廃止
src="/アーカイブ短縮コード/画像ハッシュコード.jpg" …>
なので today 上で JavaScript が動かず保存されていない画像を探して
保存するスクリプト(サムネイルのパスから XL や L サイズのパスを
作って API に問い合わせ保存されていなければ保存する)が動かなく
なった。また、過去に保存したそれらをパスが不明なので参照することが
できなくなった。
復活するかもしれないので毎日、大きい画像の保存も続け、他人が
先にページを保存していた場合、保存元の大きい画像だけ抽出して
保存している...
あと、https://archive.today/?run=1&url=… の run=1 で
「ページを保存」ボタンが自動的に押される機能も動かなくなった。
こちらは、ブラウザの拡張機能を自作して対処した。
2025/04/16(水) 03:57:09.61
2025/04/16(水) 13:54:52.75
fc2webは更新されてないゲーム関連サイトとかもやっぱけっこうあるな…
まだ普通に遊ばれてるゲームの攻略や資料まで消えるのはもったいないな
まだ普通に遊ばれてるゲームの攻略や資料まで消えるのはもったいないな
2025/04/16(水) 22:06:13.93
買い切りゲーの新規が死に体な代わりにレトロゲーのリメイクブームだから、流用できるかもしれんレトロゲーの攻略は需要あるんよな
新規が死に体なのはゲームに限らんけど
世間が名作再放送の方が低予算新作より既視感あってもまだ面白いのに気付き始めた感
新規が死に体なのはゲームに限らんけど
世間が名作再放送の方が低予算新作より既視感あってもまだ面白いのに気付き始めた感
2025/04/17(木) 04:08:13.91
教えて!gooについて色々と...
まずURLは完全なる連番
https://oshiete.goo.ne.jp/qa/{数字}.html
数字は1から(現時点で)14084106まで入る
でも1から全てをアーカイブする必要はなさそう?
>QA Partner
>前述のように、ASP方式でOKWAVEと共通のデータベースを使っているサイト。かつては、60以上のサイトと提携しており(gooの 教えて!goo とは2015年1月に提携解消)、質問と回答内容のデータが各サイト間で共用されていた。
>2015年1月 - gooの「教えて!goo」との提携が解消されデータベースを分離、完全に別サイトとなった。
https://ja.wikipedia.org/wiki/OKWAVE#:~:text=2015,%E5%88%A5%E3%82%B5%E3%82%A4%E3%83%88%E3%81%A8%E3%81%AA%E3%81%A3%E3%81%9F%E3%80%82
要するにデータベース共有してたから2015年1月27日以前の質問は全てOKWave側でも見れるので優先度は下がる
しかもgoo側だと「この質問の掲載は終了しました。続きはOKWaveで~」で見れないことも多いから
分離したのはおそらくここから
https://oshiete.goo.ne.jp/qa/8905308.html
(8905301まではOKWave側と一致、goo側の8905302~8905307は404、8905308から不一致)
性の悩みのような18禁カテゴリはURLに?check_ok=1をつけるだけでアーカイブできる
https://web.archive.org/web/20250416175207/https://oshiete.goo.ne.jp/qa/10082822.html?check_ok=1
あとは回答が11件以上ある場合は2ページ以上に分かれることくらいかな
まずURLは完全なる連番
https://oshiete.goo.ne.jp/qa/{数字}.html
数字は1から(現時点で)14084106まで入る
でも1から全てをアーカイブする必要はなさそう?
>QA Partner
>前述のように、ASP方式でOKWAVEと共通のデータベースを使っているサイト。かつては、60以上のサイトと提携しており(gooの 教えて!goo とは2015年1月に提携解消)、質問と回答内容のデータが各サイト間で共用されていた。
>2015年1月 - gooの「教えて!goo」との提携が解消されデータベースを分離、完全に別サイトとなった。
https://ja.wikipedia.org/wiki/OKWAVE#:~:text=2015,%E5%88%A5%E3%82%B5%E3%82%A4%E3%83%88%E3%81%A8%E3%81%AA%E3%81%A3%E3%81%9F%E3%80%82
要するにデータベース共有してたから2015年1月27日以前の質問は全てOKWave側でも見れるので優先度は下がる
しかもgoo側だと「この質問の掲載は終了しました。続きはOKWaveで~」で見れないことも多いから
分離したのはおそらくここから
https://oshiete.goo.ne.jp/qa/8905308.html
(8905301まではOKWave側と一致、goo側の8905302~8905307は404、8905308から不一致)
性の悩みのような18禁カテゴリはURLに?check_ok=1をつけるだけでアーカイブできる
https://web.archive.org/web/20250416175207/https://oshiete.goo.ne.jp/qa/10082822.html?check_ok=1
あとは回答が11件以上ある場合は2ページ以上に分かれることくらいかな
2025/04/17(木) 17:57:19.16
ホントだ、ブックマークで取れるやつが自動取得じゃなくなっとる
todayはonionアーカイブ出来るから便利だし、削除要請にも応じないのがいいが同一ドメインで5000超えるとwelcome Eginxに飛ばされる
todayはonionアーカイブ出来るから便利だし、削除要請にも応じないのがいいが同一ドメインで5000超えるとwelcome Eginxに飛ばされる
2025/04/17(木) 21:45:07.76
2025/04/18(金) 00:30:28.56
imgur埋め込みだと画像全滅なのがなあ
2025/04/18(金) 13:08:26.41
fc2web以外にもけっこうサ終するっぽい
日本時間 2025年06月02日 (月) 午前10時をもちまして終了させていただくこととなりました。
https://fc {} 2information.blog.fc {} 2.com/blog-entry-2307.html
2003年開始
FC2アイコン、 FC2絵日記、 FC2ケータイホームページ、 FC2投票
2007年開始
FC2プロフ、 FC2ミニブログPIYO
>>384にも貼られてるけどこれも
https://tyousen.nomaki.jp/oldfc2/
日本時間 2025年06月02日 (月) 午前10時をもちまして終了させていただくこととなりました。
https://fc {} 2information.blog.fc {} 2.com/blog-entry-2307.html
2003年開始
FC2アイコン、 FC2絵日記、 FC2ケータイホームページ、 FC2投票
2007年開始
FC2プロフ、 FC2ミニブログPIYO
>>384にも貼られてるけどこれも
https://tyousen.nomaki.jp/oldfc2/
2025/04/18(金) 15:08:47.33
>>392にあるGoo.ne.jpのブログも同様だが
ブログは結構情報あるから消えて欲しくないんだよなぁ
ブログは結構情報あるから消えて欲しくないんだよなぁ
2025/04/19(土) 06:07:55.79
サービスが消える時にURLを探す手段として、スタンダードだけど忘れられがちなのがWikipediaの外部リンク
(百科事典としては本来良くないのかもしれないが)ブログとか個人サイトとかも結構貼られてる
ジオシティーズの時も結構な数のURLをここから抽出した記憶がある
(百科事典としては本来良くないのかもしれないが)ブログとか個人サイトとかも結構貼られてる
ジオシティーズの時も結構な数のURLをここから抽出した記憶がある
2025/04/19(土) 09:41:39.16
地方とかのマイナーな民族学漁ってるとよくあるある
2025/04/20(日) 05:47:12.39
FC2ケータイホームページのサイトを保存しようとしたらどれもエラーで取れない
The capture failed because Save Page Now does not have access rights http://k2.fc2.com/cgi-bin/hp.cgi/tebukuro/?pnum=0_1 (HTTP status=403).
archive todayから取ろうとしてもhttps://fc2.com/ にリダイレクトされてダメ
http://k.fc2.com/ で保存してもダメでした
海外からのアクセスが規制されてたりするんですかね?
The capture failed because Save Page Now does not have access rights http://k2.fc2.com/cgi-bin/hp.cgi/tebukuro/?pnum=0_1 (HTTP status=403).
archive todayから取ろうとしてもhttps://fc2.com/ にリダイレクトされてダメ
http://k.fc2.com/ で保存してもダメでした
海外からのアクセスが規制されてたりするんですかね?
2025/04/20(日) 13:01:51.94
2025/04/20(日) 13:21:14.45
2025/04/20(日) 14:04:45.29
Warriorって自身が動かしてるIPでアーカイブするっぽいから大丈夫かな?
調べたら国別でアクセスできないサイトを保存したいならArchiveteamに連絡してくださいって…IRCは依頼し辛いんだよな
調べたら国別でアクセスできないサイトを保存したいならArchiveteamに連絡してくださいって…IRCは依頼し辛いんだよな
2025/04/21(月) 06:40:28.40
http://cgiserv01.gooside.com/g-i-m-g-s/top/004/top_00000002_total_001.html
この004の数字を変えてみたら他のfc2系列のランキングにつながることがわかった
GOOSIDEと55 STREETの検索UIが同じだからもしやと思ってfc2webやEasterのURLに置き換えてみたら検索画面が出てきた...!
サ終する旧fc2系列ほぼ全て検索できるから一覧にまとめておいた
https://pastes.io/fc2-58900
cgi-bin/se.cgi(2つある場合はどちらでもよい)へアクセスして文字を指定せず検索したらホームページの総数が分かると思うfc2webの場合は約40万、次点で多いのがEasterで約12万
ただ検索だけでは抜けがある可能性もあるから、念のためg-i-m-g-s/top/○○/ にアクセスすると出てくるURL(カテゴリごとのアクセスランキングページ)全てにリクエスト送って検索のと重複してないURL集めれば可能な限り網羅できるはず
GOOSIDEと55STREETのは既に集まったから自由に使ってもらえれば
https://uu.getuploader.com/archive_share/download/5
https://uu.getuploader.com/archive_share/download/6
この004の数字を変えてみたら他のfc2系列のランキングにつながることがわかった
GOOSIDEと55 STREETの検索UIが同じだからもしやと思ってfc2webやEasterのURLに置き換えてみたら検索画面が出てきた...!
サ終する旧fc2系列ほぼ全て検索できるから一覧にまとめておいた
https://pastes.io/fc2-58900
cgi-bin/se.cgi(2つある場合はどちらでもよい)へアクセスして文字を指定せず検索したらホームページの総数が分かると思うfc2webの場合は約40万、次点で多いのがEasterで約12万
ただ検索だけでは抜けがある可能性もあるから、念のためg-i-m-g-s/top/○○/ にアクセスすると出てくるURL(カテゴリごとのアクセスランキングページ)全てにリクエスト送って検索のと重複してないURL集めれば可能な限り網羅できるはず
GOOSIDEと55STREETのは既に集まったから自由に使ってもらえれば
https://uu.getuploader.com/archive_share/download/5
https://uu.getuploader.com/archive_share/download/6
424名無しさん@お腹いっぱい。
2025/04/21(月) 12:01:05.48 fc2とかgooとか片っ端からクロールしてarchiveに保存する自動化ツールとかないのかね
2025/04/21(月) 12:07:18.17
人のもんを勝手に自社のサーバーに保存するなよ
2025/04/21(月) 21:46:26.28
ヤフオクって今はアーカイブできるのか、以前は拒否みたいなことを色々やってたけど。
https://web.archive.org/web/1/auctions.yahoo.co.jp/jp/auction/x1181113804
https://web.archive.org/web/1/auctions.yahoo.co.jp/jp/auction/x1181113804
2025/04/22(火) 03:05:33.06
2025/04/24(木) 01:47:00.09
“Save Page Now could not capture this URL because it was unreachable.” って表示が出た。保存先ページは当然生きてるしアクセスもできるんだけど何のエラー?
429名無しさん@お腹いっぱい。
2025/04/24(木) 02:43:14.64 日本からは見れるけど海外からは見れないサイト
2025/04/24(木) 03:14:34.88
本当にそういう事もあるかもしれんけど大抵は一時的なエラー、
同じリクエストを何回か再発行すればアーカイブできる。
同じリクエストを何回か再発行すればアーカイブできる。
2025/04/24(木) 12:00:32.43
ドメインによって保存できない事があるがその範囲が広くなった
2025/04/24(木) 15:42:50.46
fc2web含め旧fc2ドメイン系のホームページURL全て集めてArchiveteamに頼み込んだけど動かしてくれるかどうか
ついでに>>422のことについても聞いてみたけど
>結局、日本のArchiveBotパイプラインは実現したのでしょうか?
>ストレージ容量が非常に少ないものを試してみましたが、どのサイトでテストしても地域制限がかかりました。
とのことでうまくいかなかったらしいから海外規制してるサイトは自分で取るしかなさそう。。
とりあえずゲットしたホームページURL、タイトル、サイト説明一覧はすべてここに置いときます
(以前上げた55 STREETのはデータに抜けがあったから再うpした)
https://uu.getuploader.com/archive_share/
もし動いてくれなかったら404のページ抜き取ってもう一度頼むしかないか
ついでに>>422のことについても聞いてみたけど
>結局、日本のArchiveBotパイプラインは実現したのでしょうか?
>ストレージ容量が非常に少ないものを試してみましたが、どのサイトでテストしても地域制限がかかりました。
とのことでうまくいかなかったらしいから海外規制してるサイトは自分で取るしかなさそう。。
とりあえずゲットしたホームページURL、タイトル、サイト説明一覧はすべてここに置いときます
(以前上げた55 STREETのはデータに抜けがあったから再うpした)
https://uu.getuploader.com/archive_share/
もし動いてくれなかったら404のページ抜き取ってもう一度頼むしかないか
2025/04/24(木) 16:02:22.38
おつです
2025/04/25(金) 12:19:35.19
なんとか登録してもらえた...(涙)
https://i.imgur.com/6BG4zit.png
あと二ヵ月と時間は十分あるからfc2web含む旧fc2web系列はこれでほとんど残る
ただh.fc2.com(アダルト専用 63615ホームページ)とk.fc2.com(ケータイホームページ 全28万)は海外規制のせいでwayback machineでも取れないしもうどうすることもできないのか
ケータイホームページの集めたURLはロダにうpしといたからarchive.orgに保存するなにかいい方法があれば...
goo blogとgoo newsは既に再帰クロールで動いてるみたい
https://i.imgur.com/eYlv3pW.png
https://i.imgur.com/6BG4zit.png
あと二ヵ月と時間は十分あるからfc2web含む旧fc2web系列はこれでほとんど残る
ただh.fc2.com(アダルト専用 63615ホームページ)とk.fc2.com(ケータイホームページ 全28万)は海外規制のせいでwayback machineでも取れないしもうどうすることもできないのか
ケータイホームページの集めたURLはロダにうpしといたからarchive.orgに保存するなにかいい方法があれば...
goo blogとgoo newsは既に再帰クロールで動いてるみたい
https://i.imgur.com/eYlv3pW.png
2025/04/25(金) 12:37:22.69
乙です
ありがとう
ありがとう
2025/04/25(金) 12:42:47.66
乙
海外規制がなかなかキッツイな
日本鯖とかないのかな?
海外規制がなかなかキッツイな
日本鯖とかないのかな?
437名無しさん@お腹いっぱい。
2025/04/25(金) 13:53:04.94 archiveって無料アカウント作るメリットってある?
2025/04/25(金) 15:27:21.19
>>437
1分あたりの最大キャプチャ数が4から12に増える
1日あたりの最大キャプチャ数が4000から4万に増える
archive outlinksが使えるようになる(外部リンク取得上限75)
これらの数字はたまに変動
Save also in my web archiveをオンにしてアーカイブすれば後からアカウントページで見返すことができる
おまけ:たまにメアドとパスワードが流出する
登録する際は捨てメアドと適当に生成したパスワードを使用しよう
1分あたりの最大キャプチャ数が4から12に増える
1日あたりの最大キャプチャ数が4000から4万に増える
archive outlinksが使えるようになる(外部リンク取得上限75)
これらの数字はたまに変動
Save also in my web archiveをオンにしてアーカイブすれば後からアカウントページで見返すことができる
おまけ:たまにメアドとパスワードが流出する
登録する際は捨てメアドと適当に生成したパスワードを使用しよう
2025/04/25(金) 16:28:08.06
>>438
サンキュー
サンキュー
2025/04/26(土) 17:12:17.01
>>436
申請すれば新しくArchiveBotの鯖を建てられるみたいだけど、ArchiveTeamに一定期間(※具体的な期間は載ってない)参加してる人じゃないとダメとのこと
たぶん「信頼できる人にしか大事なアーカイブは任せられない」という理由なんだろう
ただ、今回は海外の鯖からアクセスできないという事情があるし特例として申請できそうな気もする。コンタクトを取らないとなんとも言えない
必要なサーバスペックも書いてあるが、どこかの国内VPSを借りれば現実的に運用できるレベルだと思う
もし申請が通るなら自分の自腹でやってもいい
- lots of disk space (40 GB minimum / 200 GB recommended / 500 GB atypical)
- 512 MB RAM (2 GB recommended, 2 GB swap recommended)
- 10 Mb/s upload/download speeds (100 Mb/s recommended)
- long-term availability and uptime (a few months minimum)
- always-on unrestricted internet access (absolutely no firewall/proxies/censorship/ISP-injected-ads/DNS-redirection/free-cafe-wifi)
申請すれば新しくArchiveBotの鯖を建てられるみたいだけど、ArchiveTeamに一定期間(※具体的な期間は載ってない)参加してる人じゃないとダメとのこと
たぶん「信頼できる人にしか大事なアーカイブは任せられない」という理由なんだろう
ただ、今回は海外の鯖からアクセスできないという事情があるし特例として申請できそうな気もする。コンタクトを取らないとなんとも言えない
必要なサーバスペックも書いてあるが、どこかの国内VPSを借りれば現実的に運用できるレベルだと思う
もし申請が通るなら自分の自腹でやってもいい
- lots of disk space (40 GB minimum / 200 GB recommended / 500 GB atypical)
- 512 MB RAM (2 GB recommended, 2 GB swap recommended)
- 10 Mb/s upload/download speeds (100 Mb/s recommended)
- long-term availability and uptime (a few months minimum)
- always-on unrestricted internet access (absolutely no firewall/proxies/censorship/ISP-injected-ads/DNS-redirection/free-cafe-wifi)
441440
2025/04/26(土) 17:12:58.782025/04/26(土) 21:35:40.93
>>440
なるほどね
まあそりゃ情報いくらでも改竄できるかもしれないし
信頼は重要だよね
VPSだと転送量で金かかりそうだけど大丈夫だろうか?
必要Local disk spaceもminimum 40GBだし結構多いよな…
なるほどね
まあそりゃ情報いくらでも改竄できるかもしれないし
信頼は重要だよね
VPSだと転送量で金かかりそうだけど大丈夫だろうか?
必要Local disk spaceもminimum 40GBだし結構多いよな…
443名無しさん@お腹いっぱい。
2025/04/26(土) 23:08:39.16 このスレ他の場所に宣伝してもいい?
YouTuber(theつぶろとか)やロストメディア系に興味がある人たちに協力してもらえるかも
YouTuber(theつぶろとか)やロストメディア系に興味がある人たちに協力してもらえるかも
2025/04/26(土) 23:26:12.46
個人的には賛成しかねるな
あんまり広まりすぎても著作権的にはヤバそうだし
excludeに指定されるURLも増えるだろうし
コミュニティ破壊されかねないし
あんまり広まりすぎても著作権的にはヤバそうだし
excludeに指定されるURLも増えるだろうし
コミュニティ破壊されかねないし
2025/04/26(土) 23:27:00.70
でも人がいないとアーカイブ作業も捗らないというジレンマ
2025/04/26(土) 23:30:28.62
挙げられてる連中の目的は保存じゃなくてミステリーを解きたいとかロマンを追いたいとかで動機が違うんじゃね?
2025/04/26(土) 23:42:24.79
"今"保存しないと意味ないのに"過去"しか興味ない連中に共有されても
2025/04/26(土) 23:59:31.44
IAからの排除とか、SEO業者の飯のタネを増やすだけだわ
449名無しさん@お腹いっぱい。
2025/04/27(日) 00:19:53.01 アーカイブを助けてくれる人や情報を集めてくれる人が増えたらいいなと思ったんだけどね
2025/04/27(日) 00:31:48.64
megalodon.jpなら取れるんだけどな
https://megalodon.jp/2025-0426-2250-19/k1.fc2.com/cgi-bin/hp.cgi/yuki007ut/
24時間に60回という制限がある
しかもCloudflare Turnstile付きで自動化もダメ
となるとarchiveteamの人に日本向けのVPS契約してもらって日本用のpipelineをこしらえてもらうか
自分で片端からクロール、WARCに記録するか
(信頼性はないけどないよりはマシの領域)
fc2に連絡送って特定ドメインの海外規制を解除させるか
そもそもなんで規制するようになったんだろうな。2020年から一切の海外アクセスを受け付けなくなってる
https://megalodon.jp/2025-0426-2250-19/k1.fc2.com/cgi-bin/hp.cgi/yuki007ut/
24時間に60回という制限がある
しかもCloudflare Turnstile付きで自動化もダメ
となるとarchiveteamの人に日本向けのVPS契約してもらって日本用のpipelineをこしらえてもらうか
自分で片端からクロール、WARCに記録するか
(信頼性はないけどないよりはマシの領域)
fc2に連絡送って特定ドメインの海外規制を解除させるか
そもそもなんで規制するようになったんだろうな。2020年から一切の海外アクセスを受け付けなくなってる
451名無しさん@お腹いっぱい。
2025/04/27(日) 02:43:58.87 >>449
あのへんの界隈、「過去のアーカイブに眠ってるコンテンツ」を消費したい人がメインじゃない?
能動的に「今」をアーカイブすることに興味を持ってる人はあんまいないと思うから宣伝したところでメリット薄そう
あのへんの界隈、「過去のアーカイブに眠ってるコンテンツ」を消費したい人がメインじゃない?
能動的に「今」をアーカイブすることに興味を持ってる人はあんまいないと思うから宣伝したところでメリット薄そう
452名無しさん@お腹いっぱい。
2025/04/27(日) 02:54:10.17 >>450
> そもそもなんで規制するようになったんだろうな
海外IPの不正アクセス防止のためじゃないか?
日本人相手の商売が前提の小規模なWebサービスだと、
「海外IP=意味もなくアクセスしてくる怪しい奴=クラッカー」という理屈で海外からのアクセスを全遮断してる場合がよくある
開発者側に細かなセキュリティ対策してる余裕がないとなおさらそうなる
不正アクセスを自動化してサーバに負荷をかけてくるbotも多くて、その予防という理由もある
> そもそもなんで規制するようになったんだろうな
海外IPの不正アクセス防止のためじゃないか?
日本人相手の商売が前提の小規模なWebサービスだと、
「海外IP=意味もなくアクセスしてくる怪しい奴=クラッカー」という理屈で海外からのアクセスを全遮断してる場合がよくある
開発者側に細かなセキュリティ対策してる余裕がないとなおさらそうなる
不正アクセスを自動化してサーバに負荷をかけてくるbotも多くて、その予防という理由もある
2025/04/27(日) 10:28:49.59
FC2関しては訴訟対策だったかな最近の裁判で負けたが
自分でも日本語サイトだったら海外弾く
自分でも日本語サイトだったら海外弾く
2025/04/27(日) 10:58:21.65
>>444
わかる
わかる
2025/04/27(日) 11:02:13.71
>>448のいうようなデメリットのが増えそうだしね
456名無しさん@お腹いっぱい。
2025/04/27(日) 11:50:57.42 漫画の無料配信サイト「マンガ図書館Z」5ヶ月ぶりにサービス再開 クラウドファンディングが実を結ぶ(KAI-YOU) - Yahoo!ニュース
ttps://news.yahoo.co.jp/articles/e4eb6280112df09f552fb42894d1b79cb19d1910
ttps://news.yahoo.co.jp/articles/e4eb6280112df09f552fb42894d1b79cb19d1910
2025/04/27(日) 15:10:39.74
超絶朗報 5chの過去ログ、復活
https://kako.5ch.net/
総数1億1750万8501スレが復活しました
※スクロールするとなぜか大量のfetchが実行されるのでjavascript無効を推奨
※まだまだUIが変わる可能性あり
https://kako.5ch.net/
総数1億1750万8501スレが復活しました
※スクロールするとなぜか大量のfetchが実行されるのでjavascript無効を推奨
※まだまだUIが変わる可能性あり
2025/04/28(月) 14:50:34.71
catbox側が遮断するようになったっぽい?litterの方は保存出来るみたいだが…
https://dfc50ffbj60093.archive.is/uiIo3/7638d06982e0df78a8631c9ccb48d4a8a6da36e8.webp
https://dfc50ffbj60093.archive.is/uiIo3/7638d06982e0df78a8631c9ccb48d4a8a6da36e8.webp
2025/04/28(月) 20:37:22.11
>>458
マジかよ
マジかよ
2025/04/29(火) 12:53:48.27
消えてたリンクをwaybackするとひっそりとアーカイブされてりするんだよな
2025/04/29(火) 12:54:46.91
それは過去に誰かが保存をしたほうがいいと思ってやったからやね
2025/04/29(火) 22:16:50.21
2025/04/29(火) 23:29:47.01
kako 鯖は /oyster/ ディレクトリが見えないのよね
まぁ欲しい人はごく一部だろうけど
まぁ欲しい人はごく一部だろうけど
2025/04/30(水) 08:44:48.61
これでもまだ全部のスレって訳じゃないみたいだな
例えば台風コロッケ発端のスレはURLが特定されてるけどアクセスしてもdatが無いよになってる
全体の何割かは不明だけど、一部は完全に消えてるんだろうな
例えば台風コロッケ発端のスレはURLが特定されてるけどアクセスしてもdatが無いよになってる
全体の何割かは不明だけど、一部は完全に消えてるんだろうな
2025/04/30(水) 11:48:04.42
3月はじめ頃一部見れてたけどその後また見れなくなってたの?
2025/04/30(水) 12:07:48.50
「BIGLOBEニュース」サービス終了を発表 「BIGLOBEサーチ」「BIGLOBE天気予報」とともに6月下旬に
https://www.sankei.com/article/20250402-UGJ4BSJS7NMMLBVNGOIANNSBWU/
BIGLOBEニュース サービス終了のお知らせ
平素よりBIGLOBEニュースをご利用いただき、誠にありがとうございます。
BIGLOBEニュースは、2025年6月2日にサービスを終了させていただくこととなりました。
長らくのご愛顧、誠にありがとうございました。
https://www.sankei.com/article/20250402-UGJ4BSJS7NMMLBVNGOIANNSBWU/
BIGLOBEニュース サービス終了のお知らせ
平素よりBIGLOBEニュースをご利用いただき、誠にありがとうございます。
BIGLOBEニュースは、2025年6月2日にサービスを終了させていただくこととなりました。
長らくのご愛顧、誠にありがとうございました。
2025/04/30(水) 14:28:52.91
そこ他所のニュース引っ張ってきてる以外に何かオリジナルのコンテンツあるの?
ただのポータルサイトなら勝手に死なせておけば良い
ただのポータルサイトなら勝手に死なせておけば良い
468名無しさん@お腹いっぱい。
2025/04/30(水) 17:39:26.37 ウィキペディアの出典で使われてんだからリンク切れになる
2025/04/30(水) 18:06:40.79
>>468
元記事に当たらずポータルサイトのリンクだけ貼る低レベル編集者なんか無視しろよ
元記事に当たらずポータルサイトのリンクだけ貼る低レベル編集者なんか無視しろよ
2025/04/30(水) 20:40:16.73
job_idの有効期限ってピッタリ一時間?
2025/04/30(水) 20:43:14.73
gooのアーカイブ
botに投げてくれたと思うんだけど
びっくりするほどRemainが多いね
これ間に合うかな
botに投げてくれたと思うんだけど
びっくりするほどRemainが多いね
これ間に合うかな
2025/04/30(水) 20:48:00.60
gooってoshiete?
2025/04/30(水) 23:20:36.62
>>471
多分大丈夫じゃないかな
今日閉鎖したcoromoo.comは3/29からbotが稼働してたけど間に合ってなかったからQwarcというツールで一気に取得したらしい
deathWatchにも日本最大級のブログサービスと書かれているからなんとかやってくれるはず
oshieteはまだ登録されてないな
サイトマップに質問URL、ページが分かれてる場合の回答URLが1から全て載ってた
https://oshiete.goo.ne.jp/sitemap/sitemap_index.xml.gz
数えてみたら総数10650846url。今も増え続ける
性の悩みカテゴリには?check_ok=1が必要でURLだけじゃどのカテゴリかわからんからbotじゃ無理?
と思ったけど<a>リンクに?check_ok=1付きURLが埋め込まれてるから再帰取得すれば問題ないか
多分大丈夫じゃないかな
今日閉鎖したcoromoo.comは3/29からbotが稼働してたけど間に合ってなかったからQwarcというツールで一気に取得したらしい
deathWatchにも日本最大級のブログサービスと書かれているからなんとかやってくれるはず
oshieteはまだ登録されてないな
サイトマップに質問URL、ページが分かれてる場合の回答URLが1から全て載ってた
https://oshiete.goo.ne.jp/sitemap/sitemap_index.xml.gz
数えてみたら総数10650846url。今も増え続ける
性の悩みカテゴリには?check_ok=1が必要でURLだけじゃどのカテゴリかわからんからbotじゃ無理?
と思ったけど<a>リンクに?check_ok=1付きURLが埋め込まれてるから再帰取得すれば問題ないか
474名無しさん@お腹いっぱい。
2025/05/01(木) 05:57:23.902025/05/01(木) 09:24:21.97
そのうち誰かが他のサイトの同じ話題についての記事にはりかえるだろ
2025/05/01(木) 09:27:52.05
ポータルサイトのニュースを出典するんじゃなくて元ソースのニュースURLをアーカイブしろよとしか言いようがない
2025/05/01(木) 15:34:32.22
ベストゲート3/31に運営終了してたのか
まあConeco.netと違ってレビュー無かったからそこまで惜しくは無いけどたまに使ってたから悲しい
コネコのレビューはCPUのグリス比較レビューが一番記憶に残って助かってたな
まあConeco.netと違ってレビュー無かったからそこまで惜しくは無いけどたまに使ってたから悲しい
コネコのレビューはCPUのグリス比較レビューが一番記憶に残って助かってたな
2025/05/01(木) 17:35:09.83
https://vote1.fc2.com/ をアーカイブしてたらだいたい1万URL目あたりから全てError! Job failed.が出るようになった
新しく作ったアカウントでも全てError! Job failed.なんだがIPごとに同一ドメインのアーカイブ上限決まってるのか?
新しく作ったアカウントでも全てError! Job failed.なんだがIPごとに同一ドメインのアーカイブ上限決まってるのか?
2025/05/01(木) 19:04:25.10
8000当たりからでるよね
2025/05/01(木) 19:13:15.46
自治には何とも思っとらんがwikipediaにリンクされてるのは一次ソースだろうか二次ソースだろうがアーカイブ走ってる
2025/05/01(木) 23:32:27.97
【 Internet Archive|
http://jbbs.shitaraba.net/bbs/read.cgi/otaku/12897/1635243692/
6 名無しさん sage 2025/05/01(木) 23:13 ID:???
>>452
>
> http://mevius.5ch.net/test/read.cgi/esite/1733289042/452
>
↑archive.org や archive.md 側の同一アドレス|時間制限等をすり抜けるため一部掲示板のログをアノニマス( anonymous )のWebプロキシ通すURLでアーカイビングすることがあるけど海外IP制限を強化なのか 2ch_sc スレッド/一覧などはこの手段も弾かれるようになってしまった。
ま、アノニマス串 自体がまだ Cloudflareどころか TLS1.2以上の https://~; サイトに対応してないためいまだ 非SSL( http://~; )のサイトへしかアクセス出来ない現状。
( ただし、こちらとしてはメイン端末の仕様からして未だ 非SSL~TLS1.1 以下なんでアノニマス側が 非SSLアクセスを切り捨てる形で https:// 対応にされても迷惑なだけだけどな… ) 】
__
http://anonymouse.org/cgi-bin/anon-www.cgi/http://www.google.co.jp/
__
2025/05/02(金) 17:26:43.22
2025/05/03(土) 01:20:04.19
ググったら出てきたプロキシサイトを使用してみたらfc2の海外アクセス規制突破できた
(公開されているということは恐らく使ってもいいやつ?XServer上で運営されてるっぽい)
URLはbase64でエンコードされててわかりづらいけどそこは後から変換すれば問題なさそう
http://k1.fc2.com/cgi-bin/hp.cgi/mikazuk-mobile/
→ https://web.archive.org/web/20250502104032/https://helloapp.site/proxy/index.php?_proxurl=aHR0cDovL2sxLmZjMi5jb20vY2dpLWJpbi9ocC5jZ2kvbWlrYXp1ay1tb2JpbGUv&_proxfl=1eb
https://helloapp.site/proxy/index.php?_proxurl={base64_url}
そのまま投げて取れるから自動化も可能
(公開されているということは恐らく使ってもいいやつ?XServer上で運営されてるっぽい)
URLはbase64でエンコードされててわかりづらいけどそこは後から変換すれば問題なさそう
http://k1.fc2.com/cgi-bin/hp.cgi/mikazuk-mobile/
→ https://web.archive.org/web/20250502104032/https://helloapp.site/proxy/index.php?_proxurl=aHR0cDovL2sxLmZjMi5jb20vY2dpLWJpbi9ocC5jZ2kvbWlrYXp1ay1tb2JpbGUv&_proxfl=1eb
https://helloapp.site/proxy/index.php?_proxurl={base64_url}
そのまま投げて取れるから自動化も可能
2025/05/03(土) 22:02:33.33
無料レンタルサーバーサービス「Xfree」の提供終了のお知らせ
https://www.xfree.ne.jp/old/news_detail.php?view_id=2240
【2025年7月31日(木) 正午】 Webサイトへのアクセス停止
https://www.xfree.ne.jp/old/news_detail.php?view_id=2240
【2025年7月31日(木) 正午】 Webサイトへのアクセス停止
2025/05/03(土) 23:24:11.65
どんなURLが多いのかわからぬ
2025/05/05(月) 07:53:26.46
fc2web.comの個人サイトをアーカイブしたいのですが、
ページ数が100ページ以上あり、ひとつひとつ手でSave Page Nowするのはしんどいです
複数のURLを一括でSave Page Nowする方法はありませんか?
それともfc2web.comは有志が全部アーカイブしてくれるから別に個人は何もしなくていいのでしょうか?
ページ数が100ページ以上あり、ひとつひとつ手でSave Page Nowするのはしんどいです
複数のURLを一括でSave Page Nowする方法はありませんか?
それともfc2web.comは有志が全部アーカイブしてくれるから別に個人は何もしなくていいのでしょうか?
2025/05/05(月) 07:59:43.09
488名無しさん@お腹いっぱい。
2025/05/05(月) 19:17:09.28 先月からcurlでの保存が途中で停止する。
489名無しさん@お腹いっぱい。
2025/05/07(水) 21:38:14.63 FC2絵日記とケータイホームページは https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/ のcapture_all=1&force_get=1&use_user_agent=Googlebotでキャプチャできる
埋め込み画像とかは別途リクエストしないと保存されない
埋め込み画像とかは別途リクエストしないと保存されない
2025/05/08(木) 15:16:37.39
Googlebotのユーザーエージェントを勝手に使うと「Googleを騙る行儀の悪いクローラ」と見なされてIPブロックされる事あるからやめた方がいいよ
2025/05/09(金) 18:03:49.91
492名無しさん@お腹いっぱい。
2025/05/10(土) 03:58:34.80 みんなのAVというサイトが無修正のデータを削除するようです。
2025/05/11(日) 09:55:46.17
そもそもInternet Archiveって未成年NGデータ(ポルノとかグロとか)はOKだったっけ?
そういうサイトをWayback Machineで保存するのはたぶん大丈夫だろうけど、動画や画像をアップロードするのはどうなんだ
そういうサイトをWayback Machineで保存するのはたぶん大丈夫だろうけど、動画や画像をアップロードするのはどうなんだ
2025/05/11(日) 10:54:49.57
消されるよ
2025/05/13(火) 01:33:47.11
急なんだけど助けてほしい。何回試してもYouTubeの動画がアーカイブできない
2025/05/13(火) 01:36:11.68
やだぴょん
2025/05/13(火) 01:37:59.02
>>495
動画部分にエラーメッセージしか出てこない
動画部分にエラーメッセージしか出てこない
2025/05/13(火) 02:03:31.89
馬鹿すぎる
2025/05/13(火) 02:32:21.36
規制対策で3連投になってしまって申し訳ない。一応保存したい対象を
明後日で非公開になるチャンネルをアーカイブしたい 規制で記事貼れないけど破局カップルと調べると出る
保存後に確認すると全く動画ファイルが保存されてない。3スレ目860のようにすれば保存できるらしいことはわかったけど肝心の方法がわからない
明後日で非公開になるチャンネルをアーカイブしたい 規制で記事貼れないけど破局カップルと調べると出る
保存後に確認すると全く動画ファイルが保存されてない。3スレ目860のようにすれば保存できるらしいことはわかったけど肝心の方法がわからない
2025/05/13(火) 14:56:54.62
tubeup (>>5参照) 使えば?
Wayback Machineであらゆるものを取ろうとすると沼る。「Internet Archiveに残す」ことを優先して、動画とメタデータを保存すればいい
Wayback Machineであらゆるものを取ろうとすると沼る。「Internet Archiveに残す」ことを優先して、動画とメタデータを保存すればいい
2025/05/13(火) 15:01:07.79
tubeup使うにはPythonの知識が必要だが、やり方はAIに質問すればどうとでもなる
2025/05/13(火) 16:01:55.54
アーカイブの目的は何だろ
ただの保存目的ならyt-dlpでチャンネルごとダウンロードすればよい
Internet Archiveに残す理由があるのか
ただの保存目的ならyt-dlpでチャンネルごとダウンロードすればよい
Internet Archiveに残す理由があるのか
2025/05/14(水) 02:25:35.10
fc2ケータイホームページの子ページ一覧を作成してみた。約107万ページ集まった
https://uu.getuploader.com/archive_share/download/23
archiveteamに相談してみたところarchivebotではgooglebotのUAは指定できないらしく、代わりにgrab-siteというツールなら自由にUA指定可能ということでやってもらえることになった
>>489に感謝
https://uu.getuploader.com/archive_share/download/23
archiveteamに相談してみたところarchivebotではgooglebotのUAは指定できないらしく、代わりにgrab-siteというツールなら自由にUA指定可能ということでやってもらえることになった
>>489に感謝
504名無しさん@お腹いっぱい。
2025/05/14(水) 16:39:10.97 寄付ってクレカでするのがいいんか?
2025/05/14(水) 19:16:31.01
https://help.goo.ne.jp/help/article/2889/
「goo辞書」サービス終了のお知らせ
「goo辞書」は2025年6月25日(水)をもちまして、サービスを終了することとなりました。
「goo辞書」サービス終了のお知らせ
「goo辞書」は2025年6月25日(水)をもちまして、サービスを終了することとなりました。
2025/05/14(水) 19:49:47.92
IAってグウグルに買収されたからカネの心配なくなったんじゃないっけ
gooは2000年に出来たgoogleより2年先に出来たのにパチモンみたいな扱いになってたなw
gooは2000年に出来たgoogleより2年先に出来たのにパチモンみたいな扱いになってたなw
507名無しさん@お腹いっぱい。
2025/05/14(水) 19:50:29.34 使ってたのに…
2025/05/14(水) 20:28:07.42
「goo辞書」サービス終了のお知らせ(2025/05/14)
「gooランキング」サービス終了のお知らせ(2025/04/30)
「gooメール」サービス終了のお知らせ(2025/04/22)
「教えて!goo」サービス終了のお知らせ(2025/04/14)
「goo blog」サービス終了のお知らせ(2025/04/14)
「gooニュース」サービス終了のお知らせ(2025/03/31)
「gooランキング」サービス終了のお知らせ(2025/04/30)
「gooメール」サービス終了のお知らせ(2025/04/22)
「教えて!goo」サービス終了のお知らせ(2025/04/14)
「goo blog」サービス終了のお知らせ(2025/04/14)
「gooニュース」サービス終了のお知らせ(2025/03/31)
2025/05/14(水) 20:41:27.26
>>506
どこの並行世界の話だよ
どこの並行世界の話だよ
2025/05/14(水) 23:06:23.33
消されたくないならtodayを使うしか無い
511名無しさん@お腹いっぱい。
2025/05/14(水) 23:11:53.08 どれの話?
2025/05/15(木) 00:53:39.42
2025/05/15(木) 01:07:57.30
鯖運営費は年々嵩むし古くなったら交換で大金が飛ぶから畳んだんだろうな
利用者が金落として黒字だったなら存続してたかもね
利用者が金落として黒字だったなら存続してたかもね
514名無しさん@お腹いっぱい。
2025/05/15(木) 06:13:50.55 gooの辞書とかに有料あったっけ?
2025/05/15(木) 07:24:01.61
NTTドコモのサービスだから経営がどうとかいう事はないだろうけど
あまりにも閑職・人材墓場パソナルーム的になってたから止めただけではw
あまりにも閑職・人材墓場パソナルーム的になってたから止めただけではw
516名無しさん@お腹いっぱい。
2025/05/15(木) 09:22:31.95 >>508
「閉鎖日」を書いてね
「閉鎖日」を書いてね
2025/05/15(木) 18:40:10.34
FC2絵日記
http://diary.fc2.com/cgi-sys/ed.cgi/{username}/
http://diary{1-3}.fc2.com/cgi-sys/ed.cgi/{username}/
検索もカテゴリも無し
cdx APIやgoogle検索等で取っても4600程度しか集まらず・・・なんかリンク集とかないもんか
古いサイトばっかなのに未アーカイブだらけで惜しいな
http://diary.fc2.com/cgi-sys/ed.cgi/{username}/
http://diary{1-3}.fc2.com/cgi-sys/ed.cgi/{username}/
検索もカテゴリも無し
cdx APIやgoogle検索等で取っても4600程度しか集まらず・・・なんかリンク集とかないもんか
古いサイトばっかなのに未アーカイブだらけで惜しいな
2025/05/15(木) 23:57:47.10
ページ内をスクレイピングして無差別にリンク辿ったりして
ホリホリいけたりしないかな?
サーバーの負担かかりそうだけど…
あとはランダムな文字列で総当たりで確認していくしか方法ない気がする…
ホリホリいけたりしないかな?
サーバーの負担かかりそうだけど…
あとはランダムな文字列で総当たりで確認していくしか方法ない気がする…
519名無しさん@お腹いっぱい。
2025/05/16(金) 06:45:17.81 (
( Internet Archive <インターネット・アーカイブ>
http://jbbs.shitaraba.net/bbs/read.cgi/otaku/12897/1635243692/7
7 名前:[sage] 投稿日:2025/05/15(木) 21:49 ID:???
>>513
ガラケーUIのブログ/HP開設サービスも今となっては貴重だし絶滅は嫌だ・・・。 )
)
( Internet Archive <インターネット・アーカイブ>
http://jbbs.shitaraba.net/bbs/read.cgi/otaku/12897/1635243692/7
7 名前:[sage] 投稿日:2025/05/15(木) 21:49 ID:???
>>513
ガラケーUIのブログ/HP開設サービスも今となっては貴重だし絶滅は嫌だ・・・。 )
)
2025/05/16(金) 16:24:24.82
今更な情報なのかもしれんけど、結構前に閉鎖したNAVERまとめってmatome.eternalcollegest.comってサイトで結構?見れるんだね
個人でやってるらしい(2022年で更新止まってる)けど有益な人も世の中にはいるんだ…って思ったチラシの裏
個人でやってるらしい(2022年で更新止まってる)けど有益な人も世の中にはいるんだ…って思ったチラシの裏
2025/05/16(金) 22:02:04.66
>>518
トップページからはサンプル絵日記しかリンクされてないからなぁ...
連番でも結構あるみたいだからまずは連番から探してあとは文字列総当たりか
Xでもそこそこヒットするからまずそっから集めるのもいいかもしれない(なおAPI
トップページからはサンプル絵日記しかリンクされてないからなぁ...
連番でも結構あるみたいだからまずは連番から探してあとは文字列総当たりか
Xでもそこそこヒットするからまずそっから集めるのもいいかもしれない(なおAPI
2025/05/19(月) 11:45:41.96
アニメ情報サイト「アニメ@wiki」が有料会員制に移行 Wikipediaへの“まるまる転載”に対策
https://news.yahoo.co.jp/articles/ddd32cbee1c64746c7fde6e55a664cdaf54ceb1c
https://news.yahoo.co.jp/articles/ddd32cbee1c64746c7fde6e55a664cdaf54ceb1c
2025/05/22(木) 17:31:59.01
今年中に1兆アーカイブになるかな
2025/05/22(木) 23:26:13.52
いきそうだね
100PB 0.1EBになるのもそう遠くはなさそうだ
100PB 0.1EBになるのもそう遠くはなさそうだ
2025/05/22(木) 23:41:29.53
数字が増えてはガクンと減るいつものパターン
レスを投稿する
ニュース
- 中居正広、被害女性に不信感「守秘義務の遵守に強い懸念」「解除した場合、被害女性が事情聴取以外の場面で情報開示の可能性がある」★2 [Ailuropoda melanoleuca★]
- トランプ政権、ハーバード大への留学阻止 在校生は転出要求 [蚤の市★]
- 消費者物価指数、4月3.5%上昇 [少考さん★]
- 【音楽】31年前、日本中が魂を震わせた人生の応援歌 270万枚超を売り上げた社会現象的大ヒット曲 Mr.Children「Tomorrow never knows」 [湛然★]
- 【社会】農林中金、赤字1兆8千億円 ★3 [Ikhtiandr★]
- 後先考えられず…「金が一気に欲しかった」闇バイトに加担した"境界知能"の受刑者たち [おっさん友の会★]
- 夜の道路工事現場とか通るとヘルメット被った浅黒い外国人たちが働いてるけど、ネトウヨはこの現実にどう向き合ってるの? [271912485]
- 日本、インフレ止まんねっ!!!! [782460143]
- おにぎりが毎月10円値上がりする絶望国家があるらしい… [667744927]
- 【悲報】ホロライブさん、「チキン冷めちゃった」のイラスト投稿者への開示に成功 [517459952]
- 何か変わったモノ食べたいんだがオススメない?
- ボディビルダー横川くんさん、覚醒して2倍くらいデカくなる [523957489]