ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう
【保存・記録】ウェブアーカイブ総合 Page.01
■ このスレッドは過去ログ倉庫に格納されています
1192.168.0.774
2019/04/06(土) 21:31:22.29ID:KqAD+H9+02020/06/12(金) 23:01:41.40ID:r8G+EqEg0
「誹謗中傷の証拠取得用に」と謳った「Twitter魚拓」なるWebサービスが出来てバズってるが、
やってることは単にスクショ撮ってimgurに上げるだけらしい
スクショはブラウザの開発者機能でいくらでも改竄できるし、
これならArchive.isの方がずっと優秀だな
スクショに法的な証拠能力ってあるのかな
やってることは単にスクショ撮ってimgurに上げるだけらしい
スクショはブラウザの開発者機能でいくらでも改竄できるし、
これならArchive.isの方がずっと優秀だな
スクショに法的な証拠能力ってあるのかな
2020/06/12(金) 23:03:10.00ID:r8G+EqEg0
webrecorder.ioの名前とURLが変わった
https://blog.conifer.rhizome.org/2020/06/11/webrecorder-conifer.html
新しいURL
https://conifer.rhizome.org/
https://blog.conifer.rhizome.org/2020/06/11/webrecorder-conifer.html
新しいURL
https://conifer.rhizome.org/
2020/06/18(木) 15:31:00.91ID:YE4F+hQG0
Twitter魚拓に画像ハッシュを電子署名で埋め込む機能がやっと付いたらしい
結局画像を撮る前の段階で偽造可能なのはどうしようもないけど
結局画像を撮る前の段階で偽造可能なのはどうしようもないけど
366192.168.0.774
2020/06/20(土) 02:54:49.17ID:h9ZrYl1H0 archive todayの魚拓検索でURL以外の文字列入力すると
Googleのカスタム検索経由で全文検索できるようになってるな
Googleのカスタム検索経由で全文検索できるようになってるな
367192.168.0.774
2020/06/20(土) 03:30:32.99ID:7f7o1of+0 旧Yahoo地図が完全終了するらしい
ジオカタログ製の世界地図が便利だったから終了するのは惜しい
https://map.ultra-zone.net/y/35.681236/139.767125/6
ジオカタログ製の世界地図が便利だったから終了するのは惜しい
https://map.ultra-zone.net/y/35.681236/139.767125/6
2020/06/20(土) 12:12:23.28ID:D5VLdHFC0
Googleのやつより見やすいな
日本語で書いてあるせいか?
日本語で書いてあるせいか?
369192.168.0.774
2020/06/24(水) 20:08:29.48ID:VaXpj8XL0 149 名前:名無しさん@ggmatome :2020/06/24(水) 19:41:32 ID:GJp4RZxo0
Adobe Flash Playerの2020年末サービス終了は、古いゲームの公式サイトとかに影響が出そう
Adobe Flash Playerの2020年末サービス終了は、古いゲームの公式サイトとかに影響が出そう
2020/06/25(木) 23:41:47.74ID:dwRtuOnD0
ArchiveTeamがなんかやってるかなと思ったけどまだ動いてないっぽい
2020/06/27(土) 14:07:35.48ID:qfiK+Scz0
Flashの保存活動やってる人自体はいるよ
ArchiveTeamが動いてないだけかと
ArchiveTeamが動いてないだけかと
372192.168.0.774
2020/07/01(水) 06:54:14.16ID:pvfyXrsy0 This URL has been excluded from the Wayback Machine.のサイトも掘り出したいわね
373192.168.0.774
2020/07/01(水) 07:00:53.26ID:pvfyXrsy0374192.168.0.774
2020/07/01(水) 11:22:29.30ID:ha7maYO50 かなりデカい保存対象がやってきた
NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html
>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。​​
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。​
NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html
>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。​​
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。​
2020/07/01(水) 20:40:49.49ID:36DWDi3y0
naverブランドじゃ将来性見えないもんな
かといってヤフー、ラインブランドに変えてまでやるほどでもないし
かといってヤフー、ラインブランドに変えてまでやるほどでもないし
376192.168.0.774
2020/07/01(水) 22:39:13.89ID:4eKj5JMl0377192.168.0.774
2020/07/02(木) 03:05:37.80ID:qEIVQ0nx0 Webサイト保存してる人はなに使ってる?
自分は巡集とWebsite Explorerを使ってる
自分は巡集とWebsite Explorerを使ってる
2020/07/02(木) 22:25:47.86ID:PGzwXvql0
>>371
ちなみにFlash のアーカイブって何やるの?
ちなみにFlash のアーカイブって何やるの?
379192.168.0.774
2020/07/02(木) 22:55:14.72ID:VMG0QPRf0 >>374
ほぼコピペしか無いサイトだからオリジナルのデータは少なそう…
ほぼコピペしか無いサイトだからオリジナルのデータは少なそう…
2020/07/03(金) 01:54:56.18ID:pnZtief20
>>379
8割方はどうでもいいコピペまとめなんだけど、これを個人サイトみたいに使ってる人や、真っ当な有益情報をまとめてくれてる人もいるんだよね
そういった情報が消えるのはもったいないし、今後困る人がいそう
8割方はどうでもいいコピペまとめなんだけど、これを個人サイトみたいに使ってる人や、真っ当な有益情報をまとめてくれてる人もいるんだよね
そういった情報が消えるのはもったいないし、今後困る人がいそう
381192.168.0.774
2020/07/03(金) 22:23:28.54ID:0J0hhHF10 来年から新しい著作権法が施行されるらしいけど、
ウェブ魚拓とかの古いデータが、削除されたりしないか少し心配
ウェブ魚拓とかの古いデータが、削除されたりしないか少し心配
2020/07/03(金) 23:54:06.51ID:pnZtief20
ウェブ魚拓は削除申請来たらバンバン消してるらしいから今更感ある
archive.todayやInternet Archiveは著作権の前にサーバ処理が追いつくのか心配
archive.todayやInternet Archiveは著作権の前にサーバ処理が追いつくのか心配
383192.168.0.774
2020/07/04(土) 13:35:00.45ID:inafeRIM0 >>382
同意
同意
384192.168.0.774
2020/07/08(水) 22:28:06.73ID:JMicZAgO0 NAVERまとめだけじゃ無くLINEノベルも終了か…
ソフトバンクグループ特有のサービス終了ラッシュ
ソフトバンクグループ特有のサービス終了ラッシュ
2020/07/09(木) 01:28:23.13ID:c1obRcGo0
へー、ソフバンは避けよう
2020/07/09(木) 03:09:48.75ID:K/ssIawO0
朝鮮系は避けてたから掠りもしないw
2020/07/09(木) 07:32:19.74ID:qxukY3NX0
ヤフーと合併するってことはこういうことだ
米国のヤフーがその典型で、買収した企業やサービスはことごとく閉鎖させてるしね
米国のヤフーがその典型で、買収した企業やサービスはことごとく閉鎖させてるしね
2020/07/09(木) 08:42:41.16ID:c1obRcGo0
潰したい企業を買収してからわざと潰すっていう性格の悪い投資家の話聞いたことがあるけど
まさかヤフーがそれだったりしないよな
まさかヤフーがそれだったりしないよな
389192.168.0.774
2020/07/13(月) 15:08:26.85ID:JeHTcZXr0 >>384
うーんこの
うーんこの
390192.168.0.774
2020/07/14(火) 15:25:35.44ID:bp/ba6L20 >>351
変則将棋とかのニッチすぎるカードゲームやボードゲームのサイトもだね
変則将棋とかのニッチすぎるカードゲームやボードゲームのサイトもだね
391192.168.0.774
2020/07/15(水) 12:36:07.34ID:6KInjDIb0 保存する価値が特に高いサイト
(時間が経っても役に立たなくなることがまずないため)
レビューサイト
ゲーム攻略サイト
ボードゲーム・カードゲーム関係(ただしTCGなどは除く)
タロット占いなどの占い系
料理レシピ・裁縫などの家事系
(時間が経っても役に立たなくなることがまずないため)
レビューサイト
ゲーム攻略サイト
ボードゲーム・カードゲーム関係(ただしTCGなどは除く)
タロット占いなどの占い系
料理レシピ・裁縫などの家事系
392192.168.0.774
2020/07/16(木) 02:27:44.38ID:okkeNa+i0 ウェブ小説サイトとかも
2020/07/17(金) 17:41:35.04ID:iWA6pxH10
旅行・探検系も含めていいかも
あと災害etcで現存しない場所の訪問記とか
あと災害etcで現存しない場所の訪問記とか
394192.168.0.774
2020/07/18(土) 01:13:41.89ID:MoAmN+OG0 昔のイベント体験記もだな
395192.168.0.774
2020/07/18(土) 01:27:31.30ID:MoAmN+OG0 ついでに暇つぶしにネット検索してたら
ocn1.netなるサイトを発見した
ocn1.netなるサイトを発見した
396192.168.0.774
2020/07/18(土) 02:15:45.46ID:HI8FU48P0 >>395
https://www.google.com/search?q=site:ocn1.net&lr=lang_ja&newwindow=1&hl=ja&tbs=lr:lang_1ja&sxsrf=ALeKk03M6bSG2JwS_U8icd02MQFRuM0Vsg:1595006071724&ei=d9wRX__qK7KCr7wPofi7mAQ&start=200&sa=N&ved=2ahUKEwi_gsfS5NTqAhUywYsBHSH8DkM4ZBDw0wN6BAhlEDQ&biw=944&bih=1083
https://www.google.com/search?q=site:ocn1.net&lr=lang_ja&newwindow=1&hl=ja&tbs=lr:lang_1ja&sxsrf=ALeKk03M6bSG2JwS_U8icd02MQFRuM0Vsg:1595006071724&ei=d9wRX__qK7KCr7wPofi7mAQ&start=200&sa=N&ved=2ahUKEwi_gsfS5NTqAhUywYsBHSH8DkM4ZBDw0wN6BAhlEDQ&biw=944&bih=1083
397192.168.0.774
2020/07/18(土) 14:45:04.72ID:42EZKBGK0 >>391-394
こういうサイトを優先的に保存すべきだな
こういうサイトを優先的に保存すべきだな
2020/07/19(日) 04:44:14.87ID:lFOHvKxW0
こういう魚拓系サイトってエロ動画とか保存いけんの?
2020/07/19(日) 14:44:03.36ID:5VoHw/dK0
ocn1.netってサーバー名だったのかサイト名ではなかったのか
キューブのへやは一通り保存しといたけど他にもいっぱいあるやん
キューブのへやは一通り保存しといたけど他にもいっぱいあるやん
400192.168.0.774
2020/07/21(火) 21:19:19.64ID:iEzABfS/0 2020年8月31日(月)サービス終了
暮らしのレシピ投稿サイト 「 nanapi 」
https://nanapi.jp/
料理:約11000ページ
ライフハック & 雑学系:約8000ページ
暮らしの情報サイトnanapi終了のお知らせ
https://nanapi.jp/info/9
Twitter @nanapi
https://twitter.com/nanapi
https://twitter.com/5chan_nel (5ch newer account)
暮らしのレシピ投稿サイト 「 nanapi 」
https://nanapi.jp/
料理:約11000ページ
ライフハック & 雑学系:約8000ページ
暮らしの情報サイトnanapi終了のお知らせ
https://nanapi.jp/info/9
Twitter @nanapi
https://twitter.com/nanapi
https://twitter.com/5chan_nel (5ch newer account)
401192.168.0.774
2020/07/22(水) 00:43:31.60ID:Qv2V5tOA0 >>400
保存する価値が高いな
保存する価値が高いな
2020/07/22(水) 06:22:06.26ID:5ZyfxxsF0
検索サイトにアーカイブが引っ掛かる又はWeb Archiveに保存されてる以外だと実質的な消滅に等しい
2020/07/25(土) 12:03:11.28ID:vPQBVdbR0
> お知らせです。Neverまとめ終了に伴い、【実走!酷道・険道のまとめ】についても、終了させることにしました。
>2013年以来、約7年間のご利用有難う御座いました。
>道路ネタについては、引き続きツイートしていきます。どうぞ、宜しくお願いします。
twitter.com/kendou774/status/1286852266280890368
https://twitter.com/5chan_nel (5ch newer account)
>2013年以来、約7年間のご利用有難う御座いました。
>道路ネタについては、引き続きツイートしていきます。どうぞ、宜しくお願いします。
twitter.com/kendou774/status/1286852266280890368
https://twitter.com/5chan_nel (5ch newer account)
404192.168.0.774
2020/07/25(土) 20:28:57.46ID:op0juaWZ0 ウェイバックでアーカイブしたNAVERまとめ記事でページ移動しようとすると
URLにgrid=falseっていうパラメータが追加されるみたい
誰か原因わかる人いる?
このせいでせっかくアーカイブしても2ページ目以降が参照できない問題が起きてしまう
URLにgrid=falseっていうパラメータが追加されるみたい
誰か原因わかる人いる?
このせいでせっかくアーカイブしても2ページ目以降が参照できない問題が起きてしまう
2020/07/25(土) 23:03:50.67ID:vPQBVdbR0
406192.168.0.774
2020/07/26(日) 00:15:07.54ID:6TmDXbEI0 >>405
例えばこのまとめのアーカイブ
2159020990876963301
2ページ目のボタンを押すとこのページに移動してエラー
2159020990876963301?page=2&grid=false
何度か試すと通常通りのページが表示される時もあるようで、今一どういう条件で発生するのかわからない
例えばこのまとめのアーカイブ
2159020990876963301
2ページ目のボタンを押すとこのページに移動してエラー
2159020990876963301?page=2&grid=false
何度か試すと通常通りのページが表示される時もあるようで、今一どういう条件で発生するのかわからない
2020/07/28(火) 01:55:57.75ID:GOjmQFzm0
408192.168.0.774
2020/07/31(金) 18:21:02.96ID:hz5s2lhM0 最近/save/の後にURLつけてブラウザで踏んで保存しようとするととんでもなく時間かかるようになってるんだけど
もっと早く保存する方法ないかな
もっと早く保存する方法ないかな
2020/07/31(金) 19:38:16.52ID:gaCi8uhU0
2020/07/31(金) 20:26:07.21ID:TTL90URn0
これ使えんの?
175 名前:py ◆o3kzHb/in8w0 [sage] 投稿日:2019/05/14(火) 19:06:58.64 ID:cP8wStLG0
https://u1.getuploader.com/irvn/download/1657
web2IAWBM.dms ver0.000.007 WayBackMachineに保存 (web.archive.org) 2019/05/14
web2IAWBM.dmsはIrvineとDorothy2を使ってInternet Archive WayBack Machineに自動登録(保存)するためのスクリプトです。
自動で全てのリンクをたどって保存してくれるはずです。
web2IAWBM.dmsは素人が作った物なので至らない点も多々ありますが、
一応使える水準になったと思われるので公開します。
無料のウィルススキャンはしましたが、念のためもう一度スキャンされることをお勧めします。
同梱のDorothy2(の一部)は別の方が作った物です。
■ Irvine初回起動前に必ず jwordフォルダを削除してください。■
動作試験環境:windows10pro Irvine1.3.1
175 名前:py ◆o3kzHb/in8w0 [sage] 投稿日:2019/05/14(火) 19:06:58.64 ID:cP8wStLG0
https://u1.getuploader.com/irvn/download/1657
web2IAWBM.dms ver0.000.007 WayBackMachineに保存 (web.archive.org) 2019/05/14
web2IAWBM.dmsはIrvineとDorothy2を使ってInternet Archive WayBack Machineに自動登録(保存)するためのスクリプトです。
自動で全てのリンクをたどって保存してくれるはずです。
web2IAWBM.dmsは素人が作った物なので至らない点も多々ありますが、
一応使える水準になったと思われるので公開します。
無料のウィルススキャンはしましたが、念のためもう一度スキャンされることをお勧めします。
同梱のDorothy2(の一部)は別の方が作った物です。
■ Irvine初回起動前に必ず jwordフォルダを削除してください。■
動作試験環境:windows10pro Irvine1.3.1
2020/07/31(金) 21:15:44.33ID:x6UEbNzr0
2020/07/31(金) 22:16:46.71ID:BOBaNxn40
2020/07/31(金) 22:59:42.22ID:x6UEbNzr0
>>412
理解した
このところ/save/にURL繋げて直接保存させるのやってないから分からんけど、
ブラウザのsave page nowのフォームから保存するときとは色々処理が違うのかもね
最近Waybackの調子が特に良くないらしいから多分サーバ自体の問題だとは思うけど
理解した
このところ/save/にURL繋げて直接保存させるのやってないから分からんけど、
ブラウザのsave page nowのフォームから保存するときとは色々処理が違うのかもね
最近Waybackの調子が特に良くないらしいから多分サーバ自体の問題だとは思うけど
414192.168.0.774
2020/08/02(日) 02:59:54.76ID:BxGk29Xt0 Naverまとめを色々漁ってたらネット上で出回ってるコラの元画像・出典を集めたやつがあった
単なる宣伝まとめに完全汚染される前は、こういう地味だけど役立つまとめを書く人がそこそこいたんだけどな...
00年代から10年代のインターネットの残滓みたいな側面もあっただけに惜しい話だ
ArchiveTeamにどうにかして持っていきたい
単なる宣伝まとめに完全汚染される前は、こういう地味だけど役立つまとめを書く人がそこそこいたんだけどな...
00年代から10年代のインターネットの残滓みたいな側面もあっただけに惜しい話だ
ArchiveTeamにどうにかして持っていきたい
2020/08/04(火) 10:42:23.62ID:kQccth3l0
昔のエロゲーとか普通の深夜アニメとかの公式サイトで保存されていないページが時々ある
2020/08/07(金) 14:35:38.67ID:SiHrQHil0
Googleマップの埋め込みはArchiveTodayで録れる
417192.168.0.774
2020/08/15(土) 19:40:30.73ID:PMZXDU5C0 >>398
無理じゃね?
無理じゃね?
2020/08/16(日) 20:27:14.92ID:98xsFRfG0
ストリーミング配信のクロールは技術的に結構難しい
2020/08/16(日) 20:27:47.53ID:98xsFRfG0
動画を保存するならメタデータを含めた上で普通にダウンロードした方がいい
2020/08/18(火) 18:55:08.22ID:e28RrLlN0
トップページは見れるけど細かい中身までは保存されてないのか見れないことが多いわね 特に画像や動画は死んでる
421192.168.0.774
2020/08/18(火) 21:04:20.75ID:xoxZKMa90 さくらインターネット専用サーバ
2020年11月30日で全て終了
2020年11月30日で全て終了
422192.168.0.774
2020/08/18(火) 23:33:08.82ID:FetPd1Vj0 >>421
古い専用サーバだけが対象
>この度、1997年6月より提供開始した「専用サーバ」および2007年1月より提供開始した「専用サーバ Platform Ad / St」につきまして、
>2020年11月をもちまして、サービスを終了いたします。
>これらサービスは、サービス開始から10年以上の期間が経過しており、今後、保守部材の確保ができず、サービス継続が困難な状況でございます。
>さくらの専用サーバ(2012年2月 提供開始 〜 現在申込受付)」はサービス終了の対象ではございません。
https://server.sakura.ad.jp/dedicated_server_end/
古い専用サーバだけが対象
>この度、1997年6月より提供開始した「専用サーバ」および2007年1月より提供開始した「専用サーバ Platform Ad / St」につきまして、
>2020年11月をもちまして、サービスを終了いたします。
>これらサービスは、サービス開始から10年以上の期間が経過しており、今後、保守部材の確保ができず、サービス継続が困難な状況でございます。
>さくらの専用サーバ(2012年2月 提供開始 〜 現在申込受付)」はサービス終了の対象ではございません。
https://server.sakura.ad.jp/dedicated_server_end/
2020/08/19(水) 17:14:03.56ID:iZ5+0Ecr0
>>422
既に消えてるページあるよ
エロゲの回想未収録エロを個別セーブデータで対応してくれてたサイトとか
まあlzhの脆弱性騒動でlzh書庫セーブデータはsなしhttp,xp,win7締め出しみたいにサーバ側に既に全消去されてたけど
http://daidokoro.sakura.ne.jp/data/eroge_data.htm
http://web.archive.org/web/20180430112946/http://daidokoro.sakura.ne.jp:80/data/eroge_data.htm
NGワード引っかかったから、気になるなら半角にテキストエディタかなんかで変換して
既に消えてるページあるよ
エロゲの回想未収録エロを個別セーブデータで対応してくれてたサイトとか
まあlzhの脆弱性騒動でlzh書庫セーブデータはsなしhttp,xp,win7締め出しみたいにサーバ側に既に全消去されてたけど
http://daidokoro.sakura.ne.jp/data/eroge_data.htm
http://web.archive.org/web/20180430112946/http://daidokoro.sakura.ne.jp:80/data/eroge_data.htm
NGワード引っかかったから、気になるなら半角にテキストエディタかなんかで変換して
2020/09/06(日) 17:22:46.19ID:CBf1XfYV0
サービス終了のお知らせ
長らくのご利用まことにありがとうございます。
大変恐れ入りますが、当サービスは2020年9月末をもって終了させていただきます。
mobile space
携帯(ケータイ)無料ホームページ提供フリーサイト「MobileSpace(モバスペ)」
http://m-space.jp/
長らくのご利用まことにありがとうございます。
大変恐れ入りますが、当サービスは2020年9月末をもって終了させていただきます。
mobile space
携帯(ケータイ)無料ホームページ提供フリーサイト「MobileSpace(モバスペ)」
http://m-space.jp/
425192.168.0.774
2020/09/07(月) 12:06:40.69ID:3OpmkuSp0 Naverまとめのバックアップしてる有志いないかー?
自分も最近バックアップしてるんだがURL集めとかどこにすればいいかわからない
自分も最近バックアップしてるんだがURL集めとかどこにすればいいかわからない
426192.168.0.774
2020/09/07(月) 15:14:13.63ID:3OpmkuSp0 >>404
それはしゃあない、NAVERまとめは2ページ以降のURLも規則的だから、そこは見る側がインターネットアーカイブからURLをいじってアーカイブを見る方法しかないと思う
2ページ以降のURLがわかる以上アーカイブするにあたってそこまで気にしなくてもいい
それはしゃあない、NAVERまとめは2ページ以降のURLも規則的だから、そこは見る側がインターネットアーカイブからURLをいじってアーカイブを見る方法しかないと思う
2ページ以降のURLがわかる以上アーカイブするにあたってそこまで気にしなくてもいい
427192.168.0.774
2020/09/08(火) 03:14:53.75ID:rgMOAV4l0 >>397
同意
同意
2020/09/08(火) 22:10:50.40ID:+a/fwcct0
429192.168.0.774
2020/09/09(水) 08:08:33.67ID:iGXkHt4n0 とりあえず作ったからURL集めここにしないか?
NAVERの終了近づいてるから立てといた
https://jbbs.shitaraba.net/internet/25479/
5chだと多量URLは規制くらうし、かといっていちいちGeoLogみたいなURL集め場作るのもあれだし
したらばはGoogle検索ひっかかるししたらば自体もアーカイブできるから万が一にも備えられるしURL保管庫としては優秀
後から集めたURLにタイトルつけてスレ立てすれば後世代の人がググって見つけられる可能性が出てくるのが大きい
他にサービス終了候補出たらここにスレ立ててURL集める感じで
NAVERの終了近づいてるから立てといた
https://jbbs.shitaraba.net/internet/25479/
5chだと多量URLは規制くらうし、かといっていちいちGeoLogみたいなURL集め場作るのもあれだし
したらばはGoogle検索ひっかかるししたらば自体もアーカイブできるから万が一にも備えられるしURL保管庫としては優秀
後から集めたURLにタイトルつけてスレ立てすれば後世代の人がググって見つけられる可能性が出てくるのが大きい
他にサービス終了候補出たらここにスレ立ててURL集める感じで
2020/09/09(水) 22:03:15.69ID:GaAB5Js70
431◆Oddz6L15vQ
2020/09/09(水) 22:23:41.61ID:iGXkHt4n0 >>430
OK、付けておく
OK、付けておく
432192.168.0.774
2020/09/10(木) 17:58:45.52ID:lCL9EyAY0 150万記事くらいURLかき集めてタイトルとページ数もセットで保存してあるよ
ArchiveTeamにも先月渡したんだけどどうやら忙しいらしくて動きがない
ArchiveTeamにも先月渡したんだけどどうやら忙しいらしくて動きがない
433192.168.0.774
2020/09/10(木) 20:34:28.12ID:S0dI6L/m0 >>432
ArchiveTeamに渡すってことはインターネットアーカイブには保存できてないってこと?
ArchiveTeamに渡すってことはインターネットアーカイブには保存できてないってこと?
2020/09/11(金) 15:17:14.37ID:FY5rw0Vj0
>>433
ArchiveTeamが保存したサイトはWayback Machineにアップロードされて、最終的にちゃんとInternet Archiveに保存される仕組みになってる
ArchiveTeamが保存したサイトはWayback Machineにアップロードされて、最終的にちゃんとInternet Archiveに保存される仕組みになってる
2020/09/11(金) 15:43:42.84ID:FY5rw0Vj0
436192.168.0.774
2020/09/11(金) 17:53:04.83ID:vIEy03BU02020/09/11(金) 18:38:50.57ID:FY5rw0Vj0
>>436
なるほどな、確かにArchiveTeamに動きがなかったら保存されないね
ArchiveTeamが今どういう状況なのかがよく分からないんだけど、本当にNAVERまとめは一切手付かずなのかな?
なるほどな、確かにArchiveTeamに動きがなかったら保存されないね
ArchiveTeamが今どういう状況なのかがよく分からないんだけど、本当にNAVERまとめは一切手付かずなのかな?
438192.168.0.774
2020/09/11(金) 19:41:43.80ID:vIEy03BU02020/09/12(土) 09:44:43.85ID:+xgSs3Ql0
>>438
もう自分でクローラソフト動かしてローカルに保存した方が安心じゃね?
ネットのデータなんて今じゃいつ消えるか分からない
もうバックアップのバックアップ(調子悪くてバックアップ後に取り外したHDDに入れっぱなしのデータ等)くらいのオマケ
アーカイブサイトに保存して安心してたら見られなくなってて、
txtでちょっとメモした断片的情報しか手元に残ってなくて絶望したわ
もう自分でクローラソフト動かしてローカルに保存した方が安心じゃね?
ネットのデータなんて今じゃいつ消えるか分からない
もうバックアップのバックアップ(調子悪くてバックアップ後に取り外したHDDに入れっぱなしのデータ等)くらいのオマケ
アーカイブサイトに保存して安心してたら見られなくなってて、
txtでちょっとメモした断片的情報しか手元に残ってなくて絶望したわ
440192.168.0.774
2020/09/12(土) 12:00:07.88ID:G5q1lmCg0 >>439
確かにそれもそうだし愛読書のごとく読むようなウェブページはpdf化してるけどさ
やはりローカル保存じゃ限界がある、数万記事とか保存しようものならHDD持たないし
それにアーカイブに保存する理由はみんなが見れるからね、知恵袋や古い2chの過去ログ見ててそこのリンクがリンク切れになっても大丈夫なようにある
インターネットアーカイブが消えるときってやっぱり削除要請に応じてるからなのかな
今のところ自分で保存した記事で消えた経験はないが、削除要請以外の自動削除はないと信じたい
確かにそれもそうだし愛読書のごとく読むようなウェブページはpdf化してるけどさ
やはりローカル保存じゃ限界がある、数万記事とか保存しようものならHDD持たないし
それにアーカイブに保存する理由はみんなが見れるからね、知恵袋や古い2chの過去ログ見ててそこのリンクがリンク切れになっても大丈夫なようにある
インターネットアーカイブが消えるときってやっぱり削除要請に応じてるからなのかな
今のところ自分で保存した記事で消えた経験はないが、削除要請以外の自動削除はないと信じたい
441192.168.0.774
2020/09/12(土) 12:06:20.24ID:G5q1lmCg0 ちなみにArchivetodayや他の魚拓サイトは個人経営らしいから経営者が死んだらサーバー更新できず見られなくなるから、そこに大事なものがあればローカル保存したほうがいい、数十年後に見られなくなってる可能性あるし
やはり数百年後の人類に情報を残すなら法人経営のインターネットアーカイブ
やはり数百年後の人類に情報を残すなら法人経営のインターネットアーカイブ
2020/09/12(土) 14:19:44.63ID:smUg5j0l0
>>439
そうなんだよなあ
前にインターネットアーカイブで閲覧してた削除済みのサイトが
「This URL has been excluded from the Wayback Machine」で
見られなくなってしまってローカルに保存していなくて今も後悔してるわ
前は見られていた分ショックがでかい
こういうのってドメイン再取得した人が解除申請出すしかまた見られる
方法ないのかね?
これって「完全に削除」されたわけじゃなくて単純に「除外」された状態らしいから
そうなんだよなあ
前にインターネットアーカイブで閲覧してた削除済みのサイトが
「This URL has been excluded from the Wayback Machine」で
見られなくなってしまってローカルに保存していなくて今も後悔してるわ
前は見られていた分ショックがでかい
こういうのってドメイン再取得した人が解除申請出すしかまた見られる
方法ないのかね?
これって「完全に削除」されたわけじゃなくて単純に「除外」された状態らしいから
443192.168.0.774
2020/09/12(土) 19:09:30.26ID:G5q1lmCg0 >>442
除外したってことはやっぱりサーバーの容量不足とかじゃなくて要請に応えただけか
サービス終了とかじゃなくてそのページがあると都合が悪いからって意図的に消してるのはローカル保存しかないと思うよ
俺は何回も読むサイトは1ページだけならpdf化してる
さすがに保存対象のURLが何個もあるサイトを全部やるのは面倒だけど
ドメイン再取得していけるかはわからんけど管理者であったことを証明しないとさすがに難しいんじゃないか?でも今の管理者ではダメとも限らないしなー
除外したってことはやっぱりサーバーの容量不足とかじゃなくて要請に応えただけか
サービス終了とかじゃなくてそのページがあると都合が悪いからって意図的に消してるのはローカル保存しかないと思うよ
俺は何回も読むサイトは1ページだけならpdf化してる
さすがに保存対象のURLが何個もあるサイトを全部やるのは面倒だけど
ドメイン再取得していけるかはわからんけど管理者であったことを証明しないとさすがに難しいんじゃないか?でも今の管理者ではダメとも限らないしなー
2020/09/12(土) 19:14:06.20ID:GdLneOCP0
>>443
クローラソフトで.mhtやindex.html等で階層いくつ潜るか設定してクロールすればいいじゃん
クローラソフトで.mhtやindex.html等で階層いくつ潜るか設定してクロールすればいいじゃん
2020/09/12(土) 19:35:49.12ID:smUg5j0l0
446192.168.0.774
2020/09/14(月) 03:08:56.33ID:W68LNMti0 ArchiveTeamがNAVERまとめのアーカイブ作業に取り組み始めてくれてたみたい
進捗はわからないけど、これでひとまず安心かな
漏れもあるだろうから重要なページは各自で保存する必要があるけどね
>>435
pythonでスクリプト組んで収集した
ArchiveTeamはIRCを使って活動してる
サイトの#から始まるリンクをクリックすれば各プロジェクトに対応したチャットルームに行けるよ
コマンド入力でクローラ操作してる人がいるArchiveBotの部屋が活発なイメージ
進捗はわからないけど、これでひとまず安心かな
漏れもあるだろうから重要なページは各自で保存する必要があるけどね
>>435
pythonでスクリプト組んで収集した
ArchiveTeamはIRCを使って活動してる
サイトの#から始まるリンクをクリックすれば各プロジェクトに対応したチャットルームに行けるよ
コマンド入力でクローラ操作してる人がいるArchiveBotの部屋が活発なイメージ
447435
2020/09/14(月) 04:11:09.04ID:Np2NU3M80448446
2020/09/14(月) 11:29:54.09ID:sR0ATY0Y0 NAVERまとめデータ共有
csvデータ(URL, ページ数, タイトル)記事数:1472709, 更新日昇順, 192 MB
https://web.archive.org/web/20200913150754if_/https://transfer.notkiska.pw/r9mfn/NAVER_matome_article_list.csv
※収集後に更新されたことでタイトル、ページ数が異なったり削除されていたりする可能性あり
トピック一覧ページから収集したからトピックが設定されてない記事は1つも収集できてない
csvデータ(URL, ページ数, タイトル)記事数:1472709, 更新日昇順, 192 MB
https://web.archive.org/web/20200913150754if_/https://transfer.notkiska.pw/r9mfn/NAVER_matome_article_list.csv
※収集後に更新されたことでタイトル、ページ数が異なったり削除されていたりする可能性あり
トピック一覧ページから収集したからトピックが設定されてない記事は1つも収集できてない
2020/09/14(月) 15:27:58.62ID:Np2NU3M80
>>448
503エラーのページがアーカイブされているんだが
503エラーのページがアーカイブされているんだが
2020/09/14(月) 15:30:52.44ID:fWxNFkB80
ごめんなさい。恥ずかしいのですがarchiveteamって何ですか?
2020/09/14(月) 15:32:16.47ID:Np2NU3M80
Wayback Machineが一時的に落ちてただけだった
何回かリロードしたらちゃんとダウンロード出来たわ、すまん
何回かリロードしたらちゃんとダウンロード出来たわ、すまん
2020/09/14(月) 15:36:10.18ID:Np2NU3M80
>>450
ウェブアーカイブを組織的にやってる(おそらく非営利の)団体
ArchiveTeamが保存したコンテンツはInternet Archiveで公開される仕組みになってる
正直に言うと自分もArchiveTeamの公式サイトを読んでる途中だから、具体的な活動の様子とかはちょっとわからない
https://ja.wikipedia.org/wiki/Archive_Team
https://www.archiveteam.org/
ウェブアーカイブを組織的にやってる(おそらく非営利の)団体
ArchiveTeamが保存したコンテンツはInternet Archiveで公開される仕組みになってる
正直に言うと自分もArchiveTeamの公式サイトを読んでる途中だから、具体的な活動の様子とかはちょっとわからない
https://ja.wikipedia.org/wiki/Archive_Team
https://www.archiveteam.org/
2020/09/17(木) 17:02:04.46ID:/9nSrgLL0
【ネット】1000万件以上の研究論文がオンライン上から消失することを防ぐインターネットアーカイブの取り組みとは? [すらいむ★]
http://egg.5ch.net/test/read.cgi/scienceplus/1600244016/
http://egg.5ch.net/test/read.cgi/scienceplus/1600244016/
2020/09/24(木) 21:11:36.87ID:kg/LREFg0
Braveの機能を使って少額寄付した
2020/09/25(金) 12:26:47.34ID:Cm7cjbfH0
456192.168.0.774
2020/09/28(月) 05:48:18.46ID:ydgdSdUA0 今更NAVERまとめをローカルに落とそうとしているのだが
Website Explorer・WinHTTrack・Cyotek WebCopy
はうまくいかず(設定ミスがあるのか?)
NAVER&FC2まとめダウンローダ
http://shimarisu.webcrow.jp/naver_matome.html
は画像もhtmlも一応取れるのだがhtmlにダウンロードした画像
はリンクされてない。
後はmhtとpdfぐらいしか無く……
他の人はどのようにローカルに落としているのでしょうか?
Website Explorer・WinHTTrack・Cyotek WebCopy
はうまくいかず(設定ミスがあるのか?)
NAVER&FC2まとめダウンローダ
http://shimarisu.webcrow.jp/naver_matome.html
は画像もhtmlも一応取れるのだがhtmlにダウンロードした画像
はリンクされてない。
後はmhtとpdfぐらいしか無く……
他の人はどのようにローカルに落としているのでしょうか?
2020/09/29(火) 11:41:45.96ID:IYXlvscX0
そもそもローカルに落としてないな...
Wayback Machineに頼ってる
Wayback Machineに頼ってる
458192.168.0.774
2020/09/30(水) 00:31:14.62ID:6Ozi/51l0 Naverまとめはほぼバックアップされてるっぽいから安心した
ただNaverのトピックのアーカイブの表示がいろいろおかしい、まったく違う記事名出たりする
どうやらNaver側はURLの大文字と小文字を区別してるのにウェイバックマシン側では区別してないから発生するバグっぽい
トピック見れなかったら別の時間のアーカイブ参照すると見れることがある
例えばトピックのIDがaaabbの場合IDがAaaBbやAAABBの別トピックもウェイバックマシン側がaaabbとして扱うから収集された時間で記事が混在する
2ページ以降のトピック表示は2ページ目の存在による
aaabbにだけ2ページ目以降が存在すればaaabbしか表示されない、他のIDにもあると2ページ以降も混在状態になる
aaabbに2ページ目がなくてAaaBbにある場合もURLいじったりして2ページ以降行くとAaaBbの2ページ目が表示される
NAVERまとめ共有データの中を特定のワードで検索してそこのまとめにアクセスして所属トピック押せばある程度好きなトピックに飛べるから有効に使えると思ったけど少し難ありか
記事にはまったく関係ないから大丈夫、トピックURLが英数字5文字で大文字小文字の違いで別ID扱いされる仕様により起きてるだけだから
記事の中身のURLで個別化されている部分は全部数字だから大丈夫
ただNaverのトピックのアーカイブの表示がいろいろおかしい、まったく違う記事名出たりする
どうやらNaver側はURLの大文字と小文字を区別してるのにウェイバックマシン側では区別してないから発生するバグっぽい
トピック見れなかったら別の時間のアーカイブ参照すると見れることがある
例えばトピックのIDがaaabbの場合IDがAaaBbやAAABBの別トピックもウェイバックマシン側がaaabbとして扱うから収集された時間で記事が混在する
2ページ以降のトピック表示は2ページ目の存在による
aaabbにだけ2ページ目以降が存在すればaaabbしか表示されない、他のIDにもあると2ページ以降も混在状態になる
aaabbに2ページ目がなくてAaaBbにある場合もURLいじったりして2ページ以降行くとAaaBbの2ページ目が表示される
NAVERまとめ共有データの中を特定のワードで検索してそこのまとめにアクセスして所属トピック押せばある程度好きなトピックに飛べるから有効に使えると思ったけど少し難ありか
記事にはまったく関係ないから大丈夫、トピックURLが英数字5文字で大文字小文字の違いで別ID扱いされる仕様により起きてるだけだから
記事の中身のURLで個別化されている部分は全部数字だから大丈夫
459192.168.0.774
2020/09/30(水) 14:43:23.75ID:g0DIZp7G0 ツイッターを見ているとNAVERまとめがなくなったことを喜んでる人結構多いし、
何なら「あんなの保存しとく価値はない」みたいな意見も見受けられる
でも、アーカイブが必要かどうかを判断するのは現在生きている自分たちじゃなく将来の人々だと思うんだよね
自分もYahooブログが終わった時は「あんなの保存したってしょうがないだろう」と思っていた側だったんだけど、サ終してしばらく経ったある時、
自分の専門分野に関するとある重要な記録がYahooブログ上で公開されていたらしいこと、
なおかつブログ主が亡くなっていて再公開の見込みもないこと、
そしてどこにもそのアーカイブが残っていないらしいことが判明して、かなり後悔した事があった
これはあくまで一例に過ぎないけども、とにかくWebアーカイブを取る必要があるかどうかは取る側の人間ですら判断できるものじゃないんだと思うわ
長文&自分語りすまない
何なら「あんなの保存しとく価値はない」みたいな意見も見受けられる
でも、アーカイブが必要かどうかを判断するのは現在生きている自分たちじゃなく将来の人々だと思うんだよね
自分もYahooブログが終わった時は「あんなの保存したってしょうがないだろう」と思っていた側だったんだけど、サ終してしばらく経ったある時、
自分の専門分野に関するとある重要な記録がYahooブログ上で公開されていたらしいこと、
なおかつブログ主が亡くなっていて再公開の見込みもないこと、
そしてどこにもそのアーカイブが残っていないらしいことが判明して、かなり後悔した事があった
これはあくまで一例に過ぎないけども、とにかくWebアーカイブを取る必要があるかどうかは取る側の人間ですら判断できるものじゃないんだと思うわ
長文&自分語りすまない
2020/09/30(水) 14:52:44.90ID:g0DIZp7G0
しかしまあNAVERまとめをブログ代わりに使ってた人結構多かったみたいだな
2020/09/30(水) 15:31:27.75ID:aEbDHVq00
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【速報】東京・足立区のひき逃げ事故 警視庁が運転手とみられる人物確保 80代男性の死亡確認、20代女性心肺停止 ★3 [Ailuropoda melanoleuca★]
- 【速報】東京・足立区のひき逃げ事故 警視庁が運転手とみられる人物確保 80代男性の死亡確認、20代女性心肺停止 ★4 [Ailuropoda melanoleuca★]
- 【東京・足立のひき逃げ事故】搬送の80代男性が死亡、事故車両は近隣販売店から盗難か [ぐれ★]
- 【国防】衝撃を与えた米シンクタンクの「台湾侵攻シミュレーション」日本の被害は? [1ゲットロボ★]
- 防衛費増額「賛成」62・8% 「反対」32・2%を大きく上回る 賛成「18~29歳で8割」世代差あらわ 産経FNN合同世論調査 [尺アジ★]
- 【宅急便】ヤマト運輸がベトナム人ドライバー500人採用…不安視される「運転技術」「コミュニケーション」「助成金」 ★2 [シャチ★]
- 〓たかせん〓 日本一パレード&ファンフェスティバル
- WBC世界バンダム級 那須川天心 vs 井上拓真
- 競輪実況★1609
- 福島競馬3回6日目~中京競馬5回初日
- こいせん 全レス転載禁止
- @@@令和七年大相撲九州場所 vol.13@@@
- 【朗報】暇空さん、サンリオとコラボ ピューロランドで暇空さんと握手! [158478931]
- 【レズレイプ速報】23歳女、16歳未満のロリをレイプ!処女膜を破ったのか全治1週間のけがも [856698234]
- 【悲報】ホテル業界、中国人が大量キャンセルしてしまち阿鼻叫喚地獄になる🥺 [616817505]
- ぽこちんで出来た🏡
- X民「おもんない芸で稼げないからってXでマネタイズするのみっともない」ほんこんにクリティカルヒット [834922174]
- 【画像】さくらみこコラボ中のスシローでぺこらと食事を楽しんだvtuberオタクさん ぺこらが汚すぎて炎上中www [743999204]
