【保存・記録】ウェブアーカイブ総合 Page.01
■ このスレッドは過去ログ倉庫に格納されています
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう >>331-332
すみません、反映するまで時間が掛かってただけのようです
順調に保存が進みました 上の保存出来たと思ったら何も変わってなかった
もう訳が解らん、個人的にローカルへ残す事にします・・・ 最近財政難を表明してからInternet Archiveはやけに不安定だからなあ
Internet Archiveのシステムはページをクロールする部分とクロールしたページを表示する部分に分かれてるんだけど、最近は後者の部分がやけに不安定だったりする
閲覧できてないだけで実は保存できてたりすることもあるけど、不安ならオフラインコピーや他のアーカイブサイトを使うといい まあ財政難表明する以前からちょくちょく不安定になることはあったんだけど、最近は不安定になる頻度がやたら高くなってきてる
保存されるアーカイブの量にリソースが追いついてないらしい 魔法のiらんど のURL収集を始めることにしました
知っているURLがあれば追加してください
https://geolog.mydns.jp/maho/ Geocitiesのときはいくつかブックマークから追加したけどiらんどはなかったよ・・・ Wayback Machine ツイッターが簡単に登録できなくなったね
try againになる ウェブ魚拓にロボット扱いされるようになった。
手動でやってるのに。
https://i.imgur.com/eqgUaln.jpg と思ったらReCaptcha導入でgyo.tc/urlまでもが廃止されたのかよ。
ReCaptchaの画面に飛ばしてくれればいいだけなのに。
タイトル画像詐欺になってるがな。 右下のリキャプチャマーク表示されてから5秒数えてから押せばいけるっぽい? https://web.archive.org/
ここ一週間くらい調子悪いね?
保存できたと思って翌日くらいに見ようとしたら消えてて見られなくなってる Internet Archiveはアーカイブ実行用クローラ(Heritrix)と
保存したアーカイブの専用ビューワ(Wayback)を組み合わせて動いてるんで、
保存したアーカイブがサーバ不調で一時的に見られなくなってても、
アーカイブさえきちんと出来てればそのうち問題なく見られるようになる >>344
本当ですね!
さっき見てみたら復旧されたようでちゃんと保存できてました! アーカイヴトゥデイがGoogleキャッシュだけでなくBingキャッシュも原本と関連付けてくれれば神なんだが。 大住:僕は父親が来て、探偵ファイルをやめるべき理由を膨大に書き連ね
「これ以上やるなら親子関係を考えざるを得ない」と結んだ手紙を置いていきました。
wwwwwwwww Mが九つ…これはリッジレーサーのあの曲ですねぇ…間違い無い 【リマインド】 魔法のiらんど
2020年 3/31 リニューアルに伴いホームページ機能終了
アーカイブの必要がある場合は早急に対応を。
https://maho.jp/renewal/ 削除されたなろう小説や Wayback Machineでも見れないサイトを見たいなあ レビューサイトや攻略サイトはどんなに古くても価値があると思う Todayにリキャプチャ付いた。かわりに画像単体のキャプチャができるようになっていた。 archive.today (archive.is)
URLがいくつもあるわけだが
archive.today
archive.is
archive.li
archive.fo
archive.vn
archive.md
archive.ph
ひとつがサーバーダウンしている時には
他のURLも使えないのかどうか。 >>353
名前を色々と増やし始めたのはこれが発端。
http://echo.5ch.net/test/read.cgi/esite/1189771222/587-590
ドメイン名乗っ取り攻撃に対する冗長性確保が目的。
何れかの名前が乗っ取られても他の名前で利用できるようにしてあるだけで、
> ひとつがサーバーダウンしている時には
> 他のURLも使え
〜るといった 20 年前みたいな事は意図していないはず。
「DLsite blog」サービス終了予定のお知らせ【5/28(木) 13:59まで】
http://home-info.dlsite.com/archives/9506936.html
月末ではなく28日昼まで >>355
> 「DLsite blog」
そんなブログサービスがあるということを今はじめて知った >>351
そう簡単に常識が変わるわけではないジャンルだしな ニッチなニーズかもしれませんがスクリプトを公開しました。
Wayback Machine でURL検索をした際、最古または最新のページに自動で飛びます。
https://greasyfork.org/ja/scripts/403724-wayback-machine-auto-hopper 2020年6月30日
連合型SNS『マストドン』 日本2位,3位のインスタンスが閉鎖
・msdtn.jp (登録20万人, 5500万トゥート)
・mastodon.cloud (利用者数6万人, 340万トゥート)
SNS『mstdn.jp』、誹謗中傷への対応の事務負担増に耐えられないと判断して6月30日で閉鎖へ
https://news.yahoo.co.jp/byline/shinoharashuji/20200525-00180247/
運営引き継ぎも募集しているらしい
https://mstdn.jp/about >>360
外資は儲からないと判断するとすぐ撤退する傾向が強いからなあ。不安。 「誹謗中傷の証拠取得用に」と謳った「Twitter魚拓」なるWebサービスが出来てバズってるが、
やってることは単にスクショ撮ってimgurに上げるだけらしい
スクショはブラウザの開発者機能でいくらでも改竄できるし、
これならArchive.isの方がずっと優秀だな
スクショに法的な証拠能力ってあるのかな >>361
買収先は確かTwitter非公式クライアントの開発チームじゃなかったっけ
儲からないのは織り込み済みじゃないかな? Twitter魚拓に画像ハッシュを電子署名で埋め込む機能がやっと付いたらしい
結局画像を撮る前の段階で偽造可能なのはどうしようもないけど archive todayの魚拓検索でURL以外の文字列入力すると
Googleのカスタム検索経由で全文検索できるようになってるな Googleのやつより見やすいな
日本語で書いてあるせいか? 149 名前:名無しさん@ggmatome :2020/06/24(水) 19:41:32 ID:GJp4RZxo0
Adobe Flash Playerの2020年末サービス終了は、古いゲームの公式サイトとかに影響が出そう ArchiveTeamがなんかやってるかなと思ったけどまだ動いてないっぽい Flashの保存活動やってる人自体はいるよ
ArchiveTeamが動いてないだけかと This URL has been excluded from the Wayback Machine.のサイトも掘り出したいわね かなりデカい保存対象がやってきた
NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html
>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。​​
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。​ naverブランドじゃ将来性見えないもんな
かといってヤフー、ラインブランドに変えてまでやるほどでもないし >>373
いちいちブロックしてたらキリがないなろう系サイトはともかく
こういうドメインは一部のサイトだけ見れないように緩和してほしいわ Webサイト保存してる人はなに使ってる?
自分は巡集とWebsite Explorerを使ってる >>371
ちなみにFlash のアーカイブって何やるの? >>374
ほぼコピペしか無いサイトだからオリジナルのデータは少なそう… >>379
8割方はどうでもいいコピペまとめなんだけど、これを個人サイトみたいに使ってる人や、真っ当な有益情報をまとめてくれてる人もいるんだよね
そういった情報が消えるのはもったいないし、今後困る人がいそう 来年から新しい著作権法が施行されるらしいけど、
ウェブ魚拓とかの古いデータが、削除されたりしないか少し心配 ウェブ魚拓は削除申請来たらバンバン消してるらしいから今更感ある
archive.todayやInternet Archiveは著作権の前にサーバ処理が追いつくのか心配 NAVERまとめだけじゃ無くLINEノベルも終了か…
ソフトバンクグループ特有のサービス終了ラッシュ ヤフーと合併するってことはこういうことだ
米国のヤフーがその典型で、買収した企業やサービスはことごとく閉鎖させてるしね 潰したい企業を買収してからわざと潰すっていう性格の悪い投資家の話聞いたことがあるけど
まさかヤフーがそれだったりしないよな >>351
変則将棋とかのニッチすぎるカードゲームやボードゲームのサイトもだね 保存する価値が特に高いサイト
(時間が経っても役に立たなくなることがまずないため)
レビューサイト
ゲーム攻略サイト
ボードゲーム・カードゲーム関係(ただしTCGなどは除く)
タロット占いなどの占い系
料理レシピ・裁縫などの家事系 旅行・探検系も含めていいかも
あと災害etcで現存しない場所の訪問記とか ついでに暇つぶしにネット検索してたら
ocn1.netなるサイトを発見した >>395
https://www.google.com/search?q=site:ocn1.net&lr=lang_ja&newwindow=1&hl=ja&tbs=lr:lang_1ja&sxsrf=ALeKk03M6bSG2JwS_U8icd02MQFRuM0Vsg:1595006071724&ei=d9wRX__qK7KCr7wPofi7mAQ&start=200&sa=N&ved=2ahUKEwi_gsfS5NTqAhUywYsBHSH8DkM4ZBDw0wN6BAhlEDQ&biw=944&bih=1083 >>391-394
こういうサイトを優先的に保存すべきだな こういう魚拓系サイトってエロ動画とか保存いけんの? ocn1.netってサーバー名だったのかサイト名ではなかったのか
キューブのへやは一通り保存しといたけど他にもいっぱいあるやん 2020年8月31日(月)サービス終了
暮らしのレシピ投稿サイト 「 nanapi 」
https://nanapi.jp/
料理:約11000ページ
ライフハック & 雑学系:約8000ページ
暮らしの情報サイトnanapi終了のお知らせ
https://nanapi.jp/info/9
Twitter @nanapi
https://twitter.com/nanapi
https://twitter.com/5chan_nel (5ch newer account) 検索サイトにアーカイブが引っ掛かる又はWeb Archiveに保存されてる以外だと実質的な消滅に等しい > お知らせです。Neverまとめ終了に伴い、【実走!酷道・険道のまとめ】についても、終了させることにしました。
>2013年以来、約7年間のご利用有難う御座いました。
>道路ネタについては、引き続きツイートしていきます。どうぞ、宜しくお願いします。
twitter.com/kendou774/status/1286852266280890368
https://twitter.com/5chan_nel (5ch newer account) ウェイバックでアーカイブしたNAVERまとめ記事でページ移動しようとすると
URLにgrid=falseっていうパラメータが追加されるみたい
誰か原因わかる人いる?
このせいでせっかくアーカイブしても2ページ目以降が参照できない問題が起きてしまう >>404
自分が取ったアーカイブはそんな症状は出てないな
その問題が出たアーカイブのURLを教えてくれんか >>405
例えばこのまとめのアーカイブ
2159020990876963301
2ページ目のボタンを押すとこのページに移動してエラー
2159020990876963301?page=2&grid=false
何度か試すと通常通りのページが表示される時もあるようで、今一どういう条件で発生するのかわからない >>406
そのまとめではエラーにならなかったが、別の複数のまとめでエラー発動したわ
条件は全然分からないな 最近/save/の後にURLつけてブラウザで踏んで保存しようとするととんでもなく時間かかるようになってるんだけど
もっと早く保存する方法ないかな >>408
同じく
しかもちゃんと保存できてるかどうかも怪しい これ使えんの?
175 名前:py ◆o3kzHb/in8w0 [sage] 投稿日:2019/05/14(火) 19:06:58.64 ID:cP8wStLG0
https://u1.getuploader.com/irvn/download/1657
web2IAWBM.dms ver0.000.007 WayBackMachineに保存 (web.archive.org) 2019/05/14
web2IAWBM.dmsはIrvineとDorothy2を使ってInternet Archive WayBack Machineに自動登録(保存)するためのスクリプトです。
自動で全てのリンクをたどって保存してくれるはずです。
web2IAWBM.dmsは素人が作った物なので至らない点も多々ありますが、
一応使える水準になったと思われるので公開します。
無料のウィルススキャンはしましたが、念のためもう一度スキャンされることをお勧めします。
同梱のDorothy2(の一部)は別の方が作った物です。
■ Irvine初回起動前に必ず jwordフォルダを削除してください。■
動作試験環境:windows10pro Irvine1.3.1 >>410
自分で使ってみては?
レビューしてくれ >>411
>>408-409
へのレスしたつもりなんだけどね
誤解させてごめんねw >>412
理解した
このところ/save/にURL繋げて直接保存させるのやってないから分からんけど、
ブラウザのsave page nowのフォームから保存するときとは色々処理が違うのかもね
最近Waybackの調子が特に良くないらしいから多分サーバ自体の問題だとは思うけど Naverまとめを色々漁ってたらネット上で出回ってるコラの元画像・出典を集めたやつがあった
単なる宣伝まとめに完全汚染される前は、こういう地味だけど役立つまとめを書く人がそこそこいたんだけどな...
00年代から10年代のインターネットの残滓みたいな側面もあっただけに惜しい話だ
ArchiveTeamにどうにかして持っていきたい 昔のエロゲーとか普通の深夜アニメとかの公式サイトで保存されていないページが時々ある Googleマップの埋め込みはArchiveTodayで録れる 動画を保存するならメタデータを含めた上で普通にダウンロードした方がいい トップページは見れるけど細かい中身までは保存されてないのか見れないことが多いわね 特に画像や動画は死んでる さくらインターネット専用サーバ
2020年11月30日で全て終了 >>421
古い専用サーバだけが対象
>この度、1997年6月より提供開始した「専用サーバ」および2007年1月より提供開始した「専用サーバ Platform Ad / St」につきまして、
>2020年11月をもちまして、サービスを終了いたします。
>これらサービスは、サービス開始から10年以上の期間が経過しており、今後、保守部材の確保ができず、サービス継続が困難な状況でございます。
>さくらの専用サーバ(2012年2月 提供開始 〜 現在申込受付)」はサービス終了の対象ではございません。
https://server.sakura.ad.jp/dedicated_server_end/ >>422
既に消えてるページあるよ
エロゲの回想未収録エロを個別セーブデータで対応してくれてたサイトとか
まあlzhの脆弱性騒動でlzh書庫セーブデータはsなしhttp,xp,win7締め出しみたいにサーバ側に既に全消去されてたけど
http://daidokoro.sakura.ne.jp/data/eroge_data.htm
http://web.archive.org/web/20180430112946/http://daidokoro.sakura.ne.jp:80/data/eroge_data.htm
NGワード引っかかったから、気になるなら半角にテキストエディタかなんかで変換して サービス終了のお知らせ
長らくのご利用まことにありがとうございます。
大変恐れ入りますが、当サービスは2020年9月末をもって終了させていただきます。
mobile space
携帯(ケータイ)無料ホームページ提供フリーサイト「MobileSpace(モバスペ)」
http://m-space.jp/ Naverまとめのバックアップしてる有志いないかー?
自分も最近バックアップしてるんだがURL集めとかどこにすればいいかわからない >>404
それはしゃあない、NAVERまとめは2ページ以降のURLも規則的だから、そこは見る側がインターネットアーカイブからURLをいじってアーカイブを見る方法しかないと思う
2ページ以降のURLがわかる以上アーカイブするにあたってそこまで気にしなくてもいい 将来役に立つか分らんけど書いとく
Naverまとめは2ページ目以降のURL末尾が
@: ?page=ページ番号
A: ?&page=ページ番号
の2パターンあるので注意
通常であれば2ページ目→@、3ページ目以降→Aのパターンで保存されてるはず(だが例外もある)
あとはこの辺 >>404 >>406 とりあえず作ったからURL集めここにしないか?
NAVERの終了近づいてるから立てといた
https://jbbs.shitaraba.net/internet/25479/
5chだと多量URLは規制くらうし、かといっていちいちGeoLogみたいなURL集め場作るのもあれだし
したらばはGoogle検索ひっかかるししたらば自体もアーカイブできるから万が一にも備えられるしURL保管庫としては優秀
後から集めたURLにタイトルつけてスレ立てすれば後世代の人がググって見つけられる可能性が出てくるのが大きい
他にサービス終了候補出たらここにスレ立ててURL集める感じで >>429
乙
汎用的に使えるし次スレからここのテンプレに入れた方がいいな
>>429は念の為にトリップ付けてしたらばと5ch両方に書き込んでおくと良いかも
したらばと5ch(&おーぷん2ch)とではトリップの生成アルゴリズムが違うらしく同じ名前でも違うトリップになるけど、とりあえずでも管理人だという証明がある方が何かと安心だしね 150万記事くらいURLかき集めてタイトルとページ数もセットで保存してあるよ
ArchiveTeamにも先月渡したんだけどどうやら忙しいらしくて動きがない ■ このスレッドは過去ログ倉庫に格納されています