【保存・記録】ウェブアーカイブ総合 Page.01
■ このスレッドは過去ログ倉庫に格納されています
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう >>661
今waybackのAPIで7300記事の保存状況を確認したところエラーが起きたのは30記事くらいだった
念のためこれはアーカイブし直してるけど何か抜けてたりミスしてるところがあるのかな テレビ番組表の記録
っていう2007年からの膨大な番組表データを記録しているサイトがあるんだけど、
番組の詳細内容が表示されなくなったり過剰なアクセス制限があったりと最近改悪が激しい
Waybackのクロールも拒否してるし、
貴重なデータの割にこのサイトにしか残っていない情報が多いので今後ちょっと不安だ 503のせいで四月馬鹿サイトのキャプチャができない aimix-BBSというレンタル掲示板を見たら今月末でサービス終了するそうだ… 【よほど都合が悪いようだ】LINEに否定的だった山本一郎氏、自身のヤフー記事1000本がヤフーによって削除される [Toy Soldiers★]
https://asahi.5ch.net/test/read.cgi/newsplus/1616979021/ archive.todayの検索したページ全部ローカルに落としたいんですけどいい方法ありませんか? 「同人用語の基礎知識」
https://www.paradisearmy.com/doujin/
が閉鎖されたようだ。
4日までは存在、5日に閉鎖されたようだ
まあ大体アーカイブに保存されてるようだが。 選択範囲のリンクをコピーするアドオンでコピー。
改行置換できるテキストエディタで
「(改行)https://archive.ph/」を 「.zip(改行)http://archive.fo/download/」に 置換してダウンローダーに登録。 >>674
ごめん。素人すぎて理解できない。ありがとう >>644 に出てるブロマガってarchive teamで動いてる?
動いてなかったら誰か頼んでもらえます? >>673
今試したが繋がるね
サーバダウンかドメインの期限切れだったのでは ここで聞いていいかわからないけどiPhoneでサイト丸ごと保存できるようなアプリってある? ローカルの話だったらプリントしてpdfとして保存するのが楽
ネット使っていいならInternet archive safariでできる、真ん中のボタン押してプリント押してpdfプレビュー見えたら拡大してから右上のボタン押してファイルに保存 >>682
「サイト丸ごと」が全てのページって意味なら無理
IAのアカウント作ってTOPページからアーカイブすれば近い事は出来るけど 1ページ全部保存できるよ、pdfのページの切れ目は気になるかもしれんけど そのページだけでなくサイト全体、全てのページという意味でした
紛らわしくて申し訳ない 以下全然関係ないメモ
wget --spiderでやってログをTxtファイルに出力
TxtファイルからURLを抽出して別のTxtファイルに出力
GoogleSpreadSheetを開いてファイル>インポート、アップロードのタブを開いてTxtファイルをインポート
Internet ArchiveのBatchでArchiveする ClipTrapっていう神ツール見つけた
これ使うと起動中にクリップボードを勝手にメモ帳に書き込んでくれる、URL収集が格段に楽になった
今までコピーして自分でメモ帳に貼り付けてたのが起動してURLをコピーするだけでよくなる
https://web.archive.org/web/20210223043918/https://www.dcmembers.com/skwire/wp-content/uploads/sites/5/apps/cliptrap/ClipTrap.zip いいねそのツール
aimix bbsはまだ繋がるけど時間の問題か 試しに自分が使ってたコミュニティのaimixbbsログ取ってるけど
7件ごとしか表示できないからクッソめんどいねコレ
あとWAで保存したあとに表示されるURLがバグってページ内に使われてるjavascriptのURLが出たりする
しばらくして保存指定したURLで見るとちゃんと取れてるけども 「There are no running processes.」を真に受けて複数同時にBatchを走らせちまった みんカラのブログはUserAgent無しだとwgetがエラーになるっぽいな さすがにUserAgentは適当なブラウザのを指定しとけよw
UserAgentにbotって入ってるだけでブロックするクソサイトもあるし 最近思うけど個人サイトっていくら有名でも10年後に見られる保証はないんだよね…
そこはか通信とかchakuwikiみたいに管理してた人が突然亡くなっちゃうこともあるし(幸い両方とも移転したけど) >>693
本当にその通りだと思うわ
見つけた時にできる限り保存しておくに限る bbspinkのスレを取得しようとすると403になってうまくいかないなー昔は出来たぽいのに
5chのほうは今もスレURLそのままでいけるんだけど こころんにあるミラーってWaybackMachineに保存しようとすると504を返してきて保存できないね 【重要】PC版GREEのサービス終了のお知らせ
2021年6月24日 15:00(木)をもちまして、PC版GREEのサービス提供を終了させていただくこととなりました。
■提供を終了するサービス
サービス終了後は、下記を含む全ての機能がご利用いただけなくなります。
・ゲームプレイ
・ゲーム内アイテムの利用
・GREEコインの購入
・チャットやコミュニティなどのSNS機能
・アバター機能
・会員登録/退会
・日記の外部ブログへの転載機能
※日記の転載先として登録済URLは削除されます
※外部ブログから投稿済の日記はそのまま残ります
https://jp.apps.gree.net/ja/static/page/20210201_pcnotices SiteMixというレン鯖の調子が悪いらしい。
ttps://it.srad.jp/story/21/06/29/1618244/
まだ消滅しないとは思うけど、個人HPがたくさん残ってるのと、
適当なURLをarchive.org/wayback/availableに投げたら、結構保存されてないので、
消える前に保存したほうがいいかも。 iPhoneアプリのOffice Pagesってもう機能してないのかな
使ってる人います? 今日最初の保存でYou have already reached the limit of active sessions.出すな 2020年頃からtwitterのツイートも一個一個自動でアーカイブ取るようになったけど
取るようになる以前のツイートとか元鍵垢の鍵かかってた頃のツイートとか兎に角過去に遡ってまでやってくれないのは無能だと思う
前に鍵垢が一時的に開いてたのがあって夜通し手動でアーカイブ取ってたが500くらいしか録れない内に鍵かけ直されちゃった
アクセストークンとか使えたらわざわざいつ開くかわからん鍵が開くまで待つ必要もなくなるんだが… >>706
書き忘れたけどWaybackMachineの話ね この辺のドメインのサイトは全滅するってことなのかな
・ウェブクロウ初期ドメイン
webcrow.jp
・ウェブクロウプラス初期ドメイン一覧(138種類)
https://www.webcrow.jp/service/original_domain.php アーカイブする余裕はないですが、URL収集だけは作りますか… 現状、Wayback Machine とGeoLogでアーカイブが存在しないジオシティーズのサイトは
もう2度と見ることは不可能ですか?
親父との思い出がすべて消えてしまったようなので非常に残念 >>521
無理だね
ただほとんどアーカイブされてるからアーカイブされてないやつは少ない ふとArchiveTodayのURL見てて思ったんだけど
ここのURLって大小英数字で5文字だけど、これだと(26*2+10)^5で9億チョイにしかならないんだよね
9億ってInternet archiveの1か月分にすらならないんだけど流石に少なすぎない?
本当に全部アーカイブしてるのかな ニコニコのブロマガがそろそろ終わる
URLはナンバー割り振りだからスクリプト等での取得は楽そうだが… 5chの過去ログの閲覧が有料会員限定になってしまった
sc使えば見られるらしいが有益なスレは念のため魚拓とるようにした方がいいかも >>723
scも最近はクロールがすぐいかれるので必要なログはちゃんと押さえておく必要がある
/test/read.cgi/patisserie/1506253827/l50 2ちゃんねる過去ログは「ぬこ」使え。過去過ぎるのはほぼ消えたけど。 itestの過去ログまた見れるようになったな
あれも専ブラみたいなもんだからたぶん仕様変更による不具合、元々専ブラじゃ過去ログは見れないし
PC版はHTMLだから影響なかった 「東京大学見聞伝ゼミナール」 ttp://kenbunden.net/general/
「dacapo」 ttps://dacapo.piichi.jp/
どっちもここ数年更新されてないからアーカイブしたほうがいいのだろうか? みんなクイック魚拓javaでinternet archiveとarchive todayの取得していないのか? URLのリストがあれば一括で取得できるけど
まだ消えていない個人ブログならfeedlyに登録して、Title-Only Viewで記事の一覧を上から下まで選択して、copy selected linksでURLのリストを取得できる
Screaming Frog SEO Spiderとかを使ってURL取得する方法もあるけど それとYoutubeの各動画の説明欄にある帰属情報の表示ページが2021年9月以降に廃止されるらしい
帰属情報にはクリエイティブ・コモンズ情報(CC-3.0)が記されている動画があって、そういった動画はまるまるウィキメディア・コモンズに動画を転載して実質的なバックアップとすることができる。もちろん、ウィキメディアのコミュニティが教育的でないと判断したら削除されるが、結構生き残るから試して見る価値はある
帰属情報欄が消されると、ウィキメディアの査読者たちがYoutube上でクリエイティブ・コモンズの動画かどうか確認できないから、消されてしまう。それを回避するためには各動画ページのアーカイブを取得する必要がある archive.phで.txtをアーカイブした場合、プレーンテキストを表示させるにはどうしたら良い? スレ違い気味ですみません
ttp://tojinomiko-tomoshibi.jp/
上記の冒頭での「斬る」エフェクトアニメがどうしても保存できません
どうすればいいでしょうか? >>735
アニメーションを自分の端末に保存したいってことかな?
ソースを見ると1枚の画像をブラウザの処理で変形させてアニメーションにしてるから
画面収録とかして保存するしかないと思う >>736
サンクス
やっぱりそうかあ>1枚の画像をブラウザの処理で変形させてアニメーションにしてる
静止画保存で妥協します って、開発者モードから静止画が取れないみたいですね
キャプチャ(画面撮影)くらいしか方法がないのかな? >>739
いやもう本当にサンクス おかげで助かりました >>729
kenbunden.net Internet Archiveに保存されてなかった80ページほどのURLを昨日SPNに投げて保存しといた
dacapo.piichi.jp こっちも保存されてなかった1700ページぐらいをSPNに投げて保存した
>>734
10月末にArchiveteamが巡回保存済、誰か依頼出したみたい Archiveteamがやってくれるなら、ノンアフィまとめサイトも一括で魚拓取ってほしい
記事数が1年で1万近くあるから手動じゃ無理だわ
http://himasoku1123.blogspot.com
http://nikisoku.blogspot.com 自動化してまとめ記事作ってるところもあるだろうし際限なさそう >>741
729です ありがとうございます
いま見聞伝の昔のサイト「KENBUNDEN2009」(ttp://kenbunden.net/wpmu/)のアーカイブをInternet Archiveで途中までとっているのですが
ttp://kenbunden.net/wpmu/blog/2010/03/14/%EF%BC%92%EF%BC%8E%E6%96%87%E8%8A%B8%EF%BC%88%E8%AA%AD%E6%9B%B8%EF%BC%89%E3%82%B5%E3%83%BC%E3%82%AF%E3%83%AB%E5%BA%A7%E8%AB%87%E4%BC%9A/
ttp://kenbunden.net/wpmu/blog/2010/03/14/%EF%BC%92%EF%BC%8E%E6%96%87%E8%8A%B8%EF%BC%88%E8%AA%AD%E6%9B%B8%EF%BC%89%E3%82%B5%E3%83%BC%E3%82%AF%E3%83%AB%E5%BA%A7%E8%AB%87%E4%BC%9A/
ttp://kenbunden.net/wpmu/blog/2010/03/15/%EF%BC%94%EF%BC%8E%E5%8F%96%E6%9D%90%E2%97%86%E6%B0%B8%E6%B1%9F%E6%9C%97%E5%85%88%E7%94%9F%EF%BC%88%E3%83%A9%E3%82%A4%E3%82%BF%E3%83%BC%EF%BC%89/
ttp://kenbunden.net/wpmu/?attachment_id=1097
ttp://kenbunden.net/wpmu/blog/2009/07/13/%E3%80%8C%E8%A1%97%E3%83%B2%E6%83%B3%E3%83%95%E3%80%8D/
ttp://kenbunden.net/wpmu/blog/2009/07/13/%E3%80%8C%E8%87%AA%E5%88%86%E4%BA%8B%E5%8C%96%E3%80%8D%E3%81%99%E3%82%8B%E3%80%82/
ttp://kenbunden.net/wpmu/?attachment_id=1068
ttp://kenbunden.net/wpmu/blog/2009/12/01/%E2%97%86intro-2/
ttp://kenbunden.net/wpmu/hiroyasu/2009/09/23/nins%E3%82%B7%E3%83%B3%E3%83%9D%E3%82%B8%E3%82%A6%E3%83%A0%E4%BA%8B%E5%89%8D%E5%8F%96%E6%9D%90%E6%9D%BE%E6%B2%A2%E5%85%88%E7%94%9F/
これらのページがURLに含まれる記号等のせいかきちんとアーカイブできません >>744です
上記のURLの内
ttp://kenbunden.net/wpmu/blog/2010/03/14/%EF%BC%92%EF%BC%8E%E6%96%87%E8%8A%B8%EF%BC%88%E8%AA%AD%E6%9B%B8%EF%BC%89%E3%82%B5%E3%83%BC%E3%82%AF%E3%83%AB%E5%BA%A7%E8%AB%87%E4%BC%9A/
ttp://kenbunden.net/wpmu/?attachment_id=1068
以外はアーカイブできました これより後だと
ttp://kenbunden.net/wpmu/blog/2009/12/01/%E2%97%86intro-2/
ttp://kenbunden.net/wpmu/blog/2009/07/13/%E8%99%B9%E3%81%AF%E9%BB%92%E3%81%84%EF%BC%81%EF%BC%9F/
ttp://kenbunden.net/wpmu/?attachment_id=1063/
ttp://kenbunden.net/wpmu/blog/2009/06/03/%E3%80%90%E7%95%AA%E5%A4%96%E7%B7%A8%E3%80%91%E3%80%8Enuovo-cinema-paradiso%E3%80%8F%EF%BC%88%E3%83%88%E3%83%AB%E3%83%8A%E3%83%88%E3%83%BC%E3%83%AC1989%EF%BC%89/
ttp://kenbunden.net/wpmu/blog/2009/05/12/%E5%89%8D%E6%9B%B8%E3%81%8D/
が時間を置いても今のところだめです >>744-745
Save Page Nowから保存しようとすると俺の環境でも出来なかったけど、
curl使って/save/に投げたら保存できた
?attachment_id=1063と?attachment_id=1068はNot Foundでページが自体が無いけど、
Save Page Nowで保存できたよ
取りこぼし無ければ俺が確認できたブログ記事118ページ全て保存できてるはず ツイセーブってアーカイヴ的な意味でTwitterの保存に使えるのかな エキサイトフレンズサービス
ttps://friends.excite.co.jp/notice/?type=info&no=172
サービス提供の終了 2022年4月27日(水)15時 ttps://ameblo.jp/imai-yuzo/entry-12716798529.html
今井ゆうぞうさんのブログが明後日の19時に閉鎖されるそうです ttps://shop.plaza.rakuten.co.jp/
店長の部屋Plus+は2022年1月をもって提供を終了致します。長きに渡りご愛読ありがとうございました。 スクウェア・エニックスの開発資料を管理するプロジェクト「SAVE」のセッションをレポート。ゲーム開発の過去を探ることで,未来につなげる
https://www.4gamer.net/games/999/G999905/20220126058/ 気色悪すぎるポエマー基地外婆
痛い妄想婆。芸能人のゴシップネタに顔文字で嘲笑い中傷しか少ししたら即消し。
自分にひたすら赤ポチ付け命懸け
周囲に青ポチ連打。
若ぶってる還暦近いニート婆
https://news.yahoo.co.jp/profile/id/FuFiWDuNeXn41agPfYcGqcw-/comments 「ウェブリブログサービス終了(2023/1)のお知らせ」
ttps://info.at.webry.info/202201/article_2.html TechCrunch Japanおよびエンガジェット日本版 終了のお知らせ
https://www.beboundless.jp/press/corporate-announcement-02-15-2022
これ誰かArchive Teamに連絡してもらえないかな
どちらも日本のITニュースサイトの草分け的なサイトで、過去記事が完全に無くなってしまうと結構な影響が出る >>756
TechCrunch Japanは現時点で3190ページまである
各20記事載ってるから計63800記事くらい
https://jp.techcrunch.com/page/3190/ エンガジェット日本版はハードル高そうだね
パッと見た感じだと動的なページ読み込みでmaxで最新の200記事くらいしか確認できない ■ このスレッドは過去ログ倉庫に格納されています