【保存・記録】ウェブアーカイブ総合 Page.01
■ このスレッドは過去ログ倉庫に格納されています
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう >>637
ボットからのアクセスからじゃないかをチェックするため
「私はロボットではありません」ってボックスをクリックかタップするとボットでは無いことを証明出来る >>636
>>628で「対策を行なった」らしいから止められている可能性もあるね ニコ動のやつWaybackMachineで見れるようになってる
けど、コメントは無い模様
ttp://web.archive.org/web/20210228064205/https://www.nicovideo.jp/watch/sm100000 上の方で、「はてな」のサービス終了に触れてるのを見かけたけど、2020年1月末で終わったはてなグループについては誰も言及してないあたりそんなにも影が薄いサービスだったんだろうか…
はてなグループ終了時に運営がデータエクスポートしてくれるやつを実際に頼んだ人っているんだろうかね。 はてなグループなついw
Twitter調べたらエクスポート依頼してる人いたよ 掲示板やタスクのデータはjson形式で送られてるみたい ニコニコのユーザーブロマガもサービス終了
https://site.nicovideo.jp/ch/userblomaga_thanks/
>2021年10月7日をもってユーザーブロマガの提供を終了することとなりました。 最近のニコニコはサービスの改善を図ってか古いものを終了させてるね
いちユーザーとしてはようやくニコニコが大規模に改修されるのかという安堵があるけど、アーカイブしなければならないものが増えるのは厄介だな MMDモデルのライセンス情報をブロマガに書いてた人もいるらしい
全員が全員とも引っ越しできるはずはないからライセンス関係のトラブルが起きそう 来年の今頃はau3G終了で古い掲示板が更に無くなりそう… 「Webメディア『WHAT’s IN? tokyo』終了のお知らせ」
https://tokyo.whatsin.jp/634630
3月末日をもって終了らしい >>650
結構有名なアーティストのインタビューとかライブレポートが載ってるから早めにやった方がいいかも >>651
自分でいくつかアーカイブ作業したけど記事やコラムもいっぱいあるから自力でやるには限界がある…
Archive Teamに頼めないかな(でも画像の表示とかできるようになるか心配、有名人の写真とか結構載ってるから) >>652
>>507あたりから読んでみるといいかも 今ざっと確認してみた感じほとんど保存されてるから
頼む必要はなさそう >>654
保存されてないものも多いようだけど.. 質問です
なぜWayback Machineやarchive.isでのTwitterのページは昔のUIの表示で保存されるのですか? >>657
Waybackmachineのユーザーエージェント情報が不明または古いブラウザのものだから Twitterの旧UIって前に廃止された様な気が… >>657
Twitterの旧UIは2年くらい前に廃止されたはずだけど、それ以前に取られたアーカイブの話してる?
もしそうなら、それがウェブアーカイブというものだからですとしか答えられない
廃止以後に取られたアーカイブで旧UIになってるものはそもそも遭遇した事がない >>654
保存されてないの結構あるから依頼の必要があると思う
もう少し注意して確認してみてくれ >>661
今waybackのAPIで7300記事の保存状況を確認したところエラーが起きたのは30記事くらいだった
念のためこれはアーカイブし直してるけど何か抜けてたりミスしてるところがあるのかな テレビ番組表の記録
っていう2007年からの膨大な番組表データを記録しているサイトがあるんだけど、
番組の詳細内容が表示されなくなったり過剰なアクセス制限があったりと最近改悪が激しい
Waybackのクロールも拒否してるし、
貴重なデータの割にこのサイトにしか残っていない情報が多いので今後ちょっと不安だ 503のせいで四月馬鹿サイトのキャプチャができない aimix-BBSというレンタル掲示板を見たら今月末でサービス終了するそうだ… 【よほど都合が悪いようだ】LINEに否定的だった山本一郎氏、自身のヤフー記事1000本がヤフーによって削除される [Toy Soldiers★]
https://asahi.5ch.net/test/read.cgi/newsplus/1616979021/ archive.todayの検索したページ全部ローカルに落としたいんですけどいい方法ありませんか? 「同人用語の基礎知識」
https://www.paradisearmy.com/doujin/
が閉鎖されたようだ。
4日までは存在、5日に閉鎖されたようだ
まあ大体アーカイブに保存されてるようだが。 選択範囲のリンクをコピーするアドオンでコピー。
改行置換できるテキストエディタで
「(改行)https://archive.ph/」を 「.zip(改行)http://archive.fo/download/」に 置換してダウンローダーに登録。 >>674
ごめん。素人すぎて理解できない。ありがとう >>644 に出てるブロマガってarchive teamで動いてる?
動いてなかったら誰か頼んでもらえます? >>673
今試したが繋がるね
サーバダウンかドメインの期限切れだったのでは ここで聞いていいかわからないけどiPhoneでサイト丸ごと保存できるようなアプリってある? ローカルの話だったらプリントしてpdfとして保存するのが楽
ネット使っていいならInternet archive safariでできる、真ん中のボタン押してプリント押してpdfプレビュー見えたら拡大してから右上のボタン押してファイルに保存 >>682
「サイト丸ごと」が全てのページって意味なら無理
IAのアカウント作ってTOPページからアーカイブすれば近い事は出来るけど 1ページ全部保存できるよ、pdfのページの切れ目は気になるかもしれんけど そのページだけでなくサイト全体、全てのページという意味でした
紛らわしくて申し訳ない 以下全然関係ないメモ
wget --spiderでやってログをTxtファイルに出力
TxtファイルからURLを抽出して別のTxtファイルに出力
GoogleSpreadSheetを開いてファイル>インポート、アップロードのタブを開いてTxtファイルをインポート
Internet ArchiveのBatchでArchiveする ClipTrapっていう神ツール見つけた
これ使うと起動中にクリップボードを勝手にメモ帳に書き込んでくれる、URL収集が格段に楽になった
今までコピーして自分でメモ帳に貼り付けてたのが起動してURLをコピーするだけでよくなる
https://web.archive.org/web/20210223043918/https://www.dcmembers.com/skwire/wp-content/uploads/sites/5/apps/cliptrap/ClipTrap.zip いいねそのツール
aimix bbsはまだ繋がるけど時間の問題か 試しに自分が使ってたコミュニティのaimixbbsログ取ってるけど
7件ごとしか表示できないからクッソめんどいねコレ
あとWAで保存したあとに表示されるURLがバグってページ内に使われてるjavascriptのURLが出たりする
しばらくして保存指定したURLで見るとちゃんと取れてるけども 「There are no running processes.」を真に受けて複数同時にBatchを走らせちまった みんカラのブログはUserAgent無しだとwgetがエラーになるっぽいな さすがにUserAgentは適当なブラウザのを指定しとけよw
UserAgentにbotって入ってるだけでブロックするクソサイトもあるし 最近思うけど個人サイトっていくら有名でも10年後に見られる保証はないんだよね…
そこはか通信とかchakuwikiみたいに管理してた人が突然亡くなっちゃうこともあるし(幸い両方とも移転したけど) >>693
本当にその通りだと思うわ
見つけた時にできる限り保存しておくに限る bbspinkのスレを取得しようとすると403になってうまくいかないなー昔は出来たぽいのに
5chのほうは今もスレURLそのままでいけるんだけど こころんにあるミラーってWaybackMachineに保存しようとすると504を返してきて保存できないね 【重要】PC版GREEのサービス終了のお知らせ
2021年6月24日 15:00(木)をもちまして、PC版GREEのサービス提供を終了させていただくこととなりました。
■提供を終了するサービス
サービス終了後は、下記を含む全ての機能がご利用いただけなくなります。
・ゲームプレイ
・ゲーム内アイテムの利用
・GREEコインの購入
・チャットやコミュニティなどのSNS機能
・アバター機能
・会員登録/退会
・日記の外部ブログへの転載機能
※日記の転載先として登録済URLは削除されます
※外部ブログから投稿済の日記はそのまま残ります
https://jp.apps.gree.net/ja/static/page/20210201_pcnotices SiteMixというレン鯖の調子が悪いらしい。
ttps://it.srad.jp/story/21/06/29/1618244/
まだ消滅しないとは思うけど、個人HPがたくさん残ってるのと、
適当なURLをarchive.org/wayback/availableに投げたら、結構保存されてないので、
消える前に保存したほうがいいかも。 iPhoneアプリのOffice Pagesってもう機能してないのかな
使ってる人います? 今日最初の保存でYou have already reached the limit of active sessions.出すな 2020年頃からtwitterのツイートも一個一個自動でアーカイブ取るようになったけど
取るようになる以前のツイートとか元鍵垢の鍵かかってた頃のツイートとか兎に角過去に遡ってまでやってくれないのは無能だと思う
前に鍵垢が一時的に開いてたのがあって夜通し手動でアーカイブ取ってたが500くらいしか録れない内に鍵かけ直されちゃった
アクセストークンとか使えたらわざわざいつ開くかわからん鍵が開くまで待つ必要もなくなるんだが… >>706
書き忘れたけどWaybackMachineの話ね この辺のドメインのサイトは全滅するってことなのかな
・ウェブクロウ初期ドメイン
webcrow.jp
・ウェブクロウプラス初期ドメイン一覧(138種類)
https://www.webcrow.jp/service/original_domain.php アーカイブする余裕はないですが、URL収集だけは作りますか… 現状、Wayback Machine とGeoLogでアーカイブが存在しないジオシティーズのサイトは
もう2度と見ることは不可能ですか?
親父との思い出がすべて消えてしまったようなので非常に残念 >>521
無理だね
ただほとんどアーカイブされてるからアーカイブされてないやつは少ない ふとArchiveTodayのURL見てて思ったんだけど
ここのURLって大小英数字で5文字だけど、これだと(26*2+10)^5で9億チョイにしかならないんだよね
9億ってInternet archiveの1か月分にすらならないんだけど流石に少なすぎない?
本当に全部アーカイブしてるのかな ニコニコのブロマガがそろそろ終わる
URLはナンバー割り振りだからスクリプト等での取得は楽そうだが… 5chの過去ログの閲覧が有料会員限定になってしまった
sc使えば見られるらしいが有益なスレは念のため魚拓とるようにした方がいいかも >>723
scも最近はクロールがすぐいかれるので必要なログはちゃんと押さえておく必要がある
/test/read.cgi/patisserie/1506253827/l50 2ちゃんねる過去ログは「ぬこ」使え。過去過ぎるのはほぼ消えたけど。 itestの過去ログまた見れるようになったな
あれも専ブラみたいなもんだからたぶん仕様変更による不具合、元々専ブラじゃ過去ログは見れないし
PC版はHTMLだから影響なかった 「東京大学見聞伝ゼミナール」 ttp://kenbunden.net/general/
「dacapo」 ttps://dacapo.piichi.jp/
どっちもここ数年更新されてないからアーカイブしたほうがいいのだろうか? みんなクイック魚拓javaでinternet archiveとarchive todayの取得していないのか? URLのリストがあれば一括で取得できるけど
まだ消えていない個人ブログならfeedlyに登録して、Title-Only Viewで記事の一覧を上から下まで選択して、copy selected linksでURLのリストを取得できる
Screaming Frog SEO Spiderとかを使ってURL取得する方法もあるけど それとYoutubeの各動画の説明欄にある帰属情報の表示ページが2021年9月以降に廃止されるらしい
帰属情報にはクリエイティブ・コモンズ情報(CC-3.0)が記されている動画があって、そういった動画はまるまるウィキメディア・コモンズに動画を転載して実質的なバックアップとすることができる。もちろん、ウィキメディアのコミュニティが教育的でないと判断したら削除されるが、結構生き残るから試して見る価値はある
帰属情報欄が消されると、ウィキメディアの査読者たちがYoutube上でクリエイティブ・コモンズの動画かどうか確認できないから、消されてしまう。それを回避するためには各動画ページのアーカイブを取得する必要がある archive.phで.txtをアーカイブした場合、プレーンテキストを表示させるにはどうしたら良い? スレ違い気味ですみません
ttp://tojinomiko-tomoshibi.jp/
上記の冒頭での「斬る」エフェクトアニメがどうしても保存できません
どうすればいいでしょうか? >>735
アニメーションを自分の端末に保存したいってことかな?
ソースを見ると1枚の画像をブラウザの処理で変形させてアニメーションにしてるから
画面収録とかして保存するしかないと思う >>736
サンクス
やっぱりそうかあ>1枚の画像をブラウザの処理で変形させてアニメーションにしてる
静止画保存で妥協します って、開発者モードから静止画が取れないみたいですね
キャプチャ(画面撮影)くらいしか方法がないのかな? ■ このスレッドは過去ログ倉庫に格納されています