【保存・記録】ウェブアーカイブ総合 Page.01
■ このスレッドは過去ログ倉庫に格納されています
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう >>603
なるほど、やってみたけどやはり手軽なのはFC2だな、indexファイル含めたフォルダごとアップロードしないといけないのは地味に手間だ
FC2はファイルマネージャーにドラッグドロップするだけでアクセスできるようになるからかなり時間効率はいい
複数バックアップのリスクもこれ見る限りでは大丈夫そうではあるな
https://imgur.com/a/f0XwCdA.png ただ複数ファイル最初からアップロードするならNetlify使ってやったほうがやりやすいかもね
100ジャストだから数えやすいし
URLに/ファイル名 つけるだけでまとめてアップロードしたhtmlにはアクセス可能 https://i.imgur.com/WXbHftz.jpg
https://i.imgur.com/xdvJ1eJ.jpg
とりあえずまとめてバックアップしてみたけど上限の100個でも問題なくできるね
特定のURLがずっとSavingが続く場合は画面のURLをバックアップ成功したの含めて全部コピーしてメモ帳に貼り付けしてサクラエディタとかで「Done!」が入ってる行を一括削除処理するとバックアップできてないURLだけメモ帳に残せる
そしたらサクラエディタで/web/2/付け足して数日経ったらまとめて開いて保存できてるか確認、一見ずっとsavingになってても後で確認したら保存できてる可能性が高い、バックアップできてなければ再度バックアップ
これで、手間がだいぶ減る
あとFC2ホームページは日本語の入ってるURLは文字化けするね、netlifyは特に何も設定しなくても文字化けはしない あと、これやるならsave error pagesのチェックは毎回外したほうがいいかも
大量にやるとバックアップされる側が一時重くなるのもあるから404ページが保存されてしまうかもしれない ゲームやりながらほぼ放置でURL1600個バックアップできた、一度に100個保存できるのは革命だな
やはりsave error pagesのチェック外すのは必須、結構高い頻度でgatewayエラー出るから
多くて100個中5個くらい、出るときはだいたい1.2個エラーになる
チェック外しておくとwaybackmahineがどのURLがエラーで保存できなかったか通知してくれるからそれは手動で個別にバックアップ >>608
さすがに大量のリンクをアーカイブするのはSPN側のキャパもあるだろうしArchiveTeamに頼んでSPNじゃないところでアーカイブしたほうがいいと思う。
じゃないとSPNのサービス縮小、最悪の場合はSPN終了になりかねない
ArchiveTeamのIRCでDeepl翻訳とか使って言うと対応してくれるらしいので
https://webirc.hackint.org/#irc://irc.hackint.org/#archiveteam-bs Save Page Nowあんまり使いすぎてSPN自体が無くなったらどうしようもないから、自分はSPNでアーカイブする量をセーブしてる
多くても週300くらい >>609
Save outlinks自体が大量バックアップしてくれっていうような機能だし大丈夫じゃないか?
ブログとかだったら意図的じゃなくても1ページ50リンク以上あるとかザラだし、大量バックアップ推奨してなかったらあんな機能普通つけないよ
個人的に無会員で大量にタブ開いてバックアップするのが一番負担かけるやり方だと思うわ、それよりはかなり負担少ないように感じる
save outlinksが会員限定機能な以上邪魔になったらアカウント制限しにくるだけ、何個も重複してバックアップとか意図的に負担かけるようなことしなければ平気だとは思うけど、ただしやりすぎは禁物かもね
あと正直archive teamは画像のバックアップを正常にとれないみたいだから画像ありきのページだと正直依頼するには微妙かもしれない、Naverまとめとか画像まともに表示されてないものが多い、手動で保存したものはしっかり表示される
waybackmachineの自動クロールも画像保存されないことある、手動だとやはり保存される
負担減らしたいならバックアップ済はバックアップしないってチェック項目あればいいのにね 別に問題ないと思うよ
よく負荷がどうこうっていうけど、個人サイトじゃあるまいし影響は無い 【告知】ニコニコ動画のコメントサーバーリニューアルに向けた機能提供終了・変更のお知らせ【PC版ニコニコ動画】|ニコニコインフォ
https://blog.nicovideo.jp/niconews/147588.html >>614
■ 実施スケジュール
実施日時 実施内容
2021年3月1日(月)
過去ログ機能の変更
過去ログのURL共有機能を提供
2021年3月15日(月)
削除された動画へのコメント投稿とコメント表示の終了
- 動画タイトルや説明文などの情報も表示されなくなります
マイメモリー機能の提供を終了
- マイメモリーの新規作成や、 既存マイメモリーの視聴ができなくなります
2021年 春以降
動画コメントサーバーを新コメントサーバーに順次リニューアル
2021年リニューアル
完了後
動画投稿一覧などに表示される最新コメントに、投稿者用NG設定を適用
「コメント投稿ユーザーをNG登録」する機能の効果を永続化
自分が投稿したコメントを削除できるように outlinksとGoogleSpreadsheetのバッチ処理が使える。 iRONNA終了
> 2014年10月にスタートした総合オピニオンサイト「iRONNA」は、
> 諸般の事情により2021年3月下旬をもって新規コンテンツの公開を終了することになりました。(中略)
> 尚、終了後もこれまでのiRONNAのコンテンツが閲覧できる環境を維持するための態勢構築を進めています。(後略)
https://ironna.jp/article/16883
閲覧は維持してくれるらしいので緊急性はない。 せっかくwaybackmachineでアーカイブしたのに、どうアーカイブされているか見ようとしたら別の日にアーカイブされたものに飛ばされてしまった。
少し待たないとダメな感じ? 基本少し待って確認だけどそれでも反映されてなかったり、反映されてるけど取れてなかったりする。 ここ最近は調子悪いからしばらく様子見たほうがいいよ この前読んだ漫画に、WaybackMachineを使っているシーンがあった
1コマ程度だけど Archive Teamでニコ動のコメントとメタデータ(タイトルとか説明文)の保存が始まった
動画の中でも日本からしか見れないものとかはArchiveTeamの人からは取得できないらしく
Dockerを扱える人いたらWarriorというパッケージを導入すれば誰でも貢献できるのでやってくれるとありがたい
https://hub.docker.com/r/archiveteam/warrior-dockerfile/
https://wiki.archiveteam.org/index.php?title=ArchiveTeam_Warrior 最近ニコ動の調子が悪いのはこれのせいなの?
落とすようなのはリスクあるから自分とこのIPではあまりやりたくないな… 割と可能性はあるな
【3/1 0時追記】動画が視聴できない不具合など【調査中・ニコニコ動画】
連日の不具合につき、ご利用の皆様にご不便をおかけし、大変申し訳ございません。
本不具合について、海外からの通常の量ではないアクセスにより、引き起こされております。
現在、さらなる原因調査と、追加の対応を行っております。
不具合発生時間
2021年2月28日(日) 06:06頃〜
https://blog.nicovideo.jp/niconews/148255.html この公式ページの情報によると2月27日23時頃から断続的に不具合が起こってるらしいね
ニコ動アーカイブのトラッカーはここから確認できるっぽい
残り70万/3500万で今も動いてる
https://tracker.archiveteam.org/niconico/ luaスクリプト読んでみたら、waitもかけずに全力でぶん回すようになってるじゃん
そりゃニコ動も不安定になるわ。DDoSそのものだもん
ttps://github.com/ArchiveTeam/niconico-grab/blob/ade778c0df8bd3ee5b0aa497c79e9ed97a604883/niconico.lua#L356 >>630
間隔を1秒たりとも空けてないとは思わなかった
プルリクエストした方がええんかな
ArchiveTeam側に連絡取れるようならあちら側で対処してもらうよう依頼した方が良さそうかな 今気付いたがアーカイブする対象の動画はどういう指定になってるんだろう
sm+数字連番とかで指定されているようならnmはどうなるんだ 間隔なしでアクセスしてたのか
連絡できる方お願いします 意図的に止めたか、UserAgentとかでブロックされたか 今日archive.isでページを保存しようとしたら
「One more step
Please complete the security check to access archive.is」という画面になった
(そのページのURLは”ttps://archive.is/submit/”、あと”私はロボットではありません”っていうのも出てくる)
こうなるのはなぜ? >>637
ボットからのアクセスからじゃないかをチェックするため
「私はロボットではありません」ってボックスをクリックかタップするとボットでは無いことを証明出来る >>636
>>628で「対策を行なった」らしいから止められている可能性もあるね ニコ動のやつWaybackMachineで見れるようになってる
けど、コメントは無い模様
ttp://web.archive.org/web/20210228064205/https://www.nicovideo.jp/watch/sm100000 上の方で、「はてな」のサービス終了に触れてるのを見かけたけど、2020年1月末で終わったはてなグループについては誰も言及してないあたりそんなにも影が薄いサービスだったんだろうか…
はてなグループ終了時に運営がデータエクスポートしてくれるやつを実際に頼んだ人っているんだろうかね。 はてなグループなついw
Twitter調べたらエクスポート依頼してる人いたよ 掲示板やタスクのデータはjson形式で送られてるみたい ニコニコのユーザーブロマガもサービス終了
https://site.nicovideo.jp/ch/userblomaga_thanks/
>2021年10月7日をもってユーザーブロマガの提供を終了することとなりました。 最近のニコニコはサービスの改善を図ってか古いものを終了させてるね
いちユーザーとしてはようやくニコニコが大規模に改修されるのかという安堵があるけど、アーカイブしなければならないものが増えるのは厄介だな MMDモデルのライセンス情報をブロマガに書いてた人もいるらしい
全員が全員とも引っ越しできるはずはないからライセンス関係のトラブルが起きそう 来年の今頃はau3G終了で古い掲示板が更に無くなりそう… 「Webメディア『WHAT’s IN? tokyo』終了のお知らせ」
https://tokyo.whatsin.jp/634630
3月末日をもって終了らしい >>650
結構有名なアーティストのインタビューとかライブレポートが載ってるから早めにやった方がいいかも >>651
自分でいくつかアーカイブ作業したけど記事やコラムもいっぱいあるから自力でやるには限界がある…
Archive Teamに頼めないかな(でも画像の表示とかできるようになるか心配、有名人の写真とか結構載ってるから) >>652
>>507あたりから読んでみるといいかも 今ざっと確認してみた感じほとんど保存されてるから
頼む必要はなさそう >>654
保存されてないものも多いようだけど.. 質問です
なぜWayback Machineやarchive.isでのTwitterのページは昔のUIの表示で保存されるのですか? >>657
Waybackmachineのユーザーエージェント情報が不明または古いブラウザのものだから Twitterの旧UIって前に廃止された様な気が… >>657
Twitterの旧UIは2年くらい前に廃止されたはずだけど、それ以前に取られたアーカイブの話してる?
もしそうなら、それがウェブアーカイブというものだからですとしか答えられない
廃止以後に取られたアーカイブで旧UIになってるものはそもそも遭遇した事がない >>654
保存されてないの結構あるから依頼の必要があると思う
もう少し注意して確認してみてくれ >>661
今waybackのAPIで7300記事の保存状況を確認したところエラーが起きたのは30記事くらいだった
念のためこれはアーカイブし直してるけど何か抜けてたりミスしてるところがあるのかな テレビ番組表の記録
っていう2007年からの膨大な番組表データを記録しているサイトがあるんだけど、
番組の詳細内容が表示されなくなったり過剰なアクセス制限があったりと最近改悪が激しい
Waybackのクロールも拒否してるし、
貴重なデータの割にこのサイトにしか残っていない情報が多いので今後ちょっと不安だ 503のせいで四月馬鹿サイトのキャプチャができない aimix-BBSというレンタル掲示板を見たら今月末でサービス終了するそうだ… 【よほど都合が悪いようだ】LINEに否定的だった山本一郎氏、自身のヤフー記事1000本がヤフーによって削除される [Toy Soldiers★]
https://asahi.5ch.net/test/read.cgi/newsplus/1616979021/ archive.todayの検索したページ全部ローカルに落としたいんですけどいい方法ありませんか? 「同人用語の基礎知識」
https://www.paradisearmy.com/doujin/
が閉鎖されたようだ。
4日までは存在、5日に閉鎖されたようだ
まあ大体アーカイブに保存されてるようだが。 選択範囲のリンクをコピーするアドオンでコピー。
改行置換できるテキストエディタで
「(改行)https://archive.ph/」を 「.zip(改行)http://archive.fo/download/」に 置換してダウンローダーに登録。 >>674
ごめん。素人すぎて理解できない。ありがとう >>644 に出てるブロマガってarchive teamで動いてる?
動いてなかったら誰か頼んでもらえます? >>673
今試したが繋がるね
サーバダウンかドメインの期限切れだったのでは ここで聞いていいかわからないけどiPhoneでサイト丸ごと保存できるようなアプリってある? ローカルの話だったらプリントしてpdfとして保存するのが楽
ネット使っていいならInternet archive safariでできる、真ん中のボタン押してプリント押してpdfプレビュー見えたら拡大してから右上のボタン押してファイルに保存 >>682
「サイト丸ごと」が全てのページって意味なら無理
IAのアカウント作ってTOPページからアーカイブすれば近い事は出来るけど 1ページ全部保存できるよ、pdfのページの切れ目は気になるかもしれんけど そのページだけでなくサイト全体、全てのページという意味でした
紛らわしくて申し訳ない 以下全然関係ないメモ
wget --spiderでやってログをTxtファイルに出力
TxtファイルからURLを抽出して別のTxtファイルに出力
GoogleSpreadSheetを開いてファイル>インポート、アップロードのタブを開いてTxtファイルをインポート
Internet ArchiveのBatchでArchiveする ClipTrapっていう神ツール見つけた
これ使うと起動中にクリップボードを勝手にメモ帳に書き込んでくれる、URL収集が格段に楽になった
今までコピーして自分でメモ帳に貼り付けてたのが起動してURLをコピーするだけでよくなる
https://web.archive.org/web/20210223043918/https://www.dcmembers.com/skwire/wp-content/uploads/sites/5/apps/cliptrap/ClipTrap.zip いいねそのツール
aimix bbsはまだ繋がるけど時間の問題か 試しに自分が使ってたコミュニティのaimixbbsログ取ってるけど
7件ごとしか表示できないからクッソめんどいねコレ
あとWAで保存したあとに表示されるURLがバグってページ内に使われてるjavascriptのURLが出たりする
しばらくして保存指定したURLで見るとちゃんと取れてるけども 「There are no running processes.」を真に受けて複数同時にBatchを走らせちまった みんカラのブログはUserAgent無しだとwgetがエラーになるっぽいな さすがにUserAgentは適当なブラウザのを指定しとけよw
UserAgentにbotって入ってるだけでブロックするクソサイトもあるし 最近思うけど個人サイトっていくら有名でも10年後に見られる保証はないんだよね…
そこはか通信とかchakuwikiみたいに管理してた人が突然亡くなっちゃうこともあるし(幸い両方とも移転したけど) >>693
本当にその通りだと思うわ
見つけた時にできる限り保存しておくに限る bbspinkのスレを取得しようとすると403になってうまくいかないなー昔は出来たぽいのに
5chのほうは今もスレURLそのままでいけるんだけど こころんにあるミラーってWaybackMachineに保存しようとすると504を返してきて保存できないね 【重要】PC版GREEのサービス終了のお知らせ
2021年6月24日 15:00(木)をもちまして、PC版GREEのサービス提供を終了させていただくこととなりました。
■提供を終了するサービス
サービス終了後は、下記を含む全ての機能がご利用いただけなくなります。
・ゲームプレイ
・ゲーム内アイテムの利用
・GREEコインの購入
・チャットやコミュニティなどのSNS機能
・アバター機能
・会員登録/退会
・日記の外部ブログへの転載機能
※日記の転載先として登録済URLは削除されます
※外部ブログから投稿済の日記はそのまま残ります
https://jp.apps.gree.net/ja/static/page/20210201_pcnotices SiteMixというレン鯖の調子が悪いらしい。
ttps://it.srad.jp/story/21/06/29/1618244/
まだ消滅しないとは思うけど、個人HPがたくさん残ってるのと、
適当なURLをarchive.org/wayback/availableに投げたら、結構保存されてないので、
消える前に保存したほうがいいかも。 iPhoneアプリのOffice Pagesってもう機能してないのかな
使ってる人います? 今日最初の保存でYou have already reached the limit of active sessions.出すな ■ このスレッドは過去ログ倉庫に格納されています