【保存・記録】ウェブアーカイブ総合 Page.01
■ このスレッドは過去ログ倉庫に格納されています
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう >>527
そこまで至れり尽くせりではない
Internet Archiveがドメインの名前解決をしてくれるわけじゃないので、
新しくドメインを取ったところで、52.69.139.163で取られたアーカイブには転送されない https://blog.nicovideo.jp/niconews/141893.html
2021年の春までにニコニコ動画の削除跡地の動画タイトル、説明文、コメントが消えるらしいので
どうにかしてアーカイブを取りたい
ただ、保存ツールはNicomentXenoglossiaが使いやすいんだけど、
アクセス制限の関係上1時間で250件くらいしか落とせないから全削除動画を落とすのは現実的じゃない
仕方ないからコメントは諦めて動画タイトルと説明文だけでも視聴ページからアーカイブしたいと思ったんだけど、
今年に入ってから削除動画は非ログイン状態だと一切表示できなくなってるんだよね…
ArchiveTeamはログイン状態でアーカイブすることって出来るんですか? >>529
自分はArchiveTeamと直接連絡を取ったことはないので断言はできないけど、
可能な限りの融通は効かせてくれるんじゃないかと思う
とりあえずArchiveBotのIRCで相談してみてはどうだろう、DeepL翻訳やみらい翻訳を駆使すれば英語が無理でも何とかなる
https://archiveteam.org/index.php?title=Internet_Archive
https://archiveteam.org/index.php?title=ArchiveBot >>526
ありがとうございます。
こちらのスレの皆様には本当に助けていただきました。
ありがとうございました。 >>530
今の機械翻訳は優秀だし、日本の教育水準はなんだかんだ高いから、
高校まで真面目に英語やってれば大学でサボってても機械翻訳のおかしなところ微調整で長文も余裕 このスレへの書き込みのみを見る限り、chakuwikiはこのスレが建ってから初めて大規模アーカイブにまで持ち込めた案件ってことになるのかな
実際に依頼したのは>>507ではあるけど でも情報をここに書き込んでくれた>>499がいなかったらそもそもArchiveTeamへの連絡にこぎつけることもできなかった訳だしな 連絡しなくてもサイト全体をダウンロードする方法を書いてくれた人もいるのに、
ここの住民は知識だけで人に任せるしかできず、初めからやる気がないんだろ >>536
上で書かれてるサイト全体をアーカイブする方法は、主に使ってる技術とサイトの規模の問題で全く使い物にならない
ArchiveTeamは実績も知見も関係各所へのコネもあるところなので、
大規模なサイトを対象にする場合はあそこの力を借りるしかない
こういう言い方はしたくないが、知識もなければ自前でクローラ回したこともない癖にイチャモン付けないで欲しいわ >>537
個人でやれる事なんてせいぜい大型個人サイトまでだもんね
wikiみたく大勢が集まって作っていくようなのは漏れが出やすいしね ジオシティーズもGeoLogプロジェクトが半年くらいかけて収集してたけど、ArchiveTeamはその10倍くらいの量を60%くらいの時間で処理してた記憶 >>531
自分も保存したいと思ってた
IRCログだとアクセス間隔を開けないといけないという話で終わっている気がするけどどうなるんだろう‥
とりあえず具体的な日程が出次第即IRC側に報告しよう お尋ねしたいんですが、Webarchiveで一度アーカイブされていて、
きちんとその状況が確認できていたものが、
アーカイブから消されることってあるのでしょうか。
因みにアーカイブしていたのはChakuwikiの一部ページです。 前からたまになかったっけ?このスレでも上の方で何度か言われてたような >>543
そのサイトの運営者(chakuwikiで言えば亡くなった創設者の人)は、自分がそのサイトの運営者だという証拠を提出した上でアーカイブの削除を要請できる
この要請が通れば、Internet Archiveから既存のアーカイブが削除されるようになっている
chakuwikiに関してはおそらくそういう心配はないと思う
可能性があるとしたら遺族が削除申請を出すことかな あとInternet Archiveのサーバはよく不具合を起こす
これのせいで、ちゃんと取れているはずのアーカイブが一時的に見れなくなったり、
アーカイブはちゃんと取れているのに、まだ取られていないという誤った表示が出てきたりすることがある
多分だけど>>543はその不具合にたまたま遭遇したんだと思う
これはInternet Archiveのサーバ内部の問題なので、こちらが取れる対処法はない
サーバの調子が良くなってまた見れるようになるのを待つしかない 借井戸に「今週月曜日に取ったはずのアーカイブがごっそり消えている」って報告があったけど、
これは>>546で説明したサーバ不具合の典型的症状やね... Chakuwikiのアーカイブについて
https://52.69.139.163/index.php/
のドメインで今アーカイブをとっているのですが、"()"の他に"!"や"&"がURLに入っているページもWayback Machineではうまく保存できないことが判明しました
(archive.todayでは保存できたのですが…) >>548
もしかしてAPIでチェックしてる?
APIでは一部記号(自分が確認出来たのは"&")が入ってるとアーカイブされててもレスポンスが空の不具合がある
カレンダー側では問題なく確認出来るよ 今日Chakuwikiのアーカイブを見て回ったら多くのページが保存されていました。
少なくとも普通に閲覧に支障がないレベルでアーカイブ化が完了しております。 @wikiとか?
〜wikiとかwiki系で攻略wiki作ってるの多いよね atwiki系のサイトがサービス終了したら影響大きいだろうな ランス10みたく色んなwikiに情報あるならまだマシだけど、
攻略サイト作成者や利用者が声がデカイ一部の一強厨にゴリ押しされて、
2番手移行を併合しようとするような流れになったら困る
分かれてるのは作成者とその周辺と気が合わないというのもあるだろうけど、
いつ消えるか分からないこのご時世、何かあった時のための避難所0では無保険過ぎて不安だし chakuwiki、とうとうサーバ自体が消えたっぽい もうちょっと早めに分かってればなぁ
Mediawkiの機能を使った記事や画像のエクスポート自体は完了しているらしいのが不幸中の幸いかな >>552
HTMLで書かれた個人サイトも忘れずに 今時個人サイトのゲーム攻略は絶滅危惧種でしょ
だからこそ保存しなきゃいけない訳だが >>561
ぶっちゃけエロゲ攻略サイト以外の個人ゲーム攻略サイトなくね?w
どーでもいい、スクショもない感想サイトや呟きレベルならあるけど >>562
昔はエロゲ以外のゲームのやつも結構あったんだよ
だからこそ「絶滅危惧種」って言った訳 Wayback machine がFlashをアーカイブして2021年以降も使えるようになるって本当? 過去にwayback machineで保存されたWebページからデータからぶっこ抜いてinternet archiveにアップロードしてみんなが使えるようにしてる人もいるみたい
https://twitter.com/textfiles/status/1330334049915858944
https://twitter.com/5chan_nel (5ch newer account) Wayback MachineでアーカイブされているサイトのFlashで作られたメニューって2021年以降に見られるのかな?
調べてもよくわからない… 若干スレチかもしれないけどどこに書けばいいのかわからないので
ニコニコ動画の「テクノ」の記事に貼ってあった
ttp://techno.org/electronic-music-guide/
このサイト、とても参考になるけど全体がFlashで出来ていて、ローカルに保存したswfでもRuffleを使ってみても(今のところ)きちんと動かなくて
このままじゃ来年見られ無くなっちゃうから元のサイト(www.di.fm)の方にFlash以外での形式で公開してほしいって伝えたいけど自分には英語力がない…
誰か英語のできる人が伝えてほしい >>568
568です
ニコニコ動画→ニコニコ大百科の間違いでした >>568
よく分からないけどこのサイトってどこかの法人が運営してるものっぽいね
他のページは更新されてるのにこれはFlashのまま放棄されているあたり、運営側としても更新する予定はないんだと思うけど あと、依頼するならここよりもテクノ系の5chスレッドを探して書き込んだ方がいいと思うよ >>565
有名なものならあるようですね
もっと増えて欲しいな ttps://automaton-media.com/articles/newsjp/20200203-112338/
こういったものもあるみたい
仕組みはいまいちよく分からないが https://ch.nicovideo.jp/nicotalk/blomaga/ar1955376
【ニコニコ動画】コメントサーバー・システムのリニューアルと、それにともなう一部機能の終了について
前にも出てたが動画跡地の他にコメントの過去ログも完全には見られなくなる模様。
うp直後のコメントとか見たい時があるので取得しておきたいけど何か良い方法は無いかな だいたい再現ってのはコメントの一部を消すってことじゃなくてコンマ以下の秒数とか表示位置が若干変わるってことじゃないかな?
過去のコメントアートが楽しめなくなるってことだから結局よろしくないんだけど 削除動画のコメントについてはArchiveTeamに依頼しようとしてた人いたよね
どうなったんだろう >>559
アフィで原住民ともめた曰く付きが管理人 2ch(5ch)が閉鎖されたら過去ログはどこかアーカイブしてるのかな >>579
ある程度は既にアーカイブされてるんじゃないだろうか
まあ閉鎖が発表されたら誰かがアーカイブプロジェクト立ち上げるだろうけど そもそも昔から2ch過去ログサイトはいっぱいあるよね
まあ最近見ないから消えたかもしれんけど 過去ログサイトとウェブアーカイブってちょっと違うような気はする
まあWayback Machineに入ってないスレは沢山あるだろうね ニコ動そのものがサービス終了したら動画のアーカイブはどうなるんだろう
やっぱりArchiveTeamかな 動画データってアーカイブ可能なの!?
じゃあ…Pornhubのデータは… >>585
一般に動画のアーカイブは技術的に難しい
ストリーミング配信の動画なんかは特に難しい 動画ダウンローダあるんだからアーカイブ自体は可能
無劣化は無理っぽいけど mp4のまま丸々上げてるサイトなら別だけど普通は無理だよ
自分でダウンロードして動画のアーカイブの方にアップロードするしかない そりゃ情弱には無理
痛いpc雑誌読者以下の情弱っぽいし ストリーミング形式はHeritrixも無理らしいという話は聞いたことがある
本当かは知らん そういえば既に知っている人もいるかも知れないが、URLのリストから一括でSavePageNowできるアドオンがある
Firefox、Chromeともにウェブストアにはないけど起動時に読み込めば、一括保存(BulkSave)、右クリックで保存とかができる
https://github.com/internetarchive/wayback-machine-webextension
ここのInstalling the Latest Buildのところにインストール方法が載ってる >>591
野良だからな〜
コード読める人、こういうの↓の検証頼む
【Firefox,Chrome】危険なアドオン・拡張機能の一覧を作るスレ【Edge,etc】 [無断転載禁止]©2ch.net
https://egg.5ch.net/test/read.cgi/software/1483763294/33
33 名前:名無しさん@お腹いっぱい。[sage] 投稿日:2018/02/13(火) 11:00:20.51 ID:aB7Xo92Z0
ソース見てXMLHttpRequestかfetchが書いてある場合は注意した方が良い。
XMLHttpRequestかfetchはpostで情報送信できるので。manifestのパーミッションも不要だし。
拡張で情報送信できるのはこの2つの関数だけだと思う。 WayBackMachineにSo-netが追加されてた
今回は全てを取得することはできなかったみたいだがほとんどを取得できたみたい
感謝ですね 外出自粛で引きこもり増えてるんだからウェブサービス全盛かと思うのにな
サービス終了ラッシュで流れ弾のどれかに当たって鬱こもり増えそう IPFSが普及すれば価値のある情報がもうちょっとは残りやすくなるのかな
ピン打つだけでローカルに保存できるの便利 >>596
家でもスマホって人が多数派だろうからPC向けのサービスには辛い時代 そういや自分で適当にサイト立ち上げてそこにバックアップしたいURL書き込み、してIAでsave outlinks使えば実質的にそこに書いてあるURL一括でバックアップできるよな?
save outlinksは会員限定機能で特定のページ内に書いてあるURL全部バックアップする機能 これ思いついて今までURLに置換ツールで/save/つけてクリップボード一括開きしてたのが馬鹿らしくなった
あれサーバーに負担かけるしエラーの確認だので時間とられるし
注意点としては余計なリンク作らないことだな、だからブログとかでやるのはやめたほうがいい
何回も同じリンクをバックアップするから規制される可能性もあるし、真っ白なページ作ってURL記述が最善
読取用にHTMLでURL記述する必要があるが置換ツール使うかブックマークインポート使えば簡単にできるはず 何個だったか忘れたが、save outlinksは読み込める外部リンクの数に上限があったはずだからそれは要注意だな やってみたらできた
URLの一覧をHTMLコードに変換してホームページ作成サイトにアップロードしてからそのリンクをバックアップ
save outlinksでバックアップできるURLは100個が限界で100個超えてたらランダムに選ばれるみたいだから要注意
FC2ホームページ使うと最後にPowered by FC2ホームページ っていうリンクが強制で1つ最後に入ってしまうから実質は99個が限界かな
完全に真っ白なページ(広告もなし)作れれば理想なんだがどっかないかな、ちなみにAndroidスマホをWebサーバー化したらバックアップ時にエラーが出た >>602
GitHub PagesかNetlify使ったら?
前者はGitの知識がないと厳しいから実質後者一択かな >>603
なるほど、やってみたけどやはり手軽なのはFC2だな、indexファイル含めたフォルダごとアップロードしないといけないのは地味に手間だ
FC2はファイルマネージャーにドラッグドロップするだけでアクセスできるようになるからかなり時間効率はいい
複数バックアップのリスクもこれ見る限りでは大丈夫そうではあるな
https://imgur.com/a/f0XwCdA.png ただ複数ファイル最初からアップロードするならNetlify使ってやったほうがやりやすいかもね
100ジャストだから数えやすいし
URLに/ファイル名 つけるだけでまとめてアップロードしたhtmlにはアクセス可能 https://i.imgur.com/WXbHftz.jpg
https://i.imgur.com/xdvJ1eJ.jpg
とりあえずまとめてバックアップしてみたけど上限の100個でも問題なくできるね
特定のURLがずっとSavingが続く場合は画面のURLをバックアップ成功したの含めて全部コピーしてメモ帳に貼り付けしてサクラエディタとかで「Done!」が入ってる行を一括削除処理するとバックアップできてないURLだけメモ帳に残せる
そしたらサクラエディタで/web/2/付け足して数日経ったらまとめて開いて保存できてるか確認、一見ずっとsavingになってても後で確認したら保存できてる可能性が高い、バックアップできてなければ再度バックアップ
これで、手間がだいぶ減る
あとFC2ホームページは日本語の入ってるURLは文字化けするね、netlifyは特に何も設定しなくても文字化けはしない あと、これやるならsave error pagesのチェックは毎回外したほうがいいかも
大量にやるとバックアップされる側が一時重くなるのもあるから404ページが保存されてしまうかもしれない ゲームやりながらほぼ放置でURL1600個バックアップできた、一度に100個保存できるのは革命だな
やはりsave error pagesのチェック外すのは必須、結構高い頻度でgatewayエラー出るから
多くて100個中5個くらい、出るときはだいたい1.2個エラーになる
チェック外しておくとwaybackmahineがどのURLがエラーで保存できなかったか通知してくれるからそれは手動で個別にバックアップ >>608
さすがに大量のリンクをアーカイブするのはSPN側のキャパもあるだろうしArchiveTeamに頼んでSPNじゃないところでアーカイブしたほうがいいと思う。
じゃないとSPNのサービス縮小、最悪の場合はSPN終了になりかねない
ArchiveTeamのIRCでDeepl翻訳とか使って言うと対応してくれるらしいので
https://webirc.hackint.org/#irc://irc.hackint.org/#archiveteam-bs Save Page Nowあんまり使いすぎてSPN自体が無くなったらどうしようもないから、自分はSPNでアーカイブする量をセーブしてる
多くても週300くらい >>609
Save outlinks自体が大量バックアップしてくれっていうような機能だし大丈夫じゃないか?
ブログとかだったら意図的じゃなくても1ページ50リンク以上あるとかザラだし、大量バックアップ推奨してなかったらあんな機能普通つけないよ
個人的に無会員で大量にタブ開いてバックアップするのが一番負担かけるやり方だと思うわ、それよりはかなり負担少ないように感じる
save outlinksが会員限定機能な以上邪魔になったらアカウント制限しにくるだけ、何個も重複してバックアップとか意図的に負担かけるようなことしなければ平気だとは思うけど、ただしやりすぎは禁物かもね
あと正直archive teamは画像のバックアップを正常にとれないみたいだから画像ありきのページだと正直依頼するには微妙かもしれない、Naverまとめとか画像まともに表示されてないものが多い、手動で保存したものはしっかり表示される
waybackmachineの自動クロールも画像保存されないことある、手動だとやはり保存される
負担減らしたいならバックアップ済はバックアップしないってチェック項目あればいいのにね 別に問題ないと思うよ
よく負荷がどうこうっていうけど、個人サイトじゃあるまいし影響は無い 【告知】ニコニコ動画のコメントサーバーリニューアルに向けた機能提供終了・変更のお知らせ【PC版ニコニコ動画】|ニコニコインフォ
https://blog.nicovideo.jp/niconews/147588.html >>614
■ 実施スケジュール
実施日時 実施内容
2021年3月1日(月)
過去ログ機能の変更
過去ログのURL共有機能を提供
2021年3月15日(月)
削除された動画へのコメント投稿とコメント表示の終了
- 動画タイトルや説明文などの情報も表示されなくなります
マイメモリー機能の提供を終了
- マイメモリーの新規作成や、 既存マイメモリーの視聴ができなくなります
2021年 春以降
動画コメントサーバーを新コメントサーバーに順次リニューアル
2021年リニューアル
完了後
動画投稿一覧などに表示される最新コメントに、投稿者用NG設定を適用
「コメント投稿ユーザーをNG登録」する機能の効果を永続化
自分が投稿したコメントを削除できるように outlinksとGoogleSpreadsheetのバッチ処理が使える。 iRONNA終了
> 2014年10月にスタートした総合オピニオンサイト「iRONNA」は、
> 諸般の事情により2021年3月下旬をもって新規コンテンツの公開を終了することになりました。(中略)
> 尚、終了後もこれまでのiRONNAのコンテンツが閲覧できる環境を維持するための態勢構築を進めています。(後略)
https://ironna.jp/article/16883
閲覧は維持してくれるらしいので緊急性はない。 せっかくwaybackmachineでアーカイブしたのに、どうアーカイブされているか見ようとしたら別の日にアーカイブされたものに飛ばされてしまった。
少し待たないとダメな感じ? 基本少し待って確認だけどそれでも反映されてなかったり、反映されてるけど取れてなかったりする。 ここ最近は調子悪いからしばらく様子見たほうがいいよ この前読んだ漫画に、WaybackMachineを使っているシーンがあった
1コマ程度だけど Archive Teamでニコ動のコメントとメタデータ(タイトルとか説明文)の保存が始まった
動画の中でも日本からしか見れないものとかはArchiveTeamの人からは取得できないらしく
Dockerを扱える人いたらWarriorというパッケージを導入すれば誰でも貢献できるのでやってくれるとありがたい
https://hub.docker.com/r/archiveteam/warrior-dockerfile/
https://wiki.archiveteam.org/index.php?title=ArchiveTeam_Warrior 最近ニコ動の調子が悪いのはこれのせいなの?
落とすようなのはリスクあるから自分とこのIPではあまりやりたくないな… ■ このスレッドは過去ログ倉庫に格納されています