【保存・記録】ウェブアーカイブ総合 Page.01
■ このスレッドは過去ログ倉庫に格納されています
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう >>443
>>444
微妙なラインだよなー
ぶっちゃけるとそのサイトはジオシティーズドメインのページで、ジオシティーズの
URLは普通にアーカイブ何万も保存されてて見られるんだけど、そのドメインのサイトは
除外されてるんだよな
自分はそもそもの管理者じゃなくてそのページのファンで、もしまた見られるなら
自分が読んで楽しみたいだけなんだけど、やっぱ厳しいかもしれんな ArchiveTeamがNAVERまとめのアーカイブ作業に取り組み始めてくれてたみたい
進捗はわからないけど、これでひとまず安心かな
漏れもあるだろうから重要なページは各自で保存する必要があるけどね
>>435
pythonでスクリプト組んで収集した
ArchiveTeamはIRCを使って活動してる
サイトの#から始まるリンクをクリックすれば各プロジェクトに対応したチャットルームに行けるよ
コマンド入力でクローラ操作してる人がいるArchiveBotの部屋が活発なイメージ >>446
なるほど、どうもありがとう
ArchiveTeamが動いてくれたなら最悪の事態は避けられるはずだな...
もちろん>>432(446)の収集したURLあってこその事だから自分も見習わないといけないが NAVERまとめデータ共有
csvデータ(URL, ページ数, タイトル)記事数:1472709, 更新日昇順, 192 MB
https://web.archive.org/web/20200913150754if_/https://transfer.notkiska.pw/r9mfn/NAVER_matome_article_list.csv
※収集後に更新されたことでタイトル、ページ数が異なったり削除されていたりする可能性あり
トピック一覧ページから収集したからトピックが設定されてない記事は1つも収集できてない >>448
503エラーのページがアーカイブされているんだが ごめんなさい。恥ずかしいのですがarchiveteamって何ですか? Wayback Machineが一時的に落ちてただけだった
何回かリロードしたらちゃんとダウンロード出来たわ、すまん >>450
ウェブアーカイブを組織的にやってる(おそらく非営利の)団体
ArchiveTeamが保存したコンテンツはInternet Archiveで公開される仕組みになってる
正直に言うと自分もArchiveTeamの公式サイトを読んでる途中だから、具体的な活動の様子とかはちょっとわからない
https://ja.wikipedia.org/wiki/Archive_Team
https://www.archiveteam.org/ 【ネット】1000万件以上の研究論文がオンライン上から消失することを防ぐインターネットアーカイブの取り組みとは? [すらいむ★]
http://egg.5ch.net/test/read.cgi/scienceplus/1600244016/ >>454
Braveいいよね特にスマホ
ポイントサイトで乞食活動やるよか割もいいし 今更NAVERまとめをローカルに落とそうとしているのだが
Website Explorer・WinHTTrack・Cyotek WebCopy
はうまくいかず(設定ミスがあるのか?)
NAVER&FC2まとめダウンローダ
http://shimarisu.webcrow.jp/naver_matome.html
は画像もhtmlも一応取れるのだがhtmlにダウンロードした画像
はリンクされてない。
後はmhtとpdfぐらいしか無く……
他の人はどのようにローカルに落としているのでしょうか? そもそもローカルに落としてないな...
Wayback Machineに頼ってる Naverまとめはほぼバックアップされてるっぽいから安心した
ただNaverのトピックのアーカイブの表示がいろいろおかしい、まったく違う記事名出たりする
どうやらNaver側はURLの大文字と小文字を区別してるのにウェイバックマシン側では区別してないから発生するバグっぽい
トピック見れなかったら別の時間のアーカイブ参照すると見れることがある
例えばトピックのIDがaaabbの場合IDがAaaBbやAAABBの別トピックもウェイバックマシン側がaaabbとして扱うから収集された時間で記事が混在する
2ページ以降のトピック表示は2ページ目の存在による
aaabbにだけ2ページ目以降が存在すればaaabbしか表示されない、他のIDにもあると2ページ以降も混在状態になる
aaabbに2ページ目がなくてAaaBbにある場合もURLいじったりして2ページ以降行くとAaaBbの2ページ目が表示される
NAVERまとめ共有データの中を特定のワードで検索してそこのまとめにアクセスして所属トピック押せばある程度好きなトピックに飛べるから有効に使えると思ったけど少し難ありか
記事にはまったく関係ないから大丈夫、トピックURLが英数字5文字で大文字小文字の違いで別ID扱いされる仕様により起きてるだけだから
記事の中身のURLで個別化されている部分は全部数字だから大丈夫 ツイッターを見ているとNAVERまとめがなくなったことを喜んでる人結構多いし、
何なら「あんなの保存しとく価値はない」みたいな意見も見受けられる
でも、アーカイブが必要かどうかを判断するのは現在生きている自分たちじゃなく将来の人々だと思うんだよね
自分もYahooブログが終わった時は「あんなの保存したってしょうがないだろう」と思っていた側だったんだけど、サ終してしばらく経ったある時、
自分の専門分野に関するとある重要な記録がYahooブログ上で公開されていたらしいこと、
なおかつブログ主が亡くなっていて再公開の見込みもないこと、
そしてどこにもそのアーカイブが残っていないらしいことが判明して、かなり後悔した事があった
これはあくまで一例に過ぎないけども、とにかくWebアーカイブを取る必要があるかどうかは取る側の人間ですら判断できるものじゃないんだと思うわ
長文&自分語りすまない しかしまあNAVERまとめをブログ代わりに使ってた人結構多かったみたいだな >>459
バカッターなんて結論決まってて後押し(確証バイアス)がほしい時だけ見るもんだよ
今回のなんて馬鹿は想像力も共感力も低くて他人の痛みが分からないから見るだけ無駄だったわけだし >>461
確かにそれはそういうものなのかもしれないな ArchiveTeamのリソースほんとすごいな... 「Webスペース」 サービス提供終了について
https://www.so-net.ne.jp/info/2020/op20200908_0039.html
平素はSo-netをご利用いただき、誠にありがとうございます。
このたび、誠に勝手ながら、2021年1月28日(木)をもちまして、「Webスペース」サービスの提供を終了させていただくこととなりました。 https://www.so-net.ne.jp/option/upp/
U-page+は、2021年1月28日(木)15:00 にサービスの提供を終了します so-netが終了したらまた古のインターネットが色々消えるな So-netブログはSeesaaに成ったからブログ以外か… so-netのURL収集を始めることにしました
知っているURLがあれば追加してください
現時点でユーザー名単位で2万程度、個別URLでは300万くらいDBに入ってます
https://geolog.mydns.jp/so-net/
特にJavaScript等から呼び出されるファイル群は網羅が難しいので、何か良い手があれば >>469
日本語版ウィキペディアの外部リンクから2000個ほど抽出したんですが、スクリプトでの送信とかって受け付けてます?
(既に収集済みのものとだいぶ被りがありそうですが) >>470
特に制限はしてないですが、処理速度的に現実的ではない気がするので、
フォームを改行区切りで複数受け付けられるように直したいと思います geocitiesのときはそれなりに貢献できたけど今回はブクマ見てもso-netなかったわ・・・ 【告知】ニコニコ動画のコメントサーバーリニューアルについて
https://blog.nicovideo.jp/niconews/141893.html
> マイメモリー機能の提供を終了
> ・マイメモリーの新規作成や、 既存マイメモリーの視聴ができなくなります
> 削除された動画へのコメント投稿とコメント表示の終了
> ・ 動画タイトルや説明文などの情報も表示されなくなります
期限は「2021年の春までに実施」とのこと 削除済み動画を全部リストアップして、動画説明文/タイトル/コメントなどの情報を取得していく感じか
コメントに関してはXML形式で取得する手法があったような気がする
マイメモリー機能は使ったことないから分からん sm1から順に数字をカウントアップしていけばいいのかな >>472
検索で引っかかったサイトは送信した
WaybackMachineにも保存できないかな >>478
Google検索なんて糞化が酷くてもう使ってないからどーでもいい 世界一使われてる検索エンジンだしな
個人の好みとしてはGoogleが何をしたってどうでもいいとしても、
影響力を考えると決して無視はできないよ 数年前からネットサーフィン=スマホに成ったからなぁ… Google 絶対じゃなくなったんであまり件数ヒットしない検索ワードは Bing や Yandex 併用だよ。 >>477
誰かがArchiveTeamにURLリスト渡してくれれば多分保存できる
NAVERまとめの時はアーカイブ開始までに1ヶ月くらいかかったから保存したい場合は早めに相談したほうがいいかも wgetでWARC.GZファイルを書き出したとき画像ファイルとかも格納される?
どなたかご存知だったらお願いします >>485
WARCは画像ファイルや音声ファイルも含めてページを丸ごと保存する仕組みになっているから、
--page-requisitesオプションを付けて確実に画像がダウンロードされるように指定すれば、ちゃんと画像が格納されるはず >>487
ありがとです
--page-requisitesがうまく反映されてなかったみたいでした コロナ騒動の最中に消えていったお店のサイトも手動で保存している。 >>469 を使ってみた
URLをページ内検索で探したらなかったのに、送信するとDBにあると出た...
ページ内検索がダメなのかな
あと、文字化けしているところがあるけど大丈夫なのかな >>491
どのURLでしょう?
ロジック上は文字コードを考慮していないので、文字化けはそのせいかもしれないです
一応UTF-8のはずなんですが ttps://archive.st が全然取れなくなってしまった そこってサイトによって取れたり取れなかったりしない? >>493
そこって消える前のフリーウェアとかアーカイブ出来ないクソじゃね >>496
自分の目的が果たせないものをクソ扱いするのは幼稚だからやめような
フリーウェアはInternet Archiveに持っていくとか、
証拠に使うから削除されたくないものは削除申請が通りにくいarchive.today使うとか、
各サービスを使い分けるのがより無難だよ 「Yahoo!ライフマガジン」サービス終了のお知らせ
この度「Yahoo!ライフマガジン」は、2021年3月31日(水)をもちまして、サービスを終了させていただくことになりました。
記事コンテンツは、引き続き「Yahoo! MAP」アプリ上でご覧いただけます。
これまで長きにわたりご利用いただき、ありがとうございました。 chakuwiki存亡の危機
友人との永遠のお別れ
https://midorikawa.themedia.jp/posts/10408887/
運営していた谷口 一刀さんが8月に亡くなられた事により
12月にドメイン名でのアクセスが不能になった。
(IP https://52.69.139.163/ では可能)
遺族は存続に消極的みたいな模様。
バックアップはしてみたいものの
かなりの容量だと思われるからなあ〜
どのぐらいの大きさなんだろうな。 もっと早く情報投げて貰えればドメイン失効前にどうにか出来たのに ChakuwikiってMediaWikiだったのか
それなら一応記事のエクスポート機能があるから、これに頼るのが現実的かな
https://www.mediawiki.org/w/index.php?title=Help:Export/ja >>502
[[特別:統計]]によると記事だけで17,306個もあるみたい
Botとかで一度にエクスポートできるの? >>503
勘違いしてた。一度にできる方法があるのか chakuwikiスレにこのスレッドのURLを書くだけ書いてきた archive teamにwiki保存担当のwiki teamってのがあるからそこで事情を話せば多分保存してくれる
wiki teamのチャットルーム
https://webirc.hackint.org/#irc://irc.hackint.org/#wikiteam
wiki teamについて
https://www.archiveteam.org/index.php/WikiTeam どうなるか分からないけどwiki teamに伝えておいた
今調べてくれてるらしい SSLの問題で通常のwikiのダンプツールが機能しないらしい
詳しい人いますか? すまんアーカイブの準備がある程度できたらしい
wiki team 変更になるかもしれないけど今のところChakuwikiのアーカイブ状況は
このページから確認できる (ident: 2ns616z58rh5gawijen5s2foi)
http://dashboard.at.ninjawedding.org/3
アーカイブ対象のURLは https://52.69.139.163/
ある程度時間が経ったらWayback Machineに反映されるよ 教えて下さい。
Chakuwikiのこのページをアーカイブ化したいんですが、
なぜかうまくいきません。
https://52.69.139.163/index.php/中野_(中野区)
なにかエラーかバグが起きているようなのですが、
回避策はないのでしょうか。 >>515
Internet ArchiveのSave Page Nowで'Job failed'とか出るということなら、それはInternet Archive側の内部エラーだからどうにもならない >>512
アーカイブ対象はIPで保存しているようだけど
Wayback Machineにはドメイン名でアクセスできるのでしょうか? >>517
無理なはず
アーカイブをした対象のURLがIPアドレスであるならば、Wayback MachineにもIPアドレスのまま保存されます
chakuwiki側がドメインを改めてIPに紐づけた上で、もう一度アーカイブを取り直すしかないです >>507
archive.org にサイト指定してarchive bot走らせること依頼出来るの知らんかった
ニコニコ実況もできたのかな >>515
さっきそのページ試してみたけど普通に取れましたよ
多分chakuwikiかInternet Archiveのどちらかでたまたま内部エラーが起きたんじゃないかと思う >>520
ありがとうございます。
教えてちゃん状態で申し訳ありません。
こちらのページは可能でしょうか。半角記号が間に入ると保存できないということなのかと思いましたが、常にそうでもないようで……
https://52.69.139.163/index.php/玉造_(大阪市)
https://52.69.139.163/index.php/小阪_(東大阪市)
https://52.69.139.163/index.php/仁川_(兵庫) >>521
全て保存できてます
507氏の申請により、海外のArchiveTeamという非営利団体がbotをぶん回して現在進行系でアーカイブを取ってくれてます
ArchiveTeamのbotが収集したデータはInternet Archive上に移管されるようになっているので、わざわざ手動でアーカイブ取る意味は薄いです chakuwikiのAWSの契約がいつ切れるか分からない以上、時間との戦いって感じかね
保存対象として読み込まれてるリソースの数は現時点で総計173万個
さすがに1ヶ月後までには終わってると思うんだけど心配だな >>507
>>522
ありがとうございます。
因みにそのアーカイブサイト上のChakuwikiページはどちらになるか、わかりますでしょうか。 >>525
反映される時期は不明だけどWayback Machineから
https://52.69.139.163/ で始まるURLで検索すれば閲覧できるようになるよ
ちなみに保存されたルートはアーカイブされたページの右上にあるAbout this captureを押せばわかる
Live Web Proxy Crawlsは一般人が通常通り手動で保存した場合で、Archive teamとかだったらbot経由で保存されてる
https://i.imgur.com/O6IOeI2.jpg
https://i.imgur.com/GL1hLBT.jpg 少なくともChakuwiki関係者の誰かがドメイン取って
Chakuwiki.netから52.69.139.163に転送するようにすればつながるのかな?
確かサイト移転どかで転送する際はアーカイブでも転送してくれたっけ? >>527
そこまで至れり尽くせりではない
Internet Archiveがドメインの名前解決をしてくれるわけじゃないので、
新しくドメインを取ったところで、52.69.139.163で取られたアーカイブには転送されない https://blog.nicovideo.jp/niconews/141893.html
2021年の春までにニコニコ動画の削除跡地の動画タイトル、説明文、コメントが消えるらしいので
どうにかしてアーカイブを取りたい
ただ、保存ツールはNicomentXenoglossiaが使いやすいんだけど、
アクセス制限の関係上1時間で250件くらいしか落とせないから全削除動画を落とすのは現実的じゃない
仕方ないからコメントは諦めて動画タイトルと説明文だけでも視聴ページからアーカイブしたいと思ったんだけど、
今年に入ってから削除動画は非ログイン状態だと一切表示できなくなってるんだよね…
ArchiveTeamはログイン状態でアーカイブすることって出来るんですか? >>529
自分はArchiveTeamと直接連絡を取ったことはないので断言はできないけど、
可能な限りの融通は効かせてくれるんじゃないかと思う
とりあえずArchiveBotのIRCで相談してみてはどうだろう、DeepL翻訳やみらい翻訳を駆使すれば英語が無理でも何とかなる
https://archiveteam.org/index.php?title=Internet_Archive
https://archiveteam.org/index.php?title=ArchiveBot >>526
ありがとうございます。
こちらのスレの皆様には本当に助けていただきました。
ありがとうございました。 >>530
今の機械翻訳は優秀だし、日本の教育水準はなんだかんだ高いから、
高校まで真面目に英語やってれば大学でサボってても機械翻訳のおかしなところ微調整で長文も余裕 このスレへの書き込みのみを見る限り、chakuwikiはこのスレが建ってから初めて大規模アーカイブにまで持ち込めた案件ってことになるのかな
実際に依頼したのは>>507ではあるけど でも情報をここに書き込んでくれた>>499がいなかったらそもそもArchiveTeamへの連絡にこぎつけることもできなかった訳だしな 連絡しなくてもサイト全体をダウンロードする方法を書いてくれた人もいるのに、
ここの住民は知識だけで人に任せるしかできず、初めからやる気がないんだろ >>536
上で書かれてるサイト全体をアーカイブする方法は、主に使ってる技術とサイトの規模の問題で全く使い物にならない
ArchiveTeamは実績も知見も関係各所へのコネもあるところなので、
大規模なサイトを対象にする場合はあそこの力を借りるしかない
こういう言い方はしたくないが、知識もなければ自前でクローラ回したこともない癖にイチャモン付けないで欲しいわ >>537
個人でやれる事なんてせいぜい大型個人サイトまでだもんね
wikiみたく大勢が集まって作っていくようなのは漏れが出やすいしね ジオシティーズもGeoLogプロジェクトが半年くらいかけて収集してたけど、ArchiveTeamはその10倍くらいの量を60%くらいの時間で処理してた記憶 >>531
自分も保存したいと思ってた
IRCログだとアクセス間隔を開けないといけないという話で終わっている気がするけどどうなるんだろう‥
とりあえず具体的な日程が出次第即IRC側に報告しよう お尋ねしたいんですが、Webarchiveで一度アーカイブされていて、
きちんとその状況が確認できていたものが、
アーカイブから消されることってあるのでしょうか。
因みにアーカイブしていたのはChakuwikiの一部ページです。 前からたまになかったっけ?このスレでも上の方で何度か言われてたような ■ このスレッドは過去ログ倉庫に格納されています