【保存・記録】ウェブアーカイブ総合 Page.01
■ このスレッドは過去ログ倉庫に格納されています
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう >>175
Internet Archiveスレでも情報共有しとけ
手動Save Pages Now以外の方法を知らない人達ばかりだから相当喜ばれるぞ ヤフー「Yahoo!コンテンツディスカバリー」サービスの終了を発表
https://media-innovation.jp/2019/05/16/yahoo-revealed-they-stop-ycd/
【解約と配信停止のスケジュール】
6月中旬頃 解約通知書の発送開始予定
9月2日 コンテンツ修正相談受付終了
9月6日 コンテンツ修正相談の結果問合せ終了
9月13日 入稿時審査受付終了・タグ発行・掲載面ブロック等の配信設定業務受付終了
9月20日 入稿時審査の問合せ終了
9月30日 Yahoo!コンテンツディスカバリー 配信停止(順次)
11月29日まで Yahoo!コンテンツディスカバリー 管理ツール等の最終停止(順次) Yahooブログアーカイブ活動スレより引用
0031 Trackback(774) 2019/05/18 14:30:36
yahooブログは「記事がありません」のページで404を返すのだが、web2IAWBM.dmsが404のページを解析できなくてリンクをたどれていない可能性がある。
ブラウザでは普通にリンクをたどれる。
ID:l5DCkLS9 サイトごとにやってると分かるけど、途中で止まってることがよくあるから、
終わったらブラウザで確認した方が良い。 Archiveteam (Google 翻訳)
https://translate.google.co.jp/translate?hl=ja&sl=en&tl=ja&u=https%3A%2F%2Fwww.archiveteam.org%2F Index of /
ttp://infoseek_rip.g.ribbon.to/ >>78
GeoLog Project
https://geolog.mydns.jp/
> お知らせ
>
> 2019/05/12 16:30
> ・URLを変更しました。リンク切れ等の不具合がもしあればご連絡ください。
> まだ旧ドメイン名が残っている部分がありますが、こちらは順次修正します。
> ・GeoCities URL収集 ttps://geo.98nx.jp/ 様にてアーカイブされたデータを順次統合中です。
>
> 2019/05/08 23:50
> ・近日中に、以下のとおりURLを変更します。
> 旧URL:https://thaliana.mydns.jp/GeoLog/
> 新URL:https://geolog.mydns.jp/
> 移転後も、旧URLはリダイレクトとして残す予定です。 サーバーエラー出てる間のは保存されてないのに緑のチェックマークで成功扱いになるから注意して ニュース記事は2ページ目以降が保存されていないことが多いよな。
魚拓も、1ページ目を保存しただけでは、2ページ目以降は保存されないよな?
パッと見保存されているように見える >>191
あぁまたか、あそこは良く DNS から消える。
でもサーバはしっかり生きてるんだな、これが。 GASにアーカイヴ作業させられないかな
10分おきに起動 ニュース記事みたらSave Pageするのが習慣になってきた。 同一のIPからの連続取得は制限されています。
同一のIPから24時間に60回以上の取得は出来ません。
https://i.imgur.com/1j0uQZj.jpg 一日に間隔をあけて数回アーカイブするくらいなら何とかなるのでは
誰か試して見てくれ ArchiveBoxというものを見つけた
自前のマシンでウェブアーカイブをするためのオープンソースソフトウェアだって
https://archivebox.io/ >>198
基本的にCUIで操作するものなので注意
自分でリンクを辿るのではなく、アーカイブするURLのリストを読み込ませる方式らしい
HTMLやWARCはもちろん、画像やPDFでの出力にも対応してるのが便利そう [JavaScript] Wayback Machine Script - Pastebin.com
https://pastebin.com/ZxryGY8F
Automatically save the page you visited (or all links you can see) to "Wayback Machine".
試していないので使えるかどうかはわからない getASFstreamも実行ファイルがIAから削除されてるな。 getASFstreamはVectorのが生きてたからまだ平気か。 ルートラボ2020年3月末終了
https://www.itmedia.co.jp/news/articles/1907/03/news096.html
これはWayback Machineでも保存できないので同じようなサービスにデータを
移行したもの以外のデータは消え去ることとなる。
これからこのようにアーカイブできないデータは増えていく一方だろう。 アーカイブできないデータの筆頭がオンラインゲーム・ブラウザゲーム・ソーシャルゲームだよねえ 昔流行ったフラッシュはアドレス直打ちSavePageNowで保存できたけどゲームは分からん。 goo blogの「株式日記と経済展望」がいつの間にか見れなくなってる
IA見ると2019年1月7日の記事の最後にしばらく休みますと書かれている
https://web.archive.org/web/20190314154224/https://blog.goo.ne.jp/2005tora Wayback Machineやたら重いんだけど
時間帯によるもの? スクリプト走らせてる人が70人近くいるはずだし重くなっても不思議は無い。
保存されているかを確認するために実際に開いて確認してから保存している。
同じページを何度も確認していたなんてこともあると思う。 ここの住人にYahooブログをアーカイブしてほしい 異様に書き込み減ったし多分みんな保存してる。
個別にURL指定してくれれば優先する。 ジオシティーズの時のようにURal収集フォームみたいなのがあれば便利なんだけどな 質問です。
Wayback Machineを使って、見たかったサイトは見つかったのですが、画像はありませんでした。
その画像を見つけることはもうできないのでしょうか? GASは程度にもよるが増やしすぎるとすぐこうなる。思ったより使えない。
> サービスで 1 日に使用しているコンピュータ時間が長すぎます >>217
そうなんですか、残念ですがありがとうございます ロリコンはネトウヨ
女叩きしてるのはBBA
DQNも何方かと言えばネトウヨ色が強い
5chとネット上で、金魚の糞を巻き散らかしてるのはコイツら 改憲なんてしてもアメリカが作った自作自演の戦争に巻き込まれて戦争犯罪に加担するだけじゃん。
愛国者なら9条改正には反対しないと。どこの国も上層部は裏で繋がっている、つまり中国韓国ロシアはアメリカと通じていて、本当の敵はアメリカの中にいる。
敵国条項は残っているんだから日本がちょっとでも怪しい動きしたらロシア中国韓国アメリカから攻撃されて今度こそ日本無くなるぞ。
そして、緊急事態条項は独裁完成法。
独裁完成したら安倍晋三が死ぬまで安倍政権が続くぞ。 >>175のやつ最近のログ見たら保存されてないのに保存済みと表示されて保存してないURLある事に気付いた。
IA側が仕様変更したのか? >>223
Show Allでは確かにキャプチャーがあるのに、それを開くとHrm.で表示できない。 閉鎖がアナウンスされてるサービスについては、
Wikipediaから参考文献などとしてリンクを貼られているサイト、Twitterでシェアされているサイトを優先してアーカイブした方がいい
ジオシティーズの時もこの方式が取られてたと思う
Yahooブログのアーカイブを考えてる人がいたら参考にしてくれ >>222
アドブロックが普及しすぎて、ブログサービスはどこも儲かっていないらしい。 >>226
スマートフォンだと余り普及して無いけど、
スマートフォンでブログやる人って少ないのかな… https://shibuya-game.com/archives/53188
諸般の事情により、SHIBUYA GAMEは2019年9月20日をもちまして更新を停止し、2019年末をもって閉鎖します。 >>229
https://shibuya-game.com/all-posts/page/1
このURLを起点に全記事のURLを抜き取ってInternet Archiveなり何なりに投げればいいな
作業する余裕のある人あと1か月でよろしく >>230
今のところ1768個の記事があるらしい 情報が古くても需要がありそうなのは
小説・漫画・映画のレビュー・考察サイト
ゲーム関係のサイト(攻略サイト・レビューサイトなど)
Web小説
あたりか アーカイブしたいサイトがある時、どうやって保存するの?
Winなら巡集みたいなソフト使ってやるの? Macではターミナル? >>237
Windowsしか書いてないけど、macで行ける? Macはもってないので分からない。
>>175のやつWindowsでも機能していない可能性がある。保存されたって出てるけど実際は保存されていないとか。 サービス終了に関するご報告
https://www.rich.co.jp/news_article/20190930/
>この度、2015年よりサービスを続けてまいりましたメディア「ヘルスケア大学」について、当社事業領域の整理に伴い社内リソースを別領域に集中させることに決定し、2019年9月30日にサービスを終了することとなりました。 ワイ「古い車買ったろ。整備は大変そうやけど、ネットには先人の知恵がいっぱいや」
1 :名無しさん@おーぷん:19/09/27(金)23:31:11 ID:2JG主 ×
ジオシティーズ「ん?」
ディオン「んん?」
ニフティー「んんん?」
2:名無しさん@おーぷん:19/09/27(金)23:31:38 ID:2JG主 ×
先人の知恵、消える
3:名無しさん@おーぷん:19/09/27(金)23:31:46 ID:6EZ ×
しゃーない
5:名無しさん@おーぷん:19/09/27(金)23:32:30 ID:cUL ×
悲しいなぁ… 各アーカイブサービスの検索機能が優秀なら良いんだけどな
保存してもそれを探し出せないなら死蔵と変わらんな 無料ソフトウェアのサイトは保存されてても実行ファイルを含むzipファイルは保存されていません。
可能な限り保存します。 >>242
単にアーカイブしたファイルの中身に対して検索を行えるかどうかの話。
それを優秀などという語でしか表現できない貧弱なボキャブラリー。 Googleとかで「 site:web.archive.org」を付けて検索するのが現実的かと。 wikiうんぬんの話が出ているので、いくつか使ったことがあるから書いておくけど
atwiki SeesaaWiki FC2wiki などはそれぞれ記法が独特でバックアップが取れない
atwikiは特に仕様がころころ変わる上に不具合発生率も高くて、書き込みだけに集中できないし
アカウントを削除してもサーバーからデーターが完全削除されないみたい
pukiwiki/pukiwiki plusベースのところはdumpデーターは取得できるけど
運営が個人だったり個人で会社を作ってやっているところはその人がどうにかなると連絡が取れなくなる
それでもサーバーやドメインが維持されいるとサービスは利用できるけど
ある日突然使えなくなることがある コンテンツ制作側としてのバックアップの話をここでやってどーするの。 個人サイトで無料/有料に関わらず共用サーバーを使っている場合
サーバー管理会社によってサーバーのスペック変更が行われると
サービスが終了していなくてもサイトが閲覧不可になることがあるよね
PHP5.3までしか対応していないものを使ってサイト運営をしているのに
サーバー側がPHP7.2にしちゃったとか
サーバーを丸ごと交換してデフォルトがUTF-8になったのに
サイトのほうでcharsetを指定していないとか
DBのバージョンが上がってデーターが呼び出せなくなった
等の理由で、閲覧が困難になるケース
閲覧しに行って真っ白だったり文字化けしていたりするのはこの辺の理由 そういやPukiWikiのサイトをInternetArchiveで保存させる場合、
一覧ページから数階層分のURLを掘って、その全URLに/save/リクエストを
発行すれば完了だろうな。
適当なツールが無ければIrvineとメモ帳のテキスト置換機能を使えばよい。
ソースのバックアップの話はスレチ。 このスレで使うwikiが消滅する場合の対策の話じゃないの。 >>244
人の揚げ足取る暇があったらアーカイブしろ だいたいページ内容の走査だけで検索機能実装しても優秀とは到底言えないからな
検索エンジンサービスのようにページランク等を考慮して初めて、優秀というかようやく使いものになる
アーカイブサービスのように膨大な数のページを検索しなきゃいけない場合は、そういったアルゴリズムの必要性がさらに高まる
こういう話をいちいちするのが面倒だから話を全部ひっくるめて「優秀」の一語で表現した
これで満足か? ページランクは固有名詞に近いからランキングアルゴリズムと言うべきだったかもしれない クソリプが跋扈するツイッターや人口の多い他の5ch板ならまだしも、
このご時世にこんな専門板で、横からいきなり会話してる訳でもない相手からレスが飛んでくるとは思わなかった
随分面食らったわ >>256
また話が出るかもしれないから一応書いておいただけ
atwiki上のサイトで差分が見れないところがあったから
archive.orgで探してみたけど
archive.orgのbotをatwikが蹴っているみたいで最近はエラーページが保存されちゃってる
意図的にそのページを残したい人がarchive.orgのアカウントを作って残す場合は別として
消えちゃったページを後からarchive.orgで探すのは難しくなっていると思うよ
クローリングの期間がだいぶ開いている
これはGoogleのキャッシュもそうだと思う
サイトを運営している人がGoogleのアカウントを取得して
Google Search Consoleからクローリングのリクエストを出して当然ってなってきているみたい >>245
実際に検索してみると分かるけど、その方法だと引っかからないアーカイブが結構あるんだよな
Googleのクローリングが追いついてないんだと思うけど 【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/l50/
74 Trackback(774) 2019/09/30(月) 17:07:59.58ID:th5gp/Yr
Internet ArchiveでYahooブログを保存すると遷移スクリプトが発火する話なんだけど、
web.archive.org/save のページから「Save outlinks」にチェックを入れて保存すると
どうもYahooのトップページに遷移されずにアーカイブできるみたいだ
さっき偶然発見して何回か試したけど今のところ全て上手く保存されてる アメリカの図書館はもうTwitterの全保存やめたんじゃなかったか 当時の「魔法のiらんど」上で作られたサイトは現在ではほとんど残っていない。
WebArchiveでも表層しか掘れないサイトばかりである。
当時の掲示板でのやりとり等はもちろん、かのクレリアさんが自サイトに書き記していた構築解説ですらも現在は散逸してしまった。 手動で一ページずつやってもToo Many Requestsになって捗らないな。
Wayback Machineは金払うから一気に取得かアップロードさえて欲しい。 >>264
有料取得依頼みたいなんなかったっけ
最近Archive Today重いのは俺だけかい?
すぐNetwork Errorになる したらば掲示板が丸一日メンテナンスしてたみたいですな。 >>258
そういや最近グーグルってサイト作成者がクロール要求しないと
なかなかクロールしてくれないってどっかの記事で読んだような気がする。
↓こういうのをテキストエディタで作ってからIrvineの「URLを展開して貼り付け」をすると全頁まとめて登録できる。画像一覧とかも同様
https://blogs.yahoo.co.jp/************/MYBLOG/yblog.html?m=l&p=[1-最後のページ番号]
例のスクリプトの登録漏れをある程度減らせると思う。 ジオシティーズの時もそうだったが、特定サービスのアーカイブって何だかんだ言ってかなりの時間と労力を必要とするんだよ
自分でやりたいのは山々だが、そこに労力を注ぎ込める余裕がない
なのでアーカイブをやっている人が多少は集まっているであろうここに投げた >>270のサイトの作者と自分は何にも関係ないことは一応断っておく Yahooブログにアーカイブすべき物なんてあるのか? 単なる日常記録も多いけど、そこらのジオシティーズよりも濃い情報が詰まってるものも多いよ
自分が知ってる範囲だと、今は消えた街並みの記録や京都のマイナーな神社の訪問記、イギリスでの聖人信仰の研究サイト、ゲーム業界の裏話やゲーム攻略などがあるよ
自分が知ってる範囲のブログだけはいくつかWayback Machineに突っ込んだが、他にも有益な情報がたくさん眠ってると思うよ
Yahooブログなんて消えても誰も困らないだろうと思ってる人が結構いるみたいだが、とんでもない偏見だよ ■ このスレッドは過去ログ倉庫に格納されています