【保存・記録】ウェブアーカイブ総合 Page.01

**192.168.0.774** · 2019/04/06(土) 21:31:22.29

ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。

・関連リンク（Rock54回避のためピリオドをカンマに変更）
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/

・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/

・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう

**192.168.0.774** · 2019/08/22(木) 23:08:10.94

水谷修のサイト保存してくれた人いるのか

**192.168.0.774** · 2019/09/14(土) 14:16:10.61

情報が古くても需要がありそうなのは
小説・漫画・映画のレビュー・考察サイト
ゲーム関係のサイト（攻略サイト・レビューサイトなど）
Web小説
あたりか

**192.168.0.774** · 2019/09/15(日) 22:34:40.70

興味あるので保守

**215** · 2019/09/20(金) 05:31:59.01

アーカイブしたいサイトがある時、どうやって保存するの？
Winなら巡集みたいなソフト使ってやるの？　Macではターミナル？

**192.168.0.774** · 2019/09/23(月) 03:23:58.52

ニコ生アラートのバイナリ保存されていない…残念

**192.168.0.774** · 2019/09/23(月) 03:47:25.00

>>235
>>175

**215** · 2019/09/23(月) 05:25:08.76

>>237
Windowsしか書いてないけど、macで行ける？

**192.168.0.774** · 2019/09/23(月) 08:45:19.53

Macはもってないので分からない。
>>175のやつWindowsでも機能していない可能性がある。保存されたって出てるけど実際は保存されていないとか。

**192.168.0.774** · 2019/09/25(水) 18:16:46.74

サービス終了に関するご報告
https://www.rich.co.jp/news_article/20190930/

＞この度、2015年よりサービスを続けてまいりましたメディア「ヘルスケア大学」について、当社事業領域の整理に伴い社内リソースを別領域に集中させることに決定し、2019年9月30日にサービスを終了することとなりました。

**192.168.0.774** · 2019/09/27(金) 23:51:14.06

ワイ「古い車買ったろ。整備は大変そうやけど、ネットには先人の知恵がいっぱいや」

1 ：名無しさん＠おーぷん：19/09/27(金)23:31:11 ID:2JG主 ×
ジオシティーズ「ん？」
ディオン「んん？」
ニフティー「んんん？」

2：名無しさん＠おーぷん：19/09/27(金)23:31:38 ID:2JG主 ×
先人の知恵、消える

3：名無しさん＠おーぷん：19/09/27(金)23:31:46 ID:6EZ ×
しゃーない

5：名無しさん＠おーぷん：19/09/27(金)23:32:30 ID:cUL ×
悲しいなぁ…

**192.168.0.774** · 2019/09/28(土) 08:08:34.63

各アーカイブサービスの検索機能が優秀なら良いんだけどな
保存してもそれを探し出せないなら死蔵と変わらんな

**192.168.0.774** · 2019/09/29(日) 01:09:52.47

無料ソフトウェアのサイトは保存されてても実行ファイルを含むzipファイルは保存されていません。
可能な限り保存します。

**192.168.0.774** · 2019/09/29(日) 01:34:12.78

>>242
単にアーカイブしたファイルの中身に対して検索を行えるかどうかの話。
それを優秀などという語でしか表現できない貧弱なボキャブラリー。

**192.168.0.774** · 2019/09/29(日) 02:04:44.22

Googleとかで「 site:web.archive.org」を付けて検索するのが現実的かと。

**192.168.0.774** · 2019/09/29(日) 11:02:46.70

wikiうんぬんの話が出ているので、いくつか使ったことがあるから書いておくけど
atwiki　SeesaaWiki　FC2wiki　などはそれぞれ記法が独特でバックアップが取れない
atwikiは特に仕様がころころ変わる上に不具合発生率も高くて、書き込みだけに集中できないし
アカウントを削除してもサーバーからデーターが完全削除されないみたい

pukiwiki／pukiwiki plusベースのところはdumpデーターは取得できるけど
運営が個人だったり個人で会社を作ってやっているところはその人がどうにかなると連絡が取れなくなる
それでもサーバーやドメインが維持されいるとサービスは利用できるけど
ある日突然使えなくなることがある

**192.168.0.774** · 2019/09/29(日) 12:20:42.26

コンテンツ制作側としてのバックアップの話をここでやってどーするの。

**192.168.0.774** · 2019/09/29(日) 12:33:23.11

個人サイトで無料／有料に関わらず共用サーバーを使っている場合
サーバー管理会社によってサーバーのスペック変更が行われると
サービスが終了していなくてもサイトが閲覧不可になることがあるよね

PHP5.3までしか対応していないものを使ってサイト運営をしているのに
サーバー側がPHP7.2にしちゃったとか
サーバーを丸ごと交換してデフォルトがUTF-8になったのに
サイトのほうでcharsetを指定していないとか
DBのバージョンが上がってデーターが呼び出せなくなった
等の理由で、閲覧が困難になるケース

閲覧しに行って真っ白だったり文字化けしていたりするのはこの辺の理由

**192.168.0.774** · 2019/09/29(日) 12:56:37.11

なんだ、新手のスレ埋め立てかw

**192.168.0.774** · 2019/09/29(日) 13:09:54.41

そういやPukiWikiのサイトをInternetArchiveで保存させる場合、
一覧ページから数階層分のURLを掘って、その全URLに/save/リクエストを
発行すれば完了だろうな。
適当なツールが無ければIrvineとメモ帳のテキスト置換機能を使えばよい。
ソースのバックアップの話はスレチ。

**192.168.0.774** · 2019/09/29(日) 17:04:53.57

このスレで使うwikiが消滅する場合の対策の話じゃないの。

**192.168.0.774** · 2019/09/29(日) 22:23:17.96

>>244
人の揚げ足取る暇があったらアーカイブしろ

**242=252** · 2019/09/29(日) 22:32:55.86

だいたいページ内容の走査だけで検索機能実装しても優秀とは到底言えないからな
検索エンジンサービスのようにページランク等を考慮して初めて、優秀というかようやく使いものになる
アーカイブサービスのように膨大な数のページを検索しなきゃいけない場合は、そういったアルゴリズムの必要性がさらに高まる
こういう話をいちいちするのが面倒だから話を全部ひっくるめて「優秀」の一語で表現した
これで満足か？

**192.168.0.774** · 2019/09/29(日) 22:36:12.79

ページランクは固有名詞に近いからランキングアルゴリズムと言うべきだったかもしれない

**192.168.0.774** · 2019/09/29(日) 22:40:09.36

クソリプが跋扈するツイッターや人口の多い他の5ch板ならまだしも、
このご時世にこんな専門板で、横からいきなり会話してる訳でもない相手からレスが飛んでくるとは思わなかった
随分面食らったわ

**192.168.0.774** · 2019/09/29(日) 22:48:43.54

Wiki立てる話自体が消えたと思ってたw

**192.168.0.774** · 2019/09/30(月) 11:04:24.16

>>256
また話が出るかもしれないから一応書いておいただけ

atwiki上のサイトで差分が見れないところがあったから
archive.orgで探してみたけど
archive.orgのbotをatwikが蹴っているみたいで最近はエラーページが保存されちゃってる

意図的にそのページを残したい人がarchive.orgのアカウントを作って残す場合は別として
消えちゃったページを後からarchive.orgで探すのは難しくなっていると思うよ
クローリングの期間がだいぶ開いている
これはGoogleのキャッシュもそうだと思う
サイトを運営している人がGoogleのアカウントを取得して
Google Search Consoleからクローリングのリクエストを出して当然ってなってきているみたい

**192.168.0.774** · 2019/09/30(月) 15:43:12.38

>>245
実際に検索してみると分かるけど、その方法だと引っかからないアーカイブが結構あるんだよな
Googleのクローリングが追いついてないんだと思うけど

**192.168.0.774** · 2019/09/30(月) 17:16:29.06

【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/l50/

74 Trackback(774) 2019/09/30(月) 17:07:59.58ID:th5gp/Yr
Internet ArchiveでYahooブログを保存すると遷移スクリプトが発火する話なんだけど、
web.archive.org/save のページから「Save outlinks」にチェックを入れて保存すると
どうもYahooのトップページに遷移されずにアーカイブできるみたいだ
さっき偶然発見して何回か試したけど今のところ全て上手く保存されてる

**192.168.0.774** · 2019/10/08(火) 01:13:45.16

Twitter埋め込みが一切保存されない問題

**215** · 2019/10/08(火) 08:01:40.33

>>260
アメリカの図書館にいけよ

**192.168.0.774** · 2019/10/08(火) 14:30:06.60

アメリカの図書館はもうTwitterの全保存やめたんじゃなかったか

**192.168.0.774** · 2019/10/18(金) 01:06:58.74

当時の「魔法のiらんど」上で作られたサイトは現在ではほとんど残っていない。
WebArchiveでも表層しか掘れないサイトばかりである。
当時の掲示板でのやりとり等はもちろん、かのクレリアさんが自サイトに書き記していた構築解説ですらも現在は散逸してしまった。

**192.168.0.774** · 2019/10/25(金) 10:22:59.94

手動で一ページずつやってもToo Many Requestsになって捗らないな。
Wayback Machineは金払うから一気に取得かアップロードさえて欲しい。

**192.168.0.774** · 2019/11/03(日) 20:32:03.04

もしかしたらしたらば掲示板やばいかもしれんな

**192.168.0.774** · 2019/11/03(日) 22:05:54.91

>>265

理由は？

**192.168.0.774** · 2019/11/04(月) 01:30:31.73

>>264
有料取得依頼みたいなんなかったっけ

最近Archive Today重いのは俺だけかい？
すぐNetwork Errorになる

**192.168.0.774** · 2019/11/04(月) 07:36:42.44

したらば掲示板が丸一日メンテナンスしてたみたいですな。

**192.168.0.774** · 2019/11/05(火) 18:04:06.02

>>258
そういや最近グーグルってサイト作成者がクロール要求しないと
なかなかクロールしてくれないってどっかの記事で読んだような気がする。

↓こういうのをテキストエディタで作ってからIrvineの「URLを展開して貼り付け」をすると全頁まとめて登録できる。画像一覧とかも同様
https://blogs.yahoo.co.jp/************/MYBLOG/yblog.html?m=l&;p=[1-最後のページ番号]
例のスクリプトの登録漏れをある程度減らせると思う。

**192.168.0.774** · 2019/11/10(日) 04:30:49.20

誰かここに載ってるサイトだけでも保全してくれ

yahoo！ブログ使用サイト - DoldoWorkz
https://moondoldo.com/DoldoWorkz/?yahoo%EF%BC%81%E3%83%96%E3%83%AD%E3%82%B0%E4%BD%BF%E7%94%A8%E3%82%B5%E3%82%A4%E3%83%88

**192.168.0.774** · 2019/11/10(日) 19:44:29.07

何故自分でやらないのか

**192.168.0.774** · 2019/11/10(日) 22:43:10.93

ジオシティーズの時もそうだったが、特定サービスのアーカイブって何だかんだ言ってかなりの時間と労力を必要とするんだよ
自分でやりたいのは山々だが、そこに労力を注ぎ込める余裕がない
なのでアーカイブをやっている人が多少は集まっているであろうここに投げた

**270=272** · 2019/11/10(日) 22:45:26.50

>>270のサイトの作者と自分は何にも関係ないことは一応断っておく

**192.168.0.774** · 2019/11/11(月) 09:12:05.10

Yahooブログにアーカイブすべき物なんてあるのか？

**192.168.0.774** · 2019/11/11(月) 10:42:59.86

単なる日常記録も多いけど、そこらのジオシティーズよりも濃い情報が詰まってるものも多いよ
自分が知ってる範囲だと、今は消えた街並みの記録や京都のマイナーな神社の訪問記、イギリスでの聖人信仰の研究サイト、ゲーム業界の裏話やゲーム攻略などがあるよ
自分が知ってる範囲のブログだけはいくつかWayback Machineに突っ込んだが、他にも有益な情報がたくさん眠ってると思うよ
Yahooブログなんて消えても誰も困らないだろうと思ってる人が結構いるみたいだが、とんでもない偏見だよ

**GeoLog Project** ◆RJRIJK3wcLw8 · 2019/11/11(月) 20:36:22.34

>>270
試しにhttrackに突っ込んだら画像のリンクが取れず、
調べたら元のHTMLにはないリンクを後から生成して突っ込んでますね。。。

動的サイト嫌いです。。。

**192.168.0.774** · 2019/11/11(月) 23:27:18.77

動的サイトのWebアーカイブ用クローリングとなるとHeritrix(Internet Archiveが使ってるクローラ)の出番ですね
実績もあるし高性能で拡張性もそれなりにあるものの、マシンの要求スペックが比較的高めなのが難点か

**192.168.0.774** · 2019/11/14(木) 17:49:41.79

Heritrixの最低動作スペック自体はそこまで高くないよ
ただ、リッチなコンテンツを含むページをアーカイブしようとするとメモリを食うことがある
あと基本的にLinux環境しかサポートしていないので、人によっては手が出しにくいかもしれない

**GeoLog Project** ◆RJRIJK3wcLw8 · 2019/11/15(金) 00:48:08.16

Windows でも動くには動きますね
しかしやたら遅い・・・

**192.168.0.774** · 2019/11/17(日) 22:45:04.48

メモリ持て余してるけどストレージが足りない
ArchiveTeamWarrior的なのがあれば参加するんだけど

**192.168.0.774** · 2019/11/19(火) 15:35:27.56

ArchiveTeamに常駐してる人がここにいれば捗るんだが

**192.168.0.774** · 2019/11/22(金) 05:16:46.52

むしろ元のHTMLの方には正しいリンク先URLがあるんじゃないの。
それで画像取得できないだろうか

**GeoLog Project** ◆RJRIJK3wcLw8 · 2019/11/22(金) 20:15:18.83

>>282
拡大すると大きめの画像のあるページってどこかありますか？

**192.168.0.774** · 2019/11/24(日) 23:10:35.97

>>283
「拡大すると大きめの画像のある」って言うのがどういう意味かよく分からないので、もう少し詳しく説明をお願いしたい

**215** · 2019/11/25(月) 05:25:36.43

>>284
ライトボックスとかじゃない？

**GeoLog Project** ◆RJRIJK3wcLw8 · 2019/11/25(月) 20:34:05.84

>>284
言葉足らずですみません

Yahoo!ブログは画像をクリックすると別ページに飛んで元の大きい画像が見られるらしいのですが、
ページのimgタグに書いてある画像より、元画像の方が大きい例があるかどうかを気にしました
>>282 の「元のHTML」に元画像へのリンクがあるのか確認したかったので

**192.168.0.774** · 2019/11/27(水) 13:24:37.22

Twitter、休眠アカウント削除へ　対象アカウントに12月11日までにログインするよう警告
https://www.itmedia.co.jp/news/spv/1911/27/news069.html

これ亡くなった著名人などのアカウントも容赦なく削除するらしいから、期限までに出来る限りアーカイブしておきたいところ
Twitterで #休眠アカウント削除がトレンド入りしてるから、アカウントが消えるのが嘆かれてる故人のアカウントはこれでかなり拾えると思う

**215** · 2019/11/27(水) 18:54:59.39

>>287
やり方おせーてくれたら手伝えるけど

**192.168.0.774** · 2019/11/27(水) 19:47:11.55

ArchiveTeamが動き出したな
https://twitter.com/textfiles/status/1199459588594176000
https://twitter.com/5chan_nel (5ch newer account)

**192.168.0.774** · 2019/11/27(水) 21:52:41.92

>>288
とりあえず一番手っ取り早い方法は、>>289のツイートに貼られてるリンク先の入力フォームから、
保存して欲しいアカウントのIDを入力して送ること
もしかしたら他にも誰かが保存プロジェクトをやってるかもしれないから要調査だな

**192.168.0.774** · 2019/11/30(土) 02:24:56.11

minori official web site
http://www.minori.ph/
このサイト、キャプチャできない

**192.168.0.774** · 2019/11/30(土) 04:08:01.49

>>291
海外からのアクセスに対し 403 Forbidden エラーを返すよう
設定されているみたいですから、Internet Archive や Archive.is では
無理でしょうね。
さらにそのエラーページは他サイトへの遷移スクリプトが
埋め込んであるので、フツーの人はエラー扱いされていることすら
気付けないでしょう。

当該エラーページの HTML ソースを貼っておきます。
https://pastebin.com/Vy7uYhiK

**215** · 2019/11/30(土) 05:13:24.84

>>290
DLだけ、自分でってことはできないの？

**192.168.0.774** · 2019/11/30(土) 10:31:13.20

>>293
自分のPC中にアーカイブをローカルで保存することは出来ないかってこと？
Heritrixなど動的サイトを処理できるクローラを使えば問題なく出来る、出来るけどアーカイブは死蔵してたら意味が無いからね
自分だけで閲覧する用に保存しておくこともありうるけどそれはアーカイブとは言えない
ArchiveTeamが収集したファイルはWayback Machineに登録されるようになってるので、そういう意味では安全

**192.168.0.774** · 2019/12/02(月) 04:15:35.70

最近のToday
https://i.imgur.com/zJ1Sw31.jpg

**192.168.0.774** · 2019/12/03(火) 03:09:24.37

Current Running Warrior Project: Yahoo! Groups

**192.168.0.774** · 2019/12/03(火) 03:21:33.26

Yahoo GroupsはYahooブログとは全くの別サービスだから早とちりすんなよ

**192.168.0.774** · 2019/12/03(火) 03:23:09.41

これのことだよ
https://japanese.engadget.com/2019/10/17/yahoo-groups-21-12-14/

**192.168.0.774** · 2019/12/04(水) 17:38:24.46

本日のToday
https://i.imgur.com/n9jpxpY.jpg

**192.168.0.774** · 2019/12/06(金) 00:57:47.89

300

**192.168.0.774** · 2019/12/14(土) 23:22:02.29

Ci-en移行に伴うDLsite blogサービス提供終了予定のお知らせ
ttp://home-info.dlsite.com/archives/9427708.html

**192.168.0.774** · 2019/12/15(日) 18:24:18.14

Yahooブログ今日までか

**192.168.0.774** · 2019/12/16(月) 16:10:29.42

ほとんど何もできなかった

**192.168.0.774** · 2019/12/16(月) 19:43:00.36

少しは頑張れよ

**192.168.0.774** · 2019/12/16(月) 22:27:54.54

人いねえもの
呼び掛けが不十分だとこうなってしまう

**192.168.0.774** · 2019/12/17(火) 00:52:29.58

>>272 >>294
リンク構造維持できて程々の容量に収まるなら分割rarやzipに纏めてもらってもいい。

今は低速スマホしか使う余裕無くなったから巡集やWeboxみたいな取り込みアプリで一括アーカイブ化するのも無理だし
読売の縮刷版CD/DVDなんかは1年分で12万もするし

**192.168.0.774** · 2019/12/17(火) 04:05:12.57

スマホ(笑

**192.168.0.774** · 2019/12/17(火) 23:19:41.41

ネットサービス企業は、スマホからの収益がメインやから、

PCだけに成ったら大倒産時代や

**192.168.0.774** · 2019/12/18(水) 01:13:33.38

色々と話がとっ散らかって来たな
>>306からして何が言いたいのか今一つ要領を得ない

**192.168.0.774** · 2019/12/19(木) 20:23:09.25

もうyaplogに行ってる

**192.168.0.774** · 2019/12/19(木) 22:41:03.12

yaplogって1月でサービス終了するらしいけど
https://nlab.itmedia.co.jp/nl/articles/1908/03/news034.html

**192.168.0.774** · 2019/12/19(木) 23:36:07.17

geocitiesのアーカイブサイトは複数ある様だけどYahoo!ブログも有る？

**192.168.0.774** · 2019/12/20(金) 01:21:34.83

>>312
Yahooブログスレの方にも載ってないから今のところないんじゃないかな

**192.168.0.774** · 2019/12/28(土) 07:55:33.34

Archive.TodayはグーグルやBingのキャッシュを保存した場合でも原本URLを認識できるのが素晴らしい。

◆P0jSlC5fJs · 2019/12/29(日) 21:46:36.02

archive.todayのTwitterの魚拓がモバイル版にならなくなった？
アカウントは新UI、ツイートは旧PC用UI

◆P0jSlC5fJs · 2019/12/30(月) 13:29:31.10

>>315
それどころかアカウントの魚拓がかなり下の方までスクロールされた状態で保存されるようになった
つまり1回の魚拓でかなりたくさんのツイートが保存されるようになった
いいね

**192.168.0.774** · 2019/12/30(月) 23:49:45.17

>>314
検索で出ないことあるからやっぱ微妙だった

**192.168.0.774** · 2019/12/31(火) 18:45:45.57

Webサイトの保存ってみんなどうやってしてるの？
このスレにすでに書いてたらすまん

**192.168.0.774** · 2020/01/02(木) 07:10:20.03

ローカル保存&魚拓

**192.168.0.774** · 2020/01/02(木) 10:39:14.28

魚拓ってのは
https://megalodon.jp/
でローカル保存ってのはchromeなんかにあるオフラインで読む系機能であってる？

**192.168.0.774** · 2020/01/03(金) 19:36:03.17

それであってる

**192.168.0.774** · 2020/01/04(土) 18:01:40.04

激重で読み込めない…

**192.168.0.774** · 2020/01/04(土) 20:37:51.83

Scheduled Maintenance
The Internet Archive's sites are offline for scheduled maintenance and upgrades.
Please check our twitter feed @internetarchive for updates.
Sorry for the inconvenience.

**192.168.0.774** · 2020/01/05(日) 21:23:51.28

Yaplog取ってたらこんなの出てた
https://web.archive.org/web/20200105113649/yaplog.jp/mahou93/archive/645

**192.168.0.774** · 2020/01/06(月) 15:29:48.32

>>321
ありがとう

**192.168.0.774** · 2020/01/09(木) 07:45:46.22

4年以上未ログインの Yahoo! JAPAN ID、2020年2月から順次利用停止へ
https://japanese.engadget.com/jp-2020-01-07-4-yahoo-japan-id-2020-2.html

これひょっとしてYahooボックスで公開されてるファイルとかもごっそり消えちゃうんじゃ・・・
と思ったけどほとんど見かけないから影響あんまり無いかな

**192.168.0.774** · 2020/01/09(木) 21:40:15.88

Yahooボックスってサービス終了して無かったのか…

**192.168.0.774** · 2020/01/18(土) 22:33:46.55

魔法のiらんどは2020年春に大リニューアルします！ - 魔法のiらんど https://maho.jp/renewal/
オワタ

**192.168.0.774** · 2020/01/19(日) 04:35:51.86

やったぜ

**192.168.0.774** · 2020/01/19(日) 06:21:23.58

>>328

魔法のiらんど　はまだ存在しているのかｗ

**192.168.0.774** · 2020/01/24(金) 17:33:52.87

https://archive.org/

ここに

http://ishidate.my.coocan.jp/index.html

の、「Visual C++の勉強部屋」は保存できてるようなんだけど
「Visual Studio Community 2017でPythonを始める」が
トップだけあって他のリンクが上手く保存が出来てないようなんだけど
残す方法ありますか？始めてやろうとしてるので変な残し方をしたら気まずい・・・

**192.168.0.774** · 2020/01/24(金) 17:40:24.75

あれ？慌てただけで反映されてなかっただけかな？

http://ishidate.my.coocan.jp/python/python.htm

上から2個目まではアーカイブされてました、すみません
一個ずつセーブしていくのかな？2個目はやってないはずなんだけど
トップページをセーブすると、自動で全部の保存処理をしてくれてるのだろうか？