【保存・記録】ウェブアーカイブ総合 Page.01
■ このスレッドは過去ログ倉庫に格納されています
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう 使えりゃ何でも良いから不自然だろうが気にしないけどな
使ってて問題がありゃ自分で作り直すまでだ >>115
>セットアップ済みのレンタルWikiの方が無難
確かにな、一からサーバ立てて設定しなきゃいけないWikiだと結局グダりそうだ
そうなるとポピュラーなatwikiあたりかな ShoutWiki なら無料で MediaWiki 使えるね
とりあえず有能な人が来るまではこれでいいでしょ >>104
「総合」を付けることを発案した者です
単に「ウェブアーカイブ」というとIAやArchive.is等のウェブサービスを使うことを連想している人が多かったようなので、
ウェブアーカイブはそれだけじゃないよ、wget等のツールや自作ソフトを使うのも立派なウェブアーカイブなんだよ、ということを強調したかった
そして、IA専用スレやウェブ魚拓スレで扱われないウェブアーカイブ技術関連の話題の受け皿にしたかった
>>105の言う通り認識にズレがあるみたいだね >>126
126名無しさん@お腹いっぱい。2019/04/06(土) 09:24:43.110
インターネット遺産のアーカイブ系総合スレみたいなところってどこ?
そういうところは5chに無いのかな
総合ってはじめに使い出したのは俺なんだけどな >>127
すまん、ここのスレタイを考えたのは自分だったので思い違いをしてた 日本だとウェブアーカイブは著作権侵害(犯罪)になるからこのスレ危ないよね?
逮捕されたくないので消えます 実際その辺は心配ではある
弁護士に聞いてもやめとけで終わりそう
個人でDLしての私的利用ならアリなのかな
とりあえずツール中心の紹介にとどめておくべきかもね ちゃんと説明すると、非親告罪化された著作物は金銭的な利益が絡むものに限られてるので、
大体のウェブアーカイブの場合問答無用で捕まることはないはず(多分)
あと著作権法に抵触するのはウェブアーカイブを無断で公開した場合のみであって、
各個人でサイトを保存して私的に取っておくこと自体は違法でもなんでもない
Archive Team経由でInternet Archiveにデータを寄付してしまえば日本の法律では手が出せないはず 削除依頼無視でもしない限りは大丈夫なんじゃないの
アーカイブしたサイトに違法なコンテンツがあったらどうなるかわからんけど >>134
そうなんだよね
パッと見完全にアウトなサービスだけどちゃんと続いてるってことは、上手くやれば訴訟を起こされるようなことにはならないってことだし
それにあそこの運営は企業だから、事業の一つにもなりうるってことでもある Shoutwikiでサイト立てるのは誰がやる?
暇だったら自分がやってたんだが正直管理業務とかやってる余裕がない いっそ最初はwikiじゃなくて各々が個人サイトとかブログで情報まとめたりしてそれらのサイトをリスト化すればいいんじゃないか >>138
全員が個人サイトやらブログやらを持っている訳じゃないし、持ってても手間がかかって面倒だって人間もいるだろう
各々が直接情報を書き込んで行く方が手間がかからない
そうなると、きちんとした体制さえ構築できるのならWikiが一番良い それはわかってるけどwikiを管理する技術と時間がある人いるのかって話なんすわ・・・ wikiが必要なほどの量の情報が集まるのかが疑問
アーカイブに関することと言ってもツールの使い方を翻訳するくらいしかできないだろう
本格的なアーカイブ作業をするのならArchiveTeamに入るべき
日本支部を作るにしても結局はArchiveTeam本部の力が必要
日本のサイトは英語圏から見逃されやすいから日本人の注目を集めることでArchiveTeamに貢献することもできるかもしれない
ただし本当に技術がある人は既に英語圏のコミュニティに参加しているからどれほど効果があるかは分からない それは確かになぁ
正直>>115がやれば良いんじゃないかという感じがする ArchiveTeamって多くの日本人は入りづらい所があると思うんだ
だからArchiveTeam本部と一般の日本人ネットユーザーの架け橋になるような組織はあって損はないと思う
ArchiveTeamのサイトにはアーカイブについての知見がまとめられているから、MediaWikiなんて大仰なものが必要かは疑問ではあるけど、
彼らの知見を翻訳して日本人向けに公開する場所はそれなりに有意義じゃないだろうか とりあえず最初はgoogleドキュメントみたいな手軽なところでやってみれば 日本でウェブアーカイブというと既存のウェブサービスを利用するイメージが強いからね
英語コミュニティで活動する日本人エンジニアはある程度いるが、そうした人の中でもウェブアーカイブについて詳しい人はそんなにいないと思うよ 英語コミュニティで活動する日本人エンジニアで、ウェブアーカイブについて詳しい人は結構いると思うが
ウェブアーカイブに関する活動に多くのリソースを使おうと考える人は非常に少ないだろうね ウェブアーカイブ専門の日本人は、国内コミュニティ・英語コミュニティ問わずかなり少ない
機械学習用のデータ収集やWebサービスの構築などの目的で、クローラを動かしてスクレイピングすることはエンジニアの間でかなり一般的になってきた感じがある
(ウェブアーカイブについての知識があるエンジニアにはこういう事をやってる人が多い)
でもそれは「データ収集手段としての保存」であって、ウェブアーカイブという「目的としての保存」を専門にしている人はほんの一握りよ Webスクレイピングは仕事になるけどWebアーカイブは仕事にならんものな
専門家が少ないのも道理 結局サイトはどうするよ
Googleドキュメントはお手軽だけど検索エンジンで見つからないし、Wikiサービスがいいと思う
Wikiの選択肢はatwikiかShoutWikiになるのかな 完全に人が消えてるな
>>74の予言が順調に実現して来てて笑う ネット上のデータを残し続けることに皆そこまで意義感じてないんじゃね 全部のリンクたどると凄い数になる。
数が多いと絞り込むのも大変だし、応答なしになるし、全部処理するということ自体出来るのか?と不安になるくらい次から次へとアドレスが出てくる。
過去に処理したやつ除外すれば…と思ったがかえって遅くなった。
あとURLが一部壊れてしまうのも原因不明。 あまりにも膨大で途方もないから
大抵の人は投げてしまうのさ 昔に比べてネット人口が増えたけど、PCユーザー自体は減ってるんじゃ無いかと… 法人向けは売れてるだろうけど一般家庭はスマホばっかりでPC減ってるでしょ 旗を揚げられる人間がいないだけなんじゃないかとも思うけどね
知識とやる気が揃ってなきゃできねぇ
俺は白旗なら掲げられるぞ 何をそんなに困ってるのかわからない
後は WebRecoder + ipwb を簡単にできたらおっけーじゃないの? >>161
ログを読もう
端的に言うとやらなきゃいけない事が多い割に率先して出来る人間がいない >>161
それだけでおっけーじゃないから皆こうやって話し合ってるのよ テラバイトを溜めこむ、デジタルゴミ屋敷に棲むデータホーダーたち
https://www.gizmodo.jp/2019/05/digitalhoarder.html
断捨離にコンマリ。
そんなテクニックを使いでもしなければ、人は一度手にいれたものは、どうにも手放したくない
生き物のよう。
形ある物は必ず壊れる、諸行無常の響きはインターネットの世界でも鳴りわたっているようです。
わたしはハードディスクはかならずひとつ外付けを使ってデータをローカルと外付けの2回ずつ
保存しているんですよね。いまはそれはNASに変わりましたが、以前はDVDに焼いて保存したり、
FTPを使ったり、クラウドが台頭するようになってからはクラウドも多用していますが、どうも
クラウドもソーシャルメディアも永遠の存在ではなさそう。
今回は米Gizmodoで組んでいる「ゴミ」特集のひとつを翻訳しました。外部ジャーナリストのSteven
Melendezの書き下ろしです。ちょっと長いですが考えさられる内容。ぜひ、じっくりとご覧ください。 gizmodoが世間からどういう評価を受けてるかわかった上でそれ貼ってるの? 腐れTwitter.5chまとめサイトよりマシ程度 どちらかというと >>164 はアーカイブに対してポジティブな記事だよ
ちょっと煽り気味の釣りタイトルだけどちゃんとアーカイビストの偉業を紹介してる
素直に褒めたくない意地悪さがにじみ出てるけどね 大量のアーカイブを管理するには個人だと限界があるわな
団体を作って分担作業し、出来ることならInternet Archiveのように社会的信用を得ないといけない >>162
実はスレがたったときから居て1から読んでるんだよなぁ
記事少し作るだけでここまで悩む不思議
>>74 の未来を変えるために降臨したのに そもそもIPFSで本当に良いのかって話になったまま議論が止まってたはず
そこからArchive Team Japan的なものを作ろうじゃないかって話になって、そんなものに貢献できる日本人はもう本家に行ってるだろって話になって、
日本人でウェブアーカイブやってる人自体少数だよねって話になって、結局グダグダになって現在に至る まず5ch自体オワコンだから人が集まるはずないよな それ
5chで集められる人数なんてたかが知れてるから、外部サイト作ってTwitterとかで広めないとキツい
優秀なエンジニアはTwitterにかなり集ってるし、関心を持ってもらえれば良いんだが https://u1.getuploader.com/irvn/download/1657
web2IAWBM.dms ver0.000.007 WayBackMachineに保存 (web.archive.org) 2019/05/14
web2IAWBM.dmsはIrvineとDorothy2を使ってInternet Archive WayBack Machineに自動登録(保存)するためのスクリプトです。
自動で全てのリンクをたどって保存してくれるはずです。
web2IAWBM.dmsは素人が作った物なので至らない点も多々ありますが、
一応使える水準になったと思われるので公開します。
無料のウィルススキャンはしましたが、念のためもう一度スキャンされることをお勧めします。
同梱のDorothy2(の一部)は別の方が作った物です。
■ Irvine初回起動前に必ず jwordフォルダを削除してください。■
動作試験環境:windows10pro Irvine1.3.1 >>175
Internet Archiveスレでも情報共有しとけ
手動Save Pages Now以外の方法を知らない人達ばかりだから相当喜ばれるぞ ヤフー「Yahoo!コンテンツディスカバリー」サービスの終了を発表
https://media-innovation.jp/2019/05/16/yahoo-revealed-they-stop-ycd/
【解約と配信停止のスケジュール】
6月中旬頃 解約通知書の発送開始予定
9月2日 コンテンツ修正相談受付終了
9月6日 コンテンツ修正相談の結果問合せ終了
9月13日 入稿時審査受付終了・タグ発行・掲載面ブロック等の配信設定業務受付終了
9月20日 入稿時審査の問合せ終了
9月30日 Yahoo!コンテンツディスカバリー 配信停止(順次)
11月29日まで Yahoo!コンテンツディスカバリー 管理ツール等の最終停止(順次) Yahooブログアーカイブ活動スレより引用
0031 Trackback(774) 2019/05/18 14:30:36
yahooブログは「記事がありません」のページで404を返すのだが、web2IAWBM.dmsが404のページを解析できなくてリンクをたどれていない可能性がある。
ブラウザでは普通にリンクをたどれる。
ID:l5DCkLS9 サイトごとにやってると分かるけど、途中で止まってることがよくあるから、
終わったらブラウザで確認した方が良い。 Archiveteam (Google 翻訳)
https://translate.google.co.jp/translate?hl=ja&sl=en&tl=ja&u=https%3A%2F%2Fwww.archiveteam.org%2F Index of /
ttp://infoseek_rip.g.ribbon.to/ >>78
GeoLog Project
https://geolog.mydns.jp/
> お知らせ
>
> 2019/05/12 16:30
> ・URLを変更しました。リンク切れ等の不具合がもしあればご連絡ください。
> まだ旧ドメイン名が残っている部分がありますが、こちらは順次修正します。
> ・GeoCities URL収集 ttps://geo.98nx.jp/ 様にてアーカイブされたデータを順次統合中です。
>
> 2019/05/08 23:50
> ・近日中に、以下のとおりURLを変更します。
> 旧URL:https://thaliana.mydns.jp/GeoLog/
> 新URL:https://geolog.mydns.jp/
> 移転後も、旧URLはリダイレクトとして残す予定です。 サーバーエラー出てる間のは保存されてないのに緑のチェックマークで成功扱いになるから注意して ニュース記事は2ページ目以降が保存されていないことが多いよな。
魚拓も、1ページ目を保存しただけでは、2ページ目以降は保存されないよな?
パッと見保存されているように見える >>191
あぁまたか、あそこは良く DNS から消える。
でもサーバはしっかり生きてるんだな、これが。 GASにアーカイヴ作業させられないかな
10分おきに起動 ニュース記事みたらSave Pageするのが習慣になってきた。 同一のIPからの連続取得は制限されています。
同一のIPから24時間に60回以上の取得は出来ません。
https://i.imgur.com/1j0uQZj.jpg 一日に間隔をあけて数回アーカイブするくらいなら何とかなるのでは
誰か試して見てくれ ArchiveBoxというものを見つけた
自前のマシンでウェブアーカイブをするためのオープンソースソフトウェアだって
https://archivebox.io/ >>198
基本的にCUIで操作するものなので注意
自分でリンクを辿るのではなく、アーカイブするURLのリストを読み込ませる方式らしい
HTMLやWARCはもちろん、画像やPDFでの出力にも対応してるのが便利そう [JavaScript] Wayback Machine Script - Pastebin.com
https://pastebin.com/ZxryGY8F
Automatically save the page you visited (or all links you can see) to "Wayback Machine".
試していないので使えるかどうかはわからない getASFstreamも実行ファイルがIAから削除されてるな。 getASFstreamはVectorのが生きてたからまだ平気か。 ルートラボ2020年3月末終了
https://www.itmedia.co.jp/news/articles/1907/03/news096.html
これはWayback Machineでも保存できないので同じようなサービスにデータを
移行したもの以外のデータは消え去ることとなる。
これからこのようにアーカイブできないデータは増えていく一方だろう。 アーカイブできないデータの筆頭がオンラインゲーム・ブラウザゲーム・ソーシャルゲームだよねえ 昔流行ったフラッシュはアドレス直打ちSavePageNowで保存できたけどゲームは分からん。 goo blogの「株式日記と経済展望」がいつの間にか見れなくなってる
IA見ると2019年1月7日の記事の最後にしばらく休みますと書かれている
https://web.archive.org/web/20190314154224/https://blog.goo.ne.jp/2005tora Wayback Machineやたら重いんだけど
時間帯によるもの? スクリプト走らせてる人が70人近くいるはずだし重くなっても不思議は無い。
保存されているかを確認するために実際に開いて確認してから保存している。
同じページを何度も確認していたなんてこともあると思う。 ここの住人にYahooブログをアーカイブしてほしい 異様に書き込み減ったし多分みんな保存してる。
個別にURL指定してくれれば優先する。 ジオシティーズの時のようにURal収集フォームみたいなのがあれば便利なんだけどな 質問です。
Wayback Machineを使って、見たかったサイトは見つかったのですが、画像はありませんでした。
その画像を見つけることはもうできないのでしょうか? GASは程度にもよるが増やしすぎるとすぐこうなる。思ったより使えない。
> サービスで 1 日に使用しているコンピュータ時間が長すぎます ■ このスレッドは過去ログ倉庫に格納されています