【保存・記録】ウェブアーカイブ総合 Page.01
■ このスレッドは過去ログ倉庫に格納されています
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう Windows でも動くには動きますね
しかしやたら遅い・・・ メモリ持て余してるけどストレージが足りない
ArchiveTeamWarrior的なのがあれば参加するんだけど ArchiveTeamに常駐してる人がここにいれば捗るんだが むしろ元のHTMLの方には正しいリンク先URLがあるんじゃないの。
それで画像取得できないだろうか >>282
拡大すると大きめの画像のあるページってどこかありますか? >>283
「拡大すると大きめの画像のある」って言うのがどういう意味かよく分からないので、もう少し詳しく説明をお願いしたい >>284
言葉足らずですみません
Yahoo!ブログは画像をクリックすると別ページに飛んで元の大きい画像が見られるらしいのですが、
ページのimgタグに書いてある画像より、元画像の方が大きい例があるかどうかを気にしました
>>282 の「元のHTML」に元画像へのリンクがあるのか確認したかったので Twitter、休眠アカウント削除へ 対象アカウントに12月11日までにログインするよう警告
https://www.itmedia.co.jp/news/spv/1911/27/news069.html
これ亡くなった著名人などのアカウントも容赦なく削除するらしいから、期限までに出来る限りアーカイブしておきたいところ
Twitterで #休眠アカウント削除 がトレンド入りしてるから、アカウントが消えるのが嘆かれてる故人のアカウントはこれでかなり拾えると思う >>288
とりあえず一番手っ取り早い方法は、>>289のツイートに貼られてるリンク先の入力フォームから、
保存して欲しいアカウントのIDを入力して送ること
もしかしたら他にも誰かが保存プロジェクトをやってるかもしれないから要調査だな minori official web site
http://www.minori.ph/
このサイト、キャプチャできない >>291
海外からのアクセスに対し 403 Forbidden エラーを返すよう
設定されているみたいですから、Internet Archive や Archive.is では
無理でしょうね。
さらにそのエラーページは他サイトへの遷移スクリプトが
埋め込んであるので、フツーの人はエラー扱いされていることすら
気付けないでしょう。
当該エラーページの HTML ソースを貼っておきます。
https://pastebin.com/Vy7uYhiK >>290
DLだけ、自分でってことはできないの? >>293
自分のPC中にアーカイブをローカルで保存することは出来ないかってこと?
Heritrixなど動的サイトを処理できるクローラを使えば問題なく出来る、出来るけどアーカイブは死蔵してたら意味が無いからね
自分だけで閲覧する用に保存しておくこともありうるけどそれはアーカイブとは言えない
ArchiveTeamが収集したファイルはWayback Machineに登録されるようになってるので、そういう意味では安全 Current Running Warrior Project: Yahoo! Groups Yahoo GroupsはYahooブログとは全くの別サービスだから早とちりすんなよ Ci-en移行に伴うDLsite blogサービス提供終了予定のお知らせ
ttp://home-info.dlsite.com/archives/9427708.html 人いねえもの
呼び掛けが不十分だとこうなってしまう >>272 >>294
リンク構造維持できて程々の容量に収まるなら分割rarやzipに纏めてもらってもいい。
今は低速スマホしか使う余裕無くなったから巡集やWeboxみたいな取り込みアプリで一括アーカイブ化するのも無理だし
読売の縮刷版CD/DVDなんかは1年分で12万もするし ネットサービス企業は、スマホからの収益がメインやから、
PCだけに成ったら大倒産時代や 色々と話がとっ散らかって来たな
>>306からして何が言いたいのか今一つ要領を得ない geocitiesのアーカイブサイトは複数ある様だけどYahoo!ブログも有る? >>312
Yahooブログスレの方にも載ってないから今のところないんじゃないかな Archive.TodayはグーグルやBingのキャッシュを保存した場合でも原本URLを認識できるのが素晴らしい。 archive.todayのTwitterの魚拓がモバイル版にならなくなった?
アカウントは新UI、ツイートは旧PC用UI >>315
それどころかアカウントの魚拓がかなり下の方までスクロールされた状態で保存されるようになった
つまり1回の魚拓でかなりたくさんのツイートが保存されるようになった
いいね >>314
検索で出ないことあるからやっぱ微妙だった Webサイトの保存ってみんなどうやってしてるの?
このスレにすでに書いてたらすまん 魚拓ってのは
https://megalodon.jp/
でローカル保存ってのはchromeなんかにあるオフラインで読む系機能であってる? Scheduled Maintenance
The Internet Archive's sites are offline for scheduled maintenance and upgrades.
Please check our twitter feed @internetarchive for updates.
Sorry for the inconvenience. 4年以上未ログインの Yahoo! JAPAN ID、2020年2月から順次利用停止へ
https://japanese.engadget.com/jp-2020-01-07-4-yahoo-japan-id-2020-2.html
これひょっとしてYahooボックスで公開されてるファイルとかもごっそり消えちゃうんじゃ・・・
と思ったけどほとんど見かけないから影響あんまり無いかな Yahooボックスってサービス終了して無かったのか… 魔法のiらんどは2020年春に大リニューアルします! - 魔法のiらんど https://maho.jp/renewal/
オワタ >>328
魔法のiらんど はまだ存在しているのかw https://archive.org/
ここに
http://ishidate.my.coocan.jp/index.html
の、「Visual C++の勉強部屋」は保存できてるようなんだけど
「Visual Studio Community 2017でPythonを始める」が
トップだけあって他のリンクが上手く保存が出来てないようなんだけど
残す方法ありますか?始めてやろうとしてるので変な残し方をしたら気まずい・・・ あれ?慌てただけで反映されてなかっただけかな?
http://ishidate.my.coocan.jp/python/python.htm
上から2個目まではアーカイブされてました、すみません
一個ずつセーブしていくのかな?2個目はやってないはずなんだけど
トップページをセーブすると、自動で全部の保存処理をしてくれてるのだろうか? >>331-332
すみません、反映するまで時間が掛かってただけのようです
順調に保存が進みました 上の保存出来たと思ったら何も変わってなかった
もう訳が解らん、個人的にローカルへ残す事にします・・・ 最近財政難を表明してからInternet Archiveはやけに不安定だからなあ
Internet Archiveのシステムはページをクロールする部分とクロールしたページを表示する部分に分かれてるんだけど、最近は後者の部分がやけに不安定だったりする
閲覧できてないだけで実は保存できてたりすることもあるけど、不安ならオフラインコピーや他のアーカイブサイトを使うといい まあ財政難表明する以前からちょくちょく不安定になることはあったんだけど、最近は不安定になる頻度がやたら高くなってきてる
保存されるアーカイブの量にリソースが追いついてないらしい 魔法のiらんど のURL収集を始めることにしました
知っているURLがあれば追加してください
https://geolog.mydns.jp/maho/ Geocitiesのときはいくつかブックマークから追加したけどiらんどはなかったよ・・・ Wayback Machine ツイッターが簡単に登録できなくなったね
try againになる ウェブ魚拓にロボット扱いされるようになった。
手動でやってるのに。
https://i.imgur.com/eqgUaln.jpg と思ったらReCaptcha導入でgyo.tc/urlまでもが廃止されたのかよ。
ReCaptchaの画面に飛ばしてくれればいいだけなのに。
タイトル画像詐欺になってるがな。 右下のリキャプチャマーク表示されてから5秒数えてから押せばいけるっぽい? https://web.archive.org/
ここ一週間くらい調子悪いね?
保存できたと思って翌日くらいに見ようとしたら消えてて見られなくなってる Internet Archiveはアーカイブ実行用クローラ(Heritrix)と
保存したアーカイブの専用ビューワ(Wayback)を組み合わせて動いてるんで、
保存したアーカイブがサーバ不調で一時的に見られなくなってても、
アーカイブさえきちんと出来てればそのうち問題なく見られるようになる >>344
本当ですね!
さっき見てみたら復旧されたようでちゃんと保存できてました! アーカイヴトゥデイがGoogleキャッシュだけでなくBingキャッシュも原本と関連付けてくれれば神なんだが。 大住:僕は父親が来て、探偵ファイルをやめるべき理由を膨大に書き連ね
「これ以上やるなら親子関係を考えざるを得ない」と結んだ手紙を置いていきました。
wwwwwwwww Mが九つ…これはリッジレーサーのあの曲ですねぇ…間違い無い 【リマインド】 魔法のiらんど
2020年 3/31 リニューアルに伴いホームページ機能終了
アーカイブの必要がある場合は早急に対応を。
https://maho.jp/renewal/ 削除されたなろう小説や Wayback Machineでも見れないサイトを見たいなあ レビューサイトや攻略サイトはどんなに古くても価値があると思う Todayにリキャプチャ付いた。かわりに画像単体のキャプチャができるようになっていた。 archive.today (archive.is)
URLがいくつもあるわけだが
archive.today
archive.is
archive.li
archive.fo
archive.vn
archive.md
archive.ph
ひとつがサーバーダウンしている時には
他のURLも使えないのかどうか。 >>353
名前を色々と増やし始めたのはこれが発端。
http://echo.5ch.net/test/read.cgi/esite/1189771222/587-590
ドメイン名乗っ取り攻撃に対する冗長性確保が目的。
何れかの名前が乗っ取られても他の名前で利用できるようにしてあるだけで、
> ひとつがサーバーダウンしている時には
> 他のURLも使え
〜るといった 20 年前みたいな事は意図していないはず。
「DLsite blog」サービス終了予定のお知らせ【5/28(木) 13:59まで】
http://home-info.dlsite.com/archives/9506936.html
月末ではなく28日昼まで >>355
> 「DLsite blog」
そんなブログサービスがあるということを今はじめて知った >>351
そう簡単に常識が変わるわけではないジャンルだしな ニッチなニーズかもしれませんがスクリプトを公開しました。
Wayback Machine でURL検索をした際、最古または最新のページに自動で飛びます。
https://greasyfork.org/ja/scripts/403724-wayback-machine-auto-hopper 2020年6月30日
連合型SNS『マストドン』 日本2位,3位のインスタンスが閉鎖
・msdtn.jp (登録20万人, 5500万トゥート)
・mastodon.cloud (利用者数6万人, 340万トゥート)
SNS『mstdn.jp』、誹謗中傷への対応の事務負担増に耐えられないと判断して6月30日で閉鎖へ
https://news.yahoo.co.jp/byline/shinoharashuji/20200525-00180247/
運営引き継ぎも募集しているらしい
https://mstdn.jp/about >>360
外資は儲からないと判断するとすぐ撤退する傾向が強いからなあ。不安。 「誹謗中傷の証拠取得用に」と謳った「Twitter魚拓」なるWebサービスが出来てバズってるが、
やってることは単にスクショ撮ってimgurに上げるだけらしい
スクショはブラウザの開発者機能でいくらでも改竄できるし、
これならArchive.isの方がずっと優秀だな
スクショに法的な証拠能力ってあるのかな >>361
買収先は確かTwitter非公式クライアントの開発チームじゃなかったっけ
儲からないのは織り込み済みじゃないかな? Twitter魚拓に画像ハッシュを電子署名で埋め込む機能がやっと付いたらしい
結局画像を撮る前の段階で偽造可能なのはどうしようもないけど archive todayの魚拓検索でURL以外の文字列入力すると
Googleのカスタム検索経由で全文検索できるようになってるな Googleのやつより見やすいな
日本語で書いてあるせいか? 149 名前:名無しさん@ggmatome :2020/06/24(水) 19:41:32 ID:GJp4RZxo0
Adobe Flash Playerの2020年末サービス終了は、古いゲームの公式サイトとかに影響が出そう ArchiveTeamがなんかやってるかなと思ったけどまだ動いてないっぽい Flashの保存活動やってる人自体はいるよ
ArchiveTeamが動いてないだけかと This URL has been excluded from the Wayback Machine.のサイトも掘り出したいわね かなりデカい保存対象がやってきた
NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html
>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。​​
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。​ naverブランドじゃ将来性見えないもんな
かといってヤフー、ラインブランドに変えてまでやるほどでもないし >>373
いちいちブロックしてたらキリがないなろう系サイトはともかく
こういうドメインは一部のサイトだけ見れないように緩和してほしいわ Webサイト保存してる人はなに使ってる?
自分は巡集とWebsite Explorerを使ってる >>371
ちなみにFlash のアーカイブって何やるの? >>374
ほぼコピペしか無いサイトだからオリジナルのデータは少なそう… ■ このスレッドは過去ログ倉庫に格納されています