【保存・記録】ウェブアーカイブ総合 Page.01
レス数が950を超えています。1000を超えると書き込みができなくなります。
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう 英語wikiのList of Web archiving initiativesでも参照してインスタ保存出来てるところを探すしかないかな 混雑で遅延になるくらいなら寄付額で優先度振り分けすればいいのになー、使い物にならんよ
アーカイブサイト運営が忖度で混雑を放置してないかね 際どい内容を発表するときはアーカイブが混雑している時間帯にすれば良いってことになるな .todayはpdfが間抜けな尻切れトンボになって分散保存にもならない todayはpdfは対応してないって言ってた気がする 【悲報】imgur(いむがー)、ガチのマジで逝く。5月からエロ画像を全て削除、また未登録者の全ての画像を削除、投稿禁止へ
http://greta.5ch.net/test/read.cgi/poverty/1681970989/ サービス終了難民の類にグロや児ポが含まれてればアーカイブ運営に削除要請来たり閉鎖の危機は予想できる所 Haasie: imgurの画像をアーカイブするサイト
https://haasie.com
【使い方】
テキストボックスに https://i.imgur.com/* のリンクを改行区切りで入力して Backup をクリック
保存後は https://i.haasie.com/* のリンクから閲覧可能
5月15日に、ポルノ画像・匿名ユーザーが投稿した非アクティブコンテンツが削除されるという報告を受けて開発に至ったとのこと
↓開発者の投稿
https://news.ycombinator.com/item?id=35835971 >>887
中国のqqとかいうやつと同じ事してて草
イーロン・マスクはチャイニーズだった!?
↓ポルトガルのサービスらしいけどココはWebページの保存が出来るわけじゃないのかね?
https://arquivo.pt/ 保存はできるけど特定国から集中するとポリシー変更、削除、閲覧ブロックはあり得る
》Termos e Condições
》O Arquivo.pt é um serviço disponibilizado em www.arquivo.pt, da responsabilidade e gestão da FCT| FCCN cujo objetivo é o arquivo periódico de conteúdos portugueses disponibilizados publicamente na Internet e posterior disponibilização ao público através de um sistema de pesquisa integrado.
(deepl翻訳)ご利用条件
Arquivo.ptは、FCT|FCCNの責任と管理のもと、www.arquivo.pt、インターネット上で公開されているポルトガル語のコンテンツを定期的にアーカイブし、統合検索システムを通じて一般に提供することを目的としたサービスです。
》Caso a FCT|FCCN tenha conhecimento de que está a armazenar conteúdos cuja ilicitude for manifesta, procederá nos termos do Decreto-Lei n.º 7/2004 de 7 de janeiro, impossibilitando o acesso aos mesmos.
(deepl翻訳)FCT|FCCNが、不正な性質が明らかなコンテンツを保存していることを知った場合、1月7日の法令第7/2004号の条項に従って手続きを行い、これらのコンテンツへのアクセスを不可能にするものとします。 >>888
キンペーと共依存なの知らんのか?
あいつが目指してるのは中国的な支配構造だぞ >>893
odnのホームページのホスト名はこの2つっぽいな
www1.odn.ne.jp
www2.odn.ne.jp .pt試してconclude押してしばらく待ったけど通らないのか時間差なのか分からん状態 同じドメインのページを他の人は.ptで録れてるのに俺の要望が通らないのはなぜだろう ブラウザの標準機能の範囲でVPNも試したが駄目だった “互換機”をカタログ化したWebサイト「Unauthorizon」が公開に。全世界9000種類以上のマシンが大集結
https://www.4gamer.net/games/999/G999905/20230519084/ 長期的にはtodayもorgもどうなるか分からないから開拓地が必要 wayback machineもtodayも特定条件ではスクリプトが原本サイトに取りに行ってるようなんだよね
貫通現象とでも呼ぶべきか 静的HTMLページを手軽に生成・シェアできる https://txti.es が2023年7月1日に閉鎖
相次ぐ悪用に耐えかねたらしい 【ドラクエの日】「そして伝説へ…」ドラゴンクエストⅢ発売日の新宿に“勇者たち”の大行列(1988年2月10日)【NEWS DIG ARCHIVE】
https://m.youtube.com/watch?v=sLnXaSEcwzU Vtuberの配信をアーカイブしてたRagtag Archiveが2023年7月24日に閉鎖するらしい
https://archive.ragtag.moe/
保存したい動画がある場合は早めにダウンロードした方が良いとのこと
https://dl.kitsu.red/ragtag-archive-announcement.pdf RedditのAPI値上げ声明に対し、サードパーティアプリ淘汰に繋がると大規模ストライキ決行へ
明日月曜日から4000以上のコミュニティが非公開になる模様
無期限非公開のリスクに備えてArchiveTeam Warriorは絶賛フル稼働中
Reddit blackout: Subreddits to go private on Monday
https://www.bbc.com/news/technology-65855608
ブラックアウトトラッカー
https://reddark.untone.uk
ArchiveTeam has saved over 10.8 BILLION Reddit links so far. We need YOUR help running ArchiveTeam Warrior to archive subreddits before they're gone indefinitely after June 12th! : DataHoarder
https://reddit.com/r/DataHoarder/comments/142l1i0/archiveteam_has_saved_over_108_billion_reddit/ ArchiveBoxって捏造に使われやしないかちと心配 >>914
あれは自分のコンテンツを保存することが目的なので、そもそも証明手段にはならないよ レトロゲームの87%はもう遊ぶことができなくなっている
https://gigazine.net/news/20230711-retro-games-disappearance/
現在も入手可能なレトロゲームは1割程度。アーカイブが困難すぎるゲーム業界
https://www.gizmodo.jp/2023/07/difficulty-in-obtaining-retro-games.html
>映画『タイタニック』がVHSでしか手に入らないようなものです。
もし、博物館のガラスケースの中で再生されている状態でしか『タイタニック』を見る術がないとしたらどう思いますか? archive.today死んでる?
アクセスしても「Welcome to nginx!」って表示される 愚痴なんだが、
Twitterの各アカウントのトップページに出るツイートが、「X」に変わった辺りからツイート並び順の仕様が変わったせいで、最新のツイート順に魚拓できなくて結構困る。
いつのまにかIAの3200件ツイート保存機能って無くなったんだな。 愚痴なんだが、
Twitterの各アカウントのトップページに出るツイートが、「X」に変わった辺りからツイート並び順の仕様が変わったせいで、最新のツイート順に魚拓できなくて結構困る。。。
いつのまにかIAの3200件ツイート保存機能って無くなったんだな。 Googleのポリシー変更に伴い、2年間非アクティブなGoogleアカウントが2023年12月1日から削除対象へ
> Googleアカウントが少なくとも2年間使用またはサインインされていない場合、Googleワークスペース(Gmail、ドキュメント、ドライブ、ミート、カレンダー)およびGoogleフォト内のコンテンツを含む、アカウントとそのコンテンツを削除する場合があります。
アクティブ判定の基準など詳細情報は下記記事参照
無効な Google アカウントに関するポリシーを更新しました(2023/5/19)
https://japan.googleblog.com/2023/05/GoogleAccount.html
無効な Google アカウントに関するポリシー
https://support.google.com/accounts/answer/12418290?hl=ja テクノロジー系ニュースサイトCNETが、検索エンジンのSEO対策として古い記事を大量削除していることが内部情報により判明
この手法はcontent pruningと呼ばれるSEO対策のひとつとして確立されている模様
Googleはこれを受けて反論ツイートを投稿、なおその反論に対し懐疑的な意見を持つネットユーザーも多く見受けられる
日本のニュースサイトの場合は、過去記事を削除するなんてのは当たり前で、数ヶ月前の記事が見られないなんてことはザラだからそれ以前の問題なんだけども
CNETがGoogle検索のランキングを向上させるために古い記事を大量削除、一方でGoogleは古いコンテンツでも大丈夫だと反論(2023/8/10)
https://gigazine.net/news/20230810-cnet-delete-article-google-seo/ Twitterにはログインしない程のユーザーだけど、archive.isですら確実に冪等的にツイートを保存しづらくなった仕様改変、本当残念。
「Not Found (yet?)」になったり、mhtml保存も途中のツイートが見切れたり、
「ツイート書き込みの証拠を残す」とかも結構困難だろうなと。 もう5chのスレも、IAではError code 520を返されたり、archive.isですら「Not Found (yet?)」で取得できなかった。
書き込みや閲覧の専ブラの規制もキツイ5ch。 ウェブ魚拓保存する度にreCAPTCHAテストで、6問ぐらい出されてちゃんと画像を選んでるのに「もう一度お試しください。」
それを何回もやってるのに失敗になって嫌気がさしてくる。わしゃロボットか。
Chromeのシークレットウィンドウで魚拓を人力で取ってるのに。 > エクスポート機能もないような閉鎖的プラットフォームにせっせと投稿するような間違いを、人はなぜ何度も繰り返すのか?
https://youkoseki.com/f/2021_html
5ch(2ch)もTwitterみたいに使い捨てなプラットフォームになってしまったのだと。と今更気付いた。
ブラウザでスレを見てても重いし。
「書きこみ&クッキー確認」画面の時点で強制スルーされ書きこまれちゃうし。 今のTwitter(X)は、板チョコ1枚を全部バラしてしまってる状態に近い。
未ログインだと、バラバラに切り割れ分けられたダミー(※)な板チョコになるが、
ログインすると、一部分だけ、割られてない板チョコを享受できる。
※食品サンプルとか。 日本人(団体でなく個人)のTwitterの使い方としては、口コミや陰口の延長だと思っている。
----
日本人以外の使い方の傾向や海外事情は知らないが、もしXが日本のその傾向を理解か把握が無くシステムを変えてるとす
ると、方針が合わなかったり融通が利かなくなってくる可能性。
単に一般論で、使う側の事情や使い勝手を把握してないと使いづらくなる。に過ぎないだろうが。 NHKの番組とかでも見る、現TwitterとXでの表記揺れについて
X(Twitter)
Twitter(X)
TwitterX
⋮
など表記に色々候補があると思うが
x=Twitter なら、一般向けに限っては「Twitter」表記のままでいい気がした。 「GNU/Linux」の例だと「Twitter/X」
海外のMVタイトルの「アーティスト名 - 曲名」表記例に倣うと「X/Twitter」
「Twitter X」とかで軽くググったが、
b.hatena.ne.jp/entry/https://www.itmedia.co.jp/news/articles/2309/06/news158.html
これが正解かよ。 09時半過から逃避してか駄弁ってたら、もうこんな時間…。 このスレッドのレス、どちらかというとツリー型の方がいいな。多分。 ブラウザで
archive.todayを叩くと
archive.phにリダイレクトして
↓の画面になるんだけど
https://i.imgur.com/rIj3UMI.png
ドメインが.isに変わったのが反映されてない?
DNSサーバーの設定か何かが間違えてんのかな? ツイート保存はnitterでも良くね?まあ訴訟絡みには使えないだろうし、nitterの有志サーバーが飛んだら個々の仕様検証も出来なくなるので脆弱だが >>938
普通にInternetArchiveでいい気がするけど
まぁ分散化されるのは良いこと 502 Bad Gateway
nginx/1.18.0 (Ubuntu)
https://megalodon.jp/
※復帰済 >>937
なんでnitterだと訴訟で使えなくなるの? Internet Archiveに保存されてるサイトをローカルに保存したいんだが、良い方法はないか
wgetは何かうまくいかないしブラウザで一ページずつ保存するのも面倒 >>941
nitterがツイート内容を改ざんしている可能性があるから
Twitter直取りよりは信用度が落ちる
>>942
これとか?使ったことないから分らんけど
https://github.com/hartator/wayback-machine-downloader X/Twitterについてもあまり詳しくないけど
Nitterってnitter.netが大元な本家でいいんだよな‥? (他: nitter.1d4.us nitter.cz)
でもnitter.netでのツイートをarchive.isで保存しようとすると、Not Found (yet?)で必ず失敗して保存できない覚えがあったような。
(nitter.)czの場合は、保存できた覚えがあるけど、czやusなどのNitterミラー版の発信元や信頼性って不明な印象で(※自分はまだ調べてない)、
もしページを信頼性も保ったまま恒久的に残そうとしたら総合的にはnet版以外のNitterは何かうまくいかなさそうな印象が。 サンプル:
https://nitter.net/Taito_Hey/status/1707568135640088871
web.archive.org は保存可能で
archive.is は「Not Found (yet?)」
ちなみに、ユーザーのトップページをIAにsaveすると、トップページにあった画像は保存できていない。
https://web.archive.org/web/20230930232600/https://nitter.net/Taito_Hey もしarchive.isで保存できても、
「「https://nitter.net/Taito_Hey/status/1707568135640088871#m」と「#m」が付いてて
と表記揺れしてリンクが散逸してしまう可能性があるから、現archive.isの仕様だと意外と面倒な問題があるな…と。 そんな事よりも、
Nitter(>>937)といい、ArchiveBox(>>0914)といい、それらをここで最近知ったけど、
皆どこで そういう便利な物があるっていう事を知り得てるの? ツイッター?ニュースサイト? (この場合、やっぱりここ ツリー型の方が見やすいんだろうな…。)
----
詰まるところ
nitter.czで見た物と
nitter.netで見た物、
「どちらも原本である」っていう事が分かるようにできればいいんだろうな。
(なんなら「twitter.comとNitterが同一であるか? またはそれを証明可能か?」ができればいいんだろうが。) そうなると、Web3(ブロックチェーン)???
超うろ覚えだけど、あれってあれなのか。エンドユーザーに浸透するの? >>949
TwitterとNitterの違いはツイートの時間表記だけ
Twitterは日本時間だけどNitterはUTCになってる
でもアカウント名、IDとかツイート内容は同じだから同一であると証明できるんじゃないですか >>943
ありがとう
これはなかなか良い
リンクをローカル用に修正してくれないのが欠点だが、保存だけなら完璧 ここはお前のTwitter(X)やブログじゃないんだから毎度だらだら連投しないである程度考えまとめたり結論出してから1つのレスで書き込んでくれないか 意外と読んでる人いるのね、このスレって。レスの勢いが鈍行なので。
てっきり、(>>950までの途中過程の)自分のレスは、取捨して読み飛ばしてくれてるものだと思ってた。(ちなみに >>945を書き込んだ際は、間違ってageてしまった。)
>>951
「Nitter側が、本当にツイート内容などを改竄してないか?」「ツイート内容変更後に、原本(Twitter)とNitterで差異が無いか?」とかの証明は難しいんでしょうね。 >>931-932
なんとなく表記揺れをまとめると
X(旧Twitter)
X(Twitter)
Twitter(X)
TwitterX
x=Twitter (従来通りTwitter表記呼称、あるいは Xと書いて 読みはツイッター)
Twitter/X
X/Twitter
x.com (https://www.affility.co.jp/?p=1770 ) 昨夜あたりから、archive.isで ウェブ魚拓(トップページ)を保存しようとすると、
「Welcome to nginx!」画面になって、再アクセスすると
「このサイトにアクセスできません archive.is からの応答時間が長すぎます。」
と、一定時間アクセスできなくなる気がする。
例: https://archive.is/submit/?submitid=sxIrd9y3YbEtDKkLjC8I3IfsId506PIYo1H3XOT5fjyjpXszt70KHIOege2rgiV3&url=http%3A%2F%2Fmegalodon.jp%2F
もしかしたら、archive.isの使用者ごと弾かれるNGなサイトURLでもあって、archive.is側は判定しているんだろうか?
しかし、5chも重いなあ…最近。 >>943
まNitterのほうがX(Twitter)本体のUIよか圧倒的に挙動も軽いから、訴訟以外のバックアップ取りなら最強だけどな Archive todayに削除依頼を送っているんだけど、こいつほんまに通さないな。
良い方法ない? archive.todayの削除に成功したのってはるかぜちゃんの新しい方の弁護士と尊師だけなんじゃなかったっけ
確か現地の弁護士経由かつかなりしっかり動かないと全部突っぱねられるんじゃなかった? 法的手順をチラつかせたら削除されたってヤフー知恵遅れを見たが、どうなんだろうな。 ドメインも著作権も全部自分に帰属してるんだがな。
ウェイバックマシンは、テキストファイルを用意して、サイトにアドレス置いたら消してくれたんだが。
こいつは、手順も不明確且つ削除してくれる望みが薄そう。
どうかしてるぜ。 DMCAとかで検索エンジンから表示は消せても、ウェブサイトの削除依頼はできないんだからなぁ
どうにかならんもんかね。 サービスが終了しそうになっても、誰かしら引き継いだり売ったりするんじゃないのか?
まぁそもそもインターネットアーカイブのサービス終了ってのは想像がつかないが。 実際、運営は個人レベルだったはずだから、寿命を迎えれば消えてなくなるかもな。
それ相応の団体化するとそう簡単には行かないが。
それこそ寄付金があるからな。あれが潰れるってのはあまり考えれられない。 >>965
todayは何度もドメイン変えたり、過去に児ポ通報攻撃にあっても生き残ってるので無理じゃないかな
まぁURL分からなきゃまず誰もアクセス出来ないし、諦めて忘れた方が良いと思う 早い話、日本人のnitterサーバー管理者を証拠申請すれば済むような セルフホストしたらええんちゃう
tps://matoken.org/blog/2021/02/17/self-hosting-the-lightweight-twitter-front-end-nitter/ ↩ .orgだとイスラエル首相がツイートした焼死赤子の写真が全部"Hmm...this page doesn’t exist. Try searching for something else."
.todayで1件だけ見れる 今気づいたんだけどツイートの直リンクだとログインなしで見れるのね
Nitter からスクレイプして直リンク取得でwaybackmachineに打ち込めるやん! >>973
一部見れないツイートがあるのと(おそらくR18認定)、リプライが見れなくなったから一つひとつアーカイブしなきゃいけないけどね レス数が950を超えています。1000を超えると書き込みができなくなります。