【保存・記録】ウェブアーカイブ総合 Page.01
レス数が900を超えています。1000を超えると表示できなくなるよ。
ウェブアーカイブ関連の話題を総合的に扱うスレです。
情報交換し合って貴重なインターネット遺産を後世に残しましょう。
Internet ArchiveなどのWebサービスだけでなく、wget・HTTrack・Heritrix等のツールやソフト、自作クローラの話題もOKです。
・関連リンク(Rock54回避のためピリオドをカンマに変更)
Wayback Machine
https://archive,org/
archive,today
https://archive,fo/
ウェブ魚拓
https://megalodon,jp/
Archive Team
https://archiveteam.org/
・関連スレ
Internet Archive総合 (web,archive,org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/
【和塩】geocitiesスレ10【ジオシティーズ】
http://mevius.5ch.net/test/read.cgi/hosting/1554115546/
【ヤフー】Yahoo!ブログ【アーカイブ】
http://mevius.5ch.net/test/read.cgi/blog/1554380939/
・ジオシティーズでの失敗から学んだアーカイブにあたっての注意事項
1. 早めに行動しましょう
2. まずは既存のプロジェクトや遺産を探しましょう
3. 単独ではなく組織的に動きましょう
4. 呼びかけや情報共有を積極的に行いましょう こんなのあったんか・・・見たかったとこはリンク切れのアーカイブやった残念 >>839
インターネットアーカイブにはデータ渡してあるのかな ヤフーニュースだとコメント欄部分の数行ダイジェストは閲覧都度ライブで取りに行ってるみたいだな。👍👎の数を見るとわかる .orgでカレンダー日付にポインタ当てて保存時刻を選ぶ奴が出てくるまでのグールグール♪がクソ長くて苛々することがある。 >>843
前は早かったんだけどな
段々遅くなってる気がする .phのqueue待ちで最後の最後に変な表示でエラーとか最悪 >>754
12/1からウェブリブログも終了するからURL収集して後悔のないようにしないと .ghostは長く待たされた挙句に保存も出来ないフェイクサイトになり果てた模様 来週Twitterの凍結垢の復活祭が巻き起こりそう
収拾つかなくなって再凍結のパターンを想定すると千載一遇のアーカイブチャンスかも
https://twitter.com/elonmusk/status/1595869526469533701
https://twitter.com/5chan_nel (5ch newer account) todayは今モルドバ鯖がメインか。
twitter直撮りは待たされるけどインスタンス系は200queueごぼう抜きですぐ終わる謎の現象。 このサイトにアクセスできませんweb.archive.org で接続が拒否されました。
次をお試しください
接続を確認する
プロキシとファイアウォールを確認する
ERR_CONNECTION_REFUSED .org、カレンダー画面にも表示されるのに保存されてない謎の症状。 恩赦の余波
The capture will start in ~* minute, ** seconds because we are doing too many captures of twitter.com right now. You may close your browser window and the page will still be saved. ニコニコミュニティの掲示板のレスをすべてアーカイブする方法を教えてほしい
なんかdatで取れたような気がする Twitter公式やGoogleウェブの日本語検索結果ページを直接取ると文字化けしちまうからArchive.isに取ったやつを複取りしてたが常時取得エラーになってしまった。 ここって個人運営だけどメディアに紹介されてるような有名サイトの終了の情報貼るのは駄目ですか? >>860
若干訂正
「個人運営だけどメディアに紹介されてるような有名サイト」です とりあえずIAで保存実行してみたけどすでにやってあったみたいだね
ブログ記事は個別保存していかないとだめかな? 世界的には結構アーカイブサイトは変動してるんだな。
元サイトによって尻切れトンボになったりの対策・使い分けで複数使ってるけど。
なんかツイッターの凍結アカはアーカイブ無視して現在情報参照させられてる気がするんだが気のせいか? 3年くらい?前からIAのIPが@wikiにスパム扱いされてるみたいで
アーカイブ取ろうとしても専用ページにジャンプさせられるから取れないな ghostはクソだな
nginx error!
The page you are looking for is temporarily unavailable. Please try again later.
Website Administrator
Something has triggered an error on your website. This is the default error page for nginx that is distributed with Fedora. It is located /usr/share/nginx/html/50x.html
You should customize this error page for your own site or edit the error_page directive in the nginx configuration file /etc/nginx/nginx.conf.
[ Powered by nginx ] [ Powered by Fedora ] IAの保存ツイートは"Something went wrong. Try reloading."に置換されてるのか IAさん、フェアユース認められず敗訴
storage.courtlistener.com/recap/gov.uscourts.nysd.537900/gov.uscourts.nysd.537900.188.0.pdf
UNITED STATES DISTRICT COURT SOUTHERN DISTRICT OF NEW YORK
The plaintiffs in this action, four book publishers, allege that the defendant, an organization whose professed mission is to provide universal access to all knowledge, infringed the plaintiffs’ copyrights in 127 books (the “Works in Suit”) by scanning print copies of the Works in Suit and lending the digital copies to users of the defendant’s website without the plaintiffs’ permission.
The defendant contends that it is not liable for copyright infringement because it makes fair use of the Works in Suit. See 17 U.S.C. § 107. The parties now crossmove for summary judgment. For the following reasons, the plaintiffs’ motion for summary judgment is granted, and the defendant’s motion for summary judgment is denied.
ユナイテッド・ステーツ・ディー・コート ニューヨーク州南部地区
本訴訟の原告である書籍出版社4社は、あらゆる知識への普遍的なアクセスを提供することを使命とする団体である被告が、原告の許可なく訴訟作品の印刷物をスキャンしてデジタルコピーを被告のウェブサイトの利用者に貸し出すことにより、127冊の書籍(「訴訟作品」)に関する原告の著作権を侵害したと主張するものである。
被告は、訴訟著作物を公正に利用しているため、著作権侵害の責任を負わないと主張している。合衆国法典第17編第107条を参照。現在、両当事者は略式判決を求めて交差している。以下の理由により、原告の略式判決申立は認められ、被告の略式判決申立は却下される。 >>870
緊急図書館は正直やり過ぎだったな
あれのせいで目を付けられた 順番待ち長すぎてツイート魚拓はSwwTr(Something went wrong. Try reloading.)多い Instagramのユーザーページ(www.instagram.com/{ユーザー名}/)見れなくなってる。投稿記事は見れるが。
ページが見つかりません • Instagram
このページはご利用いただけません。
リンクに問題があるか、ページが削除された可能性があります。Instagramに戻る Instagramのユーザーページって、IAもarchive.isもウェブ魚拓もキャッシュ取れないよね…?
キャッシュ取れるアーカイブサイトってある?
IAは、ログイン画面にリダイレクトされたり、「Please try again in ~600 min. Crawling this host is paused because they notified us that they are overloaded right now.」
archive.isは、Not Found (yet?) 投稿記事(/p/*)は取れたり取れなかったり。
ウェブ魚拓は、robots.txtブロック 英語wikiのList of Web archiving initiativesでも参照してインスタ保存出来てるところを探すしかないかな 混雑で遅延になるくらいなら寄付額で優先度振り分けすればいいのになー、使い物にならんよ
アーカイブサイト運営が忖度で混雑を放置してないかね 際どい内容を発表するときはアーカイブが混雑している時間帯にすれば良いってことになるな .todayはpdfが間抜けな尻切れトンボになって分散保存にもならない todayはpdfは対応してないって言ってた気がする 【悲報】imgur(いむがー)、ガチのマジで逝く。5月からエロ画像を全て削除、また未登録者の全ての画像を削除、投稿禁止へ
http://greta.5ch.net/test/read.cgi/poverty/1681970989/ サービス終了難民の類にグロや児ポが含まれてればアーカイブ運営に削除要請来たり閉鎖の危機は予想できる所 Haasie: imgurの画像をアーカイブするサイト
https://haasie.com
【使い方】
テキストボックスに https://i.imgur.com/* のリンクを改行区切りで入力して Backup をクリック
保存後は https://i.haasie.com/* のリンクから閲覧可能
5月15日に、ポルノ画像・匿名ユーザーが投稿した非アクティブコンテンツが削除されるという報告を受けて開発に至ったとのこと
↓開発者の投稿
https://news.ycombinator.com/item?id=35835971 >>887
中国のqqとかいうやつと同じ事してて草
イーロン・マスクはチャイニーズだった!?
↓ポルトガルのサービスらしいけどココはWebページの保存が出来るわけじゃないのかね?
https://arquivo.pt/ 保存はできるけど特定国から集中するとポリシー変更、削除、閲覧ブロックはあり得る
》Termos e Condições
》O Arquivo.pt é um serviço disponibilizado em www.arquivo.pt, da responsabilidade e gestão da FCT| FCCN cujo objetivo é o arquivo periódico de conteúdos portugueses disponibilizados publicamente na Internet e posterior disponibilização ao público através de um sistema de pesquisa integrado.
(deepl翻訳)ご利用条件
Arquivo.ptは、FCT|FCCNの責任と管理のもと、www.arquivo.pt、インターネット上で公開されているポルトガル語のコンテンツを定期的にアーカイブし、統合検索システムを通じて一般に提供することを目的としたサービスです。
》Caso a FCT|FCCN tenha conhecimento de que está a armazenar conteúdos cuja ilicitude for manifesta, procederá nos termos do Decreto-Lei n.º 7/2004 de 7 de janeiro, impossibilitando o acesso aos mesmos.
(deepl翻訳)FCT|FCCNが、不正な性質が明らかなコンテンツを保存していることを知った場合、1月7日の法令第7/2004号の条項に従って手続きを行い、これらのコンテンツへのアクセスを不可能にするものとします。 >>888
キンペーと共依存なの知らんのか?
あいつが目指してるのは中国的な支配構造だぞ >>893
odnのホームページのホスト名はこの2つっぽいな
www1.odn.ne.jp
www2.odn.ne.jp .pt試してconclude押してしばらく待ったけど通らないのか時間差なのか分からん状態 同じドメインのページを他の人は.ptで録れてるのに俺の要望が通らないのはなぜだろう ブラウザの標準機能の範囲でVPNも試したが駄目だった “互換機”をカタログ化したWebサイト「Unauthorizon」が公開に。全世界9000種類以上のマシンが大集結
https://www.4gamer.net/games/999/G999905/20230519084/ 長期的にはtodayもorgもどうなるか分からないから開拓地が必要 wayback machineもtodayも特定条件ではスクリプトが原本サイトに取りに行ってるようなんだよね
貫通現象とでも呼ぶべきか 静的HTMLページを手軽に生成・シェアできる https://txti.es が2023年7月1日に閉鎖
相次ぐ悪用に耐えかねたらしい 【ドラクエの日】「そして伝説へ…」ドラゴンクエストⅢ発売日の新宿に“勇者たち”の大行列(1988年2月10日)【NEWS DIG ARCHIVE】
https://m.youtube.com/watch?v=sLnXaSEcwzU Vtuberの配信をアーカイブしてたRagtag Archiveが2023年7月24日に閉鎖するらしい
https://archive.ragtag.moe/
保存したい動画がある場合は早めにダウンロードした方が良いとのこと
https://dl.kitsu.red/ragtag-archive-announcement.pdf RedditのAPI値上げ声明に対し、サードパーティアプリ淘汰に繋がると大規模ストライキ決行へ
明日月曜日から4000以上のコミュニティが非公開になる模様
無期限非公開のリスクに備えてArchiveTeam Warriorは絶賛フル稼働中
Reddit blackout: Subreddits to go private on Monday
https://www.bbc.com/news/technology-65855608
ブラックアウトトラッカー
https://reddark.untone.uk
ArchiveTeam has saved over 10.8 BILLION Reddit links so far. We need YOUR help running ArchiveTeam Warrior to archive subreddits before they're gone indefinitely after June 12th! : DataHoarder
https://reddit.com/r/DataHoarder/comments/142l1i0/archiveteam_has_saved_over_108_billion_reddit/ ArchiveBoxって捏造に使われやしないかちと心配 >>914
あれは自分のコンテンツを保存することが目的なので、そもそも証明手段にはならないよ レトロゲームの87%はもう遊ぶことができなくなっている
https://gigazine.net/news/20230711-retro-games-disappearance/
現在も入手可能なレトロゲームは1割程度。アーカイブが困難すぎるゲーム業界
https://www.gizmodo.jp/2023/07/difficulty-in-obtaining-retro-games.html
>映画『タイタニック』がVHSでしか手に入らないようなものです。
もし、博物館のガラスケースの中で再生されている状態でしか『タイタニック』を見る術がないとしたらどう思いますか? archive.today死んでる?
アクセスしても「Welcome to nginx!」って表示される 愚痴なんだが、
Twitterの各アカウントのトップページに出るツイートが、「X」に変わった辺りからツイート並び順の仕様が変わったせいで、最新のツイート順に魚拓できなくて結構困る。
いつのまにかIAの3200件ツイート保存機能って無くなったんだな。 愚痴なんだが、
Twitterの各アカウントのトップページに出るツイートが、「X」に変わった辺りからツイート並び順の仕様が変わったせいで、最新のツイート順に魚拓できなくて結構困る。。。
いつのまにかIAの3200件ツイート保存機能って無くなったんだな。 Googleのポリシー変更に伴い、2年間非アクティブなGoogleアカウントが2023年12月1日から削除対象へ
> Googleアカウントが少なくとも2年間使用またはサインインされていない場合、Googleワークスペース(Gmail、ドキュメント、ドライブ、ミート、カレンダー)およびGoogleフォト内のコンテンツを含む、アカウントとそのコンテンツを削除する場合があります。
アクティブ判定の基準など詳細情報は下記記事参照
無効な Google アカウントに関するポリシーを更新しました(2023/5/19)
https://japan.googleblog.com/2023/05/GoogleAccount.html
無効な Google アカウントに関するポリシー
https://support.google.com/accounts/answer/12418290?hl=ja テクノロジー系ニュースサイトCNETが、検索エンジンのSEO対策として古い記事を大量削除していることが内部情報により判明
この手法はcontent pruningと呼ばれるSEO対策のひとつとして確立されている模様
Googleはこれを受けて反論ツイートを投稿、なおその反論に対し懐疑的な意見を持つネットユーザーも多く見受けられる
日本のニュースサイトの場合は、過去記事を削除するなんてのは当たり前で、数ヶ月前の記事が見られないなんてことはザラだからそれ以前の問題なんだけども
CNETがGoogle検索のランキングを向上させるために古い記事を大量削除、一方でGoogleは古いコンテンツでも大丈夫だと反論(2023/8/10)
https://gigazine.net/news/20230810-cnet-delete-article-google-seo/ Twitterにはログインしない程のユーザーだけど、archive.isですら確実に冪等的にツイートを保存しづらくなった仕様改変、本当残念。
「Not Found (yet?)」になったり、mhtml保存も途中のツイートが見切れたり、
「ツイート書き込みの証拠を残す」とかも結構困難だろうなと。 もう5chのスレも、IAではError code 520を返されたり、archive.isですら「Not Found (yet?)」で取得できなかった。
書き込みや閲覧の専ブラの規制もキツイ5ch。 ウェブ魚拓保存する度にreCAPTCHAテストで、6問ぐらい出されてちゃんと画像を選んでるのに「もう一度お試しください。」
それを何回もやってるのに失敗になって嫌気がさしてくる。わしゃロボットか。
Chromeのシークレットウィンドウで魚拓を人力で取ってるのに。 > エクスポート機能もないような閉鎖的プラットフォームにせっせと投稿するような間違いを、人はなぜ何度も繰り返すのか?
https://youkoseki.com/f/2021_html
5ch(2ch)もTwitterみたいに使い捨てなプラットフォームになってしまったのだと。と今更気付いた。
ブラウザでスレを見てても重いし。
「書きこみ&クッキー確認」画面の時点で強制スルーされ書きこまれちゃうし。 今のTwitter(X)は、板チョコ1枚を全部バラしてしまってる状態に近い。
未ログインだと、バラバラに切り割れ分けられたダミー(※)な板チョコになるが、
ログインすると、一部分だけ、割られてない板チョコを享受できる。
※食品サンプルとか。 日本人(団体でなく個人)のTwitterの使い方としては、口コミや陰口の延長だと思っている。
----
日本人以外の使い方の傾向や海外事情は知らないが、もしXが日本のその傾向を理解か把握が無くシステムを変えてるとす
ると、方針が合わなかったり融通が利かなくなってくる可能性。
単に一般論で、使う側の事情や使い勝手を把握してないと使いづらくなる。に過ぎないだろうが。 NHKの番組とかでも見る、現TwitterとXでの表記揺れについて
X(Twitter)
Twitter(X)
TwitterX
⋮
など表記に色々候補があると思うが
x=Twitter なら、一般向けに限っては「Twitter」表記のままでいい気がした。 「GNU/Linux」の例だと「Twitter/X」
海外のMVタイトルの「アーティスト名 - 曲名」表記例に倣うと「X/Twitter」
「Twitter X」とかで軽くググったが、
b.hatena.ne.jp/entry/https://www.itmedia.co.jp/news/articles/2309/06/news158.html
これが正解かよ。 09時半過から逃避してか駄弁ってたら、もうこんな時間…。 このスレッドのレス、どちらかというとツリー型の方がいいな。多分。 ブラウザで
archive.todayを叩くと
archive.phにリダイレクトして
↓の画面になるんだけど
https://i.imgur.com/rIj3UMI.png
ドメインが.isに変わったのが反映されてない?
DNSサーバーの設定か何かが間違えてんのかな? ツイート保存はnitterでも良くね?まあ訴訟絡みには使えないだろうし、nitterの有志サーバーが飛んだら個々の仕様検証も出来なくなるので脆弱だが レス数が900を超えています。1000を超えると表示できなくなるよ。