【保存・記録】ウェブアーカイブ総合 Page.01
レス数が1000を超えています。これ以上書き込みはできません。
順番待ち長すぎてツイート魚拓はSwwTr(Something went wrong. Try reloading.)多い Instagramのユーザーページ(www.instagram.com/{ユーザー名}/)見れなくなってる。投稿記事は見れるが。
ページが見つかりません • Instagram
このページはご利用いただけません。
リンクに問題があるか、ページが削除された可能性があります。Instagramに戻る Instagramのユーザーページって、IAもarchive.isもウェブ魚拓もキャッシュ取れないよね…?
キャッシュ取れるアーカイブサイトってある?
IAは、ログイン画面にリダイレクトされたり、「Please try again in ~600 min. Crawling this host is paused because they notified us that they are overloaded right now.」
archive.isは、Not Found (yet?) 投稿記事(/p/*)は取れたり取れなかったり。
ウェブ魚拓は、robots.txtブロック 英語wikiのList of Web archiving initiativesでも参照してインスタ保存出来てるところを探すしかないかな 混雑で遅延になるくらいなら寄付額で優先度振り分けすればいいのになー、使い物にならんよ
アーカイブサイト運営が忖度で混雑を放置してないかね 際どい内容を発表するときはアーカイブが混雑している時間帯にすれば良いってことになるな .todayはpdfが間抜けな尻切れトンボになって分散保存にもならない todayはpdfは対応してないって言ってた気がする 【悲報】imgur(いむがー)、ガチのマジで逝く。5月からエロ画像を全て削除、また未登録者の全ての画像を削除、投稿禁止へ
http://greta.5ch.net/test/read.cgi/poverty/1681970989/ サービス終了難民の類にグロや児ポが含まれてればアーカイブ運営に削除要請来たり閉鎖の危機は予想できる所 Haasie: imgurの画像をアーカイブするサイト
https://haasie.com
【使い方】
テキストボックスに https://i.imgur.com/* のリンクを改行区切りで入力して Backup をクリック
保存後は https://i.haasie.com/* のリンクから閲覧可能
5月15日に、ポルノ画像・匿名ユーザーが投稿した非アクティブコンテンツが削除されるという報告を受けて開発に至ったとのこと
↓開発者の投稿
https://news.ycombinator.com/item?id=35835971 >>887
中国のqqとかいうやつと同じ事してて草
イーロン・マスクはチャイニーズだった!?
↓ポルトガルのサービスらしいけどココはWebページの保存が出来るわけじゃないのかね?
https://arquivo.pt/ 保存はできるけど特定国から集中するとポリシー変更、削除、閲覧ブロックはあり得る
》Termos e Condições
》O Arquivo.pt é um serviço disponibilizado em www.arquivo.pt, da responsabilidade e gestão da FCT| FCCN cujo objetivo é o arquivo periódico de conteúdos portugueses disponibilizados publicamente na Internet e posterior disponibilização ao público através de um sistema de pesquisa integrado.
(deepl翻訳)ご利用条件
Arquivo.ptは、FCT|FCCNの責任と管理のもと、www.arquivo.pt、インターネット上で公開されているポルトガル語のコンテンツを定期的にアーカイブし、統合検索システムを通じて一般に提供することを目的としたサービスです。
》Caso a FCT|FCCN tenha conhecimento de que está a armazenar conteúdos cuja ilicitude for manifesta, procederá nos termos do Decreto-Lei n.º 7/2004 de 7 de janeiro, impossibilitando o acesso aos mesmos.
(deepl翻訳)FCT|FCCNが、不正な性質が明らかなコンテンツを保存していることを知った場合、1月7日の法令第7/2004号の条項に従って手続きを行い、これらのコンテンツへのアクセスを不可能にするものとします。 >>888
キンペーと共依存なの知らんのか?
あいつが目指してるのは中国的な支配構造だぞ >>893
odnのホームページのホスト名はこの2つっぽいな
www1.odn.ne.jp
www2.odn.ne.jp .pt試してconclude押してしばらく待ったけど通らないのか時間差なのか分からん状態 同じドメインのページを他の人は.ptで録れてるのに俺の要望が通らないのはなぜだろう ブラウザの標準機能の範囲でVPNも試したが駄目だった “互換機”をカタログ化したWebサイト「Unauthorizon」が公開に。全世界9000種類以上のマシンが大集結
https://www.4gamer.net/games/999/G999905/20230519084/ 長期的にはtodayもorgもどうなるか分からないから開拓地が必要 wayback machineもtodayも特定条件ではスクリプトが原本サイトに取りに行ってるようなんだよね
貫通現象とでも呼ぶべきか 静的HTMLページを手軽に生成・シェアできる https://txti.es が2023年7月1日に閉鎖
相次ぐ悪用に耐えかねたらしい 【ドラクエの日】「そして伝説へ…」ドラゴンクエストⅢ発売日の新宿に“勇者たち”の大行列(1988年2月10日)【NEWS DIG ARCHIVE】
https://m.youtube.com/watch?v=sLnXaSEcwzU Vtuberの配信をアーカイブしてたRagtag Archiveが2023年7月24日に閉鎖するらしい
https://archive.ragtag.moe/
保存したい動画がある場合は早めにダウンロードした方が良いとのこと
https://dl.kitsu.red/ragtag-archive-announcement.pdf RedditのAPI値上げ声明に対し、サードパーティアプリ淘汰に繋がると大規模ストライキ決行へ
明日月曜日から4000以上のコミュニティが非公開になる模様
無期限非公開のリスクに備えてArchiveTeam Warriorは絶賛フル稼働中
Reddit blackout: Subreddits to go private on Monday
https://www.bbc.com/news/technology-65855608
ブラックアウトトラッカー
https://reddark.untone.uk
ArchiveTeam has saved over 10.8 BILLION Reddit links so far. We need YOUR help running ArchiveTeam Warrior to archive subreddits before they're gone indefinitely after June 12th! : DataHoarder
https://reddit.com/r/DataHoarder/comments/142l1i0/archiveteam_has_saved_over_108_billion_reddit/ ArchiveBoxって捏造に使われやしないかちと心配 >>914
あれは自分のコンテンツを保存することが目的なので、そもそも証明手段にはならないよ レトロゲームの87%はもう遊ぶことができなくなっている
https://gigazine.net/news/20230711-retro-games-disappearance/
現在も入手可能なレトロゲームは1割程度。アーカイブが困難すぎるゲーム業界
https://www.gizmodo.jp/2023/07/difficulty-in-obtaining-retro-games.html
>映画『タイタニック』がVHSでしか手に入らないようなものです。
もし、博物館のガラスケースの中で再生されている状態でしか『タイタニック』を見る術がないとしたらどう思いますか? archive.today死んでる?
アクセスしても「Welcome to nginx!」って表示される 愚痴なんだが、
Twitterの各アカウントのトップページに出るツイートが、「X」に変わった辺りからツイート並び順の仕様が変わったせいで、最新のツイート順に魚拓できなくて結構困る。
いつのまにかIAの3200件ツイート保存機能って無くなったんだな。 愚痴なんだが、
Twitterの各アカウントのトップページに出るツイートが、「X」に変わった辺りからツイート並び順の仕様が変わったせいで、最新のツイート順に魚拓できなくて結構困る。。。
いつのまにかIAの3200件ツイート保存機能って無くなったんだな。 Googleのポリシー変更に伴い、2年間非アクティブなGoogleアカウントが2023年12月1日から削除対象へ
> Googleアカウントが少なくとも2年間使用またはサインインされていない場合、Googleワークスペース(Gmail、ドキュメント、ドライブ、ミート、カレンダー)およびGoogleフォト内のコンテンツを含む、アカウントとそのコンテンツを削除する場合があります。
アクティブ判定の基準など詳細情報は下記記事参照
無効な Google アカウントに関するポリシーを更新しました(2023/5/19)
https://japan.googleblog.com/2023/05/GoogleAccount.html
無効な Google アカウントに関するポリシー
https://support.google.com/accounts/answer/12418290?hl=ja テクノロジー系ニュースサイトCNETが、検索エンジンのSEO対策として古い記事を大量削除していることが内部情報により判明
この手法はcontent pruningと呼ばれるSEO対策のひとつとして確立されている模様
Googleはこれを受けて反論ツイートを投稿、なおその反論に対し懐疑的な意見を持つネットユーザーも多く見受けられる
日本のニュースサイトの場合は、過去記事を削除するなんてのは当たり前で、数ヶ月前の記事が見られないなんてことはザラだからそれ以前の問題なんだけども
CNETがGoogle検索のランキングを向上させるために古い記事を大量削除、一方でGoogleは古いコンテンツでも大丈夫だと反論(2023/8/10)
https://gigazine.net/news/20230810-cnet-delete-article-google-seo/ Twitterにはログインしない程のユーザーだけど、archive.isですら確実に冪等的にツイートを保存しづらくなった仕様改変、本当残念。
「Not Found (yet?)」になったり、mhtml保存も途中のツイートが見切れたり、
「ツイート書き込みの証拠を残す」とかも結構困難だろうなと。 もう5chのスレも、IAではError code 520を返されたり、archive.isですら「Not Found (yet?)」で取得できなかった。
書き込みや閲覧の専ブラの規制もキツイ5ch。 ウェブ魚拓保存する度にreCAPTCHAテストで、6問ぐらい出されてちゃんと画像を選んでるのに「もう一度お試しください。」
それを何回もやってるのに失敗になって嫌気がさしてくる。わしゃロボットか。
Chromeのシークレットウィンドウで魚拓を人力で取ってるのに。 > エクスポート機能もないような閉鎖的プラットフォームにせっせと投稿するような間違いを、人はなぜ何度も繰り返すのか?
https://youkoseki.com/f/2021_html
5ch(2ch)もTwitterみたいに使い捨てなプラットフォームになってしまったのだと。と今更気付いた。
ブラウザでスレを見てても重いし。
「書きこみ&クッキー確認」画面の時点で強制スルーされ書きこまれちゃうし。 今のTwitter(X)は、板チョコ1枚を全部バラしてしまってる状態に近い。
未ログインだと、バラバラに切り割れ分けられたダミー(※)な板チョコになるが、
ログインすると、一部分だけ、割られてない板チョコを享受できる。
※食品サンプルとか。 日本人(団体でなく個人)のTwitterの使い方としては、口コミや陰口の延長だと思っている。
----
日本人以外の使い方の傾向や海外事情は知らないが、もしXが日本のその傾向を理解か把握が無くシステムを変えてるとす
ると、方針が合わなかったり融通が利かなくなってくる可能性。
単に一般論で、使う側の事情や使い勝手を把握してないと使いづらくなる。に過ぎないだろうが。 NHKの番組とかでも見る、現TwitterとXでの表記揺れについて
X(Twitter)
Twitter(X)
TwitterX
⋮
など表記に色々候補があると思うが
x=Twitter なら、一般向けに限っては「Twitter」表記のままでいい気がした。 「GNU/Linux」の例だと「Twitter/X」
海外のMVタイトルの「アーティスト名 - 曲名」表記例に倣うと「X/Twitter」
「Twitter X」とかで軽くググったが、
b.hatena.ne.jp/entry/https://www.itmedia.co.jp/news/articles/2309/06/news158.html
これが正解かよ。 09時半過から逃避してか駄弁ってたら、もうこんな時間…。 このスレッドのレス、どちらかというとツリー型の方がいいな。多分。 ブラウザで
archive.todayを叩くと
archive.phにリダイレクトして
↓の画面になるんだけど
https://i.imgur.com/rIj3UMI.png
ドメインが.isに変わったのが反映されてない?
DNSサーバーの設定か何かが間違えてんのかな? ツイート保存はnitterでも良くね?まあ訴訟絡みには使えないだろうし、nitterの有志サーバーが飛んだら個々の仕様検証も出来なくなるので脆弱だが >>938
普通にInternetArchiveでいい気がするけど
まぁ分散化されるのは良いこと 502 Bad Gateway
nginx/1.18.0 (Ubuntu)
https://megalodon.jp/
※復帰済 >>937
なんでnitterだと訴訟で使えなくなるの? Internet Archiveに保存されてるサイトをローカルに保存したいんだが、良い方法はないか
wgetは何かうまくいかないしブラウザで一ページずつ保存するのも面倒 >>941
nitterがツイート内容を改ざんしている可能性があるから
Twitter直取りよりは信用度が落ちる
>>942
これとか?使ったことないから分らんけど
https://github.com/hartator/wayback-machine-downloader X/Twitterについてもあまり詳しくないけど
Nitterってnitter.netが大元な本家でいいんだよな‥? (他: nitter.1d4.us nitter.cz)
でもnitter.netでのツイートをarchive.isで保存しようとすると、Not Found (yet?)で必ず失敗して保存できない覚えがあったような。
(nitter.)czの場合は、保存できた覚えがあるけど、czやusなどのNitterミラー版の発信元や信頼性って不明な印象で(※自分はまだ調べてない)、
もしページを信頼性も保ったまま恒久的に残そうとしたら総合的にはnet版以外のNitterは何かうまくいかなさそうな印象が。 サンプル:
https://nitter.net/Taito_Hey/status/1707568135640088871
web.archive.org は保存可能で
archive.is は「Not Found (yet?)」
ちなみに、ユーザーのトップページをIAにsaveすると、トップページにあった画像は保存できていない。
https://web.archive.org/web/20230930232600/https://nitter.net/Taito_Hey もしarchive.isで保存できても、
「「https://nitter.net/Taito_Hey/status/1707568135640088871#m」と「#m」が付いてて
と表記揺れしてリンクが散逸してしまう可能性があるから、現archive.isの仕様だと意外と面倒な問題があるな…と。 そんな事よりも、
Nitter(>>937)といい、ArchiveBox(>>0914)といい、それらをここで最近知ったけど、
皆どこで そういう便利な物があるっていう事を知り得てるの? ツイッター?ニュースサイト? (この場合、やっぱりここ ツリー型の方が見やすいんだろうな…。)
----
詰まるところ
nitter.czで見た物と
nitter.netで見た物、
「どちらも原本である」っていう事が分かるようにできればいいんだろうな。
(なんなら「twitter.comとNitterが同一であるか? またはそれを証明可能か?」ができればいいんだろうが。) そうなると、Web3(ブロックチェーン)???
超うろ覚えだけど、あれってあれなのか。エンドユーザーに浸透するの? >>949
TwitterとNitterの違いはツイートの時間表記だけ
Twitterは日本時間だけどNitterはUTCになってる
でもアカウント名、IDとかツイート内容は同じだから同一であると証明できるんじゃないですか >>943
ありがとう
これはなかなか良い
リンクをローカル用に修正してくれないのが欠点だが、保存だけなら完璧 ここはお前のTwitter(X)やブログじゃないんだから毎度だらだら連投しないである程度考えまとめたり結論出してから1つのレスで書き込んでくれないか 意外と読んでる人いるのね、このスレって。レスの勢いが鈍行なので。
てっきり、(>>950までの途中過程の)自分のレスは、取捨して読み飛ばしてくれてるものだと思ってた。(ちなみに >>945を書き込んだ際は、間違ってageてしまった。)
>>951
「Nitter側が、本当にツイート内容などを改竄してないか?」「ツイート内容変更後に、原本(Twitter)とNitterで差異が無いか?」とかの証明は難しいんでしょうね。 >>931-932
なんとなく表記揺れをまとめると
X(旧Twitter)
X(Twitter)
Twitter(X)
TwitterX
x=Twitter (従来通りTwitter表記呼称、あるいは Xと書いて 読みはツイッター)
Twitter/X
X/Twitter
x.com (https://www.affility.co.jp/?p=1770 ) 昨夜あたりから、archive.isで ウェブ魚拓(トップページ)を保存しようとすると、
「Welcome to nginx!」画面になって、再アクセスすると
「このサイトにアクセスできません archive.is からの応答時間が長すぎます。」
と、一定時間アクセスできなくなる気がする。
例: https://archive.is/submit/?submitid=sxIrd9y3YbEtDKkLjC8I3IfsId506PIYo1H3XOT5fjyjpXszt70KHIOege2rgiV3&url=http%3A%2F%2Fmegalodon.jp%2F
もしかしたら、archive.isの使用者ごと弾かれるNGなサイトURLでもあって、archive.is側は判定しているんだろうか?
しかし、5chも重いなあ…最近。 >>943
まNitterのほうがX(Twitter)本体のUIよか圧倒的に挙動も軽いから、訴訟以外のバックアップ取りなら最強だけどな Archive todayに削除依頼を送っているんだけど、こいつほんまに通さないな。
良い方法ない? archive.todayの削除に成功したのってはるかぜちゃんの新しい方の弁護士と尊師だけなんじゃなかったっけ
確か現地の弁護士経由かつかなりしっかり動かないと全部突っぱねられるんじゃなかった? 法的手順をチラつかせたら削除されたってヤフー知恵遅れを見たが、どうなんだろうな。 ドメインも著作権も全部自分に帰属してるんだがな。
ウェイバックマシンは、テキストファイルを用意して、サイトにアドレス置いたら消してくれたんだが。
こいつは、手順も不明確且つ削除してくれる望みが薄そう。
どうかしてるぜ。 DMCAとかで検索エンジンから表示は消せても、ウェブサイトの削除依頼はできないんだからなぁ
どうにかならんもんかね。 サービスが終了しそうになっても、誰かしら引き継いだり売ったりするんじゃないのか?
まぁそもそもインターネットアーカイブのサービス終了ってのは想像がつかないが。 実際、運営は個人レベルだったはずだから、寿命を迎えれば消えてなくなるかもな。
それ相応の団体化するとそう簡単には行かないが。
それこそ寄付金があるからな。あれが潰れるってのはあまり考えれられない。 >>965
todayは何度もドメイン変えたり、過去に児ポ通報攻撃にあっても生き残ってるので無理じゃないかな
まぁURL分からなきゃまず誰もアクセス出来ないし、諦めて忘れた方が良いと思う 早い話、日本人のnitterサーバー管理者を証拠申請すれば済むような セルフホストしたらええんちゃう
tps://matoken.org/blog/2021/02/17/self-hosting-the-lightweight-twitter-front-end-nitter/ ↩ .orgだとイスラエル首相がツイートした焼死赤子の写真が全部"Hmm...this page doesn’t exist. Try searching for something else."
.todayで1件だけ見れる 今気づいたんだけどツイートの直リンクだとログインなしで見れるのね
Nitter からスクレイプして直リンク取得でwaybackmachineに打ち込めるやん! >>973
一部見れないツイートがあるのと(おそらくR18認定)、リプライが見れなくなったから一つひとつアーカイブしなきゃいけないけどね nitterはシクブラとか職場でR18突破するために見つけたんだよね、イーロン以前 Nitterのスクレイプ試したけど2万ツイートぐらいで取得できなくなる?
インスタンスにもよるのかな一度だけ三万ツイート取得できたけど Twitter公式が旧UI完全廃止で重ったるい現行UI強制来た時にnitterを発掘した。 衆議院議員が陰部ポロリXに.orgも.todayも役立たず 『どっとうpろだ』が 2023/11/30 を持ってサービス終了
サービス終了と同時に全データも削除とのこと TVでた蔵(https://datazoo.jp/ )が重い 最近。
消失すると地味に困るかも。 ※「価格com テレビ紹介情報」は株式会社ワイヤーアクションが提供するTV放送ログを掲載しています。
https://kakaku.com/tv/
まあ会社が飛んだら提供も止まるし削除だろうけどな いや、でた蔵が重い要因や理由は何だろう?っていう話。
----
「電波ログテキストマイニング(録画バカ一代)」(http://dnptxt.com/)が、消えてしまった。
もうちょっと持つかと思ったがダメだったか。
こういうサービスや記録のサイトって、意外と需要が無く誰もサイト丸ごと保存やIAとかに公開しないんだろうか。
----
gooテレビ番組って関西の番組内容の抄録もあって、でた蔵より充実してたな…。これも誰も丸ごと保存してなさそうだし。
関西版でた蔵って無いんだろうか。 Way backだとツイート直リンクでアーカイブできなくなってるのか
白い画面しか表示されない、todayは大丈夫だけど >>987
ちょっと前から表示は出来なくなってる
ソースを見るとツイート内容の保存はされてるらしい 面倒だからtwitter直じゃなくてnitterリンクでwayback にプッシュした方がいいな
Todayはキャプチャまみれで大量に取りにくいんだよな ghostはURLの最後に*付けて芋づる式検索が出来なかったり容量オーバー名目で記録拒否されたリする もし自分が次スレを立てるなら、
次スレのスレタイは
【保存・記録】ウェブアーカイブ総合 page.02
という表記にしようかと思ってる。(これでもピリオドの部分も微妙な感じがするが。)
上記などに異議が無いなら上記で次スレを立ててるかも。(万が一、規制に巻き込まれてとかで次スレを立てられなかったらごめん。)
それで「いや自分が次スレ立てたい」という人がいるなら、任せた。
そもそも次スレの需要があるかどうか不明だが。 >>997
じゃあ「Page.01」のそのピリオドは何の意味なんだ?
例えば「p.52 (52ページ)」というような略記法な使い方とも違うじゃん。
そんな表記だと、キャピタライゼーションルールとも違うわけだし、そんなんだったら「Page」は「page」になる方が好ましいだろうが。
>>996
この無知者め このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 1690日 13時間 52分 39秒 5ちゃんねるの運営はUPLIFT会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《UPLIFT会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
4 USD/mon. から匿名でご購入いただけます。
▼ UPLIFT会員登録はこちら ▼
https://uplift.5ch.net/
▼ UPLIFTログインはこちら ▼
https://uplift.5ch.net/login レス数が1000を超えています。これ以上書き込みはできません。