Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ >>99
自分も今日いくらやっても連続してツイートのアーカイブに失敗するから、自分の環境が悪いのかと思ったけどこれは…… >>101
・IPアドレス:>>55-57を参照
・過去のページ情報:
「save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。」
その認識で合ってる。SPNは「現時点でのページをアーカイブする」ことしか出来ない。
過去のページをアーカイブできる技術はないし、するにはタイムマシンが必要。
現在削除済みでアーカイブも残っていないページは諦めよう 「ツイッター魚拓」とかいう国産サービスができたらしいが。 >>103
ご回答ありがとうございます。それでは、自分が○月×日にしかアーカイブしていないのにそれ以前のページの情報が出てくるということは
、他の誰かが○月×日以前にアーカイブしたということでよろしいでしょうか? >>105
Internet archiveは自動で色んなサイトをクロールして定期的にアーカイブして回ってるから別に誰かが保存したわけじゃなくて自動でアーカイブされてた可能性が高い
というかわざわざ手動でアーカイブするマニアなんてここの住人位しかいなそうだしほとんど自動取得 >>106
では、○月×日以前の情報は私がアーカイブしたものではないということでいいんでしょうか? >>108
また質問なのですが、Twitterの動画をアーカイブした際、機種の差(Androidやios,PC)で見ることができないことってあるんですか? TweetSave - Save tweets with a click
https://tweetsave.com/ >>104
アレはスクショ撮ってimgurに上げるだけの代物で、セッション情報の類は一切保存されないらしいから、
アーカイブサービスとしての信頼性はゼロに等しい(中傷書き込みの訴訟でも多分証拠として認められないんじゃないだろうか)
ただTwitterではやたらバズったから、固定ユーザーは一定数つくかもね >>109
ツイッターの動画は保存できなかったと思うが… >>110
> TweetSave - Save tweets with a click
> https://tweetsave.com/
_φ(・_・メモメモ >>110
> TweetSave - Save tweets with a click
> https://tweetsave.com/
Tweets are saved on TweetSave.com and also get mirrored to WayBack and Archive.is
とあるな。
これは使えるかもしれない。 Twitterのツイートをウェブ魚拓のように保存できる
「TweetSave」 - GIGAZINE
https://gigazine.net/news/20161118-tweetsave/ tweetsaveは不安定すぎて使い物にならなかった 以前はわからんが、今はまあまあ安定しているみたいだよ。
ちょっと試してみて。 >>103
This page is available on the web!でも一緒ですか? >>119
機種ごとに違いはないよ、どれも同じ
ちなみにhttps://video.twimg.comはURLだけ取れてて動画が見れない事もままある
>>120
それも一緒 >>121
うろ覚えの記憶ですが、3ヶ月位前にhttps://video.twimg.com...のページを探していて見つからず、This page is available on the web!となって訳も分からないでアーカイブしてしまい、その日のアーカイブでは黒い画面で動画が再生されず見れなかったのですが、なぜかカレンダーに一年程前のアーカイブが現れてそれでは動画を見ることができました。3ヶ月程前なので記憶が曖昧なのですがこういうことってありえますか? >>121
それでは、Android(chrome,Firefox)で再生できなかったものは他の端末、ブラウザなどでも再生できないということでしょうか? ログインしなくてもツイッター保存できますか?
JSONで保存されるか成功したかと思ったらこうなって保存されない……
Sorry, that page doesn’t exist!
Why not try a search to find something else? 日テレNews24もキャプチャできないっぽい
Todayならできたのでそっちで取る なんか調子悪い?
ツイッター全然とれなくなったし他のサイトでもちょくちょくエラー出る >>125
基本的に取れる魚拓は複数でとるようにしてるんだけどTwitterの魚拓が現状二つだけになってしまって困る……
しかも片方は突然不安定になって一ヶ月まともに使えないこともあるからなー Twitterが取れなくなったのはTwitter側の仕様変更のせいじゃないかな http://web.archive.org/save/のページで保存しようとするとこんな画面になってしまう…
ttps://i.imgur.com/1ebLT02.png >>131
それ自分もなった
しばらく時間置いてからもう一度保存したら問題なく取れたよ 自分もNot Foundになって5ちゃん含め何一つとれなくなった… 検索してからThis page available on the webからならとれた
でもそれ以外からだと即Not foundが出るだけで一切とれない
なんなんだ 検索からの「This page available on the web」は直接保存の/save/http〜なんだな。
Save page nowの方の「This page available on the web」が機能してないのか。 ツイッター一応とれるようになったのもあるけど
頻繁にSorry that page doesn't exist!やエラーになって取れない事の方が多い… アーカイブって動画のURL直入力したら保存されるの? ものによってはとれる事もあるけど基本とれないと思った方が良い >>141
https://web.archive.org/saveからとってSorry that page doesn't exist!になったんだけど…
まあやり直してたら3回目位でとれたけど 保存は複数の鯖から暇している鯖が取りに行くんだけど
ロシア語、英語、ドイツ語などランダムで取られていたから経由する鯖が更新されてないと取れないと予想 >>142
> まあやり直してたら3回目位でとれたけど
なにげにお役立ち情報 _φ(・_・メモメモ >>57
これ保存に利用したIPアドレスは暗号化されて運営側も解読無理って事? >>138
これなら失敗せずに一発で取れる
Yahoo!ニュースも取得する際、強制的にトップページへ飛ばされて失敗することはない
http://archive.fo/ 自分はあ複数保存したいからこっちも保存したいだけで合計3箇所で保存してる
Web魚拓はブロックされるようになった スポーツ新聞ほんと好きだな
取るのは勝手だけど常軌を逸した取り方だと思う >>151
本当は取れてるんだろ?
嫌がらせスクリプトも一緒にw 取れないという前に少しは過去ログ読んでくれと言いたくなる SAVE完了でスナップショット見に行こうとすると昔の日付にリダイレクトされるの困るな
アドレス切り張りして今日の日付にしてもダメ パーツのアドレスで叩いたら今日の日付で出てくるからひとまずはよしとすべきか いつもの調子が悪い周期に入ったかな
APIも不安定 5ちゃんも全然とれない
時間あけて何度もトライしても時々とれるだけでほとんどダメ… >>160
それ取得者の環境に左右されるからあんまり使いたくないんだよね Hrmになって取れてなかったと思っても
後で検索するとちゃんと取れてることも多いな Hrm連発でも3回ほどチャレンジしとくと高確率で取れてた 取れない問題については>>1のテンプレに含めるべきだな
インデクシングとアーカイブは別々のレイヤーで処理されてるから、
一見取れてないように見えても実は取れてることが多い ここ数日のは反映がかなり遅いだけでちゃんと取れてるね https://web.archive.org/save/http://〜は即時反映でSave Page Nowは遅れて反映されるっぽい >>21
>>42
dion.ne.jp
biglobe.ne.jp
jcom.co.jp
も見れないな かなりデカい保存対象がやってきた
NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html
>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。 雑多なまとめも多いけど、これを個人サイト的に使ってる人も割といるんだよね
そういう人の書いた良質なページが消えるのは困る 閉鎖される予定のサイトってnaverまとめ以外何かある? >>168
ヤフーと合併予定でその事業整理過程で精査されてしまったね
まとめサイトのネガティブイメージとかコンプラとかで嫌われる理由はいくらでもあるが NAVERまとめ、サラッと見た感じだと1ページ目は取ってあるけど
2ページ目以降が無いっていういつものパターンが多いな >>171
知らなかった
いろいろな使い方があるもんだ 最近のサイトはスマホ用とPC用の画面分けてるが
アーカイブってPC用しか保存されんの? スマホのUAでアクセスしたらスマホ用が保存されんじゃないの知らんけど Googleが10年以上前のサイトはもう検索結果に出すのやめたそう
やっぱページ膨大だと検索きついのか…
にしても10年より前の情報にはアクセスする手段が無くなるってすごい損失な気がするが 10年以上前のサイトはそれ専用Googleとか検索エンジン用意すりゃいいのに >>179
期間指定すれば普通に検索できるって聞いてたけど違うの? >>179
> にしても10年より前の情報にはアクセスする手段が無くなる
他の検索エンジンなら大丈夫 Internet Archiveはgoogleみたいにキーワード検索出来るようにすればいいのに >>184
鯖に負担かかりすぎてえらいことになりそう 検索機能の話もテンプレ入れた方が良さげだな
数年前に一度全文検索機能が入ったことがあったんだけど、検索対象となるデータの量があまりに急速に増えて追いつかないとかですぐ無くなったんだよ 検索エンジンってサーバリソースを大量に必要とするから、ギリギリの状態でサーバ動かしてる現状のIAではまず無理なんじゃないだろうか 検索したいならInternet Archiveに金落とせ、話はそれからだ 金落とす金額が鯖代と維持費込みじゃないと無理だろうな 一つのURLに重複保存される画像・動画をAIで認識して削除したら、容量の削減になるのに >>194
単にコンテントボディをバイナリ比較すれば良いだけの話なのに AI を使うとか
こんなんじゃ、IA のレスポンスヘッダを含めて丸ごと保存する価値が解る訳も無いなw そんな用途のためにわざわざAI使ったりしないだろうと思うけどそこは置いておいて、
AI動かすのにだって大量のサーバリソースは必要なんだよ
本末転倒 普通に考えて重複保存じゃなくて差分を保存してると思うんだけど・・・ アーカイブ見てるとどう考えてもまったく同じ内容のページを何回も重複して保存してるのよくあってサーバーの容量がもったいないなと思う事はよくある
特に自動クロールでとってるであろうサイトのメインページなんて毎日何百ページ位も同じ画面とり続けてたりする 全く同じなら容量変わらなくね?
タイムスタンプが更新されるだけでは
まぁWayBackの仕組みが分からないので断言は出来ないけど 最近アーカイブしても存在してないって言われることが多くなったから
archive.today使ってる ■ このスレッドは過去ログ倉庫に格納されています