Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ 以前はわからんが、今はまあまあ安定しているみたいだよ。
ちょっと試してみて。 >>103
This page is available on the web!でも一緒ですか? >>119
機種ごとに違いはないよ、どれも同じ
ちなみにhttps://video.twimg.comはURLだけ取れてて動画が見れない事もままある
>>120
それも一緒 >>121
うろ覚えの記憶ですが、3ヶ月位前にhttps://video.twimg.com...のページを探していて見つからず、This page is available on the web!となって訳も分からないでアーカイブしてしまい、その日のアーカイブでは黒い画面で動画が再生されず見れなかったのですが、なぜかカレンダーに一年程前のアーカイブが現れてそれでは動画を見ることができました。3ヶ月程前なので記憶が曖昧なのですがこういうことってありえますか? >>121
それでは、Android(chrome,Firefox)で再生できなかったものは他の端末、ブラウザなどでも再生できないということでしょうか? ログインしなくてもツイッター保存できますか?
JSONで保存されるか成功したかと思ったらこうなって保存されない……
Sorry, that page doesn’t exist!
Why not try a search to find something else? 日テレNews24もキャプチャできないっぽい
Todayならできたのでそっちで取る なんか調子悪い?
ツイッター全然とれなくなったし他のサイトでもちょくちょくエラー出る >>125
基本的に取れる魚拓は複数でとるようにしてるんだけどTwitterの魚拓が現状二つだけになってしまって困る……
しかも片方は突然不安定になって一ヶ月まともに使えないこともあるからなー Twitterが取れなくなったのはTwitter側の仕様変更のせいじゃないかな http://web.archive.org/save/のページで保存しようとするとこんな画面になってしまう…
ttps://i.imgur.com/1ebLT02.png >>131
それ自分もなった
しばらく時間置いてからもう一度保存したら問題なく取れたよ 自分もNot Foundになって5ちゃん含め何一つとれなくなった… 検索してからThis page available on the webからならとれた
でもそれ以外からだと即Not foundが出るだけで一切とれない
なんなんだ 検索からの「This page available on the web」は直接保存の/save/http〜なんだな。
Save page nowの方の「This page available on the web」が機能してないのか。 ツイッター一応とれるようになったのもあるけど
頻繁にSorry that page doesn't exist!やエラーになって取れない事の方が多い… アーカイブって動画のURL直入力したら保存されるの? ものによってはとれる事もあるけど基本とれないと思った方が良い >>141
https://web.archive.org/saveからとってSorry that page doesn't exist!になったんだけど…
まあやり直してたら3回目位でとれたけど 保存は複数の鯖から暇している鯖が取りに行くんだけど
ロシア語、英語、ドイツ語などランダムで取られていたから経由する鯖が更新されてないと取れないと予想 >>142
> まあやり直してたら3回目位でとれたけど
なにげにお役立ち情報 _φ(・_・メモメモ >>57
これ保存に利用したIPアドレスは暗号化されて運営側も解読無理って事? >>138
これなら失敗せずに一発で取れる
Yahoo!ニュースも取得する際、強制的にトップページへ飛ばされて失敗することはない
http://archive.fo/ 自分はあ複数保存したいからこっちも保存したいだけで合計3箇所で保存してる
Web魚拓はブロックされるようになった スポーツ新聞ほんと好きだな
取るのは勝手だけど常軌を逸した取り方だと思う >>151
本当は取れてるんだろ?
嫌がらせスクリプトも一緒にw 取れないという前に少しは過去ログ読んでくれと言いたくなる SAVE完了でスナップショット見に行こうとすると昔の日付にリダイレクトされるの困るな
アドレス切り張りして今日の日付にしてもダメ パーツのアドレスで叩いたら今日の日付で出てくるからひとまずはよしとすべきか いつもの調子が悪い周期に入ったかな
APIも不安定 5ちゃんも全然とれない
時間あけて何度もトライしても時々とれるだけでほとんどダメ… >>160
それ取得者の環境に左右されるからあんまり使いたくないんだよね Hrmになって取れてなかったと思っても
後で検索するとちゃんと取れてることも多いな Hrm連発でも3回ほどチャレンジしとくと高確率で取れてた 取れない問題については>>1のテンプレに含めるべきだな
インデクシングとアーカイブは別々のレイヤーで処理されてるから、
一見取れてないように見えても実は取れてることが多い ここ数日のは反映がかなり遅いだけでちゃんと取れてるね https://web.archive.org/save/http://〜は即時反映でSave Page Nowは遅れて反映されるっぽい >>21
>>42
dion.ne.jp
biglobe.ne.jp
jcom.co.jp
も見れないな かなりデカい保存対象がやってきた
NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html
>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。 雑多なまとめも多いけど、これを個人サイト的に使ってる人も割といるんだよね
そういう人の書いた良質なページが消えるのは困る 閉鎖される予定のサイトってnaverまとめ以外何かある? >>168
ヤフーと合併予定でその事業整理過程で精査されてしまったね
まとめサイトのネガティブイメージとかコンプラとかで嫌われる理由はいくらでもあるが NAVERまとめ、サラッと見た感じだと1ページ目は取ってあるけど
2ページ目以降が無いっていういつものパターンが多いな >>171
知らなかった
いろいろな使い方があるもんだ 最近のサイトはスマホ用とPC用の画面分けてるが
アーカイブってPC用しか保存されんの? スマホのUAでアクセスしたらスマホ用が保存されんじゃないの知らんけど Googleが10年以上前のサイトはもう検索結果に出すのやめたそう
やっぱページ膨大だと検索きついのか…
にしても10年より前の情報にはアクセスする手段が無くなるってすごい損失な気がするが 10年以上前のサイトはそれ専用Googleとか検索エンジン用意すりゃいいのに >>179
期間指定すれば普通に検索できるって聞いてたけど違うの? >>179
> にしても10年より前の情報にはアクセスする手段が無くなる
他の検索エンジンなら大丈夫 Internet Archiveはgoogleみたいにキーワード検索出来るようにすればいいのに >>184
鯖に負担かかりすぎてえらいことになりそう 検索機能の話もテンプレ入れた方が良さげだな
数年前に一度全文検索機能が入ったことがあったんだけど、検索対象となるデータの量があまりに急速に増えて追いつかないとかですぐ無くなったんだよ 検索エンジンってサーバリソースを大量に必要とするから、ギリギリの状態でサーバ動かしてる現状のIAではまず無理なんじゃないだろうか 検索したいならInternet Archiveに金落とせ、話はそれからだ 金落とす金額が鯖代と維持費込みじゃないと無理だろうな 一つのURLに重複保存される画像・動画をAIで認識して削除したら、容量の削減になるのに >>194
単にコンテントボディをバイナリ比較すれば良いだけの話なのに AI を使うとか
こんなんじゃ、IA のレスポンスヘッダを含めて丸ごと保存する価値が解る訳も無いなw そんな用途のためにわざわざAI使ったりしないだろうと思うけどそこは置いておいて、
AI動かすのにだって大量のサーバリソースは必要なんだよ
本末転倒 普通に考えて重複保存じゃなくて差分を保存してると思うんだけど・・・ アーカイブ見てるとどう考えてもまったく同じ内容のページを何回も重複して保存してるのよくあってサーバーの容量がもったいないなと思う事はよくある
特に自動クロールでとってるであろうサイトのメインページなんて毎日何百ページ位も同じ画面とり続けてたりする 全く同じなら容量変わらなくね?
タイムスタンプが更新されるだけでは
まぁWayBackの仕組みが分からないので断言は出来ないけど 最近アーカイブしても存在してないって言われることが多くなったから
archive.today使ってる 同じurlのzipで古い物は破損していて
それより新しい物は正常だった事がある バイナリデータで1バイトか2バイトか3バイトか忘れたけどファイルの最後にブランクデータが追加か削除されたせいで破損扱いになってる
バイナリエディタで00を増減すれば大丈夫だよ googleもmetaタグを元に表示してるだけだし
Internet Archiveも最低限の情報だけ検索表示出来るようにすればいいのに >>203
2000 年代の古いアーカイブを漁っていたりすると、
中身が数メガバイトでちょん切れてしまっているものがかなりある。
古い Microsoft のバイナリ等で良く出くわす。
データ化けは見たことが無い。
おそらく、IA は Content-Length ヘッダの値と
コンテントボディの実サイズとの整合をチェックしていない。
何か巨大ファイルをアーカイブさせて、それが正しく保管できたか調べたい場合は
実際に当該アーカイブを最後まで読み出すしか無い。
>>204
それは昔のアーカイブ出力段の問題ではなかったか。
コンテントの末尾 1 バイトが \x00 だと、それが欠ける。
2011 年あたりの大改変の後は見たことが無い。
>>201
タイムスタンプだけかw
アーカイブ時のサーバ側のシステム時計の値 (たまにズレてる奴がいる)、
使用されていたサーバソフトウェアの名前、
読み出したファイル自身のサイズやタイムスタンプ、
ETag のような識別子、
その他サーバが垂れ流した、ありとあらゆるものを
そのまま丸ごと保存してるんだよ。 ガチでTwitterからツイートをアーカイブするなと圧力受けてんのか?
このスレ読んで何回やってもアーカイブできんぞ Tweetsaveもタイムアウトばっかで保存できん Tweetsaveは半年前に比べたら生きまくってるよ
半年前までは1ヶ月まともに動かないとかあったし半月は当たり前に動かなかったわ >>207
最近出版業界から訴えられたから有り得る話だな >>208
save用ページから保存しないと今のところ無理で
それも失敗が多い もう全部テンプレに書いた方がいいんじゃね?
話題が無限ループしてる もともと話題も少ないからな
保守してると思えばいい 最近TwitterがJob failedになって全然保存できない… ■ このスレッドは過去ログ倉庫に格納されています