X



Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
垢版 |
2020/04/02(木) 02:08:09.83
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
0118名無しさん@お腹いっぱい。
垢版 |
2020/06/15(月) 07:26:47.37
以前はわからんが、今はまあまあ安定しているみたいだよ。

ちょっと試してみて。
0120名無しさん@お腹いっぱい。
垢版 |
2020/06/15(月) 09:06:38.20
>>103
This page is available on the web!でも一緒ですか?
0122名無しさん@お腹いっぱい。
垢版 |
2020/06/15(月) 12:01:07.51
>>121
うろ覚えの記憶ですが、3ヶ月位前にhttps://video.twimg.com...のページを探していて見つからず、This page is available on the web!となって訳も分からないでアーカイブしてしまい、その日のアーカイブでは黒い画面で動画が再生されず見れなかったのですが、なぜかカレンダーに一年程前のアーカイブが現れてそれでは動画を見ることができました。3ヶ月程前なので記憶が曖昧なのですがこういうことってありえますか?
0123名無しさん@お腹いっぱい。
垢版 |
2020/06/16(火) 16:07:46.24
>>121
それでは、Android(chrome,Firefox)で再生できなかったものは他の端末、ブラウザなどでも再生できないということでしょうか?
0124名無しさん@お腹いっぱい。
垢版 |
2020/06/17(水) 09:33:18.63
ログインしなくてもツイッター保存できますか?
JSONで保存されるか成功したかと思ったらこうなって保存されない……

Sorry, that page doesn’t exist!
Why not try a search to find something else?
0127名無しさん@お腹いっぱい。
垢版 |
2020/06/18(木) 09:37:49.00
>>125
基本的に取れる魚拓は複数でとるようにしてるんだけどTwitterの魚拓が現状二つだけになってしまって困る……
しかも片方は突然不安定になって一ヶ月まともに使えないこともあるからなー
0129名無しさん@お腹いっぱい。
垢版 |
2020/06/19(金) 00:13:10.75
でも15日に取ってる人がいるんだよなー
0134名無しさん@お腹いっぱい。
垢版 |
2020/06/19(金) 17:11:29.86
検索してからThis page available on the webからならとれた
でもそれ以外からだと即Not foundが出るだけで一切とれない
なんなんだ
0135名無しさん@お腹いっぱい。
垢版 |
2020/06/19(金) 17:59:07.87
検索からの「This page available on the web」は直接保存の/save/http〜なんだな。
Save page nowの方の「This page available on the web」が機能してないのか。
0137名無しさん@お腹いっぱい。
垢版 |
2020/06/20(土) 13:40:09.97
お、取れた
情報thx
0138名無しさん@お腹いっぱい。
垢版 |
2020/06/21(日) 19:56:01.96
ツイッター一応とれるようになったのもあるけど
頻繁にSorry that page doesn't exist!やエラーになって取れない事の方が多い…
0143名無しさん@お腹いっぱい。
垢版 |
2020/06/22(月) 14:27:28.61
保存は複数の鯖から暇している鯖が取りに行くんだけど
ロシア語、英語、ドイツ語などランダムで取られていたから経由する鯖が更新されてないと取れないと予想
0144名無しさん@お腹いっぱい。
垢版 |
2020/06/23(火) 15:16:09.68
>>142

> まあやり直してたら3回目位でとれたけど


なにげにお役立ち情報   _φ(・_・メモメモ
0147名無しさん@お腹いっぱい。
垢版 |
2020/06/23(火) 23:06:54.24
自分はあ複数保存したいからこっちも保存したいだけで合計3箇所で保存してる
Web魚拓はブロックされるようになった
0154名無しさん@お腹いっぱい。
垢版 |
2020/06/25(木) 13:17:04.71
>>151

スクリーンショットなら取れる
0156名無しさん@お腹いっぱい。
垢版 |
2020/06/26(金) 10:45:18.41
SAVE完了でスナップショット見に行こうとすると昔の日付にリダイレクトされるの困るな
アドレス切り張りして今日の日付にしてもダメ
0164名無しさん@お腹いっぱい。
垢版 |
2020/06/27(土) 14:05:54.69
取れない問題については>>1のテンプレに含めるべきだな
インデクシングとアーカイブは別々のレイヤーで処理されてるから、
一見取れてないように見えても実は取れてることが多い
0167名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 10:10:10.27
>>21
>>42
dion.ne.jp
biglobe.ne.jp
jcom.co.jp
も見れないな
0168名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 11:23:57.89
かなりデカい保存対象がやってきた

NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html

>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。
0169名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 16:43:58.70
雑多なまとめサイトすぎて好きじゃなかったな
0171名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 17:09:06.99
雑多なまとめも多いけど、これを個人サイト的に使ってる人も割といるんだよね
そういう人の書いた良質なページが消えるのは困る
0173名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 20:31:56.99
>>168
ヤフーと合併予定でその事業整理過程で精査されてしまったね
まとめサイトのネガティブイメージとかコンプラとかで嫌われる理由はいくらでもあるが
0175名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 20:57:22.61
NAVERまとめ、サラッと見た感じだと1ページ目は取ってあるけど
2ページ目以降が無いっていういつものパターンが多いな
0177名無しさん@お腹いっぱい。
垢版 |
2020/07/02(木) 22:52:12.91
最近のサイトはスマホ用とPC用の画面分けてるが
アーカイブってPC用しか保存されんの?
0179名無しさん@お腹いっぱい。
垢版 |
2020/07/03(金) 11:11:11.87
Googleが10年以上前のサイトはもう検索結果に出すのやめたそう
やっぱページ膨大だと検索きついのか…
にしても10年より前の情報にはアクセスする手段が無くなるってすごい損失な気がするが
0182名無しさん@お腹いっぱい。
垢版 |
2020/07/04(土) 15:07:25.27
>>179

> にしても10年より前の情報にはアクセスする手段が無くなる

他の検索エンジンなら大丈夫
0186名無しさん@お腹いっぱい。
垢版 |
2020/07/04(土) 17:08:23.67
>>184
鯖に負担かかりすぎてえらいことになりそう
0187名無しさん@お腹いっぱい。
垢版 |
2020/07/04(土) 17:49:51.86
検索機能の話もテンプレ入れた方が良さげだな
数年前に一度全文検索機能が入ったことがあったんだけど、検索対象となるデータの量があまりに急速に増えて追いつかないとかですぐ無くなったんだよ
0188名無しさん@お腹いっぱい。
垢版 |
2020/07/04(土) 17:51:21.60
検索エンジンってサーバリソースを大量に必要とするから、ギリギリの状態でサーバ動かしてる現状のIAではまず無理なんじゃないだろうか
0194名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 00:41:08.37
一つのURLに重複保存される画像・動画をAIで認識して削除したら、容量の削減になるのに
0196名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 02:47:20.57
>>194
単にコンテントボディをバイナリ比較すれば良いだけの話なのに AI を使うとか
こんなんじゃ、IA のレスポンスヘッダを含めて丸ごと保存する価値が解る訳も無いなw
0198名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 12:05:45.68
そんな用途のためにわざわざAI使ったりしないだろうと思うけどそこは置いておいて、
AI動かすのにだって大量のサーバリソースは必要なんだよ
本末転倒
0200名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 12:29:12.66
アーカイブ見てるとどう考えてもまったく同じ内容のページを何回も重複して保存してるのよくあってサーバーの容量がもったいないなと思う事はよくある
特に自動クロールでとってるであろうサイトのメインページなんて毎日何百ページ位も同じ画面とり続けてたりする
0201名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 13:10:12.04
全く同じなら容量変わらなくね?
タイムスタンプが更新されるだけでは
まぁWayBackの仕組みが分からないので断言は出来ないけど
0204名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 15:37:07.67
バイナリデータで1バイトか2バイトか3バイトか忘れたけどファイルの最後にブランクデータが追加か削除されたせいで破損扱いになってる
バイナリエディタで00を増減すれば大丈夫だよ
0205名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 16:02:13.33
googleもmetaタグを元に表示してるだけだし
Internet Archiveも最低限の情報だけ検索表示出来るようにすればいいのに
0206名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 19:38:36.99
>>203
2000 年代の古いアーカイブを漁っていたりすると、
中身が数メガバイトでちょん切れてしまっているものがかなりある。
古い Microsoft のバイナリ等で良く出くわす。
データ化けは見たことが無い。

おそらく、IA は Content-Length ヘッダの値と
コンテントボディの実サイズとの整合をチェックしていない。
何か巨大ファイルをアーカイブさせて、それが正しく保管できたか調べたい場合は
実際に当該アーカイブを最後まで読み出すしか無い。

>>204
それは昔のアーカイブ出力段の問題ではなかったか。
コンテントの末尾 1 バイトが \x00 だと、それが欠ける。
2011 年あたりの大改変の後は見たことが無い。

>>201
タイムスタンプだけかw
アーカイブ時のサーバ側のシステム時計の値 (たまにズレてる奴がいる)、
使用されていたサーバソフトウェアの名前、
読み出したファイル自身のサイズやタイムスタンプ、
ETag のような識別子、
その他サーバが垂れ流した、ありとあらゆるものを
そのまま丸ごと保存してるんだよ。
0207名無しさん@お腹いっぱい。
垢版 |
2020/07/06(月) 20:56:53.08
ガチでTwitterからツイートをアーカイブするなと圧力受けてんのか?
このスレ読んで何回やってもアーカイブできんぞ
0209名無しさん@お腹いっぱい。
垢版 |
2020/07/06(月) 21:13:49.37
Tweetsaveは半年前に比べたら生きまくってるよ
半年前までは1ヶ月まともに動かないとかあったし半月は当たり前に動かなかったわ
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況