Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:08:09.83

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 07:23:11.71

>>116

ありゃりゃ

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 07:26:47.37

以前はわからんが、今はまあまあ安定しているみたいだよ。

ちょっと試してみて。

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 07:57:49.97

>>112
https://video.twimg.com...ていうurlです

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 09:06:38.20

>>103
This page is available on the web!でも一緒ですか？

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 11:44:39.88

>>119
機種ごとに違いはないよ、どれも同じ
ちなみにhttps://video.twimg.comはURLだけ取れてて動画が見れない事もままある

>>120
それも一緒

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 12:01:07.51

>>121
うろ覚えの記憶ですが、3ヶ月位前にhttps://video.twimg.com...のページを探していて見つからず、This page is available on the web!となって訳も分からないでアーカイブしてしまい、その日のアーカイブでは黒い画面で動画が再生されず見れなかったのですが、なぜかカレンダーに一年程前のアーカイブが現れてそれでは動画を見ることができました。3ヶ月程前なので記憶が曖昧なのですがこういうことってありえますか？

**名無しさん＠お腹いっぱい。** · 2020/06/16(火) 16:07:46.24

>>121
それでは、Android(chrome,Firefox)で再生できなかったものは他の端末、ブラウザなどでも再生できないということでしょうか？

**名無しさん＠お腹いっぱい。** · 2020/06/17(水) 09:33:18.63

ログインしなくてもツイッター保存できますか？
JSONで保存されるか成功したかと思ったらこうなって保存されない……

Sorry, that page doesn’t exist!
Why not try a search to find something else?

**名無しさん＠お腹いっぱい。** · 2020/06/17(水) 19:03:54.27

日テレNews24もキャプチャできないっぽい
Todayならできたのでそっちで取る

**名無しさん＠お腹いっぱい。** · 2020/06/17(水) 20:06:39.58

なんか調子悪い？
ツイッター全然とれなくなったし他のサイトでもちょくちょくエラー出る

**名無しさん＠お腹いっぱい。** · 2020/06/18(木) 09:37:49.00

>>125
基本的に取れる魚拓は複数でとるようにしてるんだけどTwitterの魚拓が現状二つだけになってしまって困る……
しかも片方は突然不安定になって一ヶ月まともに使えないこともあるからなー

**名無しさん＠お腹いっぱい。** · 2020/06/18(木) 23:45:04.10

Twitterが取れなくなったのはTwitter側の仕様変更のせいじゃないかな

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 00:13:10.75

でも15日に取ってる人がいるんだよなー

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 02:33:11.77

UAをUtsubotにしたら撮れるとかなんとか

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 11:05:22.72

http://web.archive.org/save/のページで保存しようとするとこんな画面になってしまう…
ttps://i.imgur.com/1ebLT02.png

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 11:40:27.27

>>131
それ自分もなった
しばらく時間置いてからもう一度保存したら問題なく取れたよ

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 15:14:08.19

自分もNot Foundになって5ちゃん含め何一つとれなくなった…

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 17:11:29.86

検索してからThis page available on the webからならとれた
でもそれ以外からだと即Not foundが出るだけで一切とれない
なんなんだ

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 17:59:07.87

検索からの「This page available on the web」は直接保存の/save/http～なんだな。
Save page nowの方の「This page available on the web」が機能してないのか。

**名無しさん＠お腹いっぱい。** · 2020/06/20(土) 13:37:10.95

お、Twitter取れるようになったか

**名無しさん＠お腹いっぱい。** · 2020/06/20(土) 13:40:09.97

お、取れた
情報thx

**名無しさん＠お腹いっぱい。** · 2020/06/21(日) 19:56:01.96

ツイッター一応とれるようになったのもあるけど
頻繁にSorry that page doesn't exist!やエラーになって取れない事の方が多い…

**名無しさん＠お腹いっぱい。** · 2020/06/21(日) 21:14:32.41

アーカイブって動画のURL直入力したら保存されるの？

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 11:45:10.84

ものによってはとれる事もあるけど基本とれないと思った方が良い

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 11:51:39.66

>>138

>>75

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 13:50:04.34

>>141
https://web.archive.org/saveからとってSorry that page doesn't exist!になったんだけど…
まあやり直してたら3回目位でとれたけど

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 14:27:28.61

保存は複数の鯖から暇している鯖が取りに行くんだけど
ロシア語、英語、ドイツ語などランダムで取られていたから経由する鯖が更新されてないと取れないと予想

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 15:16:09.68

>>142

> まあやり直してたら3回目位でとれたけど

なにげにお役立ち情報　　　_φ(･_･メモメモ

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 15:37:49.72

>>57
これ保存に利用したIPアドレスは暗号化されて運営側も解読無理って事？

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 22:38:01.52

>>138
これなら失敗せずに一発で取れる
Yahoo！ニュースも取得する際、強制的にトップページへ飛ばされて失敗することはない
http://archive.fo/

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 23:06:54.24

自分はあ複数保存したいからこっちも保存したいだけで合計3箇所で保存してる
Web魚拓はブロックされるようになった

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 23:41:38.01

スポーツ新聞野郎まだ居たのか

◆P0jSlC5fJs · 2020/06/24(水) 06:29:53.29

もはやアリアハンガイジ

**名無しさん＠お腹いっぱい。** · 2020/06/24(水) 10:25:28.90

スポーツ新聞ほんと好きだな
取るのは勝手だけど常軌を逸した取り方だと思う

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 08:06:11.23

ヤフーニュースほんと取れない

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 10:19:57.09

>>151
本当は取れてるんだろ?
嫌がらせスクリプトも一緒にw

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 12:04:47.38

取れないという前に少しは過去ログ読んでくれと言いたくなる

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 13:17:04.71

>>151

スクリーンショットなら取れる

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 16:34:55.93

Yahoo!とか散々既出

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 10:45:18.41

SAVE完了でスナップショット見に行こうとすると昔の日付にリダイレクトされるの困るな
アドレス切り張りして今日の日付にしてもダメ

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 10:48:12.10

パーツのアドレスで叩いたら今日の日付で出てくるからひとまずはよしとすべきか

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 12:04:49.45

いつもの調子が悪い周期に入ったかな
APIも不安定

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 14:02:50.79

5ちゃんも全然とれない
時間あけて何度もトライしても時々とれるだけでほとんどダメ…

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 15:47:14.61

>>158-159
>>134-135

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 21:15:33.82

>>160
それ取得者の環境に左右されるからあんまり使いたくないんだよね

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 08:54:45.81

Hrmになって取れてなかったと思っても
後で検索するとちゃんと取れてることも多いな

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 13:38:29.18

Hrm連発でも3回ほどチャレンジしとくと高確率で取れてた

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 14:05:54.69

取れない問題については>>1のテンプレに含めるべきだな
インデクシングとアーカイブは別々のレイヤーで処理されてるから、
一見取れてないように見えても実は取れてることが多い

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 15:09:04.44

ここ数日のは反映がかなり遅いだけでちゃんと取れてるね

**名無しさん＠お腹いっぱい。** · 2020/06/30(火) 16:11:19.16

https://web.archive.org/save/http://～は即時反映でSave Page Nowは遅れて反映されるっぽい

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 10:10:10.27

>>21
>>42
dion.ne.jp
biglobe.ne.jp
jcom.co.jp
も見れないな

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 11:23:57.89

かなりデカい保存対象がやってきた

NAVERまとめサービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html

>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 16:43:58.70

雑多なまとめサイトすぎて好きじゃなかったな

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 16:49:15.19

所詮は南鮮資本w

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 17:09:06.99

雑多なまとめも多いけど、これを個人サイト的に使ってる人も割といるんだよね
そういう人の書いた良質なページが消えるのは困る

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 18:04:14.59

閉鎖される予定のサイトってnaverまとめ以外何かある？

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:31:56.99

>>168
ヤフーと合併予定でその事業整理過程で精査されてしまったね
まとめサイトのネガティブイメージとかコンプラとかで嫌われる理由はいくらでもあるが

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:47:21.16

>>172
【保存・記録】ウェブアーカイブ総合 Page.01 https://mevius.5ch.net/test/read.cgi/internet/1554553882/

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:57:22.61

NAVERまとめ、サラッと見た感じだと1ページ目は取ってあるけど
2ページ目以降が無いっていういつものパターンが多いな

**名無しさん＠お腹いっぱい。** · 2020/07/02(木) 21:17:22.61

>>171
知らなかった
いろいろな使い方があるもんだ

**名無しさん＠お腹いっぱい。** · 2020/07/02(木) 22:52:12.91

最近のサイトはスマホ用とPC用の画面分けてるが
アーカイブってPC用しか保存されんの？

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 00:34:04.34

スマホのUAでアクセスしたらスマホ用が保存されんじゃないの知らんけど

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 11:11:11.87

Googleが10年以上前のサイトはもう検索結果に出すのやめたそう
やっぱページ膨大だと検索きついのか…
にしても10年より前の情報にはアクセスする手段が無くなるってすごい損失な気がするが

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 14:23:53.34

10年以上前のサイトはそれ専用Googleとか検索エンジン用意すりゃいいのに

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 23:52:26.95

>>179
期間指定すれば普通に検索できるって聞いてたけど違うの？

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 15:07:25.27

>>179

> にしても10年より前の情報にはアクセスする手段が無くなる

他の検索エンジンなら大丈夫

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 16:05:37.33

普通に10年前以上の結果出るしデマでは？

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 16:52:27.76

Internet Archiveはgoogleみたいにキーワード検索出来るようにすればいいのに

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:06:10.22

デジャブジャブジャブなスレだな

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:08:23.67

>>184
鯖に負担かかりすぎてえらいことになりそう

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:49:51.86

検索機能の話もテンプレ入れた方が良さげだな
数年前に一度全文検索機能が入ったことがあったんだけど、検索対象となるデータの量があまりに急速に増えて追いつかないとかですぐ無くなったんだよ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:51:21.60

検索エンジンってサーバリソースを大量に必要とするから、ギリギリの状態でサーバ動かしてる現状のIAではまず無理なんじゃないだろうか

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:11:27.16

全文検索ほしい人は10億円くらい寄付しろ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:32:30.78

せめてタイトルだけでも検索できればいいのにな

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:49:53.36

この流れ前も見たぞ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 23:55:00.95

検索したいならInternet Archiveに金落とせ、話はそれからだ

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:02:58.15

金落とす金額が鯖代と維持費込みじゃないと無理だろうな

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:41:08.37

一つのURLに重複保存される画像・動画をAIで認識して削除したら、容量の削減になるのに

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:53:13.92

ツイッターの失敗は保存しなくていいのにね

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 02:47:20.57

>>194
単にコンテントボディをバイナリ比較すれば良いだけの話なのに AI を使うとか
こんなんじゃ、IA のレスポンスヘッダを含めて丸ごと保存する価値が解る訳も無いなw

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 04:54:05.25

AIとIA

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:05:45.68

そんな用途のためにわざわざAI使ったりしないだろうと思うけどそこは置いておいて、
AI動かすのにだって大量のサーバリソースは必要なんだよ
本末転倒

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:09:03.83

普通に考えて重複保存じゃなくて差分を保存してると思うんだけど・・・

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:29:12.66

アーカイブ見てるとどう考えてもまったく同じ内容のページを何回も重複して保存してるのよくあってサーバーの容量がもったいないなと思う事はよくある
特に自動クロールでとってるであろうサイトのメインページなんて毎日何百ページ位も同じ画面とり続けてたりする

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 13:10:12.04

全く同じなら容量変わらなくね？
タイムスタンプが更新されるだけでは
まぁWayBackの仕組みが分からないので断言は出来ないけど

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 13:43:22.32

最近アーカイブしても存在してないって言われることが多くなったから
archive.today使ってる

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 14:42:20.88

同じurlのzipで古い物は破損していて
それより新しい物は正常だった事がある

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 15:37:07.67

バイナリデータで1バイトか２バイトか3バイトか忘れたけどファイルの最後にブランクデータが追加か削除されたせいで破損扱いになってる
バイナリエディタで00を増減すれば大丈夫だよ

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 16:02:13.33

googleもmetaタグを元に表示してるだけだし
Internet Archiveも最低限の情報だけ検索表示出来るようにすればいいのに

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 19:38:36.99

>>203
2000 年代の古いアーカイブを漁っていたりすると、
中身が数メガバイトでちょん切れてしまっているものがかなりある。
古い Microsoft のバイナリ等で良く出くわす。
データ化けは見たことが無い。

おそらく、IA は Content-Length ヘッダの値と
コンテントボディの実サイズとの整合をチェックしていない。
何か巨大ファイルをアーカイブさせて、それが正しく保管できたか調べたい場合は
実際に当該アーカイブを最後まで読み出すしか無い。

>>204
それは昔のアーカイブ出力段の問題ではなかったか。
コンテントの末尾 1 バイトが \x00 だと、それが欠ける。
2011 年あたりの大改変の後は見たことが無い。

>>201
タイムスタンプだけかw
アーカイブ時のサーバ側のシステム時計の値 (たまにズレてる奴がいる)、
使用されていたサーバソフトウェアの名前、
読み出したファイル自身のサイズやタイムスタンプ、
ETag のような識別子、
その他サーバが垂れ流した、ありとあらゆるものを
そのまま丸ごと保存してるんだよ。

**名無しさん＠お腹いっぱい。** · 2020/07/06(月) 20:56:53.08

ガチでTwitterからツイートをアーカイブするなと圧力受けてんのか？
このスレ読んで何回やってもアーカイブできんぞ

**名無しさん＠お腹いっぱい。** · 2020/07/06(月) 21:01:27.66

Tweetsaveもタイムアウトばっかで保存できん

**名無しさん＠お腹いっぱい。** · 2020/07/06(月) 21:13:49.37

Tweetsaveは半年前に比べたら生きまくってるよ
半年前までは1ヶ月まともに動かないとかあったし半月は当たり前に動かなかったわ

**名無しさん＠お腹いっぱい。** · 2020/07/06(月) 21:41:33.52

>>207
最近出版業界から訴えられたから有り得る話だな

**名無しさん＠お腹いっぱい。** · 2020/07/06(月) 21:49:26.34

>>208
save用ページから保存しないと今のところ無理で
それも失敗が多い

**名無しさん＠お腹いっぱい。** · 2020/07/07(火) 14:31:16.24

もう全部テンプレに書いた方がいいんじゃね？
話題が無限ループしてる

**名無しさん＠お腹いっぱい。** · 2020/07/07(火) 14:49:56.67

もともと話題も少ないからな
保守してると思えばいい

**名無しさん＠お腹いっぱい。** · 2020/07/07(火) 14:52:23.22

>>212

同意

**名無しさん＠お腹いっぱい。** · 2020/07/08(水) 07:37:39.06

最近TwitterがJob failedになって全然保存できない…

**名無しさん＠お腹いっぱい。** · 2020/07/08(水) 07:39:08.58

今やってたけど同じだわ