Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:08:09.83

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 17:13:12.66

>>99
自分も今日いくらやっても連続してツイートのアーカイブに失敗するから、自分の環境が悪いのかと思ったけどこれは……

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 17:27:12.26

>>101
・IPアドレス：>>55-57を参照
・過去のページ情報：
「save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。」
その認識で合ってる。SPNは「現時点でのページをアーカイブする」ことしか出来ない。
過去のページをアーカイブできる技術はないし、するにはタイムマシンが必要。
現在削除済みでアーカイブも残っていないページは諦めよう

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 17:48:04.05

「ツイッター魚拓」とかいう国産サービスができたらしいが。

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 18:09:23.85

>>103
ご回答ありがとうございます。それでは、自分が○月×日にしかアーカイブしていないのにそれ以前のページの情報が出てくるということは
、他の誰かが○月×日以前にアーカイブしたということでよろしいでしょうか？

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 18:29:19.48

>>105
Internet archiveは自動で色んなサイトをクロールして定期的にアーカイブして回ってるから別に誰かが保存したわけじゃなくて自動でアーカイブされてた可能性が高い
というかわざわざ手動でアーカイブするマニアなんてここの住人位しかいなそうだしほとんど自動取得

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 18:43:23.66

>>106
では、○月×日以前の情報は私がアーカイブしたものではないということでいいんでしょうか？

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 20:09:22.90

>>107
うん

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 20:22:26.52

>>108
また質問なのですが、Twitterの動画をアーカイブした際、機種の差(Androidやios,PC)で見ることができないことってあるんですか？

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 21:26:10.00

TweetSave - Save tweets with a click
https://tweetsave.com/

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 22:49:30.89

>>104
アレはスクショ撮ってimgurに上げるだけの代物で、セッション情報の類は一切保存されないらしいから、
アーカイブサービスとしての信頼性はゼロに等しい（中傷書き込みの訴訟でも多分証拠として認められないんじゃないだろうか）
ただTwitterではやたらバズったから、固定ユーザーは一定数つくかもね

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 02:28:53.83

>>109
ツイッターの動画は保存できなかったと思うが…

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 06:39:57.00

>>110

> TweetSave - Save tweets with a click
> https://tweetsave.com/

_φ(･_･メモメモ

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 06:41:39.22

>>110

> TweetSave - Save tweets with a click
> https://tweetsave.com/

Tweets are saved on TweetSave.com and also get mirrored to WayBack and Archive.is

とあるな。

これは使えるかもしれない。

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 06:43:57.13

Twitterのツイートをウェブ魚拓のように保存できる
「TweetSave」 - GIGAZINE
https://gigazine.net/news/20161118-tweetsave/

◆P0jSlC5fJs · 2020/06/15(月) 07:11:01.48

tweetsaveは不安定すぎて使い物にならなかった

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 07:23:11.71

>>116

ありゃりゃ

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 07:26:47.37

以前はわからんが、今はまあまあ安定しているみたいだよ。

ちょっと試してみて。

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 07:57:49.97

>>112
https://video.twimg.com...ていうurlです

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 09:06:38.20

>>103
This page is available on the web!でも一緒ですか？

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 11:44:39.88

>>119
機種ごとに違いはないよ、どれも同じ
ちなみにhttps://video.twimg.comはURLだけ取れてて動画が見れない事もままある

>>120
それも一緒

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 12:01:07.51

>>121
うろ覚えの記憶ですが、3ヶ月位前にhttps://video.twimg.com...のページを探していて見つからず、This page is available on the web!となって訳も分からないでアーカイブしてしまい、その日のアーカイブでは黒い画面で動画が再生されず見れなかったのですが、なぜかカレンダーに一年程前のアーカイブが現れてそれでは動画を見ることができました。3ヶ月程前なので記憶が曖昧なのですがこういうことってありえますか？

**名無しさん＠お腹いっぱい。** · 2020/06/16(火) 16:07:46.24

>>121
それでは、Android(chrome,Firefox)で再生できなかったものは他の端末、ブラウザなどでも再生できないということでしょうか？

**名無しさん＠お腹いっぱい。** · 2020/06/17(水) 09:33:18.63

ログインしなくてもツイッター保存できますか？
JSONで保存されるか成功したかと思ったらこうなって保存されない……

Sorry, that page doesn’t exist!
Why not try a search to find something else?

**名無しさん＠お腹いっぱい。** · 2020/06/17(水) 19:03:54.27

日テレNews24もキャプチャできないっぽい
Todayならできたのでそっちで取る

**名無しさん＠お腹いっぱい。** · 2020/06/17(水) 20:06:39.58

なんか調子悪い？
ツイッター全然とれなくなったし他のサイトでもちょくちょくエラー出る

**名無しさん＠お腹いっぱい。** · 2020/06/18(木) 09:37:49.00

>>125
基本的に取れる魚拓は複数でとるようにしてるんだけどTwitterの魚拓が現状二つだけになってしまって困る……
しかも片方は突然不安定になって一ヶ月まともに使えないこともあるからなー

**名無しさん＠お腹いっぱい。** · 2020/06/18(木) 23:45:04.10

Twitterが取れなくなったのはTwitter側の仕様変更のせいじゃないかな

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 00:13:10.75

でも15日に取ってる人がいるんだよなー

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 02:33:11.77

UAをUtsubotにしたら撮れるとかなんとか

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 11:05:22.72

http://web.archive.org/save/のページで保存しようとするとこんな画面になってしまう…
ttps://i.imgur.com/1ebLT02.png

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 11:40:27.27

>>131
それ自分もなった
しばらく時間置いてからもう一度保存したら問題なく取れたよ

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 15:14:08.19

自分もNot Foundになって5ちゃん含め何一つとれなくなった…

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 17:11:29.86

検索してからThis page available on the webからならとれた
でもそれ以外からだと即Not foundが出るだけで一切とれない
なんなんだ

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 17:59:07.87

検索からの「This page available on the web」は直接保存の/save/http～なんだな。
Save page nowの方の「This page available on the web」が機能してないのか。

**名無しさん＠お腹いっぱい。** · 2020/06/20(土) 13:37:10.95

お、Twitter取れるようになったか

**名無しさん＠お腹いっぱい。** · 2020/06/20(土) 13:40:09.97

お、取れた
情報thx

**名無しさん＠お腹いっぱい。** · 2020/06/21(日) 19:56:01.96

ツイッター一応とれるようになったのもあるけど
頻繁にSorry that page doesn't exist!やエラーになって取れない事の方が多い…

**名無しさん＠お腹いっぱい。** · 2020/06/21(日) 21:14:32.41

アーカイブって動画のURL直入力したら保存されるの？

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 11:45:10.84

ものによってはとれる事もあるけど基本とれないと思った方が良い

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 11:51:39.66

>>138

>>75

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 13:50:04.34

>>141
https://web.archive.org/saveからとってSorry that page doesn't exist!になったんだけど…
まあやり直してたら3回目位でとれたけど

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 14:27:28.61

保存は複数の鯖から暇している鯖が取りに行くんだけど
ロシア語、英語、ドイツ語などランダムで取られていたから経由する鯖が更新されてないと取れないと予想

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 15:16:09.68

>>142

> まあやり直してたら3回目位でとれたけど

なにげにお役立ち情報　　　_φ(･_･メモメモ

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 15:37:49.72

>>57
これ保存に利用したIPアドレスは暗号化されて運営側も解読無理って事？

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 22:38:01.52

>>138
これなら失敗せずに一発で取れる
Yahoo！ニュースも取得する際、強制的にトップページへ飛ばされて失敗することはない
http://archive.fo/

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 23:06:54.24

自分はあ複数保存したいからこっちも保存したいだけで合計3箇所で保存してる
Web魚拓はブロックされるようになった

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 23:41:38.01

スポーツ新聞野郎まだ居たのか

◆P0jSlC5fJs · 2020/06/24(水) 06:29:53.29

もはやアリアハンガイジ

**名無しさん＠お腹いっぱい。** · 2020/06/24(水) 10:25:28.90

スポーツ新聞ほんと好きだな
取るのは勝手だけど常軌を逸した取り方だと思う

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 08:06:11.23

ヤフーニュースほんと取れない

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 10:19:57.09

>>151
本当は取れてるんだろ?
嫌がらせスクリプトも一緒にw

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 12:04:47.38

取れないという前に少しは過去ログ読んでくれと言いたくなる

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 13:17:04.71

>>151

スクリーンショットなら取れる

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 16:34:55.93

Yahoo!とか散々既出

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 10:45:18.41

SAVE完了でスナップショット見に行こうとすると昔の日付にリダイレクトされるの困るな
アドレス切り張りして今日の日付にしてもダメ

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 10:48:12.10

パーツのアドレスで叩いたら今日の日付で出てくるからひとまずはよしとすべきか

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 12:04:49.45

いつもの調子が悪い周期に入ったかな
APIも不安定

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 14:02:50.79

5ちゃんも全然とれない
時間あけて何度もトライしても時々とれるだけでほとんどダメ…

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 15:47:14.61

>>158-159
>>134-135

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 21:15:33.82

>>160
それ取得者の環境に左右されるからあんまり使いたくないんだよね

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 08:54:45.81

Hrmになって取れてなかったと思っても
後で検索するとちゃんと取れてることも多いな

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 13:38:29.18

Hrm連発でも3回ほどチャレンジしとくと高確率で取れてた

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 14:05:54.69

取れない問題については>>1のテンプレに含めるべきだな
インデクシングとアーカイブは別々のレイヤーで処理されてるから、
一見取れてないように見えても実は取れてることが多い

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 15:09:04.44

ここ数日のは反映がかなり遅いだけでちゃんと取れてるね

**名無しさん＠お腹いっぱい。** · 2020/06/30(火) 16:11:19.16

https://web.archive.org/save/http://～は即時反映でSave Page Nowは遅れて反映されるっぽい

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 10:10:10.27

>>21
>>42
dion.ne.jp
biglobe.ne.jp
jcom.co.jp
も見れないな

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 11:23:57.89

かなりデカい保存対象がやってきた

NAVERまとめサービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html

>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 16:43:58.70

雑多なまとめサイトすぎて好きじゃなかったな

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 16:49:15.19

所詮は南鮮資本w

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 17:09:06.99

雑多なまとめも多いけど、これを個人サイト的に使ってる人も割といるんだよね
そういう人の書いた良質なページが消えるのは困る

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 18:04:14.59

閉鎖される予定のサイトってnaverまとめ以外何かある？

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:31:56.99

>>168
ヤフーと合併予定でその事業整理過程で精査されてしまったね
まとめサイトのネガティブイメージとかコンプラとかで嫌われる理由はいくらでもあるが

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:47:21.16

>>172
【保存・記録】ウェブアーカイブ総合 Page.01 https://mevius.5ch.net/test/read.cgi/internet/1554553882/

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:57:22.61

NAVERまとめ、サラッと見た感じだと1ページ目は取ってあるけど
2ページ目以降が無いっていういつものパターンが多いな

**名無しさん＠お腹いっぱい。** · 2020/07/02(木) 21:17:22.61

>>171
知らなかった
いろいろな使い方があるもんだ

**名無しさん＠お腹いっぱい。** · 2020/07/02(木) 22:52:12.91

最近のサイトはスマホ用とPC用の画面分けてるが
アーカイブってPC用しか保存されんの？

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 00:34:04.34

スマホのUAでアクセスしたらスマホ用が保存されんじゃないの知らんけど

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 11:11:11.87

Googleが10年以上前のサイトはもう検索結果に出すのやめたそう
やっぱページ膨大だと検索きついのか…
にしても10年より前の情報にはアクセスする手段が無くなるってすごい損失な気がするが

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 14:23:53.34

10年以上前のサイトはそれ専用Googleとか検索エンジン用意すりゃいいのに

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 23:52:26.95

>>179
期間指定すれば普通に検索できるって聞いてたけど違うの？

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 15:07:25.27

>>179

> にしても10年より前の情報にはアクセスする手段が無くなる

他の検索エンジンなら大丈夫

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 16:05:37.33

普通に10年前以上の結果出るしデマでは？

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 16:52:27.76

Internet Archiveはgoogleみたいにキーワード検索出来るようにすればいいのに

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:06:10.22

デジャブジャブジャブなスレだな

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:08:23.67

>>184
鯖に負担かかりすぎてえらいことになりそう

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:49:51.86

検索機能の話もテンプレ入れた方が良さげだな
数年前に一度全文検索機能が入ったことがあったんだけど、検索対象となるデータの量があまりに急速に増えて追いつかないとかですぐ無くなったんだよ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:51:21.60

検索エンジンってサーバリソースを大量に必要とするから、ギリギリの状態でサーバ動かしてる現状のIAではまず無理なんじゃないだろうか

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:11:27.16

全文検索ほしい人は10億円くらい寄付しろ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:32:30.78

せめてタイトルだけでも検索できればいいのにな

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:49:53.36

この流れ前も見たぞ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 23:55:00.95

検索したいならInternet Archiveに金落とせ、話はそれからだ

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:02:58.15

金落とす金額が鯖代と維持費込みじゃないと無理だろうな

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:41:08.37

一つのURLに重複保存される画像・動画をAIで認識して削除したら、容量の削減になるのに

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:53:13.92

ツイッターの失敗は保存しなくていいのにね

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 02:47:20.57

>>194
単にコンテントボディをバイナリ比較すれば良いだけの話なのに AI を使うとか
こんなんじゃ、IA のレスポンスヘッダを含めて丸ごと保存する価値が解る訳も無いなw

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 04:54:05.25

AIとIA

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:05:45.68

そんな用途のためにわざわざAI使ったりしないだろうと思うけどそこは置いておいて、
AI動かすのにだって大量のサーバリソースは必要なんだよ
本末転倒

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:09:03.83

普通に考えて重複保存じゃなくて差分を保存してると思うんだけど・・・

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:29:12.66

アーカイブ見てるとどう考えてもまったく同じ内容のページを何回も重複して保存してるのよくあってサーバーの容量がもったいないなと思う事はよくある
特に自動クロールでとってるであろうサイトのメインページなんて毎日何百ページ位も同じ画面とり続けてたりする

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 13:10:12.04

全く同じなら容量変わらなくね？
タイムスタンプが更新されるだけでは
まぁWayBackの仕組みが分からないので断言は出来ないけど

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 13:43:22.32

最近アーカイブしても存在してないって言われることが多くなったから
archive.today使ってる