X



Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
垢版 |
2020/04/02(木) 02:08:09.83
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
0102名無しさん@お腹いっぱい。
垢版 |
2020/06/14(日) 17:13:12.66
>>99
自分も今日いくらやっても連続してツイートのアーカイブに失敗するから、自分の環境が悪いのかと思ったけどこれは……
0103名無しさん@お腹いっぱい。
垢版 |
2020/06/14(日) 17:27:12.26
>>101
・IPアドレス:>>55-57を参照
・過去のページ情報:
「save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。」
その認識で合ってる。SPNは「現時点でのページをアーカイブする」ことしか出来ない。
過去のページをアーカイブできる技術はないし、するにはタイムマシンが必要。
現在削除済みでアーカイブも残っていないページは諦めよう
0104名無しさん@お腹いっぱい。
垢版 |
2020/06/14(日) 17:48:04.05
「ツイッター魚拓」とかいう国産サービスができたらしいが。
0105名無しさん@お腹いっぱい。
垢版 |
2020/06/14(日) 18:09:23.85
>>103
ご回答ありがとうございます。それでは、自分が○月×日にしかアーカイブしていないのにそれ以前のページの情報が出てくるということは
、他の誰かが○月×日以前にアーカイブしたということでよろしいでしょうか?
0106名無しさん@お腹いっぱい。
垢版 |
2020/06/14(日) 18:29:19.48
>>105
Internet archiveは自動で色んなサイトをクロールして定期的にアーカイブして回ってるから別に誰かが保存したわけじゃなくて自動でアーカイブされてた可能性が高い
というかわざわざ手動でアーカイブするマニアなんてここの住人位しかいなそうだしほとんど自動取得
0107名無しさん@お腹いっぱい。
垢版 |
2020/06/14(日) 18:43:23.66
>>106
では、○月×日以前の情報は私がアーカイブしたものではないということでいいんでしょうか?
0109名無しさん@お腹いっぱい。
垢版 |
2020/06/14(日) 20:22:26.52
>>108
また質問なのですが、Twitterの動画をアーカイブした際、機種の差(Androidやios,PC)で見ることができないことってあるんですか?
0111名無しさん@お腹いっぱい。
垢版 |
2020/06/14(日) 22:49:30.89
>>104
アレはスクショ撮ってimgurに上げるだけの代物で、セッション情報の類は一切保存されないらしいから、
アーカイブサービスとしての信頼性はゼロに等しい(中傷書き込みの訴訟でも多分証拠として認められないんじゃないだろうか)
ただTwitterではやたらバズったから、固定ユーザーは一定数つくかもね
0113名無しさん@お腹いっぱい。
垢版 |
2020/06/15(月) 06:39:57.00
>>110

> TweetSave - Save tweets with a click
> https://tweetsave.com/


_φ(・_・メモメモ
0114名無しさん@お腹いっぱい。
垢版 |
2020/06/15(月) 06:41:39.22
>>110

> TweetSave - Save tweets with a click
> https://tweetsave.com/


Tweets are saved on TweetSave.com and also get mirrored to WayBack and Archive.is

とあるな。

これは使えるかもしれない。
0116◆P0jSlC5fJs
垢版 |
2020/06/15(月) 07:11:01.48
tweetsaveは不安定すぎて使い物にならなかった
0118名無しさん@お腹いっぱい。
垢版 |
2020/06/15(月) 07:26:47.37
以前はわからんが、今はまあまあ安定しているみたいだよ。

ちょっと試してみて。
0120名無しさん@お腹いっぱい。
垢版 |
2020/06/15(月) 09:06:38.20
>>103
This page is available on the web!でも一緒ですか?
0122名無しさん@お腹いっぱい。
垢版 |
2020/06/15(月) 12:01:07.51
>>121
うろ覚えの記憶ですが、3ヶ月位前にhttps://video.twimg.com...のページを探していて見つからず、This page is available on the web!となって訳も分からないでアーカイブしてしまい、その日のアーカイブでは黒い画面で動画が再生されず見れなかったのですが、なぜかカレンダーに一年程前のアーカイブが現れてそれでは動画を見ることができました。3ヶ月程前なので記憶が曖昧なのですがこういうことってありえますか?
0123名無しさん@お腹いっぱい。
垢版 |
2020/06/16(火) 16:07:46.24
>>121
それでは、Android(chrome,Firefox)で再生できなかったものは他の端末、ブラウザなどでも再生できないということでしょうか?
0124名無しさん@お腹いっぱい。
垢版 |
2020/06/17(水) 09:33:18.63
ログインしなくてもツイッター保存できますか?
JSONで保存されるか成功したかと思ったらこうなって保存されない……

Sorry, that page doesn’t exist!
Why not try a search to find something else?
0127名無しさん@お腹いっぱい。
垢版 |
2020/06/18(木) 09:37:49.00
>>125
基本的に取れる魚拓は複数でとるようにしてるんだけどTwitterの魚拓が現状二つだけになってしまって困る……
しかも片方は突然不安定になって一ヶ月まともに使えないこともあるからなー
0129名無しさん@お腹いっぱい。
垢版 |
2020/06/19(金) 00:13:10.75
でも15日に取ってる人がいるんだよなー
0134名無しさん@お腹いっぱい。
垢版 |
2020/06/19(金) 17:11:29.86
検索してからThis page available on the webからならとれた
でもそれ以外からだと即Not foundが出るだけで一切とれない
なんなんだ
0135名無しさん@お腹いっぱい。
垢版 |
2020/06/19(金) 17:59:07.87
検索からの「This page available on the web」は直接保存の/save/http〜なんだな。
Save page nowの方の「This page available on the web」が機能してないのか。
0137名無しさん@お腹いっぱい。
垢版 |
2020/06/20(土) 13:40:09.97
お、取れた
情報thx
0138名無しさん@お腹いっぱい。
垢版 |
2020/06/21(日) 19:56:01.96
ツイッター一応とれるようになったのもあるけど
頻繁にSorry that page doesn't exist!やエラーになって取れない事の方が多い…
0143名無しさん@お腹いっぱい。
垢版 |
2020/06/22(月) 14:27:28.61
保存は複数の鯖から暇している鯖が取りに行くんだけど
ロシア語、英語、ドイツ語などランダムで取られていたから経由する鯖が更新されてないと取れないと予想
0144名無しさん@お腹いっぱい。
垢版 |
2020/06/23(火) 15:16:09.68
>>142

> まあやり直してたら3回目位でとれたけど


なにげにお役立ち情報   _φ(・_・メモメモ
0147名無しさん@お腹いっぱい。
垢版 |
2020/06/23(火) 23:06:54.24
自分はあ複数保存したいからこっちも保存したいだけで合計3箇所で保存してる
Web魚拓はブロックされるようになった
0154名無しさん@お腹いっぱい。
垢版 |
2020/06/25(木) 13:17:04.71
>>151

スクリーンショットなら取れる
0156名無しさん@お腹いっぱい。
垢版 |
2020/06/26(金) 10:45:18.41
SAVE完了でスナップショット見に行こうとすると昔の日付にリダイレクトされるの困るな
アドレス切り張りして今日の日付にしてもダメ
0164名無しさん@お腹いっぱい。
垢版 |
2020/06/27(土) 14:05:54.69
取れない問題については>>1のテンプレに含めるべきだな
インデクシングとアーカイブは別々のレイヤーで処理されてるから、
一見取れてないように見えても実は取れてることが多い
0167名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 10:10:10.27
>>21
>>42
dion.ne.jp
biglobe.ne.jp
jcom.co.jp
も見れないな
0168名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 11:23:57.89
かなりデカい保存対象がやってきた

NAVERまとめ サービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html

>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。
0169名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 16:43:58.70
雑多なまとめサイトすぎて好きじゃなかったな
0171名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 17:09:06.99
雑多なまとめも多いけど、これを個人サイト的に使ってる人も割といるんだよね
そういう人の書いた良質なページが消えるのは困る
0173名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 20:31:56.99
>>168
ヤフーと合併予定でその事業整理過程で精査されてしまったね
まとめサイトのネガティブイメージとかコンプラとかで嫌われる理由はいくらでもあるが
0175名無しさん@お腹いっぱい。
垢版 |
2020/07/01(水) 20:57:22.61
NAVERまとめ、サラッと見た感じだと1ページ目は取ってあるけど
2ページ目以降が無いっていういつものパターンが多いな
0177名無しさん@お腹いっぱい。
垢版 |
2020/07/02(木) 22:52:12.91
最近のサイトはスマホ用とPC用の画面分けてるが
アーカイブってPC用しか保存されんの?
0179名無しさん@お腹いっぱい。
垢版 |
2020/07/03(金) 11:11:11.87
Googleが10年以上前のサイトはもう検索結果に出すのやめたそう
やっぱページ膨大だと検索きついのか…
にしても10年より前の情報にはアクセスする手段が無くなるってすごい損失な気がするが
0182名無しさん@お腹いっぱい。
垢版 |
2020/07/04(土) 15:07:25.27
>>179

> にしても10年より前の情報にはアクセスする手段が無くなる

他の検索エンジンなら大丈夫
0186名無しさん@お腹いっぱい。
垢版 |
2020/07/04(土) 17:08:23.67
>>184
鯖に負担かかりすぎてえらいことになりそう
0187名無しさん@お腹いっぱい。
垢版 |
2020/07/04(土) 17:49:51.86
検索機能の話もテンプレ入れた方が良さげだな
数年前に一度全文検索機能が入ったことがあったんだけど、検索対象となるデータの量があまりに急速に増えて追いつかないとかですぐ無くなったんだよ
0188名無しさん@お腹いっぱい。
垢版 |
2020/07/04(土) 17:51:21.60
検索エンジンってサーバリソースを大量に必要とするから、ギリギリの状態でサーバ動かしてる現状のIAではまず無理なんじゃないだろうか
0194名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 00:41:08.37
一つのURLに重複保存される画像・動画をAIで認識して削除したら、容量の削減になるのに
0196名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 02:47:20.57
>>194
単にコンテントボディをバイナリ比較すれば良いだけの話なのに AI を使うとか
こんなんじゃ、IA のレスポンスヘッダを含めて丸ごと保存する価値が解る訳も無いなw
0198名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 12:05:45.68
そんな用途のためにわざわざAI使ったりしないだろうと思うけどそこは置いておいて、
AI動かすのにだって大量のサーバリソースは必要なんだよ
本末転倒
0200名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 12:29:12.66
アーカイブ見てるとどう考えてもまったく同じ内容のページを何回も重複して保存してるのよくあってサーバーの容量がもったいないなと思う事はよくある
特に自動クロールでとってるであろうサイトのメインページなんて毎日何百ページ位も同じ画面とり続けてたりする
0201名無しさん@お腹いっぱい。
垢版 |
2020/07/05(日) 13:10:12.04
全く同じなら容量変わらなくね?
タイムスタンプが更新されるだけでは
まぁWayBackの仕組みが分からないので断言は出来ないけど
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況