X



Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
垢版 |
2020/04/02(木) 02:08:09.83
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
0618名無しさん@お腹いっぱい。
垢版 |
2020/11/20(金) 04:16:43.66
寄付の表示がでるようになったり
一昨日くらいにUnknown Error表示でまくりで放置してた分も依然そのままの状態で取れない
なんだかうまく取れたらクリアってゲームやってる気がしてきた・・・
0622名無しさん@お腹いっぱい。
垢版 |
2020/11/21(土) 14:12:11.95
>>615
Archiveteamにwiki専門のグループがあるからそのIRCで頼めば保存してもらえるかも
以前別件でコンタクト取ったときに向こうから保存したい日本のwikiはないかって尋ねてきたこともあるくらいだから積極的に動いてくれると思う
https://archiveteam.org/index.php?title=WikiTeam
0623名無しさん@お腹いっぱい。
垢版 |
2020/11/21(土) 20:01:45.32
なんか古いデータどんどん消してる気がする・・・
何年も前から取ってるページなのに2020年7月からしかないとか変だわ
0627名無しさん@お腹いっぱい。
垢版 |
2020/11/26(木) 06:49:26.37
MacかiPhoneのSafariで見るとkCF〜のエラーが出るのは何度か再読み込みすれば直る
ダメなら時間おくしかない
0628名無しさん@お腹いっぱい。
垢版 |
2020/11/29(日) 12:26:24.57
save page nowから2GB以上のファイルを保存しようとすると「Resource file size is over 2GB.」のエラーが出るようになってる
ちょっと前までは出なかったのに
0632名無しさん@お腹いっぱい。
垢版 |
2020/12/01(火) 10:52:52.75
curlで保存してるけど、最近は調子良すぎなんだが
20秒ぐらいで保存が終わってタイムアウトも1割ぐらい
タイムアウトでもちゃんと保存されてるし、画像やスクリプト込みでこの時間だから、
以前より早いかも
(100個も画像やスクリプトあるページは無理だが)
0633名無しさん@お腹いっぱい。
垢版 |
2020/12/04(金) 23:38:28.47
Unknown Errorが出たら保存し直した方がいいかもな
一ヶ月前のUnknown Error保存分をチェックしてみたら
日付だけ表示されたが中身は保存されてないようだ
0636名無しさん@お腹いっぱい。
垢版 |
2020/12/06(日) 13:21:09.09
You have already reached the limit of active sessions
今日2回目の保存なのにこのエラーが出るとか、ふざけすぎでしょw
0637名無しさん@お腹いっぱい。
垢版 |
2020/12/06(日) 13:23:29.09
IPアドレス変えてもこのエラー出るので
active sessionsだからサイト全体のセッション数の制限を超えてるということかもしれないが
0640名無しさん@お腹いっぱい。
垢版 |
2020/12/07(月) 10:35:04.56
>>639
ぶっちゃけ寄付してなきゃ規制されてても不思議じゃないよ、それ
無料に毒されすぎじゃない?
広告大量になったり、変なスクリプトで経費賄うようになったら嫌だなー
0645名無しさん@お腹いっぱい。
垢版 |
2020/12/08(火) 18:52:05.48
1日3億ページ保存してるとサイトで書いてあるのに、たった1人が数百ページ保存したぐらいでなんてこともないわw
0647名無しさん@お腹いっぱい。
垢版 |
2020/12/09(水) 10:26:17.35
本来機械化しないことを想定して作られてるんだから、
大量にリクエストしたら通常よりも大きな負荷がかかるかもしれない、くらいのことは想像つかないのかよ
やるならせめて寄付くらいはしろ
0648名無しさん@お腹いっぱい。
垢版 |
2020/12/09(水) 10:29:24.14
1つのIPからの接続回数や間隔が以前よりも制限されているという事実は、
どのような形であれ大量アクセスはInternet Archiveにとって困るってことの証拠じゃないの
0649名無しさん@お腹いっぱい。
垢版 |
2020/12/09(水) 13:07:12.73
てか>>645と同じアホが真に受けて俺も俺もとなるのが1番怖い
自制が効かない・寄付もしないゴミに目を付けられたサービスが改悪しまくるのは分かりきってる
0653名無しさん@お腹いっぱい。
垢版 |
2020/12/09(水) 15:52:40.47
curlでの保存方法、教えて
0655名無しさん@お腹いっぱい。
垢版 |
2020/12/09(水) 17:52:48.98
適当なヘッダ付けて/save/を叩くだけだから、
HTTP通信さえ出来るツール使えばcurlじゃなくて問答無用で自動化できる
でも下手に叩きすぎてサーバ圧迫して結果制限が厳しくなったら元も子もないから、俺はやった事ない
0656名無しさん@お腹いっぱい。
垢版 |
2020/12/09(水) 17:53:20.92
curlじゃなくても
0658名無しさん@お腹いっぱい。
垢版 |
2020/12/09(水) 21:53:36.06
>>657
すまんけど何を聞こうとしてるのかよく分からん
その質問って結局「ひとつのサイト全体を自分で保存する機能は提供されてないよ」って事以外何も言ってないように見えるけど
0659名無しさん@お腹いっぱい。
垢版 |
2020/12/09(水) 21:56:26.36
ちゃんと下まで読んでなかったわ、>>658は取り消す
少なくとも静的サイトはこの方法で行けるね、wgetのmirrorオプションでURLリストを作るとは上手いこと考えたな
0660名無しさん@お腹いっぱい。
垢版 |
2020/12/09(水) 22:01:16.11
ただwgetは、JSとかで動的にコンテンツを取ってくるサイトやFlashが使われたサイトには対応できないから、
この回答の方法ではあらゆる種類のサイトを保存することはできない
でもHTMLとCSSだけで頑張ってるような昔の個人サイトなら問題ない
0661名無しさん@お腹いっぱい。
垢版 |
2020/12/11(金) 02:53:02.33
間隔っていうか、現状同じIPアドレスから5ページまでしか同時保存リクエスト受け付けてくれない。
6ページ目以上は保存処理が終わってないのが残ってると、タイムアウトになって保存されないよ。
自動化以前にウェブサーフィン(死語)中、手動でブラウザから/save/開いて保存したい時でも、状況は同じ。
今はこの制限内でやればいいだけ。
0664名無しさん@お腹いっぱい。
垢版 |
2020/12/15(火) 21:02:45.84
Sorry.

This snapshot cannot be displayed due to an internal error.

さっき初めて出た、保存はされてるがエラーで表示できないという謎のエラー
0665664
垢版 |
2020/12/15(火) 21:04:28.30
タッチの差だったごめん
0667名無しさん@お腹いっぱい。
垢版 |
2020/12/16(水) 06:37:15.41
てか、以前は保存終わった後に保存しますか?の表示出たのがこれに変わっただけじゃね
なんかバグってるんだよね
0670名無しさん@お腹いっぱい。
垢版 |
2020/12/17(木) 04:44:35.32
前は/save/で保存したページはLive Web Proxyってコレクションに入ってたのに
最近はSave Page Nowコレクション扱いになってるな
10月ぐらいからファイルが増えてないし、Live Web Proxyって引退したのかもしれない
https://archive.org/details/liveweb?sort=-addeddate
このスレでも10月はエラー多かった書き込みあったしな、移行期間だったのだろう
0671名無しさん@お腹いっぱい。
垢版 |
2020/12/17(木) 10:47:26.64
後で取り直したけど取れてないわ
取れてる取れてないの繰り返しにはうんざり

どこが運営してるのかわからないのは限りなく不安だが
もうarchive.todayしかない
0673名無しさん@お腹いっぱい。
垢版 |
2020/12/17(木) 16:39:47.92
11月分でいまだに反映されてないものも多々あるから
システムいじくってる最中で保存されてないものもあるかもな
0676名無しさん@お腹いっぱい。
垢版 |
2020/12/17(木) 23:36:55.01
>>674
スポーツ新聞アーカイブしてるとは一言も言ってないし同一人物とは限らんよ
毎日適当なページを実験用に保存し続けてInternet Archiveの挙動をテストしてる人もいたはずだし
0677名無しさん@お腹いっぱい。
垢版 |
2020/12/18(金) 00:36:49.29
お前らがしているのは多分、アイドル・声優のブログのアーカイブだろ
0678名無しさん@お腹いっぱい。
垢版 |
2020/12/18(金) 01:28:46.93
504とか503で何のアーカイブも見られん
0680名無しさん@お腹いっぱい。
垢版 |
2020/12/19(土) 23:30:14.53
「curl -Ll ttp://web.archive.org/web/2020/ttp://○○○○.com/[(数字)-(数字)].html(.jpg)」

ttpではなく、httpに修正して

saveではなく、エラー軽減のため西暦の数字で

連番の数字で自動保存される。
0681名無しさん@お腹いっぱい。
垢版 |
2020/12/20(日) 03:27:16.25
エラーさんざんでまくり&数日たって再度見に行くと真っ白のページが保存された形跡
これじゃしばらく試行しながら様子見するしかねえな
0682名無しさん@お腹いっぱい。
垢版 |
2020/12/24(木) 21:46:55.38
Fail with status: 503
ばっか表示される
0683名無しさん@お腹いっぱい。
垢版 |
2020/12/25(金) 04:04:48.90
あだしまの公式サイトは33回も保存されていて、IAでもちゃんと開けるのにAPIは情報なし。
APIがぶっ壊れたのか。
0684名無しさん@お腹いっぱい。
垢版 |
2020/12/25(金) 22:32:48.69
保存してHrmになってしまうと日付だけ保存&表示されて
以後同一ページを保存してもずっとHrmになってしまう状況が11月から続いている
0685名無しさん@お腹いっぱい。
垢版 |
2020/12/26(土) 02:55:00.36
news.yahoo.co.jp/bylineから始まるYahooニュースの記事を保存しようとするとこれが表示される
専門家のブログのコピー記事だからブロックしてるのかな

Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.
0688名無しさん@お腹いっぱい。
垢版 |
2020/12/26(土) 17:10:27.56
>>686
これArchive Teamが保存したものをWayback Machineに移管したやつだね
Save Page Nowでは取れないけど、外部の人間が取ったものを移管したから結果的に取れてるように見えてる
0689名無しさん@お腹いっぱい。
垢版 |
2020/12/30(水) 16:01:54.23
寄付を煽るためにわざとエラー連発させるように仕込んでるのかな
0695名無しさん@お腹いっぱい。
垢版 |
2021/01/07(木) 05:03:25.08
>>688
Collectionsのところ見たけど、Focused CrawlsとTop DomainsはArchive Teamが収集してるものじゃないよ
ブロックされているURLも移管してるのはそういう仕組みだろうけど
ヤフージャパンはアクセス数多いドメインとはいえ、ニュース系のページは収集してくれないんだなぁ
0696名無しさん@お腹いっぱい。
垢版 |
2021/01/07(木) 13:28:13.11
ヤフーニュースはSavePageNowでも取れるよ
ただ一部の記事で何故かBlockListエラーが出る
理由は謎(メールすれば聞けるのかもしれないけど)
0709名無しさん@お腹いっぱい。
垢版 |
2021/01/11(月) 13:33:23.25
年収20万ドルのエンジニア雇うだけの金があるのに、金で困ってすらないよ
その割にサーバーはザコだが
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況