X



Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。2020/04/02(木) 02:08:09.83
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
0512名無しさん@お腹いっぱい。2020/10/03(土) 22:59:15.77
そもそもパスワード等を知らない「アカの他人」には見えないようになっているページを
どうして Internet Archive という「他人」に保存させようとするんだ?

リテラシーが崩壊してるわw
0514名無しさん@お腹いっぱい。2020/10/04(日) 01:06:25.33
「リテラシーが崩壊してるわw」では済まされないくらい重要な問題なんだけどな
例えば学術論文リポジトリはログインしないと閲覧出来ない場合も多くて問題になってたりする
0515名無しさん@お腹いっぱい。2020/10/04(日) 01:17:45.63
「ログインしないと入れないページ」は深層ウェブというものの一つでもあるんだけど、
ディープウェブのWebアーカイブをどうやってやっていくべきかというのは割と難しい課題なのよ

ログインしないと入れないページは、ちゃんとした理由があるからこそ閲覧に制限がかかってる
でもそれと同時に、ちゃんとした理由があってログインしないと入れないページをアーカイブしたい場合というのも往々にしてあるわけ(上で挙げた学術論文リポジトリはその一例)

とは言え、いくらアーカイブする必然性があってもだからと言ってアクセス制限を無視して良いわけではないし、両者の兼ね合いは結構難しい
ともかくこういうのを単なるネットリテラシーの問題として済ますのは良くない
0516名無しさん@お腹いっぱい。2020/10/04(日) 01:22:42.49
理由は何であろうが、ログインを要求してるんだから
それ以上は IA 側の知った話じゃないよ
0517名無しさん@お腹いっぱい。2020/10/04(日) 03:15:02.69
「知った話じゃない」ってのは
「関心を持って注視しているが現時点では対応していない」状況にぴったりな言葉じゃないと思う
0518名無しさん@お腹いっぱい。2020/10/04(日) 15:45:40.69
>>515
自分でローカルに保存すればいいじゃん
なんだかんだ言って天災・過失で自前バックアップ死ぬよりも、ネットの方が通報も含めて明らかに先に死ぬし
0519名無しさん@お腹いっぱい。2020/10/04(日) 17:10:59.85
>>515
言ってることがただの自己中だってことに気付けよ
0523名無しさん@お腹いっぱい。2020/10/05(月) 01:02:47.64
>>521
その兼ね合いが難しいって話よ
そもそもウェブアーカイブ自体著作権法スレスレのものだし、保存される側の都合を完璧に守るのは無理だと自分は割り切ってる
0524名無しさん@お腹いっぱい。2020/10/05(月) 01:05:22.46
ウェブアーカイブが単純にローカルで保存しとけば済む話だったらInternet Archiveという団体は存在しえない
保存する側とされる側の都合の兼ね合いは「自己中」で一蹴せず、ちゃんと考えていかなきゃいけないシリアスな問題だと思うよ
0527名無しさん@お腹いっぱい。2020/10/05(月) 04:55:38.02
自己中呼ばわりやら草生やしたりやらしてる方は
何か恨みでもあるんかってくらい食い付いてるしな
感情論で殴ってるだけだから話自体に説得力ないし
0528名無しさん@お腹いっぱい。2020/10/05(月) 10:48:51.05
>>522
正義マンがポリコレ棒めっちゃぶんぶんしてるのに似てる
なんでルール守れないゴミ自己中のくせに被害者面してんの?
やべーわ
それで管理人がサイト更新意欲なくなっても
俺は悪くない!
とか宣うんだろw
0529名無しさん@お腹いっぱい。2020/10/05(月) 17:14:59.29
おもしれー
もっとやれ
0530名無しさん@お腹いっぱい。2020/10/05(月) 19:42:44.10
もっとやれって言われた以上この話題は無視するか
ここはTwitterのリプライかよ、くだらない
0531名無しさん@お腹いっぱい。2020/10/06(火) 21:16:26.76
ルールに従えとしか言えないな
考えていかなきゃいけない問題だとは思うが、ここで議論する意味は無い
0544名無しさん@お腹いっぱい。2020/10/17(土) 05:58:22.64
https://archive.org/post/1110563/archive-url-10-times-today-limit

俺の環境では確認できてないけど、
同じ日に10回以上保存されてるURLをさらに保存するとこんなエラーが出る場合があるらしい。

This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.

まあ、ニュースサイトとかじゃない限り10回も保存はしないだろうけど。
0546名無しさん@お腹いっぱい。2020/10/17(土) 15:39:48.96
アーカイブが存在しなければ保存するみたいな選択項目があればもう少し容量削減できそうなのにな
0547名無しさん@お腹いっぱい。2020/10/18(日) 13:05:45.08
このスレにかつて居たスポーツ新聞野郎がキチガイ扱いされたのは、
個々のニュースではなくサイトのトップとか一覧とかのアーカイブに固執してたから。
0548名無しさん@お腹いっぱい。2020/10/18(日) 16:03:43.18
>>546
isみたくトップからやり直さないと何年も前のアーカイブ開くだけで取り直すか聞かないのもウザイけどな
0549名無しさん@お腹いっぱい。2020/10/19(月) 00:06:20.58
>>547
あの人最近見かけないけど今どうしてるのかね
トップページや一覧ページの保存だけに血道を上げている様子は、正直言って病的というか空恐ろしいものがあった
他のスレ住人に何を言われてもほぼ反応なしで、何だか自分の世界に入り込んでるみたいだったね
彼は未だにスポーツ新聞のトップページを毎日手動で保存し続けているんだろうかね
0550名無しさん@お腹いっぱい。2020/10/19(月) 04:33:54.40
archive.isでとった魚拓をinternet archiveで保存すると
できるのとできないのがあるんだけど
違いはなんだろう
0553名無しさん@お腹いっぱい。2020/10/20(火) 19:10:14.06
既出かもしれないけど、こんなページがある。

Wayback Stats
https://archive.org/stats/
https://analytics0.archive.org/stats/wb.php

注目したいのはHTTP 200と503エラーのグラフと404エラーの割合グラフ
このスレでも報告があった10/15〜10/16は表示エラーが多くて、
10/17は一時半分近くエラー続きだったそうだ。

このURLはテンプレか>>1に入れといていいと思う。
0554名無しさん@お腹いっぱい。2020/10/20(火) 21:53:07.53
ずっと見られなくなってたtripod.com系のサイトがいつの間にか見れるようになってた
あとIEで見れなくなった
印刷プレビューはIEが一番使いやすかったのに…
0555名無しさん@お腹いっぱい。2020/10/20(火) 22:53:30.54
IE排除は英断というか当たり前だと思う
開発元のマイクロソフトもとっくにサポートやめて「代わりにEdge使ってね」ってしつこいくらい宣伝してたし...
0556名無しさん@お腹いっぱい。2020/10/20(火) 23:00:54.10
運営側にとってはIEってセキュリティホールも仕様の古さも色々と面倒で、本当に悩みの種なんだわ
Internet Archiveに限らずIEでの閲覧を想定しないサイトは今後どんどん増えていくだろうし、
悪いこと言わないから他のブラウザに乗り換えた方が良いよ

というか、これはあくまで個人的な感想だからつもりはないけど、
IEの印刷プレビューって言うほど使いやすいかな?
Chromeに印刷プレビュー機能がなかった10年前じゃあるまいし
0557名無しさん@お腹いっぱい。2020/10/20(火) 23:21:09.35
UserAgentをIEに変えても、普通に見れるが。。
Your browser may not be compatible〜ってのは出るけど。
0558名無しさん@お腹いっぱい。2020/10/21(水) 00:30:53.60
「The server didn't respond in time for http://〜」がよく表示されると思ったら特定のサイトだけだったか・・・

>10/17は一時半分近くエラー続きだったそうだ。
 道理で保存されてないのがいくつかあるなと思ったら・・・
0559名無しさん@お腹いっぱい。2020/10/21(水) 10:59:34.87
>>557
UserAgentで弾いてる訳じゃなくて、ページの構成自体をIEが対応してない形式に変更したんじゃないの?
IE使ってないから確認できてないけど
0560名無しさん@お腹いっぱい。2020/10/21(水) 18:00:01.04
>>550
archive.is の拓が直接 archive.orgに取り込めない場合は少し前までなら anonymouse のWebプロキシのURL付けると取り込めたりしたが、

(例:http://anonymouse.org/cgi-bin/anon-www.cgi/http://e-words.jp/w/%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96.html で取り込む)


…今秋から archive.is へのアクセスが暗号通信( https://archive.is/XXXXX )強制にされてしまったんで不可になってしまった。
( anonymouse.は非暗号アクセス http:// のサイトにしか対応してない )
 
0571名無しさん@お腹いっぱい。2020/10/25(日) 01:34:37.40
"The server didn't respond in time for (保存URL)."
ってエラーメッセージが出ても、後で確認すると取れてることが多かったりする
0572名無しさん@お腹いっぱい。2020/10/25(日) 12:49:20.36
とうとうエラーでサイト見れなくなったか?
0576名無しさん@お腹いっぱい。2020/10/25(日) 14:45:08.36
復旧はしたが再度保存するのに要求される待ち時間が30分になってる…
ちょっと前は20分、去年あたりは10分で良かったのに…
0580名無しさん@お腹いっぱい。2020/10/26(月) 00:51:01.37
cloudfront.netがなぜか全部ブロックされていて、こんな風に表示される

Sorry
This URL is in our block list and cannot be captured. Please email us at "info@archive.org" if you would like to discuss this more.

会社のプレスリリースなどでcloudfront.net使ってるところは保存できなくなってるわ
0581名無しさん@お腹いっぱい。2020/10/26(月) 17:19:48.92
Wayback Statsによると
24日午後4時〜8時(日本時間25日午前8時〜12時頃)にサーバーダウンして4時間ほどページすら見れなかったらしい
0584名無しさん@お腹いっぱい。2020/10/26(月) 23:46:49.93
これwマウスの上にかたつむり乗ってるのwリアルがダメな人は見ないで
http://web.archive.org/web/20201024183048/https://pbs.twimg.com/card_img/1318252845452374016/A4POgMBd?format=jpg&name=600x314

上にも書いたけどアメブロの魚拓をとったんだよね
あとからチェックしたら魚拓自体はとれてたんだけどw謎杉
数日前から変なURLに飛ばされることがあるけど結果的に取れてるんだよ
0587名無しさん@お腹いっぱい。2020/10/27(火) 01:26:19.05
>>584
それここ何日か発生してるバグっぽい。
save nowで保存すると、そのページじゃなくて読み込まれるURLの1個が帰ってくる。
変なURLが帰ってくるとびっくりするけど一応保存はされてる模様。
0594名無しさん@お腹いっぱい。2020/10/29(木) 16:27:01.75
結局Wayback Machine頼りじゃなく、自分で保存してInternet Archiveのアカウントでアップロードするのが安全なんだよな
0595名無しさん@お腹いっぱい。2020/10/29(木) 17:39:46.40
excluded表記は削除じゃなくてWaybackMachineのアクセス拒否だって事を願ってる
こんなしょうもない事でポンポン消されたらたまったもんじゃない
0596名無しさん@お腹いっぱい。2020/10/29(木) 22:34:14.27
中国本土で、アメリカのInternet Archive相当の役割をしているサイト、サービスは、どこですか?
URLが知りたいです。
0597名無しさん@お腹いっぱい。2020/10/30(金) 02:14:44.13
>>596
ざっと検索したらそれらしい情報は出てきたが、あなたの欲しい情報が入ってるかは分からん

IPLC Launches the Greater China Archival Resources Web Archive(Ivy Plus Libraries Confederation, 2020/9/9)
https://ivpluslibraries.org/2020/09/iplc-launches-the-greater-china-archival-resources-web-archive/

Greater China Archival Resources Web Archive(Archive-It)
https://archive-it.org/collections/14767
0600名無しさん@お腹いっぱい。2020/10/31(土) 21:34:11.67
どうでもいい話だけど
「インターネットアーカイブ」で検索しても1ページ目にすら出ないんだな
「internet archive」だとトップなのに
日本人はあんまり使ってないのかな・・・?
0602名無しさん@お腹いっぱい。2020/11/01(日) 15:21:23.61
>>600
グーグル使うの止めたら?
スマホファーストデザインやるようになったぐらいから、
そこらのアフィカスブログが可愛く見えるくらいアフィカス度激高になってるよグーグル
0603名無しさん@お腹いっぱい。2020/11/05(木) 14:53:16.09
半角無理そう?
0604名無しさん@お腹いっぱい。2020/11/05(木) 14:55:42.77
>>595
アーカイブを消させるための手法として流用されるかも
下手すると第三者がこういった工作をする可能性も
0605名無しさん@お腹いっぱい。2020/11/05(木) 16:20:41.64
sakura03鯖のログって全損なんかな
0609名無しさん@お腹いっぱい。2020/11/07(土) 10:41:21.23
>>595
それで合っていると思う
試しにツールを使って、すでにその状態になっているものをここからダウンロードしようとしたら
「403 Forbidden」が出たから
だからまた見るにはインターネットアーカイブ側でアクセス許可にされるか
それともそれをかいくぐれるツールが出来るかのどっちかしか無いかも
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況