X



Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
垢版 |
2020/04/02(木) 02:08:09.83
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
0240名無しさん@お腹いっぱい。
垢版 |
2020/07/14(火) 21:34:43.78
ttps://togetter[.]com/li/1559186

これをアーカイブすると一瞬表示できたかと思ったら「ERR_HTTP2_SERVER_REFUSED_STREAM」と出る
0244名無しさん@お腹いっぱい。
垢版 |
2020/07/15(水) 19:09:31.66
>>243
最新版のインデクシングが完了してないとそうなる事がある
しばらく(数時間〜数日)待ってからもう一度閲覧できるか確認するといい
0247名無しさん@お腹いっぱい。
垢版 |
2020/07/15(水) 22:30:09.70
>>245
上に貼ったやつの場合は許諾を得てるようだからおそらく使用料も払われてるとは思うが、
出版社から訴訟起こされたなんて話もつい最近あったし、よう分からん
0260名無しさん@お腹いっぱい。
垢版 |
2020/07/19(日) 00:36:31.27
分からん
自分の場合、todayに固定回線でアクセスすると
「Access to this website is blocked Plume」ってメッセージが出てくるようになった
ウェブ魚拓はHTTP 511エラーを吐いてくる
これまではInternet Archiveと使い分けてたんだけど、こうなるとInternet Archiveで色々保存しないといけなくなるな
0263名無しさん@お腹いっぱい。
垢版 |
2020/07/21(火) 01:39:06.41
俺はarchive.todayは問題なく使えてる
Wayback Machineは繋がらなかったり取りこぼしが結構あって残念
後日見返しても取れてないし
いまも繋がらない…

Unknown Error
502 Bad Gateway
0271名無しさん@お腹いっぱい。
垢版 |
2020/07/24(金) 12:49:21.81
保存失敗していたと思ったら1日やら何時間も経ってからやっと反映された
そろそろ限界が近いのだろうか?
0280名無しさん@お腹いっぱい。
垢版 |
2020/07/26(日) 21:51:46.95
>>278
done!が出るまで何度もやらないと、魚拓検索ではweb.archive.orgで取れてる扱いでも取れてない
んで失敗してるうちに待ち時間が10分近くとかに増えていくから、合計だと何分かかるか分からない
消えちゃ困るフリーソフトとかぐらいしか、そんだけ待って取る価値ないわな
archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
0284名無しさん@お腹いっぱい。
垢版 |
2020/07/27(月) 11:53:01.60
>> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いやそりゃBANされるだろ
サーバ動かすのだってタダじゃないんだよ
自分がアーカイブサイト運営してたとしてもそれはしばらくアク禁にするわ
0285名無しさん@お腹いっぱい。
垢版 |
2020/07/27(月) 12:24:25.45
>>284
だったら最初から制限事項を表示しろって話
騙し討ちみたいなもんじゃん
別に不正アクセスしたわけじゃないし、dos攻撃みたいに明らかに悪意あるように見えるほど高速でもないんだし
0288名無しさん@お腹いっぱい。
垢版 |
2020/07/27(月) 16:54:48.41
どうしてもアーカイブできないサイトはページ丸ごとスクショしてそれをどっかにあげてアーカイブすればいいか
でも大きなスクショ劣化なしであげられるとこってなかなかないよね
どっかあるかな?
0295名無しさん@お腹いっぱい。
垢版 |
2020/07/28(火) 06:39:39.83
https://gigazine.net/news/20191212-thread-internet-archives-silent-killer/
コストを削減したければクローリングするウェブサイトを減らし、一部のデータ保存活動を停止すればOKですが、この考えは世界全体にとっていいアイデアではないとスコット氏は主張。

1分20ページから50ページ保存に緩和してくれ

或いは有料プランを作ってくれ
0296◆P0jSlC5fJs
垢版 |
2020/07/28(火) 07:07:27.82
>>288
大抵はWayback Machineかarchive.todayかWebrecorderかSingleFileZで保存できる

おーぷん2chは基本拒まれるけどdatはアーカイブできる
例: http://archive.vn/nxwaU
通常のページを保存できるにしろできないにしろ、APIも保存してくれると助かる

例えばニコ生のAPIは
https://api.cas.nicovideo.jp/v1/services/live/programs/(番組ID)
番組IDのところをlv123とするとその番組の詳細情報が得られる
0297名無しさん@お腹いっぱい。
垢版 |
2020/07/29(水) 02:58:32.75
Internet Archive以外はいつサービス終了するか分からない
ローカルやログインして自分しか見れない所にアーカイブしても意味ない
0298名無しさん@お腹いっぱい。
垢版 |
2020/07/29(水) 03:33:40.66
Internet Archiveも見れないURLあるからなあ
0300名無しさん@お腹いっぱい。
垢版 |
2020/07/29(水) 13:06:06.70
> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いっぺんにそんな数ひろったことないな
やるねえ
0308名無しさん@お腹いっぱい。
垢版 |
2020/07/29(水) 23:12:14.28
>>307
> つなぎなおすと

繋ぎ直しで IP が変わったことが効いてるのか、ただ少し時間を空ければ良いだけなのか、
どっちなんだw
0310◆P0jSlC5fJs
垢版 |
2020/07/30(木) 01:13:52.97
>>297
archive.todayってやばいの?
>>280 を読む限りちゃんとリソースに見合った制限をかけてるようだし
削除に応じないからいつか陥落しそうってこと?

2行目は???
アーカイブしてもそれを共有せずアクセス不能な場所にのみ保管していても仕方ないってこと?
自分以外からも見れるようにすりゃいいじゃん
0311名無しさん@お腹いっぱい。
垢版 |
2020/07/30(木) 04:36:43.89
確かに保存されたページが閲覧できているのに、APIの方では保存されていないかのような
表示になっていることもあるんだな。単にAPIの調子が悪いのか
0313名無しさん@お腹いっぱい。
垢版 |
2020/07/30(木) 07:40:56.06
あー、すまん。

これは自分がページを指定して魚拓とることはできないのか。
0314名無しさん@お腹いっぱい。
垢版 |
2020/07/30(木) 10:12:47.18
Sorry.
This URL has been excluded from the Wayback Machine.
この文が出るサイトはどんな方法でも保存はおろか閲覧すらできないんでしょうか
0315名無しさん@お腹いっぱい。
垢版 |
2020/07/30(木) 10:17:20.01
>>310
archive todayってどこの会社が運営してるのか資金はどうしてるのかも分からないし比較的最近できた歴史もサイト
36年の歴史があって米国政府も利用してて組織内部まで公開してるInternet archiveとは信頼度が違う
WebrecorderやSingleFileZは共有機能あるの?見た感じ個人向けのキャプチャソフトみたいだけど
0321名無しさん@お腹いっぱい。
垢版 |
2020/07/30(木) 21:03:12.09
>>318
マジ?
0322名無しさん@お腹いっぱい。
垢版 |
2020/07/30(木) 22:23:53.68
>>310
アーカイブって「データが改変されていないこと」が保証されてなきゃいけないんだよ
だから単に「自分以外からも見えるようにすればいいじゃん」って問題ではない
0323名無しさん@お腹いっぱい。
垢版 |
2020/07/30(木) 22:27:38.32
archive.todayは誰がどこでどういう風に運営してるのかまるで分からない(=いつデータが全て消し飛ぶか分からない)という怖さがある
だから自分はarchive.todayを可能な限り使わないようにしてるし、運営体制が公開されてるInternet Archiveを信用してる
0324名無しさん@お腹いっぱい。
垢版 |
2020/07/30(木) 22:33:49.07
「データが改変されていないこと」を保証するのって結構厄介で、
Internet ArchiveはWARC形式っていうWebアーカイブ専用フォーマットを使って保存してるくらい
archive.todayやウェブ魚拓はその辺が全く公開されてない
スクショなんて論外だよ(ブラウザの開発者機能で画面表示を書き換えた上でスクショされたらどうしようもないから)
0325名無しさん@お腹いっぱい。
垢版 |
2020/07/30(木) 23:11:23.68
用途にもよる
単に面白いサイトだから残したい程度ならどこでもいい訳だし
何かの証拠として残すんなら信頼高いアーカイブの方がいいしな
0327322-324
垢版 |
2020/07/31(金) 00:23:14.62
証拠だろうと面白いサイトだろうと消えてほしくないからアーカイブする訳だから、
自分は信頼性の高さを重視して何でも基本的にInternet Archiveのみを使っている
archive.todayではIAで保存できなかったものと、特に証拠として残したいものを保存してる(削除申請が通りにくいため)
ウェブ魚拓は「申請が来たらすぐ消している」という運営のインタビューを見てから一切使わなくなった
0332名無しさん@お腹いっぱい。
垢版 |
2020/07/31(金) 07:54:38.33
全ページ検索ってまだできない?
そんなに機密情報とか簡単に検索されたくない?
0334名無しさん@お腹いっぱい。
垢版 |
2020/07/31(金) 10:08:22.40
自分の主張は正当化されるべきと信じ込んでる・とりあえず何でも陰謀論に結び付けるとか数え役満だな...
Internet Archiveにそんなサービスやってる余裕ないんだよ、一時期やってたけど処理が追いつかなくてすぐ廃止になったって前にも誰かが言ってただろ
0335名無しさん@お腹いっぱい。
垢版 |
2020/07/31(金) 19:43:31.80
そもそも最近のInternet Archiveは一枚もキャプチャ出来ない日がずっと続いてる
BANか時間帯か何が原因か知らんけど、VPNで時間帯変えても無理
0337名無しさん@お腹いっぱい。
垢版 |
2020/07/31(金) 19:58:20.86
>>336
そなの?取れてないと思って同じページ数回取り直しちゃったわw
urlで検索すると取れてる扱いなのに、開くと取得ページに一枚もないって出てるし
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況