Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ ttps://togetter[.]com/li/1559186
これをアーカイブすると一瞬表示できたかと思ったら「ERR_HTTP2_SERVER_REFUSED_STREAM」と出る >>239
適当に検索して出てきたのを貼っておく
とある科学の超電磁砲8巻
https://archive.org/details/certainscientifi0000kama_m4a2
Internet Archiveの検索欄から"Search metadata"で探すと色々出てくるよ 最新版をアーカイブできたと思ったら数年前のアーカイブに強制リダイレクトされる >>243
最新版のインデクシングが完了してないとそうなる事がある
しばらく(数時間〜数日)待ってからもう一度閲覧できるか確認するといい >>241
こういうのってIA側が出版社に表示使用料払ったりしてんの? >>245
上に貼ったやつの場合は許諾を得てるようだからおそらく使用料も払われてるとは思うが、
出版社から訴訟起こされたなんて話もつい最近あったし、よう分からん 版権の所在がもうつかめない作品もゴロゴロでてくるから
基本無許可だろ やっぱりtogetterはダメだな
意図的にアーカイブ出来ないように設定されてんのか? >>250
https://togetter.com/robots.txt
> User-agent: ia_archiver
> Disallow: /
robots.txt で拒否設定してるけど、それ以前に IP か何かで弾いてるようだな。 どうしてもIAに入れたいなら
他のサイトでアーカイブ→そのアーカイブをIAでアーカイブ
すればいい >>253
できなくない?他のどの魚拓サイトのURL入れてもNGになって無理なんだけど todayは運営元が不明な時点でいつ消えてもおかしくないので
あくまで気休め用 todayもウェブ魚拓も固定回線からのアクセスをブロックするようになった気がする 分からん
自分の場合、todayに固定回線でアクセスすると
「Access to this website is blocked Plume」ってメッセージが出てくるようになった
ウェブ魚拓はHTTP 511エラーを吐いてくる
これまではInternet Archiveと使い分けてたんだけど、こうなるとInternet Archiveで色々保存しないといけなくなるな 俺はarchive.todayは問題なく使えてる
Wayback Machineは繋がらなかったり取りこぼしが結構あって残念
後日見返しても取れてないし
いまも繋がらない…
Unknown Error
502 Bad Gateway お、This page is available on the web!でも
https://web.archive.org/save
に飛ばされるようになってる
やっと統一されたのか todayのCloudflareうぜええ
てかなんでこいつはいつまでもreCAPTCHAのままなんだよ Cloudflare「もどき」しか見ないなw
https://web.archive.org/save/の後に続く数字が保存中に
_embed/に勝手に変わって保存されない。。。 保存失敗していたと思ったら1日やら何時間も経ってからやっと反映された
そろそろ限界が近いのだろうか? それは普通だが4月に保存したものがいくつか保存されてなかった 何事も一期一会、保存などという邪道なものに頼ろうとするな http://web.archive.org/web/数字/http://
↓
http://web.archive.org/web/数字/https://
httpsになっているサイトがhttp時代の過去のサイトの画像が自動表示保存されない場合は、https://を入れると自動表示保存される。(例:impress・itmediaなど) 503が出てアーカイブされてるかどうかすら確認できなくなってる >>278
done!が出るまで何度もやらないと、魚拓検索ではweb.archive.orgで取れてる扱いでも取れてない
んで失敗してるうちに待ち時間が10分近くとかに増えていくから、合計だと何分かかるか分からない
消えちゃ困るフリーソフトとかぐらいしか、そんだけ待って取る価値ないわな
archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ >>280
> 失敗してるうちに待ち時間が10分近くとか
手作業でやってるんだw >>281
ソフトかスクリプトかなんかあるの?
他の作業しながら進捗チラ見してる感じだわ >> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いやそりゃBANされるだろ
サーバ動かすのだってタダじゃないんだよ
自分がアーカイブサイト運営してたとしてもそれはしばらくアク禁にするわ >>284
だったら最初から制限事項を表示しろって話
騙し討ちみたいなもんじゃん
別に不正アクセスしたわけじゃないし、dos攻撃みたいに明らかに悪意あるように見えるほど高速でもないんだし IAってスクリプトとか保存しないように設定出来れば
保存容量や表示軽く出来そうなのに どうしてもアーカイブできないサイトはページ丸ごとスクショしてそれをどっかにあげてアーカイブすればいいか
でも大きなスクショ劣化なしであげられるとこってなかなかないよね
どっかあるかな? Tweetsaveも不安定過ぎる
アーカイブ化を妨害したい勢力が暗躍してんだな クラウドフレア依存が不安定の原因に思えてくる
IAは違いそうだが スクショって画像化の事言ってんの?
そんな事するくらいならWebページ保存ソフト使えよ >>292
アーカイブ化を妨害したい勢力なんじゃねw
自演やる奴ほど自演疑うみたいな https://gigazine.net/news/20191212-thread-internet-archives-silent-killer/
コストを削減したければクローリングするウェブサイトを減らし、一部のデータ保存活動を停止すればOKですが、この考えは世界全体にとっていいアイデアではないとスコット氏は主張。
↑
1分20ページから50ページ保存に緩和してくれ
或いは有料プランを作ってくれ >>288
大抵はWayback Machineかarchive.todayかWebrecorderかSingleFileZで保存できる
おーぷん2chは基本拒まれるけどdatはアーカイブできる
例: http://archive.vn/nxwaU
通常のページを保存できるにしろできないにしろ、APIも保存してくれると助かる
例えばニコ生のAPIは
https://api.cas.nicovideo.jp/v1/services/live/programs/(番組ID)
番組IDのところをlv123とするとその番組の詳細情報が得られる Internet Archive以外はいつサービス終了するか分からない
ローカルやログインして自分しか見れない所にアーカイブしても意味ない Internet Archiveも見れないURLあるからなあ > archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いっぺんにそんな数ひろったことないな
やるねえ >>300
不良(品)の武勇伝(悪行)みたいなもんよ 500 Internal Server Error >>298
保存しても強制的に
Sorry.
This URL has been excluded from the Wayback Machine.
になってしまうサイトあるよな それはサイト側がIAに連絡して保存しないようにして貰っただけ >>302
最近よくこれになる
10分待ってまたやるとできることも多いけど International Server Errorはつなぎなおすと動くことも多い気がする >>307
> つなぎなおすと
繋ぎ直しで IP が変わったことが効いてるのか、ただ少し時間を空ければ良いだけなのか、
どっちなんだw つなぎなおすとはしいたけ押して更新することだと思ってた・・・・ >>297
archive.todayってやばいの?
>>280 を読む限りちゃんとリソースに見合った制限をかけてるようだし
削除に応じないからいつか陥落しそうってこと?
2行目は???
アーカイブしてもそれを共有せずアクセス不能な場所にのみ保管していても仕方ないってこと?
自分以外からも見れるようにすりゃいいじゃん 確かに保存されたページが閲覧できているのに、APIの方では保存されていないかのような
表示になっていることもあるんだな。単にAPIの調子が悪いのか あー、すまん。
これは自分がページを指定して魚拓とることはできないのか。 Sorry.
This URL has been excluded from the Wayback Machine.
この文が出るサイトはどんな方法でも保存はおろか閲覧すらできないんでしょうか >>310
archive todayってどこの会社が運営してるのか資金はどうしてるのかも分からないし比較的最近できた歴史もサイト
36年の歴史があって米国政府も利用してて組織内部まで公開してるInternet archiveとは信頼度が違う
WebrecorderやSingleFileZは共有機能あるの?見た感じ個人向けのキャプチャソフトみたいだけど 途中で送信してしまった
連投失礼
なのでもともと保存されていたものも当然見れなくなる >>314
biglobeなんかも2年ほどそうなって見られなくなってその後復活した
内部的にはちゃんと保存されてるんだろうな 期間とか決まってるわけじゃない
homepage2.nifty.comなんかも昔は見られたが
もうずっと見られないしな >>310
アーカイブって「データが改変されていないこと」が保証されてなきゃいけないんだよ
だから単に「自分以外からも見えるようにすればいいじゃん」って問題ではない archive.todayは誰がどこでどういう風に運営してるのかまるで分からない(=いつデータが全て消し飛ぶか分からない)という怖さがある
だから自分はarchive.todayを可能な限り使わないようにしてるし、運営体制が公開されてるInternet Archiveを信用してる 「データが改変されていないこと」を保証するのって結構厄介で、
Internet ArchiveはWARC形式っていうWebアーカイブ専用フォーマットを使って保存してるくらい
archive.todayやウェブ魚拓はその辺が全く公開されてない
スクショなんて論外だよ(ブラウザの開発者機能で画面表示を書き換えた上でスクショされたらどうしようもないから) 用途にもよる
単に面白いサイトだから残したい程度ならどこでもいい訳だし
何かの証拠として残すんなら信頼高いアーカイブの方がいいしな 通常はそこまで手間じゃないんだから両方やっとけ
自分は3つやってる 証拠だろうと面白いサイトだろうと消えてほしくないからアーカイブする訳だから、
自分は信頼性の高さを重視して何でも基本的にInternet Archiveのみを使っている
archive.todayではIAで保存できなかったものと、特に証拠として残したいものを保存してる(削除申請が通りにくいため)
ウェブ魚拓は「申請が来たらすぐ消している」という運営のインタビューを見てから一切使わなくなった 今のIAは激烈不調で信頼できるとはとても言えんがな 全ページ検索ってまだできない?
そんなに機密情報とか簡単に検索されたくない? 自分の主張は正当化されるべきと信じ込んでる・とりあえず何でも陰謀論に結び付けるとか数え役満だな...
Internet Archiveにそんなサービスやってる余裕ないんだよ、一時期やってたけど処理が追いつかなくてすぐ廃止になったって前にも誰かが言ってただろ そもそも最近のInternet Archiveは一枚もキャプチャ出来ない日がずっと続いてる
BANか時間帯か何が原因か知らんけど、VPNで時間帯変えても無理 いやキャプは内部的に出来てるけど反映されるのが3日4日かかってるっぽい >>336
そなの?取れてないと思って同じページ数回取り直しちゃったわw
urlで検索すると取れてる扱いなのに、開くと取得ページに一枚もないって出てるし 500 Internal Server Error
502 Bad Gateway
520 Unknown Error
今日は特におかしい
何だこの三役揃い踏みは ■ このスレッドは過去ログ倉庫に格納されています