Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ もともと話題も少ないからな
保守してると思えばいい 最近TwitterがJob failedになって全然保存できない… Tweetsaveで保存してもIAにはアーカイブされない
やっぱり圧力掛かってんのかな
誰も問題にしないのが驚きだけど Tweetsaveからのはすぐに保存されてる印象が無いな Job failedになっても検索すると出てくるから一応保存されてるっぽい Twitterじゃない普通のウェブサイトを保存しようとしても
保存できたと思ってクリックしたら404 not foundが出てアーカイブされてませんと出る
10分待たないと再保存できない 10分経ったから同じサイトをやってみようとしても404としか出ない Twitter、いくつかアーカイブして実験したけど
Job failedやtask limitになっても取れてるっぽい
しばらくしてから確認したらカレンダーに反映されてた /save/がNot FoundやらBad Gatewayになるけど少したってAPIを見ると保存されていたりなかったりする。どうなってんだ >>202
俺も使ってる
web.archiveも併用してるけど取得失敗が多くなってきた
いまも取得を試みたがNot Foundだ なんかこのスレの雰囲気って気象板にある地域の天気スレに似てる気がしてきた >>229
ちょっと笑った
そのスレは知らないけど確かに似たところはあるかもね
しかし天気と違ってInternet Archiveの調子は予測できないのが アーカイブ(Heritrix)とインデクシング(Wayback)は別々のソフトウェアで分担して動いてるから、
反映されてないように見えても実は取れてることが多いんだよと何度言ったら どちらの調子の悪い時もあるからな
裏で取れてると思い込んでたら取れてなかったじゃ話にならん品 電子コミックとか一時無料になる場合あるけど
ああいうの保存出来ないの? 出来るか否かは試すしかない
有料サイトのはリスクありそうだから試さないけど 仮に取れてもサイト側が削除申請出せば消せるしね
10年くらい前の話だけど、二次創作小説専門サイトが著作権の問題で閉鎖になった時、
Wayback Machineに残ってたアーカイブもまとめて全部削除されちゃったんだよね 保存したマンガのファイルを自分でInternet Archiveにアップロードするという手も一応ある(IAのアカウント登録が必要なはず)
アメリカではフェアユース関連でその辺が緩いのかは知らないが、
マイナーな日本漫画の英訳版zipがアップされてる事も時たまあるよ
日本からこれをやって捕まったという話は聞いたことがないけど、お勧めはしないし止めておいた方が無難 補足しておくとInternet Archive上の漫画etcが全部グレーゾーンな訳ではなくて、
著作権者の許諾を得て大っぴらに収録されてるものもかなり多い ttps://togetter[.]com/li/1559186
これをアーカイブすると一瞬表示できたかと思ったら「ERR_HTTP2_SERVER_REFUSED_STREAM」と出る >>239
適当に検索して出てきたのを貼っておく
とある科学の超電磁砲8巻
https://archive.org/details/certainscientifi0000kama_m4a2
Internet Archiveの検索欄から"Search metadata"で探すと色々出てくるよ 最新版をアーカイブできたと思ったら数年前のアーカイブに強制リダイレクトされる >>243
最新版のインデクシングが完了してないとそうなる事がある
しばらく(数時間〜数日)待ってからもう一度閲覧できるか確認するといい >>241
こういうのってIA側が出版社に表示使用料払ったりしてんの? >>245
上に貼ったやつの場合は許諾を得てるようだからおそらく使用料も払われてるとは思うが、
出版社から訴訟起こされたなんて話もつい最近あったし、よう分からん 版権の所在がもうつかめない作品もゴロゴロでてくるから
基本無許可だろ やっぱりtogetterはダメだな
意図的にアーカイブ出来ないように設定されてんのか? >>250
https://togetter.com/robots.txt
> User-agent: ia_archiver
> Disallow: /
robots.txt で拒否設定してるけど、それ以前に IP か何かで弾いてるようだな。 どうしてもIAに入れたいなら
他のサイトでアーカイブ→そのアーカイブをIAでアーカイブ
すればいい >>253
できなくない?他のどの魚拓サイトのURL入れてもNGになって無理なんだけど todayは運営元が不明な時点でいつ消えてもおかしくないので
あくまで気休め用 todayもウェブ魚拓も固定回線からのアクセスをブロックするようになった気がする 分からん
自分の場合、todayに固定回線でアクセスすると
「Access to this website is blocked Plume」ってメッセージが出てくるようになった
ウェブ魚拓はHTTP 511エラーを吐いてくる
これまではInternet Archiveと使い分けてたんだけど、こうなるとInternet Archiveで色々保存しないといけなくなるな 俺はarchive.todayは問題なく使えてる
Wayback Machineは繋がらなかったり取りこぼしが結構あって残念
後日見返しても取れてないし
いまも繋がらない…
Unknown Error
502 Bad Gateway お、This page is available on the web!でも
https://web.archive.org/save
に飛ばされるようになってる
やっと統一されたのか todayのCloudflareうぜええ
てかなんでこいつはいつまでもreCAPTCHAのままなんだよ Cloudflare「もどき」しか見ないなw
https://web.archive.org/save/の後に続く数字が保存中に
_embed/に勝手に変わって保存されない。。。 保存失敗していたと思ったら1日やら何時間も経ってからやっと反映された
そろそろ限界が近いのだろうか? それは普通だが4月に保存したものがいくつか保存されてなかった 何事も一期一会、保存などという邪道なものに頼ろうとするな http://web.archive.org/web/数字/http://
↓
http://web.archive.org/web/数字/https://
httpsになっているサイトがhttp時代の過去のサイトの画像が自動表示保存されない場合は、https://を入れると自動表示保存される。(例:impress・itmediaなど) 503が出てアーカイブされてるかどうかすら確認できなくなってる >>278
done!が出るまで何度もやらないと、魚拓検索ではweb.archive.orgで取れてる扱いでも取れてない
んで失敗してるうちに待ち時間が10分近くとかに増えていくから、合計だと何分かかるか分からない
消えちゃ困るフリーソフトとかぐらいしか、そんだけ待って取る価値ないわな
archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ >>280
> 失敗してるうちに待ち時間が10分近くとか
手作業でやってるんだw >>281
ソフトかスクリプトかなんかあるの?
他の作業しながら進捗チラ見してる感じだわ >> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いやそりゃBANされるだろ
サーバ動かすのだってタダじゃないんだよ
自分がアーカイブサイト運営してたとしてもそれはしばらくアク禁にするわ >>284
だったら最初から制限事項を表示しろって話
騙し討ちみたいなもんじゃん
別に不正アクセスしたわけじゃないし、dos攻撃みたいに明らかに悪意あるように見えるほど高速でもないんだし IAってスクリプトとか保存しないように設定出来れば
保存容量や表示軽く出来そうなのに どうしてもアーカイブできないサイトはページ丸ごとスクショしてそれをどっかにあげてアーカイブすればいいか
でも大きなスクショ劣化なしであげられるとこってなかなかないよね
どっかあるかな? Tweetsaveも不安定過ぎる
アーカイブ化を妨害したい勢力が暗躍してんだな クラウドフレア依存が不安定の原因に思えてくる
IAは違いそうだが スクショって画像化の事言ってんの?
そんな事するくらいならWebページ保存ソフト使えよ >>292
アーカイブ化を妨害したい勢力なんじゃねw
自演やる奴ほど自演疑うみたいな https://gigazine.net/news/20191212-thread-internet-archives-silent-killer/
コストを削減したければクローリングするウェブサイトを減らし、一部のデータ保存活動を停止すればOKですが、この考えは世界全体にとっていいアイデアではないとスコット氏は主張。
↑
1分20ページから50ページ保存に緩和してくれ
或いは有料プランを作ってくれ >>288
大抵はWayback Machineかarchive.todayかWebrecorderかSingleFileZで保存できる
おーぷん2chは基本拒まれるけどdatはアーカイブできる
例: http://archive.vn/nxwaU
通常のページを保存できるにしろできないにしろ、APIも保存してくれると助かる
例えばニコ生のAPIは
https://api.cas.nicovideo.jp/v1/services/live/programs/(番組ID)
番組IDのところをlv123とするとその番組の詳細情報が得られる Internet Archive以外はいつサービス終了するか分からない
ローカルやログインして自分しか見れない所にアーカイブしても意味ない Internet Archiveも見れないURLあるからなあ > archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いっぺんにそんな数ひろったことないな
やるねえ >>300
不良(品)の武勇伝(悪行)みたいなもんよ 500 Internal Server Error >>298
保存しても強制的に
Sorry.
This URL has been excluded from the Wayback Machine.
になってしまうサイトあるよな それはサイト側がIAに連絡して保存しないようにして貰っただけ >>302
最近よくこれになる
10分待ってまたやるとできることも多いけど International Server Errorはつなぎなおすと動くことも多い気がする >>307
> つなぎなおすと
繋ぎ直しで IP が変わったことが効いてるのか、ただ少し時間を空ければ良いだけなのか、
どっちなんだw つなぎなおすとはしいたけ押して更新することだと思ってた・・・・ >>297
archive.todayってやばいの?
>>280 を読む限りちゃんとリソースに見合った制限をかけてるようだし
削除に応じないからいつか陥落しそうってこと?
2行目は???
アーカイブしてもそれを共有せずアクセス不能な場所にのみ保管していても仕方ないってこと?
自分以外からも見れるようにすりゃいいじゃん 確かに保存されたページが閲覧できているのに、APIの方では保存されていないかのような
表示になっていることもあるんだな。単にAPIの調子が悪いのか ■ このスレッドは過去ログ倉庫に格納されています