Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/ あとこんなのを発見
IAにログインした上で、Googleスプレットシートに保存したいURLを並べて登録すると保存してくれるサービス
https://archive.org/services/wayback-gsheets >>776
ありがとうございます。上手くいきました A snapshot was captured.が出ればとりあえずは様子見でいいんかな
スナップショット等への反応が即時でないが 保存できてもその保存できたページが表示できるまで時間かかってるっぽい?
カレンダーで確かに今日の日付で保存されてるのにそこをクリックしても過去に保存されたページしか出ない
first archiveの場合は成功しましたのリンククリックしても保存されてないになっちゃう >>779
思ってたより全然神サービスだったわありがてー 数日にわたって全く保存されなかったやつが今試したら一発で通りやがる
気分屋だなあ またおかしなurlに飛ぶようになった
今回はgoogle系ばかり なんか論文検索始まった
https://scholar.archive.org/
Sci-Hubキラーになるかwww google系の変なurlに飛ぶようになってない?今までもそんなことあった? http://web.archive.org/web/1im_/i.imgur.com/DCiDUjh.png
Save Page Now から保存を完了した後に表示される Visit page のリンク先が
保存したページそのもののアーカイブではなく、
その中の画像だったりスクリプトだったりのアーカイブになることがあるんだよね。
これも一連の異常と関係してるのかな。 >>795そう!それになるんだよ。最近調子悪いんだな…… 念のため記しておくと、こちらでは「保存できない」という問題は起きていない。
確かに保存完了直後には見られないことがあっても、数時間〜数日後には表示できている。
保存完了画面のリンクが別のファイルを指しているので、実際に見てみるには
URL を入れ直さなきゃならないという点は何とかしてほしいと思う。 おかしなurlに飛ばされても後でチェックすると保存はできているな おお、今確認したらちゃんと保存されてた!保存しなおさないといけないと思ったから焦ったよ
教えてくれてありがとう google系だけじゃないぞ、多分アナリティクスのjsファイルURLが帰ってくることがあるからそう言ってるだろうけど
例えばある人のfc2ブログの記事を保存したら帰ってきたのはそのページで読み込まれるcssやjsファイルだったし Live page is not available:が出たけどちゃんとセーブされてるのもあるな 「おかしなurlに飛ばされる」ってのは結局
物事をきちんと説明できない池沼が騒いでいただけなのか? 保存して本来表示されるべきページではないurlが表示されている事を報告しているものを
池沼呼ばわりとはどういう了見かな? 韓国人・朝鮮人式に考えれば良いのですよ。
行先の違うリンクを確認もせずにクリックして、勝手に飛んで行ったのであっても、
チョンにとっては「自分は常に正しい、悪いのは他人」ですから
飛ばされたことになっちゃうんですよ。 Job failedは無くなったけどエラー自体はあんまり変わってないな
ページが存在するのにLive page is not availableが出たりするし 全く意味がわかってないアホがいるようだ
まあ今はあの現象は直ってるようだがな あーページにぐぐる地図が埋め込まれてるとおかしくなるな なるほど あんま騒ぎになってないがなんでだろ
ガラケーからだけエラーが頻発かと思えば違うんだね Live page is not available 案の定エイプリルフールページで殺到してるのか重いな archive,todayってURL保存した後にzipでDL出来るみたいだけど
攻略サイト保存したらちゃんと階層や画像も一括でまとめてzipでDL出来んの? This page is not available on the web/because of server error がでてこんにゃろと思ってたら
いきなりロードされて保存済みページが表示されたりがあるな なんかYahooニュースのURLを保存するとこれが出たりする
ブロックリストに入れるような記事かこれ?
This URL is in our block list and cannot be captured.
Please email us at "info@archive.org" if you would like to discuss this more. 特定個人が発信する政治的記事の過去の言質を取られないようにするためと思われる
主にコロナ関連で もしあれだったら5chのニュースキャップなどでニューススレ立ててそっちを保存するか
yahooなら大抵二次なので一次ソースをたどってそっちを保存 同じドメインのサイトを一括で保存してDL用にZipでまとめてくれるサイトってねーの? ウェブ魚拓の方なんだけど取得できる時とできない時の条件の違いがよく分からんわ >>825
うちウェブ魚拓いくら待ってもロボット拒否でbanされたわw twitterぜんぜん保存されてないな。万単位のフォローがいる垢でも保存されてなかったりする >>829
Web魚拓はReCaptchaのマークが右下に表示されてから12秒くらい待ってボタン押すと保存できるはず。
長く待ちすぎるとロボット拒否される スマートフォンでアーカイブしたものをスマートフォンで見ようとすると見れないが3Gガラケーでは見れる謎 俺が対策書いた途端にWeb魚拓の仕様が変わって草。
このスレ見てる誰かがスクリプトでも走らせてるのか 最新のブラウザ使ってても「お前のブラウザ古いぞ」的な警告文(黄色)出るの俺だけ? アカウント作成時の捨てアド排除が始まってるなぁ
二ヶ月前はこんなこと無かったのに
あと、ユーザプロフ画面でアバター画像をアップロードしてない場合に
Gravatarを参照しなくなった
画像のタイムスタンプからして先月初旬の変更か
https://archive.org/images/person2.png
Last-Modified: Sun, 07 Mar 2021 00:42:48 GMT
>>830
ちょっと違うけど20年近く続いてる個人サイトとか、あとベテラン作家のブログが保存されてたのにサイトの方は自分が作業するまでアーカイブに無かったってことはあったな
(後者は今のサイトが出来てから2年ぐらいしか経ってなかったのもあるんだろうけど) Twitterのアーカイブは殆どArchive Teamのやつだから
ユーザーページは取られてないけど個別のツイートは殆ど取られてるはず ページが存在するのにLive page is not availableになるのいい加減にしてくれ アカウントの Mailing Lists Settings の項目が増えたな。
Stay up to date with what’s happening at the Internet Archive by signing up for our free newsletters.
□ Best of the Archive: Useful resources, unique stories, and fun finds from our collections
□ Monthly Updates: A snapshot of the main news stories about the archive each month
□ Event Notices: Invitations to and news about our events
□ Donor Communications: Messages for and about our generous supporters
どれも要らないけどw >>843
インスタはちょっと前から出来なくなった
個別の画像URLを抽出して保存は出来る Save screen shotにチェック入れても取られないときあるな
後から取られてるんだろうか? ちなみにその個別画像urlテンプレ
https●:●//www.●instagram.●com/p/11桁のインスタ画像個別の英数/media/?size=l こっちもほぼsavescreenshotが機能してない
裏で取れてたりするんかね たまにyoutubeの動画がアーカイブされてるけど手動で取る方法はないんですかね? APIの情報も信用できないし、どれが取れていて どれが取れていないかは
結局自分たちの目で見て確認するしかないという現状。 保存の確認のためにWayback Machine Availability APIを使ってみたけど、
保存されてるURLでもスナップショット無しだと返ってくる
壊れてるなこれw >>852
おお、ありがとうございます
保存までに時間が掛かるんですね >>844
画像のアドレスの仕様にもよるがしおりをつけておかないと後で検索のしようがなくなりがちなやつ
imgurの画像とかも保存自体は出来るがどこの何の画像なのかはどこかに記載されてないとカオスに >>852
それ動画ページが見れるだけで動画自体は保存されないんじゃないの? >>853
YouTubeのビデオは、訴えられる危険を犯した専用の解読スクリプトを書かないと
ビデオを保存できないので無理。
imgurのようなビデオに静的なリンクを張っている所とは違う。
https://web.archive.org/web/20210508173359/https://imgur.com/z55iZcq
<video draggable="false" playsinline="" autoplay="" … >
<source type="video/mp4" src=
"https://web.archive.org/web/20210508173359oe_/https://i.imgur.com/z55iZcq.mp4"
></video> 動画自体も保存されてるよ。自動クロール率は低いけど
適当にURL貼るとこれとか
http://web.archive.org/web/20150815193649/https://www.youtube.com/watch?v=WJzSBLCaKc8 >>858
消されてない動画の場合、見るたびにそっちを取りに行ってる可能性がある
まぁ自分も詳しくないので詳しい人いたら教えてほしい >>859
保存された動画を再生してるみたい
動画のソース
http://web.archive.org/web/20170214133548oe_/https://r4---sn-n4v7sne7.googlevideo.com/videoplayback?ipbits=0&mm=31&mn=sn-n4v7sne7&ratebypass=yes&expire=1487100946&signature=CA5A22657FBABB6AE773DB9B798B5BA86AE9B362.763F505CD7B9A750710077F92F766E70F1A57187&requiressl=yes&sparams=dur%2Cid%2Cinitcwndbps%2Cip%2Cipbits%2Citag%2Clmt%2Cmime%2Cmm%2Cmn%2Cms%2Cmv%2Cpl%2Cratebypass%2Crequiressl%2Csource%2Cupn%2Cexpire&ms=au&mt=1487079325&upn=NGplNw4c3TQ&mv=m&dur=291.108&pl=20&itag=22&key=yt6&ip=207.241.229.47&lmt=1472445730364669&mime=video%2Fmp4&id=o-ADUZW6CaxfO1uC---vHzDaHvx1GQWxmO717IBgPDVTS0&source=youtube&initcwndbps=2738750&signature= Youtubeの動画とかもちゃんと保存されんのか…… YouTubeは定期的に仕様変更してるからIAがそれに対応していくのは難しいらしい
だから昔のページだと動画が保存されてるのもあるけど今はされてない >>862
自分もよく分かってないけど今も保存されてるっぽいよ
昨日の動画が保存されてたから
http://web.archive.org/web/20210509030617/https://www.youtube.com/watch?v=ZxjaW7zGTbA またサーバーが落ちたのか繋がらないな
archive.orgの方は接続出来るみたいだが… ttps://archive.org/stats/
日本時間で14時20分すぎから鯖落ち中らしい web.archive.org までは到達できている。また内部のネットワーク障碍か。
なんか今日はIAの調子やたらいいな
これまで表示されなかったスクショなんかもちゃんと取れてるし Youtubeは少なくとも今年1月にとった分は動画まで保存できてたから、時間が経てば取れると思う。 waybackmachine使っただけで訴えられた事例とかあるの? 429エラーでもこれはお手上げ
Cannot get status of 16進数(32桁)というのが出る 保存日時の情報は記録されているけれど、外部リンク調査日時の記録はされていないんだろうな。
これも記録してあればいいのに。 なんではてなブログアーカイブするとfacebookなんちゃらになるんだ ツイッターも意味不明な表示になったがちゃんと正式urlでアーカイブされてた ■ このスレッドは過去ログ倉庫に格納されています