X



Internet Archive総合 (web.archive.org) #3
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
垢版 |
2020/04/02(木) 02:08:09.83
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/
0768名無しさん@お腹いっぱい。
垢版 |
2021/02/28(日) 11:46:27.82
Save Page Nowで保存中に他人が保存したアドレスがたまに表示されてるんだけど、これやばくない?
試しにcurlで/save/から保存するのと同時に、WebブラウザからVPN使って別のIPアドレスにした上でSPNで別のサイトを保存してみたら、
curlで保存中の画像やJavascriptのアドレスがWebブラウザの方に出てきてしまった。
普通に情報流出していてワロタ

このスレでも他人のアドレスが出てくる状態になった報告があるみたいだけど、直す気ないのかな。マジで直したほうがいいと思う。
>>568-570
>>584-589
0769名無しさん@お腹いっぱい。
垢版 |
2021/03/01(月) 20:37:48.02
ここ2週間ぐらい、

archive.todayで、

インスタグラムを保存できなくなってるの 俺だけ?

2週間くらい前までは、インスタグラム保存できてたのに。

他に インスタグラムを保存できる魚拓サイトありますか?
0770名無しさん@お腹いっぱい。
垢版 |
2021/03/01(月) 23:25:20.89
インスタビューア的な外部サイトがいくつもあるから
それを介して保存するって方法がある
URLをしっかり記録しておかないと参照できなくなるってのが面倒だけど
0771名無しさん@お腹いっぱい。
垢版 |
2021/03/02(火) 14:01:49.74
web.archive.org/save であるべーじを保存できた(3月2日)
保存出来た時に表示されるリンクをクリック
→二月中旬に保存したものに飛ぶ

カレンダーを見ると3月2日に保存マークがある
→それをクリックすると二月中旬に保存したものに飛ぶ

これって3月2日に保存は出来たけど閲覧できない状態ということ?
0772名無しさん@お腹いっぱい。
垢版 |
2021/03/03(水) 13:37:44.10
>>770

>インスタビューア的な外部サイトがいくつもあるから
>それを介して保存するって方法がある

回答 ありがとうございます。
「インスタビューア的な外部サイト」でググっていますが、見つかりませんorz。
ちなみにパソコン ユーザーです。

保存ができる、おすすめのインスタビューア的な外部サイトを教えていただければ幸いです。m(_ _)m
0773名無しさん@お腹いっぱい。
垢版 |
2021/03/03(水) 15:26:40.68
この保存職人たちの怒りのスレいわく、
ttps://archive.org/post/1105471/pages-refusing-to-save-this-is-asinine
Poster: Hitsmello Date: Nov 29, 2020 10:39am

Also, lately, I've noticed that the "Job failed" only seems to happen if I check the "Save outlinks" AND the "Please email me the results" boxes.
It WILL save properly if I just check "Save also in my web archive" and "Save outlinks". Gee, I wonder why...

ログインしてSave outlinksとPlease email me the resultsにチェックを入れるとjob failedが出ずに保存できるらしい
俺はアカウントから保存して、ファイルに名前が残るのはやだから、試してないけど
0774名無しさん@お腹いっぱい。
垢版 |
2021/03/03(水) 15:31:00.65
>>771
反映待ち状態になってるから、数日後に見れるようになったか確認してみて
大抵は24時間、遅くても2日以内に見れるようになるはず
急いでるか保存失敗してそうなら、同じURLなら30分後以降にまた保存できるので再度保存するのもあり
0775名無しさん@お腹いっぱい。
垢版 |
2021/03/03(水) 18:22:54.32
This URL has been already captured 10 times today

同じURLで連続10回保存失敗した場合でもこのエラーが出る。
失敗してるのにこれはないだろ。capturedできてねーぞ。
0776名無しさん@お腹いっぱい。
垢版 |
2021/03/03(水) 20:33:32.32
>>772
instagram viewerとかでググって出てきたサイトに投稿を表示させて、その内容を保存するってこと
サイトによって表示される情報量がまちまちだから色々試して使いやすいのを探す必要がある

(例) プロフィール画面
https://web.archive.org/web/20210303101254/https://instastory.net/profile/cristiano
(例) 投稿画面
https://web.archive.org/web/20210303090845/https://instastory.net/post/CL7sxQPgvB6

可能な限りは公式サイトを保存したいところだけど
どうしても無理ならこうするしかないんじゃないかな
0777名無しさん@お腹いっぱい。
垢版 |
2021/03/04(木) 17:47:00.70
save画面でキャプチャできたのかリンクが出たからクリックしたらサイトは保存されていませんと出る
0779名無しさん@お腹いっぱい。
垢版 |
2021/03/05(金) 16:53:21.35
さっき知ったけど、IAの社員でWayback Machine責任者のマーク・グラハムさんがSave Page Nowや/save/のAPIの仕様説明書を公開してくれた
ttps://webapps.stackexchange.com/a/151360

自動翻訳かけても読む価値あると思う

Save Page Now 2 Public API Docs Draft
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit
https://docs.google.com/document/d/19RJsRncGUw2qHqGGg9lqYZYf7KKXMDL1Mro5o1Qw6QI/edit

Limitationsのところに制限について書いてあるのを拾ってみると
・同じIPアドレスから同時に6ページ以上SPNや/save/で保存すると自動でエラーになる
・10秒でレスポンス戻ってこなかったらタイムアウト
・50秒で保存先URLはタイムアウト
・spn@archive.org宛に保存したいURLのメールを送ると500個まで保存してくれる(俺の経験上結果がエラーだらけになる可能性大なので確実に保存したいなら手動で)
・ログインしてない同じIPアドレスから画像なども含めて1日2万ページ以上は保存リクエストだせない、ログインしてれば制限なし
・ログインしてAPIキーを取得すれば、プログラムから保存するのもできる

この制限に引っかからないようにすれば、大量保存してる人はうまくいくはず
サンプルコードにも失敗したら保存を繰り返すようなコードになってるから、保存エラーが多いのは認識してるんだろう
0781名無しさん@お腹いっぱい。
垢版 |
2021/03/05(金) 18:13:28.08
>>776

ありがとうございます。上手くいきました
0782名無しさん@お腹いっぱい。
垢版 |
2021/03/05(金) 19:51:34.90
A snapshot was captured.が出ればとりあえずは様子見でいいんかな
スナップショット等への反応が即時でないが
0783名無しさん@お腹いっぱい。
垢版 |
2021/03/05(金) 20:16:22.56
保存できてもその保存できたページが表示できるまで時間かかってるっぽい?
カレンダーで確かに今日の日付で保存されてるのにそこをクリックしても過去に保存されたページしか出ない
first archiveの場合は成功しましたのリンククリックしても保存されてないになっちゃう
0788名無しさん@お腹いっぱい。
垢版 |
2021/03/09(火) 01:33:30.80
ページによって挙動が違うのがなんとも
0794名無しさん@お腹いっぱい。
垢版 |
2021/03/10(水) 21:25:03.54
>>793
なるほど しばらく待てば直るものか?
0796名無しさん@お腹いっぱい。
垢版 |
2021/03/11(木) 00:11:38.24
>>795そう!それになるんだよ。最近調子悪いんだな……
0798名無しさん@お腹いっぱい。
垢版 |
2021/03/11(木) 15:47:38.66
>>797
その通り…保存できてなくて困ってるよ
0799795
垢版 |
2021/03/11(木) 15:57:13.93
念のため記しておくと、こちらでは「保存できない」という問題は起きていない。
確かに保存完了直後には見られないことがあっても、数時間〜数日後には表示できている。
保存完了画面のリンクが別のファイルを指しているので、実際に見てみるには
URL を入れ直さなきゃならないという点は何とかしてほしいと思う。
0801名無しさん@お腹いっぱい。
垢版 |
2021/03/11(木) 18:44:03.64
おお、今確認したらちゃんと保存されてた!保存しなおさないといけないと思ったから焦ったよ
教えてくれてありがとう
0802名無しさん@お腹いっぱい。
垢版 |
2021/03/12(金) 02:59:00.85
google系だけじゃないぞ、多分アナリティクスのjsファイルURLが帰ってくることがあるからそう言ってるだろうけど
例えばある人のfc2ブログの記事を保存したら帰ってきたのはそのページで読み込まれるcssやjsファイルだったし
0805名無しさん@お腹いっぱい。
垢版 |
2021/03/15(月) 00:54:48.12
保存して本来表示されるべきページではないurlが表示されている事を報告しているものを
池沼呼ばわりとはどういう了見かな?
0806名無しさん@お腹いっぱい。
垢版 |
2021/03/15(月) 08:05:56.29
韓国人・朝鮮人式に考えれば良いのですよ。

行先の違うリンクを確認もせずにクリックして、勝手に飛んで行ったのであっても、
チョンにとっては「自分は常に正しい、悪いのは他人」ですから
飛ばされたことになっちゃうんですよ。
0807名無しさん@お腹いっぱい。
垢版 |
2021/03/15(月) 11:07:06.87
Job failedは無くなったけどエラー自体はあんまり変わってないな
ページが存在するのにLive page is not availableが出たりするし
0812イモー虫
垢版 |
2021/03/22(月) 04:29:32.07
あんま騒ぎになってないがなんでだろ
ガラケーからだけエラーが頻発かと思えば違うんだね
0813名無しさん@お腹いっぱい。
垢版 |
2021/03/24(水) 20:24:38.95
twitterでjsonとられる現象減ったね
0815名無しさん@お腹いっぱい。
垢版 |
2021/04/01(木) 09:36:27.49
案の定エイプリルフールページで殺到してるのか重いな
0817名無しさん@お腹いっぱい。
垢版 |
2021/04/04(日) 15:52:25.36
archive,todayってURL保存した後にzipでDL出来るみたいだけど
攻略サイト保存したらちゃんと階層や画像も一括でまとめてzipでDL出来んの?
0819名無しさん@お腹いっぱい。
垢版 |
2021/04/07(水) 05:09:08.66
This page is not available on the web/because of server error がでてこんにゃろと思ってたら
いきなりロードされて保存済みページが表示されたりがあるな
0820名無しさん@お腹いっぱい。
垢版 |
2021/04/16(金) 00:59:24.77
なんかYahooニュースのURLを保存するとこれが出たりする
ブロックリストに入れるような記事かこれ?

This URL is in our block list and cannot be captured.
Please email us at "info@archive.org" if you would like to discuss this more.
0821名無しさん@お腹いっぱい。
垢版 |
2021/04/16(金) 05:40:19.79
特定個人が発信する政治的記事の過去の言質を取られないようにするためと思われる
主にコロナ関連で
0822名無しさん@お腹いっぱい。
垢版 |
2021/04/16(金) 07:10:27.48
もしあれだったら5chのニュースキャップなどでニューススレ立ててそっちを保存するか
yahooなら大抵二次なので一次ソースをたどってそっちを保存
0828名無しさん@お腹いっぱい。
垢版 |
2021/04/20(火) 01:48:29.85
最近またjob failed出るようになったな
0830名無しさん@お腹いっぱい。
垢版 |
2021/04/20(火) 21:36:13.88
twitterぜんぜん保存されてないな。万単位のフォローがいる垢でも保存されてなかったりする
0831名無しさん@お腹いっぱい。
垢版 |
2021/04/21(水) 21:20:44.52
>>829
Web魚拓はReCaptchaのマークが右下に表示されてから12秒くらい待ってボタン押すと保存できるはず。
長く待ちすぎるとロボット拒否される
0832名無しさん@お腹いっぱい。
垢版 |
2021/04/21(水) 23:45:37.52
スマートフォンでアーカイブしたものをスマートフォンで見ようとすると見れないが3Gガラケーでは見れる謎
0833名無しさん@お腹いっぱい。
垢版 |
2021/04/22(木) 21:24:08.86
俺が対策書いた途端にWeb魚拓の仕様が変わって草。
このスレ見てる誰かがスクリプトでも走らせてるのか
0835名無しさん@お腹いっぱい。
垢版 |
2021/04/25(日) 18:05:22.97
インターネット官報誰も保存してない
0838名無しさん@お腹いっぱい。
垢版 |
2021/04/30(金) 18:23:16.44
>>830
ちょっと違うけど20年近く続いてる個人サイトとか、あとベテラン作家のブログが保存されてたのにサイトの方は自分が作業するまでアーカイブに無かったってことはあったな
(後者は今のサイトが出来てから2年ぐらいしか経ってなかったのもあるんだろうけど)
0839名無しさん@お腹いっぱい。
垢版 |
2021/04/30(金) 21:42:19.54
Twitterのアーカイブは殆どArchive Teamのやつだから
ユーザーページは取られてないけど個別のツイートは殆ど取られてるはず
0842名無しさん@お腹いっぱい。
垢版 |
2021/05/04(火) 22:21:00.51
アカウントの Mailing Lists Settings の項目が増えたな。

Stay up to date with what’s happening at the Internet Archive by signing up for our free newsletters.
□ Best of the Archive: Useful resources, unique stories, and fun finds from our collections
□ Monthly Updates: A snapshot of the main news stories about the archive each month
□ Event Notices: Invitations to and news about our events
□ Donor Communications: Messages for and about our generous supporters

どれも要らないけどw
0843名無しさん@お腹いっぱい。
垢版 |
2021/05/05(水) 11:05:32.13
インスタ保存したいんだけどできないね
0847イモー虫
垢版 |
2021/05/07(金) 16:22:46.45
ちなみにその個別画像urlテンプレ

https●:●//www.●instagram.●com/p/11桁のインスタ画像個別の英数/media/?size=l
0850名無しさん@お腹いっぱい。
垢版 |
2021/05/08(土) 05:54:04.89
APIの情報も信用できないし、どれが取れていて どれが取れていないかは
結局自分たちの目で見て確認するしかないという現状。
0851名無しさん@お腹いっぱい。
垢版 |
2021/05/08(土) 16:28:03.01
保存の確認のためにWayback Machine Availability APIを使ってみたけど、
保存されてるURLでもスナップショット無しだと返ってくる
壊れてるなこれw
0855名無しさん@お腹いっぱい。
垢版 |
2021/05/09(日) 02:38:40.84
>>844
画像のアドレスの仕様にもよるがしおりをつけておかないと後で検索のしようがなくなりがちなやつ
imgurの画像とかも保存自体は出来るがどこの何の画像なのかはどこかに記載されてないとカオスに
0857名無しさん@お腹いっぱい。
垢版 |
2021/05/09(日) 04:04:52.08
>>853
YouTubeのビデオは、訴えられる危険を犯した専用の解読スクリプトを書かないと
ビデオを保存できないので無理。

imgurのようなビデオに静的なリンクを張っている所とは違う。

https://web.archive.org/web/20210508173359/https://imgur.com/z55iZcq

<video draggable="false" playsinline="" autoplay="" … >
<source type="video/mp4" src=
"https://web.archive.org/web/20210508173359oe_/https://i.imgur.com/z55iZcq.mp4"
></video>
0858名無しさん@お腹いっぱい。
垢版 |
2021/05/09(日) 04:48:52.27
動画自体も保存されてるよ。自動クロール率は低いけど
適当にURL貼るとこれとか
http://web.archive.org/web/20150815193649/https://www.youtube.com/watch?v=WJzSBLCaKc8
0859名無しさん@お腹いっぱい。
垢版 |
2021/05/09(日) 21:18:48.23
>>858
消されてない動画の場合、見るたびにそっちを取りに行ってる可能性がある
まぁ自分も詳しくないので詳しい人いたら教えてほしい
0860名無しさん@お腹いっぱい。
垢版 |
2021/05/10(月) 02:03:24.91
>>859
保存された動画を再生してるみたい
動画のソース
http://web.archive.org/web/20170214133548oe_/https://r4---sn-n4v7sne7.googlevideo.com/videoplayback?ipbits=0&mm=31&mn=sn-n4v7sne7&ratebypass=yes&expire=1487100946&signature=CA5A22657FBABB6AE773DB9B798B5BA86AE9B362.763F505CD7B9A750710077F92F766E70F1A57187&requiressl=yes&sparams=dur%2Cid%2Cinitcwndbps%2Cip%2Cipbits%2Citag%2Clmt%2Cmime%2Cmm%2Cmn%2Cms%2Cmv%2Cpl%2Cratebypass%2Crequiressl%2Csource%2Cupn%2Cexpire&ms=au&mt=1487079325&upn=NGplNw4c3TQ&mv=m&dur=291.108&pl=20&itag=22&key=yt6&ip=207.241.229.47&lmt=1472445730364669&mime=video%2Fmp4&id=o-ADUZW6CaxfO1uC---vHzDaHvx1GQWxmO717IBgPDVTS0&source=youtube&initcwndbps=2738750&signature=
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況