X



Internet Archive総合 (web.archive.org) #4

■ このスレッドは過去ログ倉庫に格納されています
2021/08/13(金) 03:38:17.64
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #3
https://mevius.5ch.net/test/read.cgi/esite/1585760889/
2022/02/15(火) 15:58:32.32
アフィでない個人サイトでoutlinksしてFirstArchive連発すると、
「ん゛ぎも゛ぢい゛い゛ぃ゛っ」ってなる
2022/02/15(火) 16:51:39.80
>>298
ありがとう。スクリーンショット試してみるよ。
2022/02/16(水) 21:40:43.32
>>299
あのFirstArchive表示考えた人天才だと思う
さすがアーキビストの性格分かってるなぁって
2022/02/19(土) 10:06:34.35
>>301
初雪に足跡つけるような気持ちになれる
2022/02/19(土) 16:49:11.58
むしろちょっと申し訳ない気分になる
2022/02/19(土) 23:51:17.14
Too Many Requests
In order to protect the Wayback Machine we have limits on different services. Unfortunately you have hit one of those limits. It can be caused by:
Being an automatic bot that does not appear to be human
A playback page that has an unusual number of components
Excessive load on the Wayback machine not related to your activities
Saving too many pages in a give time frame
The best solution is to wait a few seconds and reload the existing page.

Please feel free to write to us at info@archive.org if you have questions about this. Please include the following information in your email:

Reference number: 0.000.000.00
Date: Saturday, 19-Feb-2022 14:47:00 GMT
Thank you
2022/02/21(月) 13:07:58.16
アーカイヴを読み込んで画像が保存される謎
2022/02/21(月) 14:10:03.93
取得からだいぶ時間経過してるのに
「Hrm.
The Wayback Machine has not archived that URL.」
数日後きちんと反映されてるなら良いが・・・
2022/02/21(月) 17:27:12.56
306の件ようやく反映
2022/02/22(火) 17:36:35.60
画像だけ完全別サーバーにあるせいで
画像が保存されていなくてOutlinksで保存し直し。
Outlinksを使うとリンクされてる別記事を
通常保存してしまうので全てOutlinksし直し。
2022/02/28(月) 03:24:29.58
自分のスマホだけなのかURL貼り付けられない
めんどくさ
2022/03/04(金) 01:25:46.71
Your IP address is in our block list. Please email us at "info@archive.org" if you would like to discuss this more.
さっき使ってたVPNのIPアドレスがブロックリスト入りになってた、SPNで保存できない
このIPアドレスでどっかの業者が宣伝スパムでもやったんかな
2022/03/04(金) 17:06:43.00
またThe capture is estimated to start in ** minutes. You may close your browser window and the page will still be saved.か
エラーも出やすいし
今日でも未明はなんともなかったのに・・・
2022/03/04(金) 23:30:37.42
とうとうアクセスできなくなった
2022/03/04(金) 23:52:15.28
なんかサーバーに繋がりにくいというか、全然繋がらない
2022/03/04(金) 23:56:22.98
Temporarily Offline
Internet Archive services are temporarily offline.
Please check our Twitter feed for the latest information.
We apologize for the inconvenience.
2022/03/05(土) 00:38:01.10
ttps://twitter.com/internetarchive/status/1499762397455679488
また停電だって
https://twitter.com/5chan_nel (5ch newer account)
2022/03/05(土) 00:40:44.46
日本時間で午後11時20分ぐらいから止まってる
ttps://analytics0.archive.org/stats/wb.php
2022/03/05(土) 00:46:59.99
みんな寄付してる?
便利に使ってるからちょっとくらい寄付しようかと思うんだけど
やっぱ30万くらいじゃ少ないのかな?
2022/03/05(土) 00:53:45.12
https://twitter.com/internetarchive/status/1499773785506942977
電気が戻ったのでサービス復旧中
https://twitter.com/5chan_nel (5ch newer account)
2022/03/05(土) 02:52:58.94
トップにはアクセスできるようになったが、取得はまだまだ・・・

「Not Found
The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.」
2022/03/05(土) 04:50:41.21
ようやく取得できるように
と思ったら・・・
「Sorry.
This snapshot cannot be displayed due to an internal error.」
321名無しさん@お腹いっぱい。
垢版 |
2022/03/05(土) 13:26:17.52
クソ
2022/03/05(土) 13:58:09.30
サイバー攻撃でも されているのかと思ったぞ
323名無しさん@お腹いっぱい。
垢版 |
2022/03/05(土) 15:20:25.25
されとるだろ
2022/03/05(土) 22:20:27.17
3/2以降のものは取得されてないことになってるか、残ってても
「Sorry.
This snapshot cannot be displayed due to an internal error.」

特定のサイトだけではなくいろいろなサイトでそんな感じ
325名無しさん@お腹いっぱい。
垢版 |
2022/03/06(日) 04:14:49.44
恐らくロシアの連中が火消しして回っとるなこれ
2022/03/06(日) 12:31:45.17
IA側の問題だ
21/12/24に取ったものも一時消えてしばらくして復活して今また消えている
ほっとけばそのうち直る
327名無しさん@お腹いっぱい。
垢版 |
2022/03/06(日) 21:31:43.65
復活確認
2022/03/07(月) 00:07:06.74
アーカイブ内で壊れた画像アイコンしか表示されないのは次の巡回待つしかないの?
でも既に巡回済みの分が連続して壊れてるんだよね。
2022/03/07(月) 00:47:28.56
その画像URLをそのままSPNでもう一度保存すればいい
元のサイトがすでに無いか初めから画像が壊れてるならご愁傷様
2022/03/07(月) 16:37:05.93
時間かかりすぎる
2022/03/07(月) 19:26:29.82
特にpdf絡みはなおさら
時間帯によって増しだったりかなりかかったり
332名無しさん@お腹いっぱい。
垢版 |
2022/03/08(火) 20:45:44.86
既出かもしれないけどアーカイブ済のURL一覧を出力する方法見つけたから書いとく

https://exposureninja.com/blog/extract-urls-archive-org/
から引用

まず

http://web.archive.org/cdx/search/cdx?url=example.com*&;output=txt

にアクセス、example.comのところをアーカイブしたページのトップページURLに変えればいい、*を誤って消さないようにすること

大量のテキストが出るので全選択してコピー

Excel立ち上げてCtrl+Aで全選択して貼り付け
その後「テキストから列へ」を選んでスペースを基準にセルを区切る
あとはセル列のアルファベット文字をクリックしたらその列が全選択になるからURLの列をコピーしてテキストエディタに貼り付けるなりすればいい
注意なのがこれ同じURLでも保存した時間分の数書いてあるから置換ツールで重複した行を消すこと
IAのURLsでは10000個までしか表示できないがこの方法使ってアーカイブされたURLの正確な総数がわかるはず

これに自分が集めたURLリストを付け加えて重複行消す処理を行うと未アーカイブURLだけ割り出せるのでだいぶ楽になる

WEB版のExcelだと貼り付け時に容量オーバーで受け付けてくれないことがあるからその場合はLibreOffice Calcでも使えばいい
LibreOfficeの場合貼り付け後、表全体の全選択を解除し、1回セルAをクリックしてセルAを全選択した後、データ→テキストから列へ を選ぶことでセル分け可能
2022/03/09(水) 12:41:29.79
おお便利だね
今まで保存されてるかどうかをページごとに判断するAPIをちまちま使ってたわ
ドキュメント見てもう少し使いやすくしてみた

http://web.archive.org/cdx/search/cdx?url=example.com*&;output=txt&fl=original&filter=statuscode:200&filter=mimetype:text/html&collapse=urlkey
・URLのみ表示
・ステータスコードは200のみ
・メディアタイプはtext/htmlのみ
・重複URL除去

あとは必要に応じて末尾にこれを追加すれば日付でフィルタリングできる
&from=yyyyMMddhhmmss&to=yyyyMMddhhmmss
例:&from=2010&to=2011

参考
https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server
2022/03/09(水) 16:40:50.92
>>331-332
せっかくなんで、前に検索してたら見つけたこんなツールもあるよ。
あるドメイン(もしくはサブドメイン)下で保存済みの10万個までのURLが取れる。
日付範囲は適当に20年前からぐらいにしとけばいい。
ただし最近保存したURLはすぐに反映されない。これはCDXでも同じだと思う。

Download data from archive.org
ttps://share.streamlit.io/antoineeripret/streamlit-archive/main/app.py
ソースコード
https://github.com/antoineeripret/streamlit-archive/blob/main/app.py
簡単なPythonのスクリプトなので、個人的にプログラム動かしてるなら参考になるかも。
2022/03/09(水) 16:42:16.69
レス番間違い >>332-333ね。ごめん。
2022/03/10(木) 11:03:07.13
>>332-333
こんなことできたのか
これはありがたい
2022/03/10(木) 21:10:40.36
いつの間にかCollection Searchにパワポ検索が追加されてた
338名無しさん@お腹いっぱい。
垢版 |
2022/03/13(日) 13:27:26.17
URL一覧から重複消すにしてもサクラエディタだと並び替えないと消せないからほかのツール使わないといけないっぽいね
このツールだったらソートせずに元の並びのまま重複行消せるから便利
上に書いてあるものが優先されて下のほうにある重複行が消されるから先にcdxをコピペして空白改行してその下にアーカイブ予定のURLリストを貼り付けたtxtを作って実行すればいい
ここからDLできる↓
https://sourceforge.net/projects/removeduplicatelines/
DLできなければここから↓
https://web.archive.org/web/20220313034128/https://priceless-panini-57a29d.netlify.app/RemoveDuplicate_V1.1.zip
それとcdxだと日本語URLのデコードが大文字と小文字混在して保存されてるから一旦サクラエディタで小文字に変換してからやれば全部重複消せるはず
英語のみのURLでも混在してる場合もあるだろうし
Naverまとめみたいに大文字と小文字を区別する特殊なサイトもあるけど大半は区別しないから問題はないはず、IA上でも区別せずに保存されてる
339名無しさん@お腹いっぱい。
垢版 |
2022/03/13(日) 20:27:38.40
curlでもIAログイン状態に出来る方法はありますか?
2022/03/13(日) 21:43:10.93
>>339
https://www.google.com/search?q=curl+cookie
341名無しさん@お腹いっぱい。
垢版 |
2022/03/14(月) 00:32:21.41
>>340
すいません、具体的なURLかページ名でお願いします。
2022/03/14(月) 07:14:23.11
昨日あたりからまた時間かかるどころか、
大体が反映されず
何日かして反映されてるなら良いが、
時間かかった挙げ句反映されてなかったら悲しいなぁ
2022/03/14(月) 17:57:32.97
SavePageNowがSavingぐるぐるで終わらないときあるな
一応取れてるみたいだから終わらないっぽいときはページ閉じてるけど
なんかスッキリしない
344名無しさん@お腹いっぱい。
垢版 |
2022/03/14(月) 22:14:18.22
>>343
Chromeだったら一旦別のサイトに移動してから戻るボタン押して少し待ったらdoneになるよ
2022/03/15(火) 09:03:53.04
>>343
344と動作的には同じだが「The capture is estimated to start〜」が出てきてないなら
1分ぐらいを目安にそのままページを再読み込みすればいいよ
保存終わってるか途中なら1分前に既に保存しましたってのが出てくるはず、出てこない場合は作業失敗してる
強制的に直近の保存状況を表示させる裏技だけど、こうすれば時間節約できる
待たされてる時はこの方法は使えない
346名無しさん@お腹いっぱい。
垢版 |
2022/03/15(火) 21:30:24.29
>>333
これ欠陥あるっぽい
重複消すと違うURLでも同じサイトに繋がってる場合どちらかのURLが消える
URLから&collapse=urlkeyを消して重複除外しなくすると両方とも表示できるからそれでコピペして置換ツールで重複を消すしかないね
https://web.archive.org/cdx/search/cdx?url=example.com*&;;output=txt&fl=original&filter=statuscode:200&filter=mimetype:text/html

例えばこのサイトだと
https://web.archive.org/cdx/search/cdx?url=http://sumimarudan.blog7.エフシー2.com*&;output=txt&fl=original&filter=statuscode:200&filter=mimetype:text/html&collapse=urlkey
URLがNGワードっぽいからカタカナを英語に戻してね
.fc2.com/page-4.htmlが表示されず、かわりに.fc2.com:80/page-4.htmlになってる
&collapse=urlkeyを外すとfc2.com/page-4.htmlがちゃんと表示されるが、重複除外してないので同じURLが何個も表示される
普通にブラウザで見る場合URLは.fc2.com/page-4.htmlになるからこれが除外されて同じURLをアーカイブするという2度手間になる
.fc2.com/page-4.htmlと.fc2.com:80/page-4.htmlを両方表示したうえで重複消せたら便利なんだけどね
cdxのgithub見てURLいじってみたりしたけどいまいちうまくいかない
347名無しさん@お腹いっぱい。
垢版 |
2022/03/15(火) 21:56:50.84
あ、既アーカイブ分を消すだけなら最初に重複を消さなくてもよかったんだ
自分が集めたURLから既アーカイブ分消すときに一緒に消えるし
とはいえ行が10万以上だと容量が大きくなるから重複しないにこしたことないけど
2022/03/18(金) 16:56:25.79
イモグラの画像、キャプチャ出来なくなったのか
349名無しさん@お腹いっぱい。
垢版 |
2022/03/18(金) 17:13:54.67
>>348
普通にキャプチャできたけど
350名無しさん@お腹いっぱい。
垢版 |
2022/03/19(土) 01:26:22.48
便利
https://github.com/hartator/wayback-machine-downloader
https://github.com/overcast07/wayback-machine-spn-scripts
2022/03/22(火) 21:59:33.33
>>350
こういうの探してたから助かる
2022/03/24(木) 22:51:12.01
エロサイトの動画とか直リンをSPNにURL入れたらちゃんと見れんの?
2022/03/25(金) 04:07:23.98
https://web.archive.org/web/*/gigazine.net/
こいつもか
まぁ参照すること自体が憚られるサイトではあるんだけど
2022/03/25(金) 14:18:59.58
これもよさげ
https://github.com/akamhy/waybackpy
2022/03/25(金) 15:31:35.95
複数の画像を個別に保存する場合

ttps://web.archive.org/save/http〜w.jpg
ttps://web.archive.org/save/http〜c.jpg

みたいに一つずつやらないといけないの?
2022/03/25(金) 15:57:23.54
>>355
それで大丈夫。混んでなければ1個10秒以下で終わる。
もしくは画像が載ってた元ページのURLをSave Page Nowで保存すれば画像含めて一緒に保存されるはず。
JavaScriptでぐちゃぐちゃになってるページは失敗する可能性あるけど。
2022/03/26(土) 10:24:47.02
The Wayback Machine has not archived that URL.

Click here to search for all archived pages under http://
保存してませんじゃねぇ。するんだよ
2022/03/26(土) 10:59:00.03
Shift-JISのページが文字化けで保存される問題
2022/03/26(土) 11:15:19.65
あ、スクショの方なら文字化け回避できたっぽい
360名無しさん@お腹いっぱい。
垢版 |
2022/03/29(火) 03:17:07.75
アーカイブ入りしたページのうちリダイレクトされるページを除外するオプションねえのか
2022/03/29(火) 19:38:07.81
SPNで保存したときにリンク先をspn-outlinksのbotが数時間後にクロールしないようにするフラグとかってないの?
サーバーに猛アタックしてきて大迷惑かけてる気がする。余計なことしやがって。
2022/03/30(水) 12:21:15.25
あれ、Job失敗の時もインターバル入るようになってる?
2022/03/30(水) 19:04:30.53
ためになるスレだ
2022/03/31(木) 00:29:00.97
また落ちてる…
ttps://web.archive.org/sry
ttps://i.imgur.com/MC0bu6W.png
365名無しさん@お腹いっぱい。
垢版 |
2022/03/31(木) 05:01:37.02
消されたのを確認して念のため今日また確認したらアーカイブ復活しちゃってるんだがなんで
プロセスの自動化された部分がコースを実行し変更が有効になるまで最大1日かかりますって意味がわからんくなったし
366名無しさん@お腹いっぱい。
垢版 |
2022/03/31(木) 06:44:41.09
もしかしてわいが依頼したニュアンスは表示させなくする依頼で停電によってアーカイブ見れるようになってしまった?
2022/03/31(木) 07:15:48.53
>>364
欧文モノスペースなんて今時使ってるの中国人だけだろ
2022/03/31(木) 08:36:20.28
出たよ自分が世界標準な奴
369名無しさん@お腹いっぱい。
垢版 |
2022/03/31(木) 08:52:04.68
どうせまた魚拓が不都合な糞ロシア共が落としてんだろ
ほんましょーもない
2022/03/31(木) 09:48:34.48
>注意:本日午前7時〜7時30分(太平洋時間)、当社の主要データセンター付近でPG&E社による計画停電が実施されます。このため、サービスに支障が出ることが予想されます。ご迷惑をおかけいたしますが、よろしくお願いいたします。
昨夜の切断はこれか…
2022/03/31(木) 15:56:19.65
IAのある地域、計画停電多すぎね?
2022/03/31(木) 21:03:04.51
IA大好きなのにミクさんの影に隠れてんの納得できん
373名無しさん@お腹いっぱい。
垢版 |
2022/04/01(金) 03:48:17.84
過去スレ見てexpectedがアーカイブできない依頼って意味って思ってdeleteで再依頼したら担当者にブチキレられた
もう除外してますよって言われながら
停電してたらわかるわけない
別なアーカイブ削除依頼は除外されたとおもったら停電後に復活してやがるしどうなってんだかもうめんどいからいっそアーカイブサービス終了しないかな
374名無しさん@お腹いっぱい。
垢版 |
2022/04/01(金) 03:51:17.86
間違ったexpectedじゃなくてexcluded
375名無しさん@お腹いっぱい。
垢版 |
2022/04/01(金) 03:56:34.44
お、停電してない。This URL has been excluded from the Wayback Machine.って出た。けどやっぱり停電後は除外したはずのものがでちゃう感じ?陰謀論的なやつじゃないよな?ロシア関連。
376名無しさん@お腹いっぱい。
垢版 |
2022/04/01(金) 04:05:16.10
もう暫くはメールスルーされそう
2022/04/01(金) 07:25:14.90
Sorry
This URL has been already captured 10 times today. Please email us at "info@archive.org" if you would like to discuss this more.
378名無しさん@お腹いっぱい。
垢版 |
2022/04/01(金) 12:29:02.69
5gbのzipダウンロードするのに5時間とか言われてんだけど重すぎじゃね
他はそんなことないのに
2022/04/01(金) 14:08:12.38
試しにトレント使ってダウンロードしてみるとか
使ったことないから速度どんだけ出るか知らんけど
2022/04/02(土) 10:14:31.27
数日前からPDFは時間がかかる
381名無しさん@お腹いっぱい。
垢版 |
2022/04/02(土) 11:11:06.20
スプレッドシートのやつ結果のステータスが書き込まれなくなったんだけど俺だけ?
解決方法わかる人いますか?
382名無しさん@お腹いっぱい。
垢版 |
2022/04/02(土) 13:43:58.22
twitter保存するとjob failedが繰り返し出る現象何
2022/04/02(土) 14:45:50.01
時間かかるうえに「Internal server error.」が何遍も出るのがなぁ
所要時間はどんどん後ろ倒しだし
「You may close your browser window and the page will still be saved.」とあるが、
こんなんではとても閉じるどころではない
2022/04/02(土) 14:52:37.84
てかここ数日保存遅すぎでしょ
エイプリルフールのサイトをいくつか保存できなかった
385名無しさん@お腹いっぱい。
垢版 |
2022/04/02(土) 16:49:11.25
6時間待ちでアーカイブ失敗してリトライしたら8時間待ちって
2022/04/02(土) 20:13:46.58
そういうときは後ろに適当に?とか付けて別のURLにすればカウント外れない?
2022/04/02(土) 20:51:05.90
時々 寄付を募っているけど容量と人件費だけでお金が無くなるのだろうか
2022/04/02(土) 21:51:51.36
IAはアメリカのチャリティ登録法人だから検索すれば決算の書類出てくるよ
その書類曰くサンフランシスコの年収1000万円台のサーバーエンジニアなど5人雇えるぐらい金あるんだから予算に問題なんかないよ
一番給料高い日系人のWendy Hanamuraってメディア担当の人で2019年の給料は21万4385ドル
創業者は0ドルで頑張ってるのに寄付してるのがバカバカしくなってくるけどな
でももうちょっとSave Page Nowの保存制限を前みたいに緩和してサーバー増強してほしいよね不安定すぎる
2022/04/05(火) 09:24:57.82
久しぶりの不安定期かな
390名無しさん@お腹いっぱい。
垢版 |
2022/04/05(火) 20:16:53.31
Save Page Now servers are temporarily overloaded. Your captures may be delayed.
なんだこれ初めて見たぞ
2022/04/05(火) 23:30:12.79
Save Page Now servers are temporarily overloaded. Your captures may be delayed.
392名無しさん@お腹いっぱい。
垢版 |
2022/04/06(水) 02:44:35.09
過去のサイトの画像って正しく表示されない場合って見るのを諦めたほうがよろしい感じですか?
それとも見る方法があるのでしょうか
2022/04/06(水) 09:43:35.94
>>392
表示されない=アーカイブされてないだから無理
最近は画像もアーカイブされるけど、昔はアーカイブされてないのが殆ど
念のため画像のURL単体で確認してみるといいんじゃない?
394名無しさん@お腹いっぱい。
垢版 |
2022/04/08(金) 16:08:47.46
ツイッターに編集機能が追加されるらしい
Internet Archiveの出番かな
2022/04/08(金) 21:28:34.27
ロシア外交官追い出しニュースを見て、ロシア大使館のサイトを保存しようと思ったらtokyo.mid.ruごとブロックされてるんだけど
ブロックする理由あんのこれ?
396名無しさん@お腹いっぱい。
垢版 |
2022/04/09(土) 04:57:08.67
今はだめな時間帯か?
397名無しさん@お腹いっぱい。
垢版 |
2022/04/09(土) 04:57:49.95
>>395
ロシア政府が保存するなと通達すればそうなる
398名無しさん@お腹いっぱい。
垢版 |
2022/04/09(土) 04:59:39.32
>>386
たまに80:とかがドメインにくっついてる奴が謎
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況