X



Internet Archive総合 (web.archive.org) #4

■ このスレッドは過去ログ倉庫に格納されています
2021/08/13(金) 03:38:17.64
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #3
https://mevius.5ch.net/test/read.cgi/esite/1585760889/
2022/04/02(土) 20:51:05.90
時々 寄付を募っているけど容量と人件費だけでお金が無くなるのだろうか
2022/04/02(土) 21:51:51.36
IAはアメリカのチャリティ登録法人だから検索すれば決算の書類出てくるよ
その書類曰くサンフランシスコの年収1000万円台のサーバーエンジニアなど5人雇えるぐらい金あるんだから予算に問題なんかないよ
一番給料高い日系人のWendy Hanamuraってメディア担当の人で2019年の給料は21万4385ドル
創業者は0ドルで頑張ってるのに寄付してるのがバカバカしくなってくるけどな
でももうちょっとSave Page Nowの保存制限を前みたいに緩和してサーバー増強してほしいよね不安定すぎる
2022/04/05(火) 09:24:57.82
久しぶりの不安定期かな
390名無しさん@お腹いっぱい。
垢版 |
2022/04/05(火) 20:16:53.31
Save Page Now servers are temporarily overloaded. Your captures may be delayed.
なんだこれ初めて見たぞ
2022/04/05(火) 23:30:12.79
Save Page Now servers are temporarily overloaded. Your captures may be delayed.
392名無しさん@お腹いっぱい。
垢版 |
2022/04/06(水) 02:44:35.09
過去のサイトの画像って正しく表示されない場合って見るのを諦めたほうがよろしい感じですか?
それとも見る方法があるのでしょうか
2022/04/06(水) 09:43:35.94
>>392
表示されない=アーカイブされてないだから無理
最近は画像もアーカイブされるけど、昔はアーカイブされてないのが殆ど
念のため画像のURL単体で確認してみるといいんじゃない?
394名無しさん@お腹いっぱい。
垢版 |
2022/04/08(金) 16:08:47.46
ツイッターに編集機能が追加されるらしい
Internet Archiveの出番かな
2022/04/08(金) 21:28:34.27
ロシア外交官追い出しニュースを見て、ロシア大使館のサイトを保存しようと思ったらtokyo.mid.ruごとブロックされてるんだけど
ブロックする理由あんのこれ?
396名無しさん@お腹いっぱい。
垢版 |
2022/04/09(土) 04:57:08.67
今はだめな時間帯か?
397名無しさん@お腹いっぱい。
垢版 |
2022/04/09(土) 04:57:49.95
>>395
ロシア政府が保存するなと通達すればそうなる
398名無しさん@お腹いっぱい。
垢版 |
2022/04/09(土) 04:59:39.32
>>386
たまに80:とかがドメインにくっついてる奴が謎
2022/04/09(土) 13:07:53.26
>>398
あるURLの最古もしくは一番早いスナップショットがポート番号付きのURLでインデックスに登録された場合、
ポート番号付きのまま表示されてるだけなので特に意味はない。
といってもポート番号によって内容が変わるサイトもあるわけだから、違うポート番号を同じURL扱いするのはちょっととは思う。
将来的にはポート番号削ったURLに登録し直してほしいけど、ずっとこのままかもしれないな。
/*/でURLを並び替える時にちゃんと並ばないのは不便だけど。
400名無しさん@お腹いっぱい。
垢版 |
2022/04/09(土) 18:28:59.17
twitterのURL検索は前できなかった気がしたけど、今確認したらできるようになってるな。これ使えるね。
2022/04/12(火) 12:22:37.12
Save Page Now servers are temporarily overloaded.
Your captures may be delayed.
2022/04/19(火) 09:35:09.69
ここ最近アーカイブされてないTwitterやYouTubeのページ多すぎる。
2022/04/19(火) 12:42:45.35
今でも保存遅いケースが多いぞ。
下記のURLはもう一日以上経ってるのに未だにアーカイブされてなくて見れない。
自分が見る前のデータ放置しやがったな…。
アーカイブしようにもエラーで失敗の続いてんのか?

https://youtu.be/XpgSrULHibg

https://twitter.com/giantsubaru/status/1515525555554492417
https://twitter.com/5chan_nel (5ch newer account)
2022/04/19(火) 19:18:40.19
>>403 ・・・と思ったけどこの日の夜になってやっと更新されたことで対象のURLのデータを見る事が出来たー!
良かった!
2022/04/20(水) 21:08:13.94
Hrm.
The Wayback Machine has not archived that URL.

This page is unavailable for archiving right now!
This page is available on the web but its quite busy. Please check again later.
2022/04/22(金) 00:08:02.62
hrmってなんて発音するんや
2022/04/22(金) 00:31:29.63
hrmの発音 ( Hard HRM から Soft HRM へ)
https://ja.forvo.com/search/hrm/
2022/04/22(金) 03:13:47.94
かっこよすぎる
2022/04/23(土) 07:09:20.59
https://translate.google.com/?sl=en&;tl=ja&text=Hrm.&op=translate
2022/04/23(土) 14:43:44.50
ハーム?
2022/04/25(月) 13:05:09.91
SPN2 public API page docs に記載のある target_username と target_password の引数、
試しに BASIC 認証のページで使ってみたが上手く行かんな。
認証が通らず 401 エラーがアーカイブされてしまう。
ttps://web.archive.org/web/2022*/email.datacempro.com.br/messagelist
2022/04/27(水) 18:49:56.15
Save Page Now servers are temporarily overloaded. Your captures may be delayed.
2022/04/30(土) 16:41:25.24
Ghost Archive
ttps://ghostarchive.org/
インスタのアーカイブ取れたり取れなかったりする

ただしエロや薬物系のページは禁止で、ページ容量の制限もあるので、ちょっと信用性の面では低い
ttps://ghostarchive.org/about.html
Momentoに対応してるのはいいけど、選択肢の1個としては使える
2022/05/01(日) 11:28:49.12
todayをIAで取る技使えなくなってるのか
不便だな
2022/05/03(火) 16:05:03.01
>>403
短縮URLじゃなくて最終的な転送先のURLで保存したほうがいいと思う。
転送先のURLじゃないとそのページ内までちゃんと保存されない可能性が出てくるので。
YouTubeの動画みたいに後から動画ファイルを保存される特殊な作業が必要になるものは特に。
めんどうなら両方SPNに突っ込んどけばいい。
2022/05/05(木) 23:53:11.23
いろいろあるんだな
2022/05/10(火) 15:41:09.33
metaタグやrobot.txtでクローラー除けしてるサイトを残す安定した方法ってある?
自分が知ってるのは「Google翻訳で日本語→日本語で表示してそのURLを保存」くらい。
2022/05/10(火) 19:24:45.13
昔はpste.euを使ってコピーサイトを作って、それをarchive todayとかで保存するとかあったけど、pste.euが閉鎖されたから無理だね
2022/05/10(火) 21:26:57.64
web串使うしかないね
後から参照できるように出来るだけ有名どころでURLに元のアドレスが乗っかるところが望ましい
2022/05/11(水) 01:35:01.48
>>417
魚拓( megalodon.jp/ )だとmetaタグやrobot.txtはweb串通しても取れないな。

archive.org/web はそれらに引っ掛かる不便自体あまりないけど
2022/05/11(水) 04:49:25.53
>>420
魚拓ってしょっちゅう消すわ通報もするわでオワコンじゃなかったっけ
投稿サイトと一緒で搾取サイトっていうか
2022/05/11(水) 20:05:23.57
Archive Teamを利用する方法もある(この方法だとIAのブロックリストも回避可能)
本来意図された使い方じゃないから詳しくは書かないけど
リンク先見れば分かると思う
https://wiki.archiveteam.org/index.php/URLs
2022/05/12(木) 20:32:18.74
拒否URL関係まとめ

This URL has been excluded from the Wayback Machine.
https://note.com/
https://gigazine.net/
https://boards.4channel.org/
https://bokete.jp/
https://yoshidakenkou.net/
https://tanteifile.com/
https://motherless.com/
https://www.lancers.jp/

This URL is in our block list
https://finance.yahoo.co.jp/brokers-hikaku/ 以下全て
https://movie.eroterest.net/
https://anime.eroterest.net/

サイトの仕様で取れないもの
https://ch.dlsite.com/matome 記事本文が取得不可、todayなら取れる
https://www.pixiv.net/ 投コメのみ取得可、todayなら取れる

ArchiveTeamのexcludedまとめ
https://wiki.archiveteam.org/index.php/List_of_websites_excluded_from_the_Wayback_Machine
2022/05/12(木) 20:53:03.34
niftyのなんちゃら
2022/05/13(金) 00:24:28.61
gigazine駄目なのか
それどっちが原因だろう
2022/05/13(金) 05:08:07.05
支援

>>サイトの仕様起因
>https://uso.kkx.one
ユーザースタイルシートのカタログサイト、
Wayback Machineで保存しても白いページが表示されるのみ、
todayなら問題なく取れる
2022/05/13(金) 11:59:01.36
【PC】「玄人志向」のサポート掲示板が終了へ、15年の歴史に幕 閉鎖後は過去の投稿も閲覧不可に [あずささん★]

だそうです
2022/05/13(金) 23:03:55.15
FirefoxでもGoogle Chromeでも待機中が長くていつまで経っても保存されてない事が多いんだけど、どうしたらいいんだろう
テレビ局とか番組サイトのページなんだけど
2022/05/14(土) 00:02:33.03
実際には保存が完了していても、保存中表示が切り替わらずそのままなのは良くある話
2022/05/14(土) 01:55:57.39
エロルが出てなければいいのかな
2022/05/14(土) 02:53:15.43
>>429

半日~一週間以上経っても保存されてない時といつの間にかされてる時があるから、ページの閲覧(ブラウザに開いたまま放置)をいつまでも経っても止める事が出来なくて困ってる
archives.todayをやウェブ魚拓の方が何倍も保存速いのに、何でweb archiveが未だに1番手で利用されてるっぽいんだろう
>>430
エロルって何ですか?
検索してもエロ動画とかエロ広告って書かれたページしか該当ヒットしない
2022/05/14(土) 03:26:23.22
放置したところで、数分でセッション切れになるだろうから、タブを残したままにしてもあんまり意味ないと思うよ。
2022/05/14(土) 07:38:48.63
ウラルと同じ形式だろう
山脈に非ず
434429
垢版 |
2022/05/14(土) 12:11:45.08
そもそも SAVE PAGE ボタンを押して Saving page http:〜 のページに切り替わった後は、
それを閉じても保存に全く影響しないんだけどな。

ぐるぐる表示している間は何をやっているかというと、保存の進行状況を
タイマーで繰り返し表示しているだけ。
単に「保存が成功したか失敗したか、運が良ければ教えてくれる」だけで、
ページを閉じたからと言って保存が中止される訳ではないし、
タイマーが止まって表示が一切更新されなくなることすらある。
どーせギガバイト級のファイルでも 5 分もあれば保存できるのだから、
保存開始後しばらくしたら web.archive.org/web/2/ を付けた URL で
実際に保存できているか試したほうが良いと思うな。
435429
垢版 |
2022/05/14(土) 12:13:07.09
少し専門的な話。

Save Page Now 2 Public API のドキュメント
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit
これと対比させて考えてみればよい。

保存開始のリクエスト方法は Capture request の節に書かれているが
同じ https://web.archive.org/save の URL を使っていて、パラメータの与え方が異なるだけ。
保存のリクエストを出したら、それ以降はユーザ側で制御する必要は無し。

これとは別に、出されたリクエストの進行状況を調べる API が用意されていて、
それは Status request の節で説明されている。
ぐるぐるの表示中も、バックグラウンドでこれを繰り返し呼んでいるだけ。
(で、たまに止まってしまう。ブラウザのタブをバックグラウンドにするとかなりの確率で止まる。)

進行状況を調べる際に誰がいつ出したリクエストかを特定するために
job_id というパラメータが使われているが、これは Save Page Now のページから
リクエストを出した時も、保存中ページの HTML ソースから spn.watchJob の語を頼りに
拾うことができる。spn2- で始まる文字列がそれ。
> spn.watchJob("spn2-be5deb2f51d8cf21858418b09fefeef80e32938c", "/_static/",

この文字列に http://web.archive.org/save/status/ を付けると Status request API の URL となり
JSON 形式のデータが返ってくるが、ブラウザで直接開くだけでも内容は確認できると思う。
> https://web.archive.org/save/status/spn2-be5deb2f51d8cf21858418b09fefeef80e32938c
status の値が pending なら保存中、success なら保存成功、error ならエラー。

それから job_id の有効期限は保存開始から一時間くらい。
上の URL に今アクセスすると duration_sec、counters、timestamp 等
保存したときのデータが色々返ってくるが、今日の午後 1 時過ぎには
重要なデータは空になっているはず。
2022/05/15(日) 10:01:51.84
resume upload
501 slow down

が何度も出て数値も異常なことになって
アップロードが終わらないんだけどどうすればいいの?
2022/05/15(日) 10:48:03.99
>>436
スパムっぽいから間違いならメール送れ的な英文が書いてあるはずだが
何をアップロードしてるのかは知らんけど、Youtube関係ならtubeup使った方がいいぞ
デフォルトのアップローダーは規制されやすい
438名無しさん@お腹いっぱい。
垢版 |
2022/05/15(日) 14:32:45.73
最近IAへのアップロードが異様に遅くなって困ってる
前は上り1Gbps保ってたけど今はその100分の1くらい
IAにメール送ってもIA側が何かしたわけでもないって返答くるし理由が分からん…

ちなみにVPN通したら速度戻った(今は期限切れたので使えない)
スマホからのアップロードは以前と変わらず速い
それならとUASwitcherを使ったけどダメだった
帯域制限を疑って他サイトにアップロードしてみたけど速度は普通に出る

マジで困ってるから誰か教えてくれ…
2022/05/17(火) 03:01:44.67
使ってるISPのアップロード制限とかは?
2022/05/17(火) 03:10:16.22
あと去年3月にarchiveteamがニコ動の動画ページ(/watch/sm〜)を片っ端から保存してくれたけど、それ以降は動いてないのね
てっきりずっと動かしてるかと思ってたわ
ttps://archive.org/details/archiveteam_niconico
ttps://wiki.archiveteam.org/index.php/Niconico

動画ファイル自体も保存しないと意味ないんだけどな
2022/05/17(火) 11:41:37.42
>>440
あれはニコニコの削除された動画の情報が非表示になるから保存してただけなので
動画自体は対象に入ってない(というかサイズ的に現実的じゃない)
442名無しさん@お腹いっぱい。
垢版 |
2022/05/17(火) 18:12:55.52
>>439
他サイトへのアップロードは速いって言ってるだろ
それとスマホからアップロードした時は何故か速度出るんだよ
もちろん同じWifiに繋いだ状態で

今は仮想マシン通したら速度出たからそうしてるよ 不便だけど
2022/05/17(火) 18:14:51.83
>>439
他サイトへのアップロードは速いって言ってるだろ
それとスマホからアップロードした時は何故か速度出るんだよ
もちろん同じWifiに繋いだ状態で

今は仮想マシン通したら速度出たからそうしてるよ 不便だけど
444名無しさん@お腹いっぱい。
垢版 |
2022/05/17(火) 21:18:18.55
録画した番組をエンコードしてアップしたいんだけど
デフォルト以外でおすすめのアップローダーを教えて
2022/05/18(水) 20:56:55.97
1時間前に比べて重い
2022/05/18(水) 21:34:17.24
ようやく解消
2022/05/19(木) 19:46:35.64
いつもの寄付表示
今回は赤色だったり青だったり緑だったり
種類増えてて笑う
2022/05/21(土) 13:09:44.07
archive.today壊れてらっしゃる?
449名無しさん@お腹いっぱい。
垢版 |
2022/05/21(土) 15:50:47.29
保存されたJAVAが別の画像(など)を動的に引用してる時に
「オリジナルの画像のアドレス」を呼んでしまってるせいで正しく動作しない(呼ばれてる画像自体はアーカイブにある)やつは
アーカイブ上で何とかならんもんだろうか
450名無しさん@お腹いっぱい。
垢版 |
2022/05/21(土) 15:53:32.08
>>441
容量もだが権利関係でやばいのが多すぎる気が
451名無しさん@お腹いっぱい。
垢版 |
2022/05/21(土) 19:49:16.37
curlでもIAログインモード、cookieのページみても出来ないぞ(IAが対策?)

数万urlは保存したいのだが(特に画像)
2022/05/22(日) 08:29:18.90
curlで/save/から保存しようとすると「This URL is in our block list and cannot be captured」が出るけど
ウェブブラウザからだとちゃんと保存されるのに遭遇した
ちょっと上で書いてる人もいるけど、UserAgent以外の部分も見るのかなこれは
2022/05/25(水) 00:41:46.06
>>451
Cookieは知らんが、今のSPNの制限内であっても、outlinksを辿って時間かからない単一の画像URLだけなら、
少なくとも1分間で4個のURLの保存できるだろうから、24時間で5760個、数万URLあっても1週間以内に保存終わるはず。
2022/05/25(水) 23:49:41.59
5次元データストレージって実用化されたら凄そう
割れたら終わりな気もするけど
2022/05/27(金) 10:52:55.05
質問です
Internet Archiveにおいて
著作権の扱いはどうなっているのでしょうか?
無断で複製禁止のものをアーカイブした場合
Internet Archive側が著作権侵害となるのでしょうか?
それともアーカイブユーザー側が著作権侵害となるのでしょうか?
ご回答よろしくお願いします
2022/05/27(金) 20:01:04.98
アメリカのフェアユースと図書館法と非営利団体ということで守られるので問題ないですが、
「日本人が日本から投稿した」という部分が違法になり得るので、
そこを隠せてすぐに逃げられる形でやれば問題ないです
2022/05/27(金) 20:26:08.07
>>456
治外法権はとっくに終わってるので「日本人が」は要らん
458名無しさん@お腹いっぱい。
垢版 |
2022/05/31(火) 03:41:16.24
他人のツイートを全部保存する方法ってないの?
2022/05/31(火) 08:31:12.07
>>458
このツール使えば全ツイートのURLぶっこ抜ける
ArchiveTeamの人が管理してるから安定性もあるんじゃないかな
https://github.com/JustAnotherArchivist/snscrape
2022/06/01(水) 11:47:43.48
>>453 その自動化ツールってなんてやつ?
2022/06/01(水) 12:03:28.50
SPNを自動化できるツールとかってある?
2022/06/02(木) 21:01:25.82
「The capture is estimated to start in ** minutes.」
同じサイトでも出たり出なかったり
2022/06/03(金) 13:04:18.14
ここ何日かjob failedが出るの多すぎ
特に今日はひどい
2022/06/03(金) 18:58:45.24
「The capture is estimated to start in * hours, * minutes.」
昨日よりひどくなってる・・・
2022/06/04(土) 09:49:35.93
ようやく正常に
2022/06/04(土) 23:35:18.33
と思ったらまたか
○時間とかではないだけまだ良いが
2022/06/06(月) 22:07:55.79
また○時間レベルでかかるようになってしまった
数時間前まではなんともなかったのに・・・
2022/06/06(月) 22:44:35.15
確かにここのところjob failed多いな
2022/06/07(火) 23:09:12.43
「The capture is estimated to start in * minutes. You may close your browser window and the page will still be saved.」
今日は21時台から使ってると30分ぐらいごとに出たり出なかったり波があるようだ
そのまま本当に取得できてる場合と「Internal server error.」と出る場合があるからおちおち閉じるわけにもいかないのがなぁ
2022/06/08(水) 02:39:39.28
日付変わってすぐは正常だったのにしばらくしてまた「The capture is estimated to start in * hours, * minutes.」
それにしても今月になってから毎日のように時間かかること多いなぁ
2022/06/08(水) 13:00:04.29
月初は時間かかるのが多い印象
2022/06/08(水) 15:33:31.27
>>459
今のWeb版Twitterはゴテゴテ糞思いUIに改悪されまくりやがったのでワシはRSS串経由で取ったりしてる


【Feedly】RSSリーダー総合【Inoreader】
https://mevius.5ch.net/test/read.cgi/esite/1565761448/
473名無しさん@お腹いっぱい。
垢版 |
2022/06/11(土) 02:19:49.71
インフォシークとかサービス終了したサイトの終了告知を最優先で表示するのあれなんとかならねえの
2022/06/11(土) 03:02:27.42
>>473
広告除去の拡張機能に自分でルールを追加すれば思いのまま。
2022/06/12(日) 00:51:33.91
どういうことなの
2022/06/13(月) 22:24:09.42
木曜あたりからは順調だったのに、結局また何時間単位とか・・・
2022/06/14(火) 09:51:48.01
noteって保存できないの?
2022/06/14(火) 12:37:06.24
>>477
2年前のIPアドレスお漏らし騒動のときに運営がIAにアーカイブ除外申請したからそれ以降保存できなくなってる
2022/06/15(水) 20:52:24.39
過疎サイトに突然大量アクセスが来たのですがロボットか誰かがせっせと保存してるのでしょうか…
https://i.imgur.com/Y6wqCQp.jpg
2022/06/20(月) 11:28:15.69
既出だったら申し訳ないのですが、archive.orgでツイートやtwitterプロフィール画面をSave Page Nowで保存すると、モバイルサイトでの表示形式で保存されてしまいます。
どうすればPCの表示形式で保存できますか?
2022/06/23(木) 10:44:42.70
>>480
Twitterの仕様変更のせいだと思うから無理だと思う
過去ログ見れば分かるけど一時期それで取れなくなった
2022/06/23(木) 18:07:01.22
7000億突破したな
2022/06/24(金) 01:27:16.59
俺も5000万ぐらい貢献したかな
2022/06/24(金) 23:15:31.53
調子悪いな
2022/06/25(土) 01:43:20.50
The capture will start in ~5 seconds because we are doing too many captures of www.youtube.com right now. You may close your browser window and the page will still be saved.

初めてこのエラーが出た
5秒以内に保存始まったが
2022/06/25(土) 10:04:48.83
前から出てたエラーに詳細が追加されたんじゃない?
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況