なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
------------------
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。
前スレッド
Internet Archive総合 (web.archive.org) #3
https://mevius.5ch.net/test/read.cgi/esite/1585760889/
探検
Internet Archive総合 (web.archive.org) #4
■ このスレッドは過去ログ倉庫に格納されています
2021/08/13(金) 03:38:17.64
2022/04/02(土) 20:51:05.90
時々 寄付を募っているけど容量と人件費だけでお金が無くなるのだろうか
2022/04/02(土) 21:51:51.36
IAはアメリカのチャリティ登録法人だから検索すれば決算の書類出てくるよ
その書類曰くサンフランシスコの年収1000万円台のサーバーエンジニアなど5人雇えるぐらい金あるんだから予算に問題なんかないよ
一番給料高い日系人のWendy Hanamuraってメディア担当の人で2019年の給料は21万4385ドル
創業者は0ドルで頑張ってるのに寄付してるのがバカバカしくなってくるけどな
でももうちょっとSave Page Nowの保存制限を前みたいに緩和してサーバー増強してほしいよね不安定すぎる
その書類曰くサンフランシスコの年収1000万円台のサーバーエンジニアなど5人雇えるぐらい金あるんだから予算に問題なんかないよ
一番給料高い日系人のWendy Hanamuraってメディア担当の人で2019年の給料は21万4385ドル
創業者は0ドルで頑張ってるのに寄付してるのがバカバカしくなってくるけどな
でももうちょっとSave Page Nowの保存制限を前みたいに緩和してサーバー増強してほしいよね不安定すぎる
2022/04/05(火) 09:24:57.82
久しぶりの不安定期かな
390名無しさん@お腹いっぱい。
2022/04/05(火) 20:16:53.31 Save Page Now servers are temporarily overloaded. Your captures may be delayed.
なんだこれ初めて見たぞ
なんだこれ初めて見たぞ
2022/04/05(火) 23:30:12.79
Save Page Now servers are temporarily overloaded. Your captures may be delayed.
392名無しさん@お腹いっぱい。
2022/04/06(水) 02:44:35.09 過去のサイトの画像って正しく表示されない場合って見るのを諦めたほうがよろしい感じですか?
それとも見る方法があるのでしょうか
それとも見る方法があるのでしょうか
2022/04/06(水) 09:43:35.94
394名無しさん@お腹いっぱい。
2022/04/08(金) 16:08:47.46 ツイッターに編集機能が追加されるらしい
Internet Archiveの出番かな
Internet Archiveの出番かな
2022/04/08(金) 21:28:34.27
ロシア外交官追い出しニュースを見て、ロシア大使館のサイトを保存しようと思ったらtokyo.mid.ruごとブロックされてるんだけど
ブロックする理由あんのこれ?
ブロックする理由あんのこれ?
396名無しさん@お腹いっぱい。
2022/04/09(土) 04:57:08.67 今はだめな時間帯か?
397名無しさん@お腹いっぱい。
2022/04/09(土) 04:57:49.95 >>395
ロシア政府が保存するなと通達すればそうなる
ロシア政府が保存するなと通達すればそうなる
398名無しさん@お腹いっぱい。
2022/04/09(土) 04:59:39.32 >>386
たまに80:とかがドメインにくっついてる奴が謎
たまに80:とかがドメインにくっついてる奴が謎
2022/04/09(土) 13:07:53.26
>>398
あるURLの最古もしくは一番早いスナップショットがポート番号付きのURLでインデックスに登録された場合、
ポート番号付きのまま表示されてるだけなので特に意味はない。
といってもポート番号によって内容が変わるサイトもあるわけだから、違うポート番号を同じURL扱いするのはちょっととは思う。
将来的にはポート番号削ったURLに登録し直してほしいけど、ずっとこのままかもしれないな。
/*/でURLを並び替える時にちゃんと並ばないのは不便だけど。
あるURLの最古もしくは一番早いスナップショットがポート番号付きのURLでインデックスに登録された場合、
ポート番号付きのまま表示されてるだけなので特に意味はない。
といってもポート番号によって内容が変わるサイトもあるわけだから、違うポート番号を同じURL扱いするのはちょっととは思う。
将来的にはポート番号削ったURLに登録し直してほしいけど、ずっとこのままかもしれないな。
/*/でURLを並び替える時にちゃんと並ばないのは不便だけど。
400名無しさん@お腹いっぱい。
2022/04/09(土) 18:28:59.17 twitterのURL検索は前できなかった気がしたけど、今確認したらできるようになってるな。これ使えるね。
2022/04/12(火) 12:22:37.12
Save Page Now servers are temporarily overloaded.
Your captures may be delayed.
Your captures may be delayed.
2022/04/19(火) 09:35:09.69
ここ最近アーカイブされてないTwitterやYouTubeのページ多すぎる。
2022/04/19(火) 12:42:45.35
今でも保存遅いケースが多いぞ。
下記のURLはもう一日以上経ってるのに未だにアーカイブされてなくて見れない。
自分が見る前のデータ放置しやがったな…。
アーカイブしようにもエラーで失敗の続いてんのか?
https://youtu.be/XpgSrULHibg
https://twitter.com/giantsubaru/status/1515525555554492417
https://twitter.com/5chan_nel (5ch newer account)
下記のURLはもう一日以上経ってるのに未だにアーカイブされてなくて見れない。
自分が見る前のデータ放置しやがったな…。
アーカイブしようにもエラーで失敗の続いてんのか?
https://youtu.be/XpgSrULHibg
https://twitter.com/giantsubaru/status/1515525555554492417
https://twitter.com/5chan_nel (5ch newer account)
2022/04/19(火) 19:18:40.19
>>403 ・・・と思ったけどこの日の夜になってやっと更新されたことで対象のURLのデータを見る事が出来たー!
良かった!
良かった!
2022/04/20(水) 21:08:13.94
Hrm.
The Wayback Machine has not archived that URL.
This page is unavailable for archiving right now!
This page is available on the web but its quite busy. Please check again later.
The Wayback Machine has not archived that URL.
This page is unavailable for archiving right now!
This page is available on the web but its quite busy. Please check again later.
2022/04/22(金) 00:08:02.62
hrmってなんて発音するんや
2022/04/22(金) 00:31:29.63
hrmの発音 ( Hard HRM から Soft HRM へ)
https://ja.forvo.com/search/hrm/
https://ja.forvo.com/search/hrm/
2022/04/22(金) 03:13:47.94
かっこよすぎる
2022/04/23(土) 07:09:20.59
https://translate.google.com/?sl=en&tl=ja&text=Hrm.&op=translate
2022/04/23(土) 14:43:44.50
ハーム?
2022/04/25(月) 13:05:09.91
SPN2 public API page docs に記載のある target_username と target_password の引数、
試しに BASIC 認証のページで使ってみたが上手く行かんな。
認証が通らず 401 エラーがアーカイブされてしまう。
ttps://web.archive.org/web/2022*/email.datacempro.com.br/messagelist
試しに BASIC 認証のページで使ってみたが上手く行かんな。
認証が通らず 401 エラーがアーカイブされてしまう。
ttps://web.archive.org/web/2022*/email.datacempro.com.br/messagelist
2022/04/27(水) 18:49:56.15
Save Page Now servers are temporarily overloaded. Your captures may be delayed.
2022/04/30(土) 16:41:25.24
Ghost Archive
ttps://ghostarchive.org/
インスタのアーカイブ取れたり取れなかったりする
ただしエロや薬物系のページは禁止で、ページ容量の制限もあるので、ちょっと信用性の面では低い
ttps://ghostarchive.org/about.html
Momentoに対応してるのはいいけど、選択肢の1個としては使える
ttps://ghostarchive.org/
インスタのアーカイブ取れたり取れなかったりする
ただしエロや薬物系のページは禁止で、ページ容量の制限もあるので、ちょっと信用性の面では低い
ttps://ghostarchive.org/about.html
Momentoに対応してるのはいいけど、選択肢の1個としては使える
2022/05/01(日) 11:28:49.12
todayをIAで取る技使えなくなってるのか
不便だな
不便だな
2022/05/03(火) 16:05:03.01
>>403
短縮URLじゃなくて最終的な転送先のURLで保存したほうがいいと思う。
転送先のURLじゃないとそのページ内までちゃんと保存されない可能性が出てくるので。
YouTubeの動画みたいに後から動画ファイルを保存される特殊な作業が必要になるものは特に。
めんどうなら両方SPNに突っ込んどけばいい。
短縮URLじゃなくて最終的な転送先のURLで保存したほうがいいと思う。
転送先のURLじゃないとそのページ内までちゃんと保存されない可能性が出てくるので。
YouTubeの動画みたいに後から動画ファイルを保存される特殊な作業が必要になるものは特に。
めんどうなら両方SPNに突っ込んどけばいい。
2022/05/05(木) 23:53:11.23
いろいろあるんだな
2022/05/10(火) 15:41:09.33
metaタグやrobot.txtでクローラー除けしてるサイトを残す安定した方法ってある?
自分が知ってるのは「Google翻訳で日本語→日本語で表示してそのURLを保存」くらい。
自分が知ってるのは「Google翻訳で日本語→日本語で表示してそのURLを保存」くらい。
2022/05/10(火) 19:24:45.13
昔はpste.euを使ってコピーサイトを作って、それをarchive todayとかで保存するとかあったけど、pste.euが閉鎖されたから無理だね
2022/05/10(火) 21:26:57.64
web串使うしかないね
後から参照できるように出来るだけ有名どころでURLに元のアドレスが乗っかるところが望ましい
後から参照できるように出来るだけ有名どころでURLに元のアドレスが乗っかるところが望ましい
2022/05/11(水) 01:35:01.48
2022/05/11(水) 04:49:25.53
2022/05/11(水) 20:05:23.57
Archive Teamを利用する方法もある(この方法だとIAのブロックリストも回避可能)
本来意図された使い方じゃないから詳しくは書かないけど
リンク先見れば分かると思う
https://wiki.archiveteam.org/index.php/URLs
本来意図された使い方じゃないから詳しくは書かないけど
リンク先見れば分かると思う
https://wiki.archiveteam.org/index.php/URLs
2022/05/12(木) 20:32:18.74
拒否URL関係まとめ
This URL has been excluded from the Wayback Machine.
https://note.com/
https://gigazine.net/
https://boards.4channel.org/
https://bokete.jp/
https://yoshidakenkou.net/
https://tanteifile.com/
https://motherless.com/
https://www.lancers.jp/
This URL is in our block list
https://finance.yahoo.co.jp/brokers-hikaku/ 以下全て
https://movie.eroterest.net/
https://anime.eroterest.net/
サイトの仕様で取れないもの
https://ch.dlsite.com/matome 記事本文が取得不可、todayなら取れる
https://www.pixiv.net/ 投コメのみ取得可、todayなら取れる
ArchiveTeamのexcludedまとめ
https://wiki.archiveteam.org/index.php/List_of_websites_excluded_from_the_Wayback_Machine
This URL has been excluded from the Wayback Machine.
https://note.com/
https://gigazine.net/
https://boards.4channel.org/
https://bokete.jp/
https://yoshidakenkou.net/
https://tanteifile.com/
https://motherless.com/
https://www.lancers.jp/
This URL is in our block list
https://finance.yahoo.co.jp/brokers-hikaku/ 以下全て
https://movie.eroterest.net/
https://anime.eroterest.net/
サイトの仕様で取れないもの
https://ch.dlsite.com/matome 記事本文が取得不可、todayなら取れる
https://www.pixiv.net/ 投コメのみ取得可、todayなら取れる
ArchiveTeamのexcludedまとめ
https://wiki.archiveteam.org/index.php/List_of_websites_excluded_from_the_Wayback_Machine
2022/05/12(木) 20:53:03.34
niftyのなんちゃら
2022/05/13(金) 00:24:28.61
gigazine駄目なのか
それどっちが原因だろう
それどっちが原因だろう
2022/05/13(金) 05:08:07.05
支援
>>サイトの仕様起因
>https://uso.kkx.one
ユーザースタイルシートのカタログサイト、
Wayback Machineで保存しても白いページが表示されるのみ、
todayなら問題なく取れる
>>サイトの仕様起因
>https://uso.kkx.one
ユーザースタイルシートのカタログサイト、
Wayback Machineで保存しても白いページが表示されるのみ、
todayなら問題なく取れる
2022/05/13(金) 11:59:01.36
【PC】「玄人志向」のサポート掲示板が終了へ、15年の歴史に幕 閉鎖後は過去の投稿も閲覧不可に [あずささん★]
だそうです
だそうです
2022/05/13(金) 23:03:55.15
FirefoxでもGoogle Chromeでも待機中が長くていつまで経っても保存されてない事が多いんだけど、どうしたらいいんだろう
テレビ局とか番組サイトのページなんだけど
テレビ局とか番組サイトのページなんだけど
2022/05/14(土) 00:02:33.03
実際には保存が完了していても、保存中表示が切り替わらずそのままなのは良くある話
2022/05/14(土) 01:55:57.39
エロルが出てなければいいのかな
2022/05/14(土) 02:53:15.43
2022/05/14(土) 03:26:23.22
放置したところで、数分でセッション切れになるだろうから、タブを残したままにしてもあんまり意味ないと思うよ。
2022/05/14(土) 07:38:48.63
ウラルと同じ形式だろう
山脈に非ず
山脈に非ず
434429
2022/05/14(土) 12:11:45.08 そもそも SAVE PAGE ボタンを押して Saving page http:〜 のページに切り替わった後は、
それを閉じても保存に全く影響しないんだけどな。
ぐるぐる表示している間は何をやっているかというと、保存の進行状況を
タイマーで繰り返し表示しているだけ。
単に「保存が成功したか失敗したか、運が良ければ教えてくれる」だけで、
ページを閉じたからと言って保存が中止される訳ではないし、
タイマーが止まって表示が一切更新されなくなることすらある。
どーせギガバイト級のファイルでも 5 分もあれば保存できるのだから、
保存開始後しばらくしたら web.archive.org/web/2/ を付けた URL で
実際に保存できているか試したほうが良いと思うな。
それを閉じても保存に全く影響しないんだけどな。
ぐるぐる表示している間は何をやっているかというと、保存の進行状況を
タイマーで繰り返し表示しているだけ。
単に「保存が成功したか失敗したか、運が良ければ教えてくれる」だけで、
ページを閉じたからと言って保存が中止される訳ではないし、
タイマーが止まって表示が一切更新されなくなることすらある。
どーせギガバイト級のファイルでも 5 分もあれば保存できるのだから、
保存開始後しばらくしたら web.archive.org/web/2/ を付けた URL で
実際に保存できているか試したほうが良いと思うな。
435429
2022/05/14(土) 12:13:07.09 少し専門的な話。
Save Page Now 2 Public API のドキュメント
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit
これと対比させて考えてみればよい。
保存開始のリクエスト方法は Capture request の節に書かれているが
同じ https://web.archive.org/save の URL を使っていて、パラメータの与え方が異なるだけ。
保存のリクエストを出したら、それ以降はユーザ側で制御する必要は無し。
これとは別に、出されたリクエストの進行状況を調べる API が用意されていて、
それは Status request の節で説明されている。
ぐるぐるの表示中も、バックグラウンドでこれを繰り返し呼んでいるだけ。
(で、たまに止まってしまう。ブラウザのタブをバックグラウンドにするとかなりの確率で止まる。)
進行状況を調べる際に誰がいつ出したリクエストかを特定するために
job_id というパラメータが使われているが、これは Save Page Now のページから
リクエストを出した時も、保存中ページの HTML ソースから spn.watchJob の語を頼りに
拾うことができる。spn2- で始まる文字列がそれ。
> spn.watchJob("spn2-be5deb2f51d8cf21858418b09fefeef80e32938c", "/_static/",
この文字列に http://web.archive.org/save/status/ を付けると Status request API の URL となり
JSON 形式のデータが返ってくるが、ブラウザで直接開くだけでも内容は確認できると思う。
> https://web.archive.org/save/status/spn2-be5deb2f51d8cf21858418b09fefeef80e32938c
status の値が pending なら保存中、success なら保存成功、error ならエラー。
それから job_id の有効期限は保存開始から一時間くらい。
上の URL に今アクセスすると duration_sec、counters、timestamp 等
保存したときのデータが色々返ってくるが、今日の午後 1 時過ぎには
重要なデータは空になっているはず。
Save Page Now 2 Public API のドキュメント
https://docs.google.com/document/d/1Nsv52MvSjbLb2PCpHlat0gkzw0EvtSgpKHu4mk0MnrA/edit
これと対比させて考えてみればよい。
保存開始のリクエスト方法は Capture request の節に書かれているが
同じ https://web.archive.org/save の URL を使っていて、パラメータの与え方が異なるだけ。
保存のリクエストを出したら、それ以降はユーザ側で制御する必要は無し。
これとは別に、出されたリクエストの進行状況を調べる API が用意されていて、
それは Status request の節で説明されている。
ぐるぐるの表示中も、バックグラウンドでこれを繰り返し呼んでいるだけ。
(で、たまに止まってしまう。ブラウザのタブをバックグラウンドにするとかなりの確率で止まる。)
進行状況を調べる際に誰がいつ出したリクエストかを特定するために
job_id というパラメータが使われているが、これは Save Page Now のページから
リクエストを出した時も、保存中ページの HTML ソースから spn.watchJob の語を頼りに
拾うことができる。spn2- で始まる文字列がそれ。
> spn.watchJob("spn2-be5deb2f51d8cf21858418b09fefeef80e32938c", "/_static/",
この文字列に http://web.archive.org/save/status/ を付けると Status request API の URL となり
JSON 形式のデータが返ってくるが、ブラウザで直接開くだけでも内容は確認できると思う。
> https://web.archive.org/save/status/spn2-be5deb2f51d8cf21858418b09fefeef80e32938c
status の値が pending なら保存中、success なら保存成功、error ならエラー。
それから job_id の有効期限は保存開始から一時間くらい。
上の URL に今アクセスすると duration_sec、counters、timestamp 等
保存したときのデータが色々返ってくるが、今日の午後 1 時過ぎには
重要なデータは空になっているはず。
2022/05/15(日) 10:01:51.84
resume upload
501 slow down
が何度も出て数値も異常なことになって
アップロードが終わらないんだけどどうすればいいの?
501 slow down
が何度も出て数値も異常なことになって
アップロードが終わらないんだけどどうすればいいの?
2022/05/15(日) 10:48:03.99
>>436
スパムっぽいから間違いならメール送れ的な英文が書いてあるはずだが
何をアップロードしてるのかは知らんけど、Youtube関係ならtubeup使った方がいいぞ
デフォルトのアップローダーは規制されやすい
スパムっぽいから間違いならメール送れ的な英文が書いてあるはずだが
何をアップロードしてるのかは知らんけど、Youtube関係ならtubeup使った方がいいぞ
デフォルトのアップローダーは規制されやすい
438名無しさん@お腹いっぱい。
2022/05/15(日) 14:32:45.73 最近IAへのアップロードが異様に遅くなって困ってる
前は上り1Gbps保ってたけど今はその100分の1くらい
IAにメール送ってもIA側が何かしたわけでもないって返答くるし理由が分からん…
ちなみにVPN通したら速度戻った(今は期限切れたので使えない)
スマホからのアップロードは以前と変わらず速い
それならとUASwitcherを使ったけどダメだった
帯域制限を疑って他サイトにアップロードしてみたけど速度は普通に出る
マジで困ってるから誰か教えてくれ…
前は上り1Gbps保ってたけど今はその100分の1くらい
IAにメール送ってもIA側が何かしたわけでもないって返答くるし理由が分からん…
ちなみにVPN通したら速度戻った(今は期限切れたので使えない)
スマホからのアップロードは以前と変わらず速い
それならとUASwitcherを使ったけどダメだった
帯域制限を疑って他サイトにアップロードしてみたけど速度は普通に出る
マジで困ってるから誰か教えてくれ…
2022/05/17(火) 03:01:44.67
使ってるISPのアップロード制限とかは?
2022/05/17(火) 03:10:16.22
あと去年3月にarchiveteamがニコ動の動画ページ(/watch/sm〜)を片っ端から保存してくれたけど、それ以降は動いてないのね
てっきりずっと動かしてるかと思ってたわ
ttps://archive.org/details/archiveteam_niconico
ttps://wiki.archiveteam.org/index.php/Niconico
動画ファイル自体も保存しないと意味ないんだけどな
てっきりずっと動かしてるかと思ってたわ
ttps://archive.org/details/archiveteam_niconico
ttps://wiki.archiveteam.org/index.php/Niconico
動画ファイル自体も保存しないと意味ないんだけどな
2022/05/17(火) 11:41:37.42
442名無しさん@お腹いっぱい。
2022/05/17(火) 18:12:55.52 >>439
他サイトへのアップロードは速いって言ってるだろ
それとスマホからアップロードした時は何故か速度出るんだよ
もちろん同じWifiに繋いだ状態で
今は仮想マシン通したら速度出たからそうしてるよ 不便だけど
他サイトへのアップロードは速いって言ってるだろ
それとスマホからアップロードした時は何故か速度出るんだよ
もちろん同じWifiに繋いだ状態で
今は仮想マシン通したら速度出たからそうしてるよ 不便だけど
2022/05/17(火) 18:14:51.83
>>439
他サイトへのアップロードは速いって言ってるだろ
それとスマホからアップロードした時は何故か速度出るんだよ
もちろん同じWifiに繋いだ状態で
今は仮想マシン通したら速度出たからそうしてるよ 不便だけど
他サイトへのアップロードは速いって言ってるだろ
それとスマホからアップロードした時は何故か速度出るんだよ
もちろん同じWifiに繋いだ状態で
今は仮想マシン通したら速度出たからそうしてるよ 不便だけど
444名無しさん@お腹いっぱい。
2022/05/17(火) 21:18:18.55 録画した番組をエンコードしてアップしたいんだけど
デフォルト以外でおすすめのアップローダーを教えて
デフォルト以外でおすすめのアップローダーを教えて
2022/05/18(水) 20:56:55.97
1時間前に比べて重い
2022/05/18(水) 21:34:17.24
ようやく解消
2022/05/19(木) 19:46:35.64
いつもの寄付表示
今回は赤色だったり青だったり緑だったり
種類増えてて笑う
今回は赤色だったり青だったり緑だったり
種類増えてて笑う
2022/05/21(土) 13:09:44.07
archive.today壊れてらっしゃる?
449名無しさん@お腹いっぱい。
2022/05/21(土) 15:50:47.29 保存されたJAVAが別の画像(など)を動的に引用してる時に
「オリジナルの画像のアドレス」を呼んでしまってるせいで正しく動作しない(呼ばれてる画像自体はアーカイブにある)やつは
アーカイブ上で何とかならんもんだろうか
「オリジナルの画像のアドレス」を呼んでしまってるせいで正しく動作しない(呼ばれてる画像自体はアーカイブにある)やつは
アーカイブ上で何とかならんもんだろうか
450名無しさん@お腹いっぱい。
2022/05/21(土) 15:53:32.08 >>441
容量もだが権利関係でやばいのが多すぎる気が
容量もだが権利関係でやばいのが多すぎる気が
451名無しさん@お腹いっぱい。
2022/05/21(土) 19:49:16.37 curlでもIAログインモード、cookieのページみても出来ないぞ(IAが対策?)
数万urlは保存したいのだが(特に画像)
数万urlは保存したいのだが(特に画像)
2022/05/22(日) 08:29:18.90
curlで/save/から保存しようとすると「This URL is in our block list and cannot be captured」が出るけど
ウェブブラウザからだとちゃんと保存されるのに遭遇した
ちょっと上で書いてる人もいるけど、UserAgent以外の部分も見るのかなこれは
ウェブブラウザからだとちゃんと保存されるのに遭遇した
ちょっと上で書いてる人もいるけど、UserAgent以外の部分も見るのかなこれは
2022/05/25(水) 00:41:46.06
>>451
Cookieは知らんが、今のSPNの制限内であっても、outlinksを辿って時間かからない単一の画像URLだけなら、
少なくとも1分間で4個のURLの保存できるだろうから、24時間で5760個、数万URLあっても1週間以内に保存終わるはず。
Cookieは知らんが、今のSPNの制限内であっても、outlinksを辿って時間かからない単一の画像URLだけなら、
少なくとも1分間で4個のURLの保存できるだろうから、24時間で5760個、数万URLあっても1週間以内に保存終わるはず。
2022/05/25(水) 23:49:41.59
5次元データストレージって実用化されたら凄そう
割れたら終わりな気もするけど
割れたら終わりな気もするけど
2022/05/27(金) 10:52:55.05
質問です
Internet Archiveにおいて
著作権の扱いはどうなっているのでしょうか?
無断で複製禁止のものをアーカイブした場合
Internet Archive側が著作権侵害となるのでしょうか?
それともアーカイブユーザー側が著作権侵害となるのでしょうか?
ご回答よろしくお願いします
Internet Archiveにおいて
著作権の扱いはどうなっているのでしょうか?
無断で複製禁止のものをアーカイブした場合
Internet Archive側が著作権侵害となるのでしょうか?
それともアーカイブユーザー側が著作権侵害となるのでしょうか?
ご回答よろしくお願いします
2022/05/27(金) 20:01:04.98
アメリカのフェアユースと図書館法と非営利団体ということで守られるので問題ないですが、
「日本人が日本から投稿した」という部分が違法になり得るので、
そこを隠せてすぐに逃げられる形でやれば問題ないです
「日本人が日本から投稿した」という部分が違法になり得るので、
そこを隠せてすぐに逃げられる形でやれば問題ないです
2022/05/27(金) 20:26:08.07
>>456
治外法権はとっくに終わってるので「日本人が」は要らん
治外法権はとっくに終わってるので「日本人が」は要らん
458名無しさん@お腹いっぱい。
2022/05/31(火) 03:41:16.24 他人のツイートを全部保存する方法ってないの?
2022/05/31(火) 08:31:12.07
>>458
このツール使えば全ツイートのURLぶっこ抜ける
ArchiveTeamの人が管理してるから安定性もあるんじゃないかな
https://github.com/JustAnotherArchivist/snscrape
このツール使えば全ツイートのURLぶっこ抜ける
ArchiveTeamの人が管理してるから安定性もあるんじゃないかな
https://github.com/JustAnotherArchivist/snscrape
2022/06/01(水) 11:47:43.48
>>453 その自動化ツールってなんてやつ?
2022/06/01(水) 12:03:28.50
SPNを自動化できるツールとかってある?
2022/06/02(木) 21:01:25.82
「The capture is estimated to start in ** minutes.」
同じサイトでも出たり出なかったり
同じサイトでも出たり出なかったり
2022/06/03(金) 13:04:18.14
ここ何日かjob failedが出るの多すぎ
特に今日はひどい
特に今日はひどい
2022/06/03(金) 18:58:45.24
「The capture is estimated to start in * hours, * minutes.」
昨日よりひどくなってる・・・
昨日よりひどくなってる・・・
2022/06/04(土) 09:49:35.93
ようやく正常に
2022/06/04(土) 23:35:18.33
と思ったらまたか
○時間とかではないだけまだ良いが
○時間とかではないだけまだ良いが
2022/06/06(月) 22:07:55.79
また○時間レベルでかかるようになってしまった
数時間前まではなんともなかったのに・・・
数時間前まではなんともなかったのに・・・
2022/06/06(月) 22:44:35.15
確かにここのところjob failed多いな
2022/06/07(火) 23:09:12.43
「The capture is estimated to start in * minutes. You may close your browser window and the page will still be saved.」
今日は21時台から使ってると30分ぐらいごとに出たり出なかったり波があるようだ
そのまま本当に取得できてる場合と「Internal server error.」と出る場合があるからおちおち閉じるわけにもいかないのがなぁ
今日は21時台から使ってると30分ぐらいごとに出たり出なかったり波があるようだ
そのまま本当に取得できてる場合と「Internal server error.」と出る場合があるからおちおち閉じるわけにもいかないのがなぁ
2022/06/08(水) 02:39:39.28
日付変わってすぐは正常だったのにしばらくしてまた「The capture is estimated to start in * hours, * minutes.」
それにしても今月になってから毎日のように時間かかること多いなぁ
それにしても今月になってから毎日のように時間かかること多いなぁ
2022/06/08(水) 13:00:04.29
月初は時間かかるのが多い印象
2022/06/08(水) 15:33:31.27
>>459
今のWeb版Twitterはゴテゴテ糞思いUIに改悪されまくりやがったのでワシはRSS串経由で取ったりしてる
【Feedly】RSSリーダー総合【Inoreader】
https://mevius.5ch.net/test/read.cgi/esite/1565761448/
今のWeb版Twitterはゴテゴテ糞思いUIに改悪されまくりやがったのでワシはRSS串経由で取ったりしてる
【Feedly】RSSリーダー総合【Inoreader】
https://mevius.5ch.net/test/read.cgi/esite/1565761448/
473名無しさん@お腹いっぱい。
2022/06/11(土) 02:19:49.71 インフォシークとかサービス終了したサイトの終了告知を最優先で表示するのあれなんとかならねえの
2022/06/11(土) 03:02:27.42
>>473
広告除去の拡張機能に自分でルールを追加すれば思いのまま。
広告除去の拡張機能に自分でルールを追加すれば思いのまま。
2022/06/12(日) 00:51:33.91
どういうことなの
2022/06/13(月) 22:24:09.42
木曜あたりからは順調だったのに、結局また何時間単位とか・・・
2022/06/14(火) 09:51:48.01
noteって保存できないの?
2022/06/14(火) 12:37:06.24
>>477
2年前のIPアドレスお漏らし騒動のときに運営がIAにアーカイブ除外申請したからそれ以降保存できなくなってる
2年前のIPアドレスお漏らし騒動のときに運営がIAにアーカイブ除外申請したからそれ以降保存できなくなってる
2022/06/15(水) 20:52:24.39
過疎サイトに突然大量アクセスが来たのですがロボットか誰かがせっせと保存してるのでしょうか…
https://i.imgur.com/Y6wqCQp.jpg
https://i.imgur.com/Y6wqCQp.jpg
2022/06/20(月) 11:28:15.69
既出だったら申し訳ないのですが、archive.orgでツイートやtwitterプロフィール画面をSave Page Nowで保存すると、モバイルサイトでの表示形式で保存されてしまいます。
どうすればPCの表示形式で保存できますか?
どうすればPCの表示形式で保存できますか?
2022/06/23(木) 10:44:42.70
2022/06/23(木) 18:07:01.22
7000億突破したな
2022/06/24(金) 01:27:16.59
俺も5000万ぐらい貢献したかな
2022/06/24(金) 23:15:31.53
調子悪いな
2022/06/25(土) 01:43:20.50
The capture will start in ~5 seconds because we are doing too many captures of www.youtube.com right now. You may close your browser window and the page will still be saved.
初めてこのエラーが出た
5秒以内に保存始まったが
初めてこのエラーが出た
5秒以内に保存始まったが
2022/06/25(土) 10:04:48.83
前から出てたエラーに詳細が追加されたんじゃない?
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 【農水省】初回の備蓄米の落札者を発表 約14万2000トンのうち9割超をJA全農が落札 ★3 [牛乳トースト★]
- 【芸能】YOU、親の介護問題を語る「私は仕事したいから。“介護とかできない、施設に入ってもらうよ”って」 [湛然★]
- 正社員の転職が最多、24年99万人 若手ほど賃金増加 [首都圏の虎★]
- 【兵庫県】机たたいて叱責、夜間休日チャット、第三者委が斎藤知事のパワハラを認定した全10件一覧★12 [七波羅探題★]
- あぼーん
- 【大阪万博】売れないチケット 大阪人の本音は?「万博? ユニバのほうがええやん!」 [七波羅探題★]
- 友達への投げ銭にハマる高齢者が増大中!孫「親族が誰も構ってやらないので友達にお金を使って構ってもらってる…俺の遺産使うなよ! [257926174]
- 俺とお前と
- (ヽ^ん^)性的に消費するって楽しいだろ [882679842]
- 「銅」わずか20年で価格が4倍に。経済産業省「2035年にはさらに2倍になる」 [566475398]
- 【速報】プーチン、占領地域のウクライナ人に退去命令wwwwwwwwwwwwwwwwwwwwwwwww [308389511]
- スギ薬局「タレントは不祥事が怖いからAIモデルを大量採用したぞ!」 みんなはどの子が好み? [253977787]