X



Internet Archive総合 (web.archive.org) #4

■ このスレッドは過去ログ倉庫に格納されています
2021/08/13(金) 03:38:17.64
なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
  ------------------


Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう

A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック


Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される

A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。


前スレッド
Internet Archive総合 (web.archive.org) #3
https://mevius.5ch.net/test/read.cgi/esite/1585760889/
2022/08/25(木) 13:45:37.67
復旧まだ?
2022/08/25(木) 13:55:43.16
>>556
デジタル情報を後世に残せる可能性が唯一あるのがInternet Archiveだろうね
ネット規制が年々厳しくなってるから情報を本にまとめて国立国会図書館に納本した方が案外残ってたりするかも?
2022/08/25(木) 15:35:07.68
やっぱり落ちてたんだ なんらかの方法でアク禁喰らったかと思ったw
2022/08/25(木) 16:40:22.94
アク禁喰らうほど負荷かけちゃ駄目よ
2022/08/25(木) 16:53:16.25
「Temporarily Offline
Internet Archive services are temporarily offline.

Please check our Twitter feed for the latest information.

We apologize for the inconvenience.」

今日は俺環だけではなかったのか・・・
2022/08/25(木) 17:22:38.17
10時サーバーが落ちていた
16時サーバーが落ちていた
17時サーバーが復旧してメンテ中になっていた

twitter.com/internetarchive/status/1562637688918142976
2022年8月25日(木)12:07:12 JST
> We are working to resolve the outage affecting
> http://archive.org & @waybackmachine

お前らの行動あるある
archive.ph/foxJV
archive.ph/LMz1C
archive.ph/z1gVl
archive.ph/W61NL
https://twitter.com/5chan_nel (5ch newer account)
2022/08/25(木) 17:55:50.65
ほんとに落ちてて草

ここがサ終したらと思うとゾッとするわ
564名無しさん@お腹いっぱい。
垢版 |
2022/08/25(木) 18:12:34.13
>>1
https://twitter.com/internetarchive/
-
https://twitter.com/5chan_nel (5ch newer account)
2022/08/25(木) 21:27:27.54
直った
2022/09/08(木) 00:46:00.71
kiwifarmsという掲示板住民の嫌がらせ対象となった活動家らがCloudflareに対して抗議
掲示板はCloudflareからのブロックに続き、Wayback Machineのアーカイブ対象からも除外されたことで物議を醸してる
https://i.imgur.com/gzErRBc.jpg

Reddit r/Archiveteam のスレでは賛否両論
https://www.reddit.com/r/Archiveteam/comments/x7xmxy/wayback_machine_deletes_kiwifarms_archive

参考
ITmedia『Cloudflare、フォーラムKiwi Farmsをブロック 「命にかかわる脅威と判断」』
https://www.itmedia.co.jp/news/spv/2209/05/news059.html
2022/09/08(木) 01:06:13.64
redditをSPNすると404になるやつ、まだ直ってないのか・・・
568名無しさん@お腹いっぱい。
垢版 |
2022/09/10(土) 16:56:52.81
昨日あたりから調子悪い?
2022/09/11(日) 01:37:35.36
Not Fundになる
2022/09/11(日) 07:29:45.30
404 not found継続中
2022/09/11(日) 12:04:17.42
確かにここ何日か「Internal server error.」とか「Not Found」が頻繁に出てる
2022/09/11(日) 19:52:23.24
エラー出ても2、3回やれば保存が始まるか保存制限に引っ掛かるかのガチャだな
保存できる確率は1/3か1/4
2022/09/11(日) 23:57:16.77
エラーになった後もう一度やると「The same snapshot had been made seconds/minutes ago」が返ってくることがある
保存できてるならちゃんと返してほしいが
2022/09/12(月) 12:47:12.64
本当にできてるならまだ良いが、
できてないのにできてるとみなされて「The same snapshot had been made ** minutes, ** seconds ago. You can make new capture of this URL after 45 minutes.」なんてことも
本当にできてないのに45分待ちはきつい
ちなみに「web.archive.org/web/*/(URL)/*」では本当にできてる場合は緑or青、みなされてるだけの場合は赤or黄で表示
2022/09/12(月) 23:14:14.97
>>574
> ちなみに「web.archive.org/web/*/(URL)/*」では本当にできてる場合は緑or青、みなされてるだけの場合は赤or黄で表示

嘘はいかんよ。
緑として記録されても、リダイレクトされた先で 403 や 404 (つまり赤) ってこともありうる。
IA の説明通り、HTTP のステータスコードのみで考えるべし。
576名無しさん@お腹いっぱい。
垢版 |
2022/09/12(月) 23:54:36.65
直った気がする
2022/09/13(火) 11:03:38.19
某M社からDMCA報告が来たらしく、アップしてた動画が削除された
IAも巡回してるんだな(YouTubeの元動画は放置なのが謎だけど)
MAD動画とかは--metadata=noindex:trueで上げた方がいいかも
2022/09/15(木) 13:39:05.63
てか最近YouTubeの動画URLが一度&themeRefresh=1が付いたURLにリダイレクトされてもう一度リダイレクトされて元のURLに戻るようになってるんだけど
SPNの動画ファイルの保存までちゃんとできてる?
2022/09/16(金) 16:32:46.10
>>575
済まない、「できてる場合:青、できてる場合とできてない場合と:緑」
communityserver.org/contents/2602/
580sage
垢版 |
2022/09/17(土) 14:17:53.95
最近、ラブライブや仮面ライダー関連のツイッターの返信コメント欄が保存されていないのは>>571>>572が原因かな?

ttps://twitter.com/bandai_ridertoy/status/1569589209190776834の中の各返信コメント欄URLをインターネットアーカイブで検索しても見つからなかったし。
https://twitter.com/5chan_nel (5ch newer account)
2022/09/17(土) 14:20:02.00
最近、各ツイッターのページの返信コメント欄をインターネットアーカイブで探しても過去のデータでは見つからないパターンが多いな。
担当者さぼってんのか?それとも保存する人いなくなったのか?
2022/09/19(月) 01:06:12.59
あらら?インターネットアーカイブが現状では見れなくなっている。
2022/09/20(火) 04:10:17.40
そうなってくるとインターネットアーカイブアーカイブがいるな
2022/09/20(火) 10:26:44.70
>>581
Twitterを大量に保存してるのはArchiveTeamだから
youtubeの動画と違って公式じゃないんよね
2022/09/21(水) 03:41:43.60
それはゲリラか何かなのか
2022/09/26(月) 02:13:39.95
>>581
他人に頼ってないで重要だと思うなら自らSave Page NowにツイートのURL突っ込めんでいけばいいだろ
ArchiveTeamも全てのツイートURLを保存してるわけじゃないし抜けまくりだぞ
2022/09/26(月) 09:18:40.16
ニコニコ動画で「vipper吹き替え」と言う物が消えるのですが
お暇な方いればそのアーカイブ活動に協力していただきたいです

私がアーカイブしようとしている物は大体アーカイブできていて
あと「タグ」と「コメント」だけです
詳しい事はニコニコ大百科の掲示板にレスしています
https://dic.nicovideo.jp/b/a/vipper%E5%90%B9%E3%81%8D%E6%9B%BF%E3%81%88/31-
https://dic.nicovideo.jp/b/a/vipper%E5%90%B9%E3%81%8D%E6%9B%BF%E3%81%88/61-
(ID: Yv+WglHqgh のレスです)
2022/09/26(月) 11:32:22.44
A screen shot was captured. View screen shot:

SPNでページのスクショ画像が一緒に保存されたりされなかったりする機能が始まってる様子
2022/09/26(月) 14:41:39.24
何の意味があるんだろう
当時のレンダリングエンジンの記録?
2022/09/26(月) 15:55:53.05
今どきの動的なサイトだとSPNじゃ取れなかったりするが
スクショなら見た目だけでもアーカイブ出来たりする
2022/09/26(月) 23:47:44.20
(´‥∀‥`)ほう
2022/09/28(水) 09:19:48.78
9月20日以降ツイートのアーカイブが自動で取られなくなってる?
めんどくせぇんだよなぁ膨大な数のツイート1つ1つ手動でアーカイブさせんの
2022/10/02(日) 14:01:31.65
Sorry
Job failed
2022/10/05(水) 23:56:19.74
「Job failed」今日はやたら出るなぁ
取得したいサイトとの相性の問題かと思ったらあちらこちらでそんな感じ
2022/10/06(木) 08:09:49.83
>>586 自分が初めて見る前のデータが見たいだけですが…。
仕事中などで見られなかったデータとか。

アクティブチームも最近全然見てないパターン多すぎ。
ちゃんとの人の事考えてるのか?
もう少し早くできないものか。
2022/10/06(木) 10:56:37.49
>>595
文句言ってる暇があったら自分で実行すればいいだけでは?
アクティブチームが誰だかは知らんが、ArchiveTeamは誰でも参加できるぞ

https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior
2022/10/07(金) 08:02:54.16
インターネットアーカイブもすべてのYouTubeのURLを保存してるわけではないと思いますが・・・。

https://www.youtube.com/watch?v=2tI1YCwYzIo

https://www.youtube.com/shorts/Bx__LBTXFDM

https://www.youtube.com/watch?v=MWNnX_HROUQ

これらのページの保存が遅すぎる。
2022/10/07(金) 23:59:11.39
上でも書いてる人いるけど、/shorts/から始まるYoutubeのショート動画って動画ファイルの自動保存対応してないのかな?
watch?v=に置き換えたURLでも見れるので、念の為両方のURLで保存してるけど、ショート動画のファイルだけ保存できていないような・・・
2022/10/08(土) 15:48:17.11
動画まで保存するとコスト凄そうだな
2022/10/10(月) 01:58:16.83
>>592 最近ツイッターの公開直後のデータがアーカイブされなくなっているのはこれが原因だとしたら納得いく。
アクティブチームが膨大な数のツイート1つ1つ手動でアーカイブさせるのはめんどくさいのはわかるけど・・・。
2022/10/10(月) 01:59:45.27
>>592 もしかするとYouTubeの動画の方もアーカイブが自動で取られなくなってるかもしれない。
2022/10/10(月) 03:18:35.79
>>598 >>601
ほう
2022/10/11(火) 03:44:19.25
つべとれてないね
2022/10/11(火) 17:46:02.12
全くだ。
https://www.youtube.com/watch?v=ZXrKwldUWn0
上記のURLの保存が遅すぎる。
何やってんだ担当者は!
2022/10/16(日) 00:14:47.38
>>604
人に文句言ってないで自分で保存しろ
2022/10/16(日) 10:20:41.68
YouTubeの自動アーカイブって容量的に非現実的に思える
2022/10/16(日) 18:14:42.48
でも本家はそれでやっていっているんでしょう?
2022/10/16(日) 19:05:29.39
やっていってないぞ
クローラーは全ての動画を保存していないし、SPNでも全て保存する訳ではない。(CNNとかのニュースは割と保存される)
それに、インターネットアーカイブの人も「少数の人しか興味がなく、長い動画を、メタデータを付加することなく、ただインターネットアーカイブに突っ込むのはやめてね」(訳)と言っている。
https://www.reddit.com/r/DataHoarder/comments/sq6wbq/please_do_not_mirror_youtube_on_the_internet/

それでも雑談とゲームの動画をすぐに保存してほしいのなら、寄付するといいよ。開発に参加するのもいい。
2022/10/17(月) 19:38:48.84
選別はどういう原理なんだろう
2022/10/17(月) 23:52:20.94
アーカイブって著作権引っかかりそうで
手軽にできない
一応引用って形で引っかからないんだろうか
正直ページとしては残しておきたいもの結構あるんだけどなぁ…
2022/10/18(火) 01:15:56.16
>>610
SPNの話ならフェアユースで合法だよ
612名無しさん@お腹いっぱい。
垢版 |
2022/10/18(火) 13:57:43.00
dtiがサービス終了だって
613名無しさん@お腹いっぱい。
垢版 |
2022/10/21(金) 12:04:03.87
2022/10/23(日) 09:50:10.13
ファボ1万以上のツイートでもアーカイブチームが取りに来なくなってるな
どうしたんだろ?Twitter社からお𠮟りでも受けた?
2022/10/25(火) 10:08:14.34
みんなSPNの話ばっかりでアイテムのアップロードは使わないの?
2022/10/26(水) 00:05:19.14
ここ1週間何度試しても「Cannot resolve host (URL)」と表示されて取得できないサイトが
前はなんのこともなく取得できてたのに・・・
2022/10/30(日) 05:24:56.68
Internal Server Error for https://www.excite.co.jp/world/ (HTTP status=500).
2022/11/01(火) 19:41:42.25
二人くらい垢消しが確定してるユーザーのツイートを一人で手動で片っ端からアーカイブ取ってたけど
量多くて時間はかかるし自分が動かなきゃ誰もやらんから自分がしくじったら一生残せなくなるという罪悪感もあるしで
兎に角ツラい こういう不毛な作業こそ全部ロボットにやらせるべきやろ

なんかいいツールでもないもんかねぇ
2022/11/03(木) 10:45:34.96
>>605 だから仕事や睡眠の関係で早く保存できない場合があるから自分で早く保存しろと言われても・・・。
2022/11/03(木) 10:50:22.06
>>614 ・・・ツイッター社からお叱りを受けたとしたらツイッターのページの自動アーカイブが出来なくなったのも納得がいく。
権利関係かな?
2022/11/05(土) 19:47:39.33
archive.stが取れない…
2022/11/06(日) 12:06:34.61
Saving page https://w.atwiki.jp/soulou/sp/
Worker exited prematurely: signal 15 (SIGTERM) Job: 644.
2022/11/06(日) 12:24:09.00
>>618
https://github.com/JustAnotherArchivist/snscrape
これでURL集めて後はその辺のスクリプトでアーカイブすればいい
2022/11/09(水) 17:23:42.06
YouTube動画の保存初めてやってみたんだけど
すごい時間かかるうえエラー出て何度やってみても保存できないのも多いし
うまく保存できてもコメント欄はなぜか明らかに違う動画のものだったり文字化けしまくりでめちゃくちゃだった…
あんまり使えないな
625名無しさん@お腹いっぱい。
垢版 |
2022/11/10(木) 06:12:44.32
12月までに保存じゃー
https://geolog.mydns.jp/
2022/11/12(土) 06:08:18.30
ツイッター保存するとほぼ全てfirst archiveになる
何万もいいねされてバズってるのでもそう
もうツイッターは一切自動保存しないのかな…
2022/11/12(土) 11:26:29.99
今週SPNで保存してもfaviconだけしか保存されない例が何回も起きたんだが
24時間後に同じURLを確認するとやっぱり保存できてなかったわ
保存できてるか確認したほうがいいよ
2022/11/13(日) 16:46:40.56
>>625
zipかなんかに全部か分割して別の場所に投稿してほしい。
管理人見かけたら言っといて。
2022/11/14(月) 13:49:25.52
>>625
学区以外のwww.geocitiesのページ開こうと思っても
まともに開けないくらい重いんだが
2022/11/14(月) 20:47:39.81
>>622
このエラーが出たら数分後に自動で保存をやり直してくれる時とやってくれない時があるなー。
最近出るようになった他のセグメンテーション系エラーも同じ感じ。
>>624
今の所、コメント欄のJavaScript周りがおかしいので直してほしいね。
631名無しさん@お腹いっぱい。
垢版 |
2022/11/14(月) 22:52:15.62
今日は調子が良い気がするようなしないような
2022/11/16(水) 04:29:12.79
5ちゃんのアーカイブもGone.になってしまうの多い
最近ここ調子悪いけど大丈夫なんかね
寄付金のお願いもずっと出てるし
2022/11/16(水) 20:08:56.54
>>632
普通のブラウザでも同じ鯖に連続してアクセスするとGone.になるから、
時間を置いて取得するしかない。それがどのタイミングなのかは分からないけど
2022/11/16(水) 21:36:23.91
締め付け厳しくなってるのか、
20分ぐらいつながらないことが
635名無しさん@お腹いっぱい。
垢版 |
2022/11/17(木) 17:20:37.12
worldstarhiphop.com
200万以上も魚拓が保存されているようだが、excludedと表示される
2022/11/18(金) 10:43:43.03
最近重すぎる
2022/11/18(金) 19:58:05.57
今日は「Job failed.」がやたら出るなぁ
あまりやり直すと1分あたり3件までのしばりで引っかかる
前はもう少しできたっけ・・・これも締め付け厳しくなってるような
取得できてるのかも怪しくて確認すると「Fail with status: 503」
2022/11/18(金) 22:06:53.56
システム運用がカツカツなんだろうな
2022/11/19(土) 00:38:40.53
SPNの最新ファイルを見てみると、
18日9時〜14時33分(日本時間18日午後6時〜午後11時33分)の間はファイルが全く追加されてなかったので、
5時間ほど保存できなかったっぽい
この間に保存しようとしたらjob failedエラーだらけだった
今は問題なく保存できるぜ
2022/11/22(火) 04:48:34.40
WaybackMachineとなOpenLibraryとか
もっと知られてもいいもんだろこれ
知ってるのと知らないのじゃ全然便利さが違う
そもそもInternetArchiveが知られて無さすぎる
2022/11/24(木) 06:21:48.95
そりゃまあ一般人はネットのアーカイブなんてこれっぽっちも
気にしてないからな
2022/11/25(金) 01:50:48.75
誰も動かないから自分が動かなきゃいけない
自分がアーカイブ間に合っていれば遺せたのに

こんな使命感持っちまったせいで病んじまったわ

消える前に残すのも大事だが既に消えてしまった物を「消える前に残す」以外の手段で発掘する方法ってないもんかね
2022/11/25(金) 08:18:14.39
哲学的じゃの
もうどうにも取り戻せないから「消えてしまった」と言うのだよ
2022/11/25(金) 20:11:50.98
大げさだけどなんか人の命みたいだ
でも亡くなった人が自分の生きた証にみたいに一生懸命残してたブログとかが跡形もなく消えてしまってたりすると…悲しい
2022/11/26(土) 23:33:08.71
また>>547に近い事態で困ってて別のブラウザでアクセスし直したらつながった
たまにつながらないこともあるが、回復は先に使ってたブラウザより早い
同じ時間帯に使い比べたら片方つながらないのに、もう片方はなんのこともなくつながったり
たまたまか、それともブラウザとの相性の問題か・・・
2022/11/27(日) 04:04:49.75
>>645
まぁロードバランサが入ってるだろうし、アクセス毎に運試しをやってるようなもんだな
2022/11/27(日) 17:26:01.10
前は重くても繋がってはいたが
最近はアクセスすら出来ないことが多い
2022/11/27(日) 17:46:34.00
本当に繋がんないね
資金繰りヤバいんじゃないかと心配になる
649名無しさん@お腹いっぱい。
垢版 |
2022/11/27(日) 19:23:05.98
archive.todayを代用してください。
2022/11/27(日) 20:58:34.67
結局ローカルでも保存するしかないやん
2022/11/28(月) 02:04:21.68
Wayback Machine がダウンしているかタイムアウトで保存できない、
あるいは、保存に成功したのを開けないのが続いてて困る
https://archive.is/wkgwG
652名無しさん@お腹いっぱい。
垢版 |
2022/12/01(木) 08:14:56.48
>>639
最新ファイルはどこで見れるか教えていただけませんか・
2022/12/01(木) 08:30:40.22
>>652
>>269
654名無しさん@お腹いっぱい。
垢版 |
2022/12/01(木) 09:32:56.82
ありがとうございます
2022/12/03(土) 09:15:41.02
テスト
2022/12/03(土) 09:16:59.78
https://www.youtube.com/watch?v=KyCAITT8iSA

https://www.youtube.com/watch?v=tlLo7jypqDI

アクティブチームの皆さん、上記のURLのアーカイブが遅いぞ、もしかしてこの時はW杯で忙しかったのか?
自分は寝てました。
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況