Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:08:09.83

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

**名無しさん＠お腹いっぱい。** · 2020/04/08(水) 23:23:12.60

追加した方がいいテンプレって何があるかな

**名無しさん＠お腹いっぱい。** · 2020/04/09(木) 13:43:59.23

保存したはずなのに消えてる！って質問よくされてるから
その辺の事とか？

**名無しさん＠お腹いっぱい。** · 2020/04/10(金) 14:21:39.04

ホシュ

**名無しさん＠お腹いっぱい。** · 2020/04/10(金) 15:59:46.20

保守

**名無しさん＠お腹いっぱい。** · 2020/04/11(土) 16:55:05.81

Hmmm

**名無しさん＠お腹いっぱい。** · 2020/04/13(月) 02:51:24.68

>>5
それいいね、こんなところだろうか
少し長すぎたかも

Q. 保存したはずなのに見れない！どういうこと？
A. Internet Archiveはアーカイブ量の増加ペースの速さにサーバが追いついておらず、不安定なことが多いです。安定するタイミングを待ちましょう。
またWayback Machineは、ページの保存作業を担当するクローラ部分(Heritrix)と、保存したページの保管・記録・表示を担当するビューワー部分(Wayback)の別々な2つのソフトウェアを組み合わせて動いています。
なので、保存したはずのアーカイブが表示されなくなっていても、クローラ部分がちゃんと動いていたのならアーカイブはちゃんと保存されています。サーバが安定するのを待ちましょう。

**名無しさん＠お腹いっぱい。** · 2020/04/13(月) 04:11:54.84

( ﾟｰﾟ)Ъ ｲｲﾈ

**名無しさん＠お腹いっぱい。** · 2020/04/15(水) 07:20:22.43

TMR出まくる

**名無しさん＠お腹いっぱい。** · 2020/04/15(水) 18:05:00.65

IAは滅亡する！

**名無しさん＠お腹いっぱい。** · 2020/04/15(水) 21:01:13.80

Archive.st - Save The Internet

いま試してみたらヤフーニュースの魚拓が取れるみたいだぞ。

◆P0jSlC5fJs · 2020/04/15(水) 22:26:34.61

本日1回目のSaveでいきなりToo Many Requests

**名無しさん＠お腹いっぱい。** · 2020/04/15(水) 22:34:44.76

やっぱりTMRの出方おかしいよな

**名無しさん＠お腹いっぱい。** · 2020/04/16(木) 00:09:58.28

400 Bad Request
Request Header Or Cookie Too Large

**名無しさん＠お腹いっぱい。** · 2020/04/16(木) 01:24:51.42

直ったっぽい　>>16

**名無しさん＠お腹いっぱい。** · 2020/04/16(木) 14:27:01.09

閲覧のほうでToo Many出すのはやめて欲しい
使い勝手が悪い

**名無しさん＠お腹いっぱい。** · 2020/04/16(木) 17:38:40.11

英語版ウィキペディア
List of Web archiving initiatives
https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

**名無しさん＠お腹いっぱい。** · 2020/04/21(火) 18:00:24.40

Internet Archive にアーカイブされたページを、
全文検索する方法ってないですか？

**名無しさん＠お腹いっぱい。** · 2020/04/23(木) 17:18:11.04

homepage2.nifty.comがみれない

**名無しさん＠お腹いっぱい。** · 2020/04/23(木) 20:46:43.90

>>20
昔はあったらしいけど、今は無いね

**名無しさん＠お腹いっぱい。** · 2020/04/24(金) 08:26:30.95

https://it.srad.jp/story/18/12/04/0637201/
＞少なくとも「インターネット上の情報を残しておく義務」も「過去にインターネット上にあった情報にアクセスできる権利」も法的にあるわけじゃないしね。

削除申請に応じる義務もないだろ

**名無しさん＠お腹いっぱい。** · 2020/04/25(土) 13:24:52.15

ブロックされて見れません
どうしたらいいですか

**名無しさん＠お腹いっぱい。** · 2020/04/25(土) 13:31:44.54

諦めましょう。

**名無しさん＠お腹いっぱい。** · 2020/04/27(月) 13:25:21.03

アーカイブされたサイトのホームページだけでなく
全文で全サイトを検索することってできますか？

**名無しさん＠お腹いっぱい。** · 2020/04/27(月) 14:28:42.88

>>26
>>20 と同じ質問の香りがする

**名無しさん＠お腹いっぱい。** · 2020/04/27(月) 15:40:04.60

>>26
おじいちゃんさっき質問したばかりでしょ

**名無しさん＠お腹いっぱい。** · 2020/04/28(火) 12:32:34.74

>>26だがあえて実現しないってことなのかな？

**名無しさん＠お腹いっぱい。** · 2020/04/28(火) 22:44:19.58

ほんもののおじいちゃんだ・・・・

**名無しさん＠お腹いっぱい。** · 2020/04/30(木) 17:37:06.70

繋がらない

**名無しさん＠お腹いっぱい。** · 2020/04/30(木) 20:41:22.93

昨日から調子悪いな

**名無しさん＠お腹いっぱい。** · 2020/04/30(木) 21:50:33.66

いつ調子がよかったですか

**名無しさん＠お腹いっぱい。** · 2020/05/02(土) 09:18:23.41

savingの読み込みから進まんね

と思ったら何分か経って完了したわ

**名無しさん＠お腹いっぱい。** · 2020/05/02(土) 13:17:39.09

なおDLは出来ない程度には重い模様

**名無しさん＠お腹いっぱい。** · 2020/05/04(月) 17:31:58.48

そう言えばレジューム出来ないの？

**名無しさん＠お腹いっぱい。** · 2020/05/04(月) 20:01:13.97

アサシャンレジューム

**名無しさん＠お腹いっぱい。** · 2020/05/04(月) 23:49:37.23

なんでか分からないけどFirefoxだと/web/2/とか/save/が使えないのに
Google Chromeだと使えるっぽいんだよな。昔はFirefoxでも使えた。
最新版に更新してアドオン切っても駄目とかどうなってんだ。
> Firefox 75.0 64bit Firefoxは最新バージョンです
> Google Chrome は最新版ですバージョン: 81.0.4044.129（Official Build）（64 ビット）
Firefoxで使えてる人いる？

**名無しさん＠お腹いっぱい。** · 2020/05/05(火) 00:04:37.61

>>38の件の追記、何故か/web/2/の方だけ復活した。
/save/は使えないまま。開くと真っ白なページが出てそれ以上何も起きない。

**名無しさん＠お腹いっぱい。** · 2020/05/11(月) 18:37:29.02

This snapshot cannot be displayed due to an internal error.

って出るサイトは無理？

**名無しさん＠お腹いっぱい。** · 2020/05/12(火) 01:23:40.96

それはダメだな
諦めろ

**名無しさん＠お腹いっぱい。** · 2020/05/13(水) 08:25:33.17

homepage2.nifty.comは１と３はできるのにどうして２だけ見れないの

**名無しさん＠お腹いっぱい。** · 2020/05/14(木) 03:12:02.56

わたしにもわかりません

**名無しさん＠お腹いっぱい。** · 2020/05/16(土) 17:43:07.77

もうこっちは駄目だ
>>9のレスと現状は違う
保存したはずが後日何度見返しても保存されてない場合がある
10回につき2～3回くらい
https://web.archive.org/save/

こっちは大丈夫
http://archive.vn/

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 09:37:06.63

>>44
どーせスポーツ新聞のサイトだろ、保存してるのって

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 11:25:01.03

保存したものの特に重要なものはリスト化してチェックしてるが取りこぼしはないな
しかし反映の遅いものは一週間以上かかる場合もあった

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 14:05:23.73

>>44
archive.today は他にもドメインがあるのに
わざわざ .vn なんか持ち出してくるとか笑える
ベトナム共産シンパかよ

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 14:52:36.40

そんなに悔しかったのかよ白湯でも飲んどけ

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 15:32:43.93

俺はこれ
http://archive.fo/

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 17:08:08.07

流れ的におすすめの白湯の紹介かと思った

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 21:58:05.32

>>49
こういうマイナーなドメインのレジストリは騙されやすいのかねぇ。
https://twitter.com/archiveis/status/1188222460598116353
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2020/05/21(木) 20:21:26.07

ニッチなニーズかもしれませんがスクリプトを公開しました。
Wayback Machine でURL検索をした際、最古または最新のページに自動で飛びます。
https://greasyfork.org/ja/scripts/403724-wayback-machine-auto-hopper

**名無しさん＠お腹いっぱい。** · 2020/05/21(木) 23:47:38.42

ありがとこんばんは

**名無しさん＠お腹いっぱい。** · 2020/05/22(金) 07:29:19.83

ヤフーニュースのスクリーンショット取れなくなった？

**名無しさん＠お腹いっぱい。** · 2020/05/22(金) 10:21:49.17

Internet Archiveってサイト保存したらどのIPが保存したとかも記録されんの？

**名無しさん＠お腹いっぱい。** · 2020/05/23(土) 14:05:21.25

>>55
どの方法でアーカイブが行われたのかも記録されているから、
おそらく IP も残っているんじゃないかねぇ。
ただ、アーカイブを読み出したときのレスポンスヘッダを見る限りでは、
その IP がアーカイブ閲覧者に漏れているような感じはしない。

あともう一つ、Archive.is がやっているような
リクエスト元 IP のアーカイブ対象サーバへのお漏らしは
Internet Archive では起きていない。

**名無しさん＠お腹いっぱい。** · 2020/05/23(土) 14:20:07.01

>>55
この辺見る限り保存はされていないっぽい
https://help.archive.org/hc/en-us/articles/360001513491-Save-Pages-in-the-Wayback-Machine
https://help.archive.org/hc/en-us/articles/360018536672-What-is-a-view-
https://blog.archive.org/2013/10/25/reader-privacy-at-the-internet-archive/

・全てのユーザーの行動はIPアドレスを元にしたハッシュ値で記録される
・一日毎にハッシュ値は変更される

とか何とか、間違ってたらすまん

56 · 2020/05/24(日) 10:41:38.58

>>57
しっかり書いてありますね。勉強になります。

**名無しさん＠お腹いっぱい。** · 2020/05/24(日) 17:36:51.34

ページの全文検索って募金が終わらないとできないの？

**名無しさん＠お腹いっぱい。** · 2020/05/26(火) 17:22:56.02

>>54

回復した

**名無しさん＠お腹いっぱい。** · 2020/05/29(金) 16:01:06.33

Twitterでたまにjsonが取れる現象なんとかならないのかね

**名無しさん＠お腹いっぱい。** · 2020/05/29(金) 19:18:21.90

やったじゃん
むしろほしい

◆P0jSlC5fJs · 2020/05/30(土) 13:52:08.25

Vuepressのページを保存すると一瞬は表示されるけどすぐ404に画面が書き換わっちゃう
https://web.archive.org/web/20200528205956/https://hapicode.com/vuepress/config.html

**名無しさん＠お腹いっぱい。** · 2020/05/30(土) 14:20:01.49

見たが普通に表示されてる

**名無しさん＠お腹いっぱい。** · 2020/05/30(土) 15:53:03.29

俺は見てない

**名無しさん＠お腹いっぱい。** · 2020/05/30(土) 16:31:26.19

ふむふむ。
https://web.archive.org/web/20200528205956im_/hapicode.com/vuepress/config.html

**名無しさん＠お腹いっぱい。** · 2020/06/02(火) 20:27:56.79

平和(・∀・)ｲｲ!!

**名無しさん＠お腹いっぱい。** · 2020/06/03(水) 02:42:09.09

>>63
別サイトのページだが俺もそれ多い
全部じゃないけど…

**名無しさん＠お腹いっぱい。** · 2020/06/03(水) 05:21:59.69

>>62
自分でパーサなり何なり通さないと読めないから言うほど便利じゃないぞ
それにWayback Machineを使う場合、jsonが欲しい時よりもhtmlとして描画された状態のアーカイブが欲しいことの方が多い

**名無しさん＠お腹いっぱい。** · 2020/06/03(水) 18:43:00.59

ttps://twitter.com/internetarchive/status/1268108466192703489
また落ちたか
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 02:20:35.43

Internet ArchiveってURLで保存する方法とは別に
htmlソースコピーで保存する方法も出来るようにすればいいのに
当然独自URL生成する必要性も出てくるけど

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 02:53:38.00

うpろだかよw

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 11:50:13.06

ツイッターがInternet Explorerからの閲覧をできないようにしたらしく、その影響でツイッターのアーカイブがとれなくなってしまったんだけどどうしたらいいだろう？
今までInternet Explorerからならツイッターのアーカイブがとれたんだけど…他のブラウザからじゃアーカイブできないのよ困った

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 13:28:28.43

試してないけどmobile.twitter.comもだめなん

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 15:25:44.03

>>73
もしかしてThis page is available on the web!から取ってない？
あれは保存する奴の環境に左右されるから使えんよ
https://web.archive.org/save
からなら問題なく取れる

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 15:25:45.36

>>74
今ためしてみたらmobileの方でならアーカイブできたわ
ありがとう
でもなんでまたツイッターは急にIEからの閲覧はじくようになったんだろう？

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 15:27:58.42

>>75
よく分からないけどアーカイブしようとすると「このブラウザは現在サポートされていません」て出てくる
調べたら最近ツイッターがIEから閲覧できないようにしたらしいって言われてたから

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 15:31:37.89

>>75
今そのURLから保存してみたらmobileじゃなくてもアーカイブできたわ
どうもありがとう

**名無しさん＠お腹いっぱい。** · 2020/06/06(土) 15:33:25.33

Internet Archive ってなんで全ページ検索できるようにしないの？

**名無しさん＠お腹いっぱい。** · 2020/06/06(土) 15:33:25.70

Internet Archive ってなんで全ページ検索できるようにしないの？

◆P0jSlC5fJs · 2020/06/07(日) 18:25:56.95

>>79
高負荷だからだとおもう

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 01:47:07.90

すみません
ツイッター保存してるとけっこう頻繁に.jsonてURLについて謎の文字化けみたいになってしまうんですが、これはいったい…？
どうしたらいいんだろう

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 11:56:33.80

>>82
ちょっと前からたまに起きる現象、原因は分からない・・・
面倒だけどちゃんと取れるまで取り直すしかない

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 12:01:17.42

>>75
に追加
This page is available on the web!からだけじゃなくて
https://archive.org/web/
のSave Page Nowもダメっぽい
基本的にhttps://web.archive.org/saveを使った方が良さげ

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 12:11:18.46

Save Page Nowにあるこのチェックは何の意味があるの

＞Save error pages (HTTP Status=4xx, 5xx)

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 13:28:21.88

エラー画面を保存するかしないか

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 13:29:41.66

しらんけど
例えば「404 Not Found」だけのページだった場合に
「そこにはなにもなかった」ってことにするか、
それとも「404 Not Foundがあったのだ」ってことにするかだと思う

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 20:02:31.91

>>83
どうも
取り直せばいけるなら何度かトライしてみます

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 22:26:30.20

>>79
昔一度やったことあるけど情報量があまりにも多過ぎて重すぎてまともに検索できなかったとか見た
全文検索できたら本当にいいんだけど現時点では無理ぽい…

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 23:59:41.72

<title>だけでも検索できるとめちゃ便利なんだけどな

**名無しさん＠お腹いっぱい。** · 2020/06/10(水) 17:55:12.02

アーカイブってエロサイト保存した場合動画も保存されんの？

**名無しさん＠お腹いっぱい。** · 2020/06/10(水) 19:12:24.60

基本的にされないと思った方が良い

**名無しさん＠お腹いっぱい。** · 2020/06/11(木) 11:34:40.23

訴訟問題は大丈夫なのかな
大事にならないといいが

**名無しさん＠お腹いっぱい。** · 2020/06/11(木) 12:56:19.55

訴訟問題って何？

**名無しさん＠お腹いっぱい。** · 2020/06/12(金) 00:22:25.00

何か前にあったような気もするが
フェアユースだしな

**名無しさん＠お腹いっぱい。** · 2020/06/12(金) 19:12:09.28

Internet Archiveが公開してる電子書籍について出版社から訴えられたとかじゃなかったか
Gigazineだかどっかのネットニュースに出てたね

**名無しさん＠お腹いっぱい。** · 2020/06/13(土) 00:03:15.44

電子書籍って保存出来るんなら無料で見れるやつじゃないの？

**名無しさん＠お腹いっぱい。** · 2020/06/13(土) 02:03:05.75

これだな
詳しくは記事見てくれ

米国の複数の大手出版社がInternet Archive（IA）に対する著作権侵害訴訟を提訴
Posted 2020年6月3日
https://current.ndl.go.jp/node/41125

Internet Archive（IA）、“National Emergency Library”の終了を早めることを発表
Posted 2020年6月12日
https://current.ndl.go.jp/node/41213

**名無しさん＠お腹いっぱい。** · 2020/06/13(土) 20:38:47.97

もしかしてTwitter取れなくなった？
https://web.archive.org/saveでもダメだ

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 11:13:18.22

こっちは拾える
ttp://archive.fo/

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 15:05:21.28

インターネット初心者です。
質問なのですが、save page nowでページをアーカイブした場合、Internet archiveの説明ではIPアドレスを保持しないため匿名で保存できるとなっているのですが本当でしょうか。
また、save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。(すでに削除されていて、今は見ることができずアーカイブもそれまでされていないようなページの場合)教えて頂きたいです。無知ですみません。

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 17:13:12.66

>>99
自分も今日いくらやっても連続してツイートのアーカイブに失敗するから、自分の環境が悪いのかと思ったけどこれは……

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 17:27:12.26

>>101
・IPアドレス：>>55-57を参照
・過去のページ情報：
「save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。」
その認識で合ってる。SPNは「現時点でのページをアーカイブする」ことしか出来ない。
過去のページをアーカイブできる技術はないし、するにはタイムマシンが必要。
現在削除済みでアーカイブも残っていないページは諦めよう

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 17:48:04.05

「ツイッター魚拓」とかいう国産サービスができたらしいが。