Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:08:09.83

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 21:15:33.82

>>160
それ取得者の環境に左右されるからあんまり使いたくないんだよね

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 08:54:45.81

Hrmになって取れてなかったと思っても
後で検索するとちゃんと取れてることも多いな

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 13:38:29.18

Hrm連発でも3回ほどチャレンジしとくと高確率で取れてた

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 14:05:54.69

取れない問題については>>1のテンプレに含めるべきだな
インデクシングとアーカイブは別々のレイヤーで処理されてるから、
一見取れてないように見えても実は取れてることが多い

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 15:09:04.44

ここ数日のは反映がかなり遅いだけでちゃんと取れてるね

**名無しさん＠お腹いっぱい。** · 2020/06/30(火) 16:11:19.16

https://web.archive.org/save/http://～は即時反映でSave Page Nowは遅れて反映されるっぽい

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 10:10:10.27

>>21
>>42
dion.ne.jp
biglobe.ne.jp
jcom.co.jp
も見れないな

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 11:23:57.89

かなりデカい保存対象がやってきた

NAVERまとめサービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html

>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 16:43:58.70

雑多なまとめサイトすぎて好きじゃなかったな

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 16:49:15.19

所詮は南鮮資本w

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 17:09:06.99

雑多なまとめも多いけど、これを個人サイト的に使ってる人も割といるんだよね
そういう人の書いた良質なページが消えるのは困る

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 18:04:14.59

閉鎖される予定のサイトってnaverまとめ以外何かある？

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:31:56.99

>>168
ヤフーと合併予定でその事業整理過程で精査されてしまったね
まとめサイトのネガティブイメージとかコンプラとかで嫌われる理由はいくらでもあるが

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:47:21.16

>>172
【保存・記録】ウェブアーカイブ総合 Page.01 https://mevius.5ch.net/test/read.cgi/internet/1554553882/

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:57:22.61

NAVERまとめ、サラッと見た感じだと1ページ目は取ってあるけど
2ページ目以降が無いっていういつものパターンが多いな

**名無しさん＠お腹いっぱい。** · 2020/07/02(木) 21:17:22.61

>>171
知らなかった
いろいろな使い方があるもんだ

**名無しさん＠お腹いっぱい。** · 2020/07/02(木) 22:52:12.91

最近のサイトはスマホ用とPC用の画面分けてるが
アーカイブってPC用しか保存されんの？

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 00:34:04.34

スマホのUAでアクセスしたらスマホ用が保存されんじゃないの知らんけど

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 11:11:11.87

Googleが10年以上前のサイトはもう検索結果に出すのやめたそう
やっぱページ膨大だと検索きついのか…
にしても10年より前の情報にはアクセスする手段が無くなるってすごい損失な気がするが

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 14:23:53.34

10年以上前のサイトはそれ専用Googleとか検索エンジン用意すりゃいいのに

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 23:52:26.95

>>179
期間指定すれば普通に検索できるって聞いてたけど違うの？

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 15:07:25.27

>>179

> にしても10年より前の情報にはアクセスする手段が無くなる

他の検索エンジンなら大丈夫

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 16:05:37.33

普通に10年前以上の結果出るしデマでは？

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 16:52:27.76

Internet Archiveはgoogleみたいにキーワード検索出来るようにすればいいのに

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:06:10.22

デジャブジャブジャブなスレだな

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:08:23.67

>>184
鯖に負担かかりすぎてえらいことになりそう

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:49:51.86

検索機能の話もテンプレ入れた方が良さげだな
数年前に一度全文検索機能が入ったことがあったんだけど、検索対象となるデータの量があまりに急速に増えて追いつかないとかですぐ無くなったんだよ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:51:21.60

検索エンジンってサーバリソースを大量に必要とするから、ギリギリの状態でサーバ動かしてる現状のIAではまず無理なんじゃないだろうか

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:11:27.16

全文検索ほしい人は10億円くらい寄付しろ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:32:30.78

せめてタイトルだけでも検索できればいいのにな

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:49:53.36

この流れ前も見たぞ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 23:55:00.95

検索したいならInternet Archiveに金落とせ、話はそれからだ

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:02:58.15

金落とす金額が鯖代と維持費込みじゃないと無理だろうな

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:41:08.37

一つのURLに重複保存される画像・動画をAIで認識して削除したら、容量の削減になるのに

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:53:13.92

ツイッターの失敗は保存しなくていいのにね

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 02:47:20.57

>>194
単にコンテントボディをバイナリ比較すれば良いだけの話なのに AI を使うとか
こんなんじゃ、IA のレスポンスヘッダを含めて丸ごと保存する価値が解る訳も無いなw

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 04:54:05.25

AIとIA

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:05:45.68

そんな用途のためにわざわざAI使ったりしないだろうと思うけどそこは置いておいて、
AI動かすのにだって大量のサーバリソースは必要なんだよ
本末転倒

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:09:03.83

普通に考えて重複保存じゃなくて差分を保存してると思うんだけど・・・

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:29:12.66

アーカイブ見てるとどう考えてもまったく同じ内容のページを何回も重複して保存してるのよくあってサーバーの容量がもったいないなと思う事はよくある
特に自動クロールでとってるであろうサイトのメインページなんて毎日何百ページ位も同じ画面とり続けてたりする

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 13:10:12.04

全く同じなら容量変わらなくね？
タイムスタンプが更新されるだけでは
まぁWayBackの仕組みが分からないので断言は出来ないけど

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 13:43:22.32

最近アーカイブしても存在してないって言われることが多くなったから
archive.today使ってる

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 14:42:20.88

同じurlのzipで古い物は破損していて
それより新しい物は正常だった事がある

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 15:37:07.67

バイナリデータで1バイトか２バイトか3バイトか忘れたけどファイルの最後にブランクデータが追加か削除されたせいで破損扱いになってる
バイナリエディタで00を増減すれば大丈夫だよ

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 16:02:13.33

googleもmetaタグを元に表示してるだけだし
Internet Archiveも最低限の情報だけ検索表示出来るようにすればいいのに

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 19:38:36.99

>>203
2000 年代の古いアーカイブを漁っていたりすると、
中身が数メガバイトでちょん切れてしまっているものがかなりある。
古い Microsoft のバイナリ等で良く出くわす。
データ化けは見たことが無い。

おそらく、IA は Content-Length ヘッダの値と
コンテントボディの実サイズとの整合をチェックしていない。
何か巨大ファイルをアーカイブさせて、それが正しく保管できたか調べたい場合は
実際に当該アーカイブを最後まで読み出すしか無い。

>>204
それは昔のアーカイブ出力段の問題ではなかったか。
コンテントの末尾 1 バイトが \x00 だと、それが欠ける。
2011 年あたりの大改変の後は見たことが無い。

>>201
タイムスタンプだけかw
アーカイブ時のサーバ側のシステム時計の値 (たまにズレてる奴がいる)、
使用されていたサーバソフトウェアの名前、
読み出したファイル自身のサイズやタイムスタンプ、
ETag のような識別子、
その他サーバが垂れ流した、ありとあらゆるものを
そのまま丸ごと保存してるんだよ。

**名無しさん＠お腹いっぱい。** · 2020/07/06(月) 20:56:53.08

ガチでTwitterからツイートをアーカイブするなと圧力受けてんのか？
このスレ読んで何回やってもアーカイブできんぞ

**名無しさん＠お腹いっぱい。** · 2020/07/06(月) 21:01:27.66

Tweetsaveもタイムアウトばっかで保存できん

**名無しさん＠お腹いっぱい。** · 2020/07/06(月) 21:13:49.37

Tweetsaveは半年前に比べたら生きまくってるよ
半年前までは1ヶ月まともに動かないとかあったし半月は当たり前に動かなかったわ

**名無しさん＠お腹いっぱい。** · 2020/07/06(月) 21:41:33.52

>>207
最近出版業界から訴えられたから有り得る話だな

**名無しさん＠お腹いっぱい。** · 2020/07/06(月) 21:49:26.34

>>208
save用ページから保存しないと今のところ無理で
それも失敗が多い

**名無しさん＠お腹いっぱい。** · 2020/07/07(火) 14:31:16.24

もう全部テンプレに書いた方がいいんじゃね？
話題が無限ループしてる

**名無しさん＠お腹いっぱい。** · 2020/07/07(火) 14:49:56.67

もともと話題も少ないからな
保守してると思えばいい

**名無しさん＠お腹いっぱい。** · 2020/07/07(火) 14:52:23.22

>>212

同意

**名無しさん＠お腹いっぱい。** · 2020/07/08(水) 07:37:39.06

最近TwitterがJob failedになって全然保存できない…

**名無しさん＠お腹いっぱい。** · 2020/07/08(水) 07:39:08.58

今やってたけど同じだわ

**名無しさん＠お腹いっぱい。** · 2020/07/08(水) 14:28:55.01

Tweetsaveで保存してもIAにはアーカイブされない
やっぱり圧力掛かってんのかな
誰も問題にしないのが驚きだけど

**名無しさん＠お腹いっぱい。** · 2020/07/08(水) 16:39:05.98

Tweetsaveからのはすぐに保存されてる印象が無いな

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 03:08:56.30

Job failedになっても検索すると出てくるから一応保存されてるっぽい

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 04:44:07.65

確かにちょっと待てば保存されてた

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 16:54:29.37

Twitterじゃない普通のウェブサイトを保存しようとしても
保存できたと思ってクリックしたら404 not foundが出てアーカイブされてませんと出る
10分待たないと再保存できない

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 17:04:17.03

10分経ったから同じサイトをやってみようとしても404としか出ない

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 17:42:01.05

どこのサイトか言わないと永久に誰も分からない案件

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 21:01:04.00

Twitter、いくつかアーカイブして実験したけど
Job failedやtask limitになっても取れてるっぽい
しばらくしてから確認したらカレンダーに反映されてた

**名無しさん＠お腹いっぱい。** · 2020/07/11(土) 15:52:13.92

/save/がNot FoundやらBad Gatewayになるけど少したってAPIを見ると保存されていたりなかったりする。どうなってんだ

**名無しさん＠お腹いっぱい。** · 2020/07/11(土) 16:13:06.22

Not Foundくらったわ

**名無しさん＠お腹いっぱい。** · 2020/07/11(土) 18:00:18.44

>>202
俺も使ってる
web.archiveも併用してるけど取得失敗が多くなってきた
いまも取得を試みたがNot Foundだ

**名無しさん＠お腹いっぱい。** · 2020/07/11(土) 19:22:59.78

今日はなんか調子悪いね

**名無しさん＠お腹いっぱい。** · 2020/07/11(土) 20:04:52.37

なんかこのスレの雰囲気って気象板にある地域の天気スレに似てる気がしてきた

**名無しさん＠お腹いっぱい。** · 2020/07/12(日) 02:05:50.03

>>229
ちょっと笑った
そのスレは知らないけど確かに似たところはあるかもね
しかし天気と違ってInternet Archiveの調子は予測できないのが

**名無しさん＠お腹いっぱい。** · 2020/07/12(日) 02:08:06.41

アーカイブ(Heritrix)とインデクシング(Wayback)は別々のソフトウェアで分担して動いてるから、
反映されてないように見えても実は取れてることが多いんだよと何度言ったら

**名無しさん＠お腹いっぱい。** · 2020/07/12(日) 03:04:42.31

どちらの調子の悪い時もあるからな
裏で取れてると思い込んでたら取れてなかったじゃ話にならん品

**名無しさん＠お腹いっぱい。** · 2020/07/12(日) 11:35:09.50

電子コミックとか一時無料になる場合あるけど
ああいうの保存出来ないの？

**名無しさん＠お腹いっぱい。** · 2020/07/12(日) 13:02:43.51

出来るか否かは試すしかない
有料サイトのはリスクありそうだから試さないけど

**名無しさん＠お腹いっぱい。** · 2020/07/13(月) 01:01:32.93

仮に取れてもサイト側が削除申請出せば消せるしね
10年くらい前の話だけど、二次創作小説専門サイトが著作権の問題で閉鎖になった時、
Wayback Machineに残ってたアーカイブもまとめて全部削除されちゃったんだよね

**名無しさん＠お腹いっぱい。** · 2020/07/13(月) 15:07:19.26

自分で保存するのが確実だね

**名無しさん＠お腹いっぱい。** · 2020/07/14(火) 03:49:25.53

保存したマンガのファイルを自分でInternet Archiveにアップロードするという手も一応ある(IAのアカウント登録が必要なはず)
アメリカではフェアユース関連でその辺が緩いのかは知らないが、
マイナーな日本漫画の英訳版zipがアップされてる事も時たまあるよ
日本からこれをやって捕まったという話は聞いたことがないけど、お勧めはしないし止めておいた方が無難

**名無しさん＠お腹いっぱい。** · 2020/07/14(火) 03:56:30.73

補足しておくとInternet Archive上の漫画etcが全部グレーゾーンな訳ではなくて、
著作権者の許諾を得て大っぴらに収録されてるものもかなり多い

**名無しさん＠お腹いっぱい。** · 2020/07/14(火) 11:01:46.40

例えば？

**名無しさん＠お腹いっぱい。** · 2020/07/14(火) 21:34:43.78

ttps://togetter[.]com/li/1559186

これをアーカイブすると一瞬表示できたかと思ったら「ERR_HTTP2_SERVER_REFUSED_STREAM」と出る

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 01:59:24.55

>>239
適当に検索して出てきたのを貼っておく
とある科学の超電磁砲8巻
https://archive.org/details/certainscientifi0000kama_m4a2

Internet Archiveの検索欄から"Search metadata"で探すと色々出てくるよ

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 11:10:44.09

日本語版はないのか

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 17:35:15.30

最新版をアーカイブできたと思ったら数年前のアーカイブに強制リダイレクトされる

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 19:09:31.66

>>243
最新版のインデクシングが完了してないとそうなる事がある
しばらく（数時間〜数日）待ってからもう一度閲覧できるか確認するといい

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 21:25:17.65

>>241
こういうのってIA側が出版社に表示使用料払ったりしてんの？

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 21:49:14.83

無許可

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 22:30:09.70

>>245
上に貼ったやつの場合は許諾を得てるようだからおそらく使用料も払われてるとは思うが、
出版社から訴訟起こされたなんて話もつい最近あったし、よう分からん

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 23:31:02.72

版権の所在がもうつかめない作品もゴロゴロでてくるから
基本無許可だろ

**名無しさん＠お腹いっぱい。** · 2020/07/16(木) 15:31:48.35

togetterって保存できない？

**名無しさん＠お腹いっぱい。** · 2020/07/16(木) 18:48:52.81

やっぱりtogetterはダメだな
意図的にアーカイブ出来ないように設定されてんのか？

**名無しさん＠お腹いっぱい。** · 2020/07/16(木) 18:59:38.76

>>250
https://togetter.com/robots.txt
> User-agent: ia_archiver
> Disallow: /

robots.txt で拒否設定してるけど、それ以前に IP か何かで弾いてるようだな。

**名無しさん＠お腹いっぱい。** · 2020/07/16(木) 19:21:22.62

魚拓とか他の試せばええやん

**名無しさん＠お腹いっぱい。** · 2020/07/16(木) 23:40:51.82

どうしてもIAに入れたいなら
他のサイトでアーカイブ→そのアーカイブをIAでアーカイブ
すればいい

**名無しさん＠お腹いっぱい。** · 2020/07/17(金) 01:12:59.61

>>253
できなくない？他のどの魚拓サイトのURL入れてもNGになって無理なんだけど

**名無しさん＠お腹いっぱい。** · 2020/07/17(金) 03:03:38.51

https://web.archive.org/web/20200713012608/https://togetter.com/li/1558179

**名無しさん＠お腹いっぱい。** · 2020/07/17(金) 12:10:51.26

todayが死んでる……

**名無しさん＠お腹いっぱい。** · 2020/07/18(土) 13:51:46.77

todayは運営元が不明な時点でいつ消えてもおかしくないので
あくまで気休め用

**名無しさん＠お腹いっぱい。** · 2020/07/18(土) 15:14:17.58

todayもウェブ魚拓も固定回線からのアクセスをブロックするようになった気がする

**名無しさん＠お腹いっぱい。** · 2020/07/18(土) 20:08:24.38

それをすることに何の意味があるのでせう

**名無しさん＠お腹いっぱい。** · 2020/07/19(日) 00:36:31.27

分からん
自分の場合、todayに固定回線でアクセスすると
「Access to this website is blocked Plume」ってメッセージが出てくるようになった
ウェブ魚拓はHTTP 511エラーを吐いてくる
これまではInternet Archiveと使い分けてたんだけど、こうなるとInternet Archiveで色々保存しないといけなくなるな