Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:08:09.83

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

**名無しさん＠お腹いっぱい。** · 2020/07/07(火) 14:49:56.67

もともと話題も少ないからな
保守してると思えばいい

**名無しさん＠お腹いっぱい。** · 2020/07/07(火) 14:52:23.22

>>212

同意

**名無しさん＠お腹いっぱい。** · 2020/07/08(水) 07:37:39.06

最近TwitterがJob failedになって全然保存できない…

**名無しさん＠お腹いっぱい。** · 2020/07/08(水) 07:39:08.58

今やってたけど同じだわ

**名無しさん＠お腹いっぱい。** · 2020/07/08(水) 14:28:55.01

Tweetsaveで保存してもIAにはアーカイブされない
やっぱり圧力掛かってんのかな
誰も問題にしないのが驚きだけど

**名無しさん＠お腹いっぱい。** · 2020/07/08(水) 16:39:05.98

Tweetsaveからのはすぐに保存されてる印象が無いな

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 03:08:56.30

Job failedになっても検索すると出てくるから一応保存されてるっぽい

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 04:44:07.65

確かにちょっと待てば保存されてた

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 16:54:29.37

Twitterじゃない普通のウェブサイトを保存しようとしても
保存できたと思ってクリックしたら404 not foundが出てアーカイブされてませんと出る
10分待たないと再保存できない

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 17:04:17.03

10分経ったから同じサイトをやってみようとしても404としか出ない

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 17:42:01.05

どこのサイトか言わないと永久に誰も分からない案件

**名無しさん＠お腹いっぱい。** · 2020/07/09(木) 21:01:04.00

Twitter、いくつかアーカイブして実験したけど
Job failedやtask limitになっても取れてるっぽい
しばらくしてから確認したらカレンダーに反映されてた

**名無しさん＠お腹いっぱい。** · 2020/07/11(土) 15:52:13.92

/save/がNot FoundやらBad Gatewayになるけど少したってAPIを見ると保存されていたりなかったりする。どうなってんだ

**名無しさん＠お腹いっぱい。** · 2020/07/11(土) 16:13:06.22

Not Foundくらったわ

**名無しさん＠お腹いっぱい。** · 2020/07/11(土) 18:00:18.44

>>202
俺も使ってる
web.archiveも併用してるけど取得失敗が多くなってきた
いまも取得を試みたがNot Foundだ

**名無しさん＠お腹いっぱい。** · 2020/07/11(土) 19:22:59.78

今日はなんか調子悪いね

**名無しさん＠お腹いっぱい。** · 2020/07/11(土) 20:04:52.37

なんかこのスレの雰囲気って気象板にある地域の天気スレに似てる気がしてきた

**名無しさん＠お腹いっぱい。** · 2020/07/12(日) 02:05:50.03

>>229
ちょっと笑った
そのスレは知らないけど確かに似たところはあるかもね
しかし天気と違ってInternet Archiveの調子は予測できないのが

**名無しさん＠お腹いっぱい。** · 2020/07/12(日) 02:08:06.41

アーカイブ(Heritrix)とインデクシング(Wayback)は別々のソフトウェアで分担して動いてるから、
反映されてないように見えても実は取れてることが多いんだよと何度言ったら

**名無しさん＠お腹いっぱい。** · 2020/07/12(日) 03:04:42.31

どちらの調子の悪い時もあるからな
裏で取れてると思い込んでたら取れてなかったじゃ話にならん品

**名無しさん＠お腹いっぱい。** · 2020/07/12(日) 11:35:09.50

電子コミックとか一時無料になる場合あるけど
ああいうの保存出来ないの？

**名無しさん＠お腹いっぱい。** · 2020/07/12(日) 13:02:43.51

出来るか否かは試すしかない
有料サイトのはリスクありそうだから試さないけど

**名無しさん＠お腹いっぱい。** · 2020/07/13(月) 01:01:32.93

仮に取れてもサイト側が削除申請出せば消せるしね
10年くらい前の話だけど、二次創作小説専門サイトが著作権の問題で閉鎖になった時、
Wayback Machineに残ってたアーカイブもまとめて全部削除されちゃったんだよね

**名無しさん＠お腹いっぱい。** · 2020/07/13(月) 15:07:19.26

自分で保存するのが確実だね

**名無しさん＠お腹いっぱい。** · 2020/07/14(火) 03:49:25.53

保存したマンガのファイルを自分でInternet Archiveにアップロードするという手も一応ある(IAのアカウント登録が必要なはず)
アメリカではフェアユース関連でその辺が緩いのかは知らないが、
マイナーな日本漫画の英訳版zipがアップされてる事も時たまあるよ
日本からこれをやって捕まったという話は聞いたことがないけど、お勧めはしないし止めておいた方が無難

**名無しさん＠お腹いっぱい。** · 2020/07/14(火) 03:56:30.73

補足しておくとInternet Archive上の漫画etcが全部グレーゾーンな訳ではなくて、
著作権者の許諾を得て大っぴらに収録されてるものもかなり多い

**名無しさん＠お腹いっぱい。** · 2020/07/14(火) 11:01:46.40

例えば？

**名無しさん＠お腹いっぱい。** · 2020/07/14(火) 21:34:43.78

ttps://togetter[.]com/li/1559186

これをアーカイブすると一瞬表示できたかと思ったら「ERR_HTTP2_SERVER_REFUSED_STREAM」と出る

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 01:59:24.55

>>239
適当に検索して出てきたのを貼っておく
とある科学の超電磁砲8巻
https://archive.org/details/certainscientifi0000kama_m4a2

Internet Archiveの検索欄から"Search metadata"で探すと色々出てくるよ

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 11:10:44.09

日本語版はないのか

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 17:35:15.30

最新版をアーカイブできたと思ったら数年前のアーカイブに強制リダイレクトされる

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 19:09:31.66

>>243
最新版のインデクシングが完了してないとそうなる事がある
しばらく（数時間〜数日）待ってからもう一度閲覧できるか確認するといい

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 21:25:17.65

>>241
こういうのってIA側が出版社に表示使用料払ったりしてんの？

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 21:49:14.83

無許可

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 22:30:09.70

>>245
上に貼ったやつの場合は許諾を得てるようだからおそらく使用料も払われてるとは思うが、
出版社から訴訟起こされたなんて話もつい最近あったし、よう分からん

**名無しさん＠お腹いっぱい。** · 2020/07/15(水) 23:31:02.72

版権の所在がもうつかめない作品もゴロゴロでてくるから
基本無許可だろ

**名無しさん＠お腹いっぱい。** · 2020/07/16(木) 15:31:48.35

togetterって保存できない？

**名無しさん＠お腹いっぱい。** · 2020/07/16(木) 18:48:52.81

やっぱりtogetterはダメだな
意図的にアーカイブ出来ないように設定されてんのか？

**名無しさん＠お腹いっぱい。** · 2020/07/16(木) 18:59:38.76

>>250
https://togetter.com/robots.txt
> User-agent: ia_archiver
> Disallow: /

robots.txt で拒否設定してるけど、それ以前に IP か何かで弾いてるようだな。

**名無しさん＠お腹いっぱい。** · 2020/07/16(木) 19:21:22.62

魚拓とか他の試せばええやん

**名無しさん＠お腹いっぱい。** · 2020/07/16(木) 23:40:51.82

どうしてもIAに入れたいなら
他のサイトでアーカイブ→そのアーカイブをIAでアーカイブ
すればいい

**名無しさん＠お腹いっぱい。** · 2020/07/17(金) 01:12:59.61

>>253
できなくない？他のどの魚拓サイトのURL入れてもNGになって無理なんだけど

**名無しさん＠お腹いっぱい。** · 2020/07/17(金) 03:03:38.51

https://web.archive.org/web/20200713012608/https://togetter.com/li/1558179

**名無しさん＠お腹いっぱい。** · 2020/07/17(金) 12:10:51.26

todayが死んでる……

**名無しさん＠お腹いっぱい。** · 2020/07/18(土) 13:51:46.77

todayは運営元が不明な時点でいつ消えてもおかしくないので
あくまで気休め用

**名無しさん＠お腹いっぱい。** · 2020/07/18(土) 15:14:17.58

todayもウェブ魚拓も固定回線からのアクセスをブロックするようになった気がする

**名無しさん＠お腹いっぱい。** · 2020/07/18(土) 20:08:24.38

それをすることに何の意味があるのでせう

**名無しさん＠お腹いっぱい。** · 2020/07/19(日) 00:36:31.27

分からん
自分の場合、todayに固定回線でアクセスすると
「Access to this website is blocked Plume」ってメッセージが出てくるようになった
ウェブ魚拓はHTTP 511エラーを吐いてくる
これまではInternet Archiveと使い分けてたんだけど、こうなるとInternet Archiveで色々保存しないといけなくなるな

**名無しさん＠お腹いっぱい。** · 2020/07/19(日) 00:43:41.76

today復活したか
結構長く止まってたな

**名無しさん＠お腹いっぱい。** · 2020/07/21(火) 00:34:16.68

重杉

**名無しさん＠お腹いっぱい。** · 2020/07/21(火) 01:39:06.41

俺はarchive.todayは問題なく使えてる
Wayback Machineは繋がらなかったり取りこぼしが結構あって残念
後日見返しても取れてないし
いまも繋がらない…

Unknown Error
502 Bad Gateway

**名無しさん＠お腹いっぱい。** · 2020/07/22(水) 22:35:35.00

お、This page is available on the web!でも
https://web.archive.org/save
に飛ばされるようになってる
やっと統一されたのか

**名無しさん＠お腹いっぱい。** · 2020/07/22(水) 23:22:28.96

todayのCloudflareうぜええ
てかなんでこいつはいつまでもreCAPTCHAのままなんだよ

**名無しさん＠お腹いっぱい。** · 2020/07/22(水) 23:31:19.40

重杉

**名無しさん＠お腹いっぱい。** · 2020/07/23(木) 03:51:45.43

Cloudflare「もどき」しか見ないなw

**名無しさん＠お腹いっぱい。** · 2020/07/23(木) 20:33:40.82

ボタンの外見が変わって見づらく感じる

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 00:40:34.99

ボタン？

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 10:54:38.67

https://web.archive.org/save/の後に続く数字が保存中に
_embed/に勝手に変わって保存されない。。。

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 12:49:21.81

保存失敗していたと思ったら1日やら何時間も経ってからやっと反映された
そろそろ限界が近いのだろうか？

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 17:29:43.07

それは普通だが4月に保存したものがいくつか保存されてなかった

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 18:10:50.68

実はそれも普通なのだ

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 18:44:38.56

何事も一期一会、保存などという邪道なものに頼ろうとするな

**名無しさん＠お腹いっぱい。** · 2020/07/24(金) 22:49:38.35

http://web.archive.org/web/数字/http://
↓
http://web.archive.org/web/数字/https://

httpsになっているサイトがhttp時代の過去のサイトの画像が自動表示保存されない場合は、https://を入れると自動表示保存される。（例:impress・itmediaなど）

**名無しさん＠お腹いっぱい。** · 2020/07/25(土) 00:04:58.43

どういうことだ

**名無しさん＠お腹いっぱい。** · 2020/07/25(土) 11:48:35.27

503が出てアーカイブされてるかどうかすら確認できなくなってる

**名無しさん＠お腹いっぱい。** · 2020/07/25(土) 22:31:53.72

ここ2週間ほど調子悪杉だろ

**名無しさん＠お腹いっぱい。** · 2020/07/25(土) 23:31:37.24

仕方ないからarchive.today使ってる

**名無しさん＠お腹いっぱい。** · 2020/07/26(日) 21:51:46.95

>>278
done!が出るまで何度もやらないと、魚拓検索ではweb.archive.orgで取れてる扱いでも取れてない
んで失敗してるうちに待ち時間が10分近くとかに増えていくから、合計だと何分かかるか分からない
消えちゃ困るフリーソフトとかぐらいしか、そんだけ待って取る価値ないわな
archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ

**名無しさん＠お腹いっぱい。** · 2020/07/26(日) 22:00:36.20

>>280
> 失敗してるうちに待ち時間が10分近くとか
手作業でやってるんだw

**名無しさん＠お腹いっぱい。** · 2020/07/26(日) 22:09:17.35

>>281
ソフトかスクリプトかなんかあるの？
他の作業しながら進捗チラ見してる感じだわ

**名無しさん＠お腹いっぱい。** · 2020/07/26(日) 22:10:02.48

archive.todayはとまりすぎじゃね？

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 11:53:01.60

>> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いやそりゃBANされるだろ
サーバ動かすのだってタダじゃないんだよ
自分がアーカイブサイト運営してたとしてもそれはしばらくアク禁にするわ

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 12:24:25.45

>>284
だったら最初から制限事項を表示しろって話
騙し討ちみたいなもんじゃん
別に不正アクセスしたわけじゃないし、dos攻撃みたいに明らかに悪意あるように見えるほど高速でもないんだし

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 15:06:40.42

IAってスクリプトとか保存しないように設定出来れば
保存容量や表示軽く出来そうなのに

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 16:25:19.72

それはもう別もんやろ

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 16:54:48.41

どうしてもアーカイブできないサイトはページ丸ごとスクショしてそれをどっかにあげてアーカイブすればいいか
でも大きなスクショ劣化なしであげられるとこってなかなかないよね
どっかあるかな？

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 21:08:42.38

Tweetsaveも不安定過ぎる
アーカイブ化を妨害したい勢力が暗躍してんだな

**名無しさん＠お腹いっぱい。** · 2020/07/27(月) 21:18:11.93

クラウドフレア依存が不安定の原因に思えてくる
IAは違いそうだが

**名無しさん＠お腹いっぱい。** · 2020/07/28(火) 01:10:49.40

スクショって画像化の事言ってんの？
そんな事するくらいならWebページ保存ソフト使えよ

**名無しさん＠お腹いっぱい。** · 2020/07/28(火) 01:15:00.88

web保存じゃないと捏造言われるからなぁ

**名無しさん＠お腹いっぱい。** · 2020/07/28(火) 01:30:19.93

スクショは捏造できる

**名無しさん＠お腹いっぱい。** · 2020/07/28(火) 05:58:41.77

>>292
アーカイブ化を妨害したい勢力なんじゃねｗ
自演やる奴ほど自演疑うみたいな

**名無しさん＠お腹いっぱい。** · 2020/07/28(火) 06:39:39.83

https://gigazine.net/news/20191212-thread-internet-archives-silent-killer/
コストを削減したければクローリングするウェブサイトを減らし、一部のデータ保存活動を停止すればOKですが、この考えは世界全体にとっていいアイデアではないとスコット氏は主張。
↑
1分20ページから50ページ保存に緩和してくれ

或いは有料プランを作ってくれ

◆P0jSlC5fJs · 2020/07/28(火) 07:07:27.82

>>288
大抵はWayback Machineかarchive.todayかWebrecorderかSingleFileZで保存できる

おーぷん2chは基本拒まれるけどdatはアーカイブできる
例: http://archive.vn/nxwaU
通常のページを保存できるにしろできないにしろ、APIも保存してくれると助かる

例えばニコ生のAPIは
https://api.cas.nicovideo.jp/v1/services/live/programs/(番組ID)
番組IDのところをlv123とするとその番組の詳細情報が得られる

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 02:58:32.75

Internet Archive以外はいつサービス終了するか分からない
ローカルやログインして自分しか見れない所にアーカイブしても意味ない

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 03:33:40.66

Internet Archiveも見れないURLあるからなあ

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 09:39:20.49

>>298
キャプチャ失敗か削除済みではなく？

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 13:06:06.70

> archive.todayは数十とか一気に取るとbanされるし、碌なアーカイブサイトないわ
いっぺんにそんな数ひろったことないな
やるねえ

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 15:30:15.66

>>300
不良（品）の武勇伝（悪行）みたいなもんよ

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 17:24:51.15

500 Internal Server Error

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 18:01:01.11

>>298
保存しても強制的に
Sorry.
This URL has been excluded from the Wayback Machine.
になってしまうサイトあるよな

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 18:21:15.86

それはサイト側がIAに連絡して保存しないようにして貰っただけ

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 18:50:00.52

>>302
最近よくこれになる
10分待ってまたやるとできることも多いけど

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 19:06:54.26

閲覧のみならやや重い程度なのだが

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 20:25:58.03

International Server Errorはつなぎなおすと動くことも多い気がする

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 23:12:14.28

>>307
> つなぎなおすと

繋ぎ直しで IP が変わったことが効いてるのか、ただ少し時間を空ければ良いだけなのか、
どっちなんだw

**名無しさん＠お腹いっぱい。** · 2020/07/29(水) 23:34:29.23

つなぎなおすとはしいたけ押して更新することだと思ってた・・・・

◆P0jSlC5fJs · 2020/07/30(木) 01:13:52.97

>>297
archive.todayってやばいの？
>>280 を読む限りちゃんとリソースに見合った制限をかけてるようだし
削除に応じないからいつか陥落しそうってこと？

2行目は？？？
アーカイブしてもそれを共有せずアクセス不能な場所にのみ保管していても仕方ないってこと？
自分以外からも見れるようにすりゃいいじゃん

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 04:36:43.89

確かに保存されたページが閲覧できているのに、APIの方では保存されていないかのような
表示になっていることもあるんだな。単にAPIの調子が悪いのか

**名無しさん＠お腹いっぱい。** · 2020/07/30(木) 07:36:04.75

time travel
https://timetravel.mementoweb.org/

これはどうなの？