Internet Archive総合 (web.archive.org) #3

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:08:09.83

なんだかんだでお世話になってるInternet Archiveについて語りましょう
Internet Archive
ttp://www.archive.org/index.php

インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
　　------------------

Ｑ.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ＆文字化けが起きる＆極端に重いなどの症状が出てしまう

Ａ.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック

Ｑ.Web Archiveでダウンロードしたzipなどが開けない＆CRCが違うと表示される

Ａ.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります。

前スレッド
Internet Archive総合 (web.archive.org) #2
http://mevius.5ch.net/test/read.cgi/esite/1475246713/

**名無しさん＠お腹いっぱい。** · 2020/04/02(木) 02:12:07.12

関連スレッド

・ウェブ魚拓 Part3
http://mevius.5ch.net/test/read.cgi/esite/1498902308/

・【保存・記録】ウェブアーカイブ総合 Page.01
https://mevius.5ch.net/test/read.cgi/internet/1554553882/

**名無しさん＠お腹いっぱい。** · 2020/04/03(金) 06:21:50.54

保守しよう

**名無しさん＠お腹いっぱい。** · 2020/04/08(水) 23:23:12.60

追加した方がいいテンプレって何があるかな

**名無しさん＠お腹いっぱい。** · 2020/04/09(木) 13:43:59.23

保存したはずなのに消えてる！って質問よくされてるから
その辺の事とか？

**名無しさん＠お腹いっぱい。** · 2020/04/10(金) 14:21:39.04

ホシュ

**名無しさん＠お腹いっぱい。** · 2020/04/10(金) 15:59:46.20

保守

**名無しさん＠お腹いっぱい。** · 2020/04/11(土) 16:55:05.81

Hmmm

**名無しさん＠お腹いっぱい。** · 2020/04/13(月) 02:51:24.68

>>5
それいいね、こんなところだろうか
少し長すぎたかも

Q. 保存したはずなのに見れない！どういうこと？
A. Internet Archiveはアーカイブ量の増加ペースの速さにサーバが追いついておらず、不安定なことが多いです。安定するタイミングを待ちましょう。
またWayback Machineは、ページの保存作業を担当するクローラ部分(Heritrix)と、保存したページの保管・記録・表示を担当するビューワー部分(Wayback)の別々な2つのソフトウェアを組み合わせて動いています。
なので、保存したはずのアーカイブが表示されなくなっていても、クローラ部分がちゃんと動いていたのならアーカイブはちゃんと保存されています。サーバが安定するのを待ちましょう。

**名無しさん＠お腹いっぱい。** · 2020/04/13(月) 04:11:54.84

( ﾟｰﾟ)Ъ ｲｲﾈ

**名無しさん＠お腹いっぱい。** · 2020/04/15(水) 07:20:22.43

TMR出まくる

**名無しさん＠お腹いっぱい。** · 2020/04/15(水) 18:05:00.65

IAは滅亡する！

**名無しさん＠お腹いっぱい。** · 2020/04/15(水) 21:01:13.80

Archive.st - Save The Internet

いま試してみたらヤフーニュースの魚拓が取れるみたいだぞ。

◆P0jSlC5fJs · 2020/04/15(水) 22:26:34.61

本日1回目のSaveでいきなりToo Many Requests

**名無しさん＠お腹いっぱい。** · 2020/04/15(水) 22:34:44.76

やっぱりTMRの出方おかしいよな

**名無しさん＠お腹いっぱい。** · 2020/04/16(木) 00:09:58.28

400 Bad Request
Request Header Or Cookie Too Large

**名無しさん＠お腹いっぱい。** · 2020/04/16(木) 01:24:51.42

直ったっぽい　>>16

**名無しさん＠お腹いっぱい。** · 2020/04/16(木) 14:27:01.09

閲覧のほうでToo Many出すのはやめて欲しい
使い勝手が悪い

**名無しさん＠お腹いっぱい。** · 2020/04/16(木) 17:38:40.11

英語版ウィキペディア
List of Web archiving initiatives
https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

**名無しさん＠お腹いっぱい。** · 2020/04/21(火) 18:00:24.40

Internet Archive にアーカイブされたページを、
全文検索する方法ってないですか？

**名無しさん＠お腹いっぱい。** · 2020/04/23(木) 17:18:11.04

homepage2.nifty.comがみれない

**名無しさん＠お腹いっぱい。** · 2020/04/23(木) 20:46:43.90

>>20
昔はあったらしいけど、今は無いね

**名無しさん＠お腹いっぱい。** · 2020/04/24(金) 08:26:30.95

https://it.srad.jp/story/18/12/04/0637201/
＞少なくとも「インターネット上の情報を残しておく義務」も「過去にインターネット上にあった情報にアクセスできる権利」も法的にあるわけじゃないしね。

削除申請に応じる義務もないだろ

**名無しさん＠お腹いっぱい。** · 2020/04/25(土) 13:24:52.15

ブロックされて見れません
どうしたらいいですか

**名無しさん＠お腹いっぱい。** · 2020/04/25(土) 13:31:44.54

諦めましょう。

**名無しさん＠お腹いっぱい。** · 2020/04/27(月) 13:25:21.03

アーカイブされたサイトのホームページだけでなく
全文で全サイトを検索することってできますか？

**名無しさん＠お腹いっぱい。** · 2020/04/27(月) 14:28:42.88

>>26
>>20 と同じ質問の香りがする

**名無しさん＠お腹いっぱい。** · 2020/04/27(月) 15:40:04.60

>>26
おじいちゃんさっき質問したばかりでしょ

**名無しさん＠お腹いっぱい。** · 2020/04/28(火) 12:32:34.74

>>26だがあえて実現しないってことなのかな？

**名無しさん＠お腹いっぱい。** · 2020/04/28(火) 22:44:19.58

ほんもののおじいちゃんだ・・・・

**名無しさん＠お腹いっぱい。** · 2020/04/30(木) 17:37:06.70

繋がらない

**名無しさん＠お腹いっぱい。** · 2020/04/30(木) 20:41:22.93

昨日から調子悪いな

**名無しさん＠お腹いっぱい。** · 2020/04/30(木) 21:50:33.66

いつ調子がよかったですか

**名無しさん＠お腹いっぱい。** · 2020/05/02(土) 09:18:23.41

savingの読み込みから進まんね

と思ったら何分か経って完了したわ

**名無しさん＠お腹いっぱい。** · 2020/05/02(土) 13:17:39.09

なおDLは出来ない程度には重い模様

**名無しさん＠お腹いっぱい。** · 2020/05/04(月) 17:31:58.48

そう言えばレジューム出来ないの？

**名無しさん＠お腹いっぱい。** · 2020/05/04(月) 20:01:13.97

アサシャンレジューム

**名無しさん＠お腹いっぱい。** · 2020/05/04(月) 23:49:37.23

なんでか分からないけどFirefoxだと/web/2/とか/save/が使えないのに
Google Chromeだと使えるっぽいんだよな。昔はFirefoxでも使えた。
最新版に更新してアドオン切っても駄目とかどうなってんだ。
> Firefox 75.0 64bit Firefoxは最新バージョンです
> Google Chrome は最新版ですバージョン: 81.0.4044.129（Official Build）（64 ビット）
Firefoxで使えてる人いる？

**名無しさん＠お腹いっぱい。** · 2020/05/05(火) 00:04:37.61

>>38の件の追記、何故か/web/2/の方だけ復活した。
/save/は使えないまま。開くと真っ白なページが出てそれ以上何も起きない。

**名無しさん＠お腹いっぱい。** · 2020/05/11(月) 18:37:29.02

This snapshot cannot be displayed due to an internal error.

って出るサイトは無理？

**名無しさん＠お腹いっぱい。** · 2020/05/12(火) 01:23:40.96

それはダメだな
諦めろ

**名無しさん＠お腹いっぱい。** · 2020/05/13(水) 08:25:33.17

homepage2.nifty.comは１と３はできるのにどうして２だけ見れないの

**名無しさん＠お腹いっぱい。** · 2020/05/14(木) 03:12:02.56

わたしにもわかりません

**名無しさん＠お腹いっぱい。** · 2020/05/16(土) 17:43:07.77

もうこっちは駄目だ
>>9のレスと現状は違う
保存したはずが後日何度見返しても保存されてない場合がある
10回につき2～3回くらい
https://web.archive.org/save/

こっちは大丈夫
http://archive.vn/

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 09:37:06.63

>>44
どーせスポーツ新聞のサイトだろ、保存してるのって

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 11:25:01.03

保存したものの特に重要なものはリスト化してチェックしてるが取りこぼしはないな
しかし反映の遅いものは一週間以上かかる場合もあった

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 14:05:23.73

>>44
archive.today は他にもドメインがあるのに
わざわざ .vn なんか持ち出してくるとか笑える
ベトナム共産シンパかよ

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 14:52:36.40

そんなに悔しかったのかよ白湯でも飲んどけ

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 15:32:43.93

俺はこれ
http://archive.fo/

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 17:08:08.07

流れ的におすすめの白湯の紹介かと思った

**名無しさん＠お腹いっぱい。** · 2020/05/17(日) 21:58:05.32

>>49
こういうマイナーなドメインのレジストリは騙されやすいのかねぇ。
https://twitter.com/archiveis/status/1188222460598116353
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2020/05/21(木) 20:21:26.07

ニッチなニーズかもしれませんがスクリプトを公開しました。
Wayback Machine でURL検索をした際、最古または最新のページに自動で飛びます。
https://greasyfork.org/ja/scripts/403724-wayback-machine-auto-hopper

**名無しさん＠お腹いっぱい。** · 2020/05/21(木) 23:47:38.42

ありがとこんばんは

**名無しさん＠お腹いっぱい。** · 2020/05/22(金) 07:29:19.83

ヤフーニュースのスクリーンショット取れなくなった？

**名無しさん＠お腹いっぱい。** · 2020/05/22(金) 10:21:49.17

Internet Archiveってサイト保存したらどのIPが保存したとかも記録されんの？

**名無しさん＠お腹いっぱい。** · 2020/05/23(土) 14:05:21.25

>>55
どの方法でアーカイブが行われたのかも記録されているから、
おそらく IP も残っているんじゃないかねぇ。
ただ、アーカイブを読み出したときのレスポンスヘッダを見る限りでは、
その IP がアーカイブ閲覧者に漏れているような感じはしない。

あともう一つ、Archive.is がやっているような
リクエスト元 IP のアーカイブ対象サーバへのお漏らしは
Internet Archive では起きていない。

**名無しさん＠お腹いっぱい。** · 2020/05/23(土) 14:20:07.01

>>55
この辺見る限り保存はされていないっぽい
https://help.archive.org/hc/en-us/articles/360001513491-Save-Pages-in-the-Wayback-Machine
https://help.archive.org/hc/en-us/articles/360018536672-What-is-a-view-
https://blog.archive.org/2013/10/25/reader-privacy-at-the-internet-archive/

・全てのユーザーの行動はIPアドレスを元にしたハッシュ値で記録される
・一日毎にハッシュ値は変更される

とか何とか、間違ってたらすまん

56 · 2020/05/24(日) 10:41:38.58

>>57
しっかり書いてありますね。勉強になります。

**名無しさん＠お腹いっぱい。** · 2020/05/24(日) 17:36:51.34

ページの全文検索って募金が終わらないとできないの？

**名無しさん＠お腹いっぱい。** · 2020/05/26(火) 17:22:56.02

>>54

回復した

**名無しさん＠お腹いっぱい。** · 2020/05/29(金) 16:01:06.33

Twitterでたまにjsonが取れる現象なんとかならないのかね

**名無しさん＠お腹いっぱい。** · 2020/05/29(金) 19:18:21.90

やったじゃん
むしろほしい

◆P0jSlC5fJs · 2020/05/30(土) 13:52:08.25

Vuepressのページを保存すると一瞬は表示されるけどすぐ404に画面が書き換わっちゃう
https://web.archive.org/web/20200528205956/https://hapicode.com/vuepress/config.html

**名無しさん＠お腹いっぱい。** · 2020/05/30(土) 14:20:01.49

見たが普通に表示されてる

**名無しさん＠お腹いっぱい。** · 2020/05/30(土) 15:53:03.29

俺は見てない

**名無しさん＠お腹いっぱい。** · 2020/05/30(土) 16:31:26.19

ふむふむ。
https://web.archive.org/web/20200528205956im_/hapicode.com/vuepress/config.html

**名無しさん＠お腹いっぱい。** · 2020/06/02(火) 20:27:56.79

平和(・∀・)ｲｲ!!

**名無しさん＠お腹いっぱい。** · 2020/06/03(水) 02:42:09.09

>>63
別サイトのページだが俺もそれ多い
全部じゃないけど…

**名無しさん＠お腹いっぱい。** · 2020/06/03(水) 05:21:59.69

>>62
自分でパーサなり何なり通さないと読めないから言うほど便利じゃないぞ
それにWayback Machineを使う場合、jsonが欲しい時よりもhtmlとして描画された状態のアーカイブが欲しいことの方が多い

**名無しさん＠お腹いっぱい。** · 2020/06/03(水) 18:43:00.59

ttps://twitter.com/internetarchive/status/1268108466192703489
また落ちたか
https://twitter.com/5chan_nel (5ch newer account)

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 02:20:35.43

Internet ArchiveってURLで保存する方法とは別に
htmlソースコピーで保存する方法も出来るようにすればいいのに
当然独自URL生成する必要性も出てくるけど

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 02:53:38.00

うpろだかよw

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 11:50:13.06

ツイッターがInternet Explorerからの閲覧をできないようにしたらしく、その影響でツイッターのアーカイブがとれなくなってしまったんだけどどうしたらいいだろう？
今までInternet Explorerからならツイッターのアーカイブがとれたんだけど…他のブラウザからじゃアーカイブできないのよ困った

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 13:28:28.43

試してないけどmobile.twitter.comもだめなん

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 15:25:44.03

>>73
もしかしてThis page is available on the web!から取ってない？
あれは保存する奴の環境に左右されるから使えんよ
https://web.archive.org/save
からなら問題なく取れる

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 15:25:45.36

>>74
今ためしてみたらmobileの方でならアーカイブできたわ
ありがとう
でもなんでまたツイッターは急にIEからの閲覧はじくようになったんだろう？

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 15:27:58.42

>>75
よく分からないけどアーカイブしようとすると「このブラウザは現在サポートされていません」て出てくる
調べたら最近ツイッターがIEから閲覧できないようにしたらしいって言われてたから

**名無しさん＠お腹いっぱい。** · 2020/06/05(金) 15:31:37.89

>>75
今そのURLから保存してみたらmobileじゃなくてもアーカイブできたわ
どうもありがとう

**名無しさん＠お腹いっぱい。** · 2020/06/06(土) 15:33:25.33

Internet Archive ってなんで全ページ検索できるようにしないの？

**名無しさん＠お腹いっぱい。** · 2020/06/06(土) 15:33:25.70

Internet Archive ってなんで全ページ検索できるようにしないの？

◆P0jSlC5fJs · 2020/06/07(日) 18:25:56.95

>>79
高負荷だからだとおもう

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 01:47:07.90

すみません
ツイッター保存してるとけっこう頻繁に.jsonてURLについて謎の文字化けみたいになってしまうんですが、これはいったい…？
どうしたらいいんだろう

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 11:56:33.80

>>82
ちょっと前からたまに起きる現象、原因は分からない・・・
面倒だけどちゃんと取れるまで取り直すしかない

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 12:01:17.42

>>75
に追加
This page is available on the web!からだけじゃなくて
https://archive.org/web/
のSave Page Nowもダメっぽい
基本的にhttps://web.archive.org/saveを使った方が良さげ

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 12:11:18.46

Save Page Nowにあるこのチェックは何の意味があるの

＞Save error pages (HTTP Status=4xx, 5xx)

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 13:28:21.88

エラー画面を保存するかしないか

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 13:29:41.66

しらんけど
例えば「404 Not Found」だけのページだった場合に
「そこにはなにもなかった」ってことにするか、
それとも「404 Not Foundがあったのだ」ってことにするかだと思う

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 20:02:31.91

>>83
どうも
取り直せばいけるなら何度かトライしてみます

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 22:26:30.20

>>79
昔一度やったことあるけど情報量があまりにも多過ぎて重すぎてまともに検索できなかったとか見た
全文検索できたら本当にいいんだけど現時点では無理ぽい…

**名無しさん＠お腹いっぱい。** · 2020/06/08(月) 23:59:41.72

<title>だけでも検索できるとめちゃ便利なんだけどな

**名無しさん＠お腹いっぱい。** · 2020/06/10(水) 17:55:12.02

アーカイブってエロサイト保存した場合動画も保存されんの？

**名無しさん＠お腹いっぱい。** · 2020/06/10(水) 19:12:24.60

基本的にされないと思った方が良い

**名無しさん＠お腹いっぱい。** · 2020/06/11(木) 11:34:40.23

訴訟問題は大丈夫なのかな
大事にならないといいが

**名無しさん＠お腹いっぱい。** · 2020/06/11(木) 12:56:19.55

訴訟問題って何？

**名無しさん＠お腹いっぱい。** · 2020/06/12(金) 00:22:25.00

何か前にあったような気もするが
フェアユースだしな

**名無しさん＠お腹いっぱい。** · 2020/06/12(金) 19:12:09.28

Internet Archiveが公開してる電子書籍について出版社から訴えられたとかじゃなかったか
Gigazineだかどっかのネットニュースに出てたね

**名無しさん＠お腹いっぱい。** · 2020/06/13(土) 00:03:15.44

電子書籍って保存出来るんなら無料で見れるやつじゃないの？

**名無しさん＠お腹いっぱい。** · 2020/06/13(土) 02:03:05.75

これだな
詳しくは記事見てくれ

米国の複数の大手出版社がInternet Archive（IA）に対する著作権侵害訴訟を提訴
Posted 2020年6月3日
https://current.ndl.go.jp/node/41125

Internet Archive（IA）、“National Emergency Library”の終了を早めることを発表
Posted 2020年6月12日
https://current.ndl.go.jp/node/41213

**名無しさん＠お腹いっぱい。** · 2020/06/13(土) 20:38:47.97

もしかしてTwitter取れなくなった？
https://web.archive.org/saveでもダメだ

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 11:13:18.22

こっちは拾える
ttp://archive.fo/

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 15:05:21.28

インターネット初心者です。
質問なのですが、save page nowでページをアーカイブした場合、Internet archiveの説明ではIPアドレスを保持しないため匿名で保存できるとなっているのですが本当でしょうか。
また、save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。(すでに削除されていて、今は見ることができずアーカイブもそれまでされていないようなページの場合)教えて頂きたいです。無知ですみません。

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 17:13:12.66

>>99
自分も今日いくらやっても連続してツイートのアーカイブに失敗するから、自分の環境が悪いのかと思ったけどこれは……

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 17:27:12.26

>>101
・IPアドレス：>>55-57を参照
・過去のページ情報：
「save page nowでページを保存するとその瞬間のページだけが保存され、過去のページの情報は保存されないのでしょうか。」
その認識で合ってる。SPNは「現時点でのページをアーカイブする」ことしか出来ない。
過去のページをアーカイブできる技術はないし、するにはタイムマシンが必要。
現在削除済みでアーカイブも残っていないページは諦めよう

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 17:48:04.05

「ツイッター魚拓」とかいう国産サービスができたらしいが。

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 18:09:23.85

>>103
ご回答ありがとうございます。それでは、自分が○月×日にしかアーカイブしていないのにそれ以前のページの情報が出てくるということは
、他の誰かが○月×日以前にアーカイブしたということでよろしいでしょうか？

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 18:29:19.48

>>105
Internet archiveは自動で色んなサイトをクロールして定期的にアーカイブして回ってるから別に誰かが保存したわけじゃなくて自動でアーカイブされてた可能性が高い
というかわざわざ手動でアーカイブするマニアなんてここの住人位しかいなそうだしほとんど自動取得

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 18:43:23.66

>>106
では、○月×日以前の情報は私がアーカイブしたものではないということでいいんでしょうか？

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 20:09:22.90

>>107
うん

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 20:22:26.52

>>108
また質問なのですが、Twitterの動画をアーカイブした際、機種の差(Androidやios,PC)で見ることができないことってあるんですか？

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 21:26:10.00

TweetSave - Save tweets with a click
https://tweetsave.com/

**名無しさん＠お腹いっぱい。** · 2020/06/14(日) 22:49:30.89

>>104
アレはスクショ撮ってimgurに上げるだけの代物で、セッション情報の類は一切保存されないらしいから、
アーカイブサービスとしての信頼性はゼロに等しい（中傷書き込みの訴訟でも多分証拠として認められないんじゃないだろうか）
ただTwitterではやたらバズったから、固定ユーザーは一定数つくかもね

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 02:28:53.83

>>109
ツイッターの動画は保存できなかったと思うが…

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 06:39:57.00

>>110

> TweetSave - Save tweets with a click
> https://tweetsave.com/

_φ(･_･メモメモ

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 06:41:39.22

>>110

> TweetSave - Save tweets with a click
> https://tweetsave.com/

Tweets are saved on TweetSave.com and also get mirrored to WayBack and Archive.is

とあるな。

これは使えるかもしれない。

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 06:43:57.13

Twitterのツイートをウェブ魚拓のように保存できる
「TweetSave」 - GIGAZINE
https://gigazine.net/news/20161118-tweetsave/

◆P0jSlC5fJs · 2020/06/15(月) 07:11:01.48

tweetsaveは不安定すぎて使い物にならなかった

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 07:23:11.71

>>116

ありゃりゃ

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 07:26:47.37

以前はわからんが、今はまあまあ安定しているみたいだよ。

ちょっと試してみて。

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 07:57:49.97

>>112
https://video.twimg.com...ていうurlです

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 09:06:38.20

>>103
This page is available on the web!でも一緒ですか？

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 11:44:39.88

>>119
機種ごとに違いはないよ、どれも同じ
ちなみにhttps://video.twimg.comはURLだけ取れてて動画が見れない事もままある

>>120
それも一緒

**名無しさん＠お腹いっぱい。** · 2020/06/15(月) 12:01:07.51

>>121
うろ覚えの記憶ですが、3ヶ月位前にhttps://video.twimg.com...のページを探していて見つからず、This page is available on the web!となって訳も分からないでアーカイブしてしまい、その日のアーカイブでは黒い画面で動画が再生されず見れなかったのですが、なぜかカレンダーに一年程前のアーカイブが現れてそれでは動画を見ることができました。3ヶ月程前なので記憶が曖昧なのですがこういうことってありえますか？

**名無しさん＠お腹いっぱい。** · 2020/06/16(火) 16:07:46.24

>>121
それでは、Android(chrome,Firefox)で再生できなかったものは他の端末、ブラウザなどでも再生できないということでしょうか？

**名無しさん＠お腹いっぱい。** · 2020/06/17(水) 09:33:18.63

ログインしなくてもツイッター保存できますか？
JSONで保存されるか成功したかと思ったらこうなって保存されない……

Sorry, that page doesn’t exist!
Why not try a search to find something else?

**名無しさん＠お腹いっぱい。** · 2020/06/17(水) 19:03:54.27

日テレNews24もキャプチャできないっぽい
Todayならできたのでそっちで取る

**名無しさん＠お腹いっぱい。** · 2020/06/17(水) 20:06:39.58

なんか調子悪い？
ツイッター全然とれなくなったし他のサイトでもちょくちょくエラー出る

**名無しさん＠お腹いっぱい。** · 2020/06/18(木) 09:37:49.00

>>125
基本的に取れる魚拓は複数でとるようにしてるんだけどTwitterの魚拓が現状二つだけになってしまって困る……
しかも片方は突然不安定になって一ヶ月まともに使えないこともあるからなー

**名無しさん＠お腹いっぱい。** · 2020/06/18(木) 23:45:04.10

Twitterが取れなくなったのはTwitter側の仕様変更のせいじゃないかな

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 00:13:10.75

でも15日に取ってる人がいるんだよなー

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 02:33:11.77

UAをUtsubotにしたら撮れるとかなんとか

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 11:05:22.72

http://web.archive.org/save/のページで保存しようとするとこんな画面になってしまう…
ttps://i.imgur.com/1ebLT02.png

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 11:40:27.27

>>131
それ自分もなった
しばらく時間置いてからもう一度保存したら問題なく取れたよ

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 15:14:08.19

自分もNot Foundになって5ちゃん含め何一つとれなくなった…

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 17:11:29.86

検索してからThis page available on the webからならとれた
でもそれ以外からだと即Not foundが出るだけで一切とれない
なんなんだ

**名無しさん＠お腹いっぱい。** · 2020/06/19(金) 17:59:07.87

検索からの「This page available on the web」は直接保存の/save/http～なんだな。
Save page nowの方の「This page available on the web」が機能してないのか。

**名無しさん＠お腹いっぱい。** · 2020/06/20(土) 13:37:10.95

お、Twitter取れるようになったか

**名無しさん＠お腹いっぱい。** · 2020/06/20(土) 13:40:09.97

お、取れた
情報thx

**名無しさん＠お腹いっぱい。** · 2020/06/21(日) 19:56:01.96

ツイッター一応とれるようになったのもあるけど
頻繁にSorry that page doesn't exist!やエラーになって取れない事の方が多い…

**名無しさん＠お腹いっぱい。** · 2020/06/21(日) 21:14:32.41

アーカイブって動画のURL直入力したら保存されるの？

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 11:45:10.84

ものによってはとれる事もあるけど基本とれないと思った方が良い

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 11:51:39.66

>>138

>>75

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 13:50:04.34

>>141
https://web.archive.org/saveからとってSorry that page doesn't exist!になったんだけど…
まあやり直してたら3回目位でとれたけど

**名無しさん＠お腹いっぱい。** · 2020/06/22(月) 14:27:28.61

保存は複数の鯖から暇している鯖が取りに行くんだけど
ロシア語、英語、ドイツ語などランダムで取られていたから経由する鯖が更新されてないと取れないと予想

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 15:16:09.68

>>142

> まあやり直してたら3回目位でとれたけど

なにげにお役立ち情報　　　_φ(･_･メモメモ

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 15:37:49.72

>>57
これ保存に利用したIPアドレスは暗号化されて運営側も解読無理って事？

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 22:38:01.52

>>138
これなら失敗せずに一発で取れる
Yahoo！ニュースも取得する際、強制的にトップページへ飛ばされて失敗することはない
http://archive.fo/

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 23:06:54.24

自分はあ複数保存したいからこっちも保存したいだけで合計3箇所で保存してる
Web魚拓はブロックされるようになった

**名無しさん＠お腹いっぱい。** · 2020/06/23(火) 23:41:38.01

スポーツ新聞野郎まだ居たのか

◆P0jSlC5fJs · 2020/06/24(水) 06:29:53.29

もはやアリアハンガイジ

**名無しさん＠お腹いっぱい。** · 2020/06/24(水) 10:25:28.90

スポーツ新聞ほんと好きだな
取るのは勝手だけど常軌を逸した取り方だと思う

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 08:06:11.23

ヤフーニュースほんと取れない

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 10:19:57.09

>>151
本当は取れてるんだろ?
嫌がらせスクリプトも一緒にw

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 12:04:47.38

取れないという前に少しは過去ログ読んでくれと言いたくなる

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 13:17:04.71

>>151

スクリーンショットなら取れる

**名無しさん＠お腹いっぱい。** · 2020/06/25(木) 16:34:55.93

Yahoo!とか散々既出

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 10:45:18.41

SAVE完了でスナップショット見に行こうとすると昔の日付にリダイレクトされるの困るな
アドレス切り張りして今日の日付にしてもダメ

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 10:48:12.10

パーツのアドレスで叩いたら今日の日付で出てくるからひとまずはよしとすべきか

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 12:04:49.45

いつもの調子が悪い周期に入ったかな
APIも不安定

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 14:02:50.79

5ちゃんも全然とれない
時間あけて何度もトライしても時々とれるだけでほとんどダメ…

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 15:47:14.61

>>158-159
>>134-135

**名無しさん＠お腹いっぱい。** · 2020/06/26(金) 21:15:33.82

>>160
それ取得者の環境に左右されるからあんまり使いたくないんだよね

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 08:54:45.81

Hrmになって取れてなかったと思っても
後で検索するとちゃんと取れてることも多いな

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 13:38:29.18

Hrm連発でも3回ほどチャレンジしとくと高確率で取れてた

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 14:05:54.69

取れない問題については>>1のテンプレに含めるべきだな
インデクシングとアーカイブは別々のレイヤーで処理されてるから、
一見取れてないように見えても実は取れてることが多い

**名無しさん＠お腹いっぱい。** · 2020/06/27(土) 15:09:04.44

ここ数日のは反映がかなり遅いだけでちゃんと取れてるね

**名無しさん＠お腹いっぱい。** · 2020/06/30(火) 16:11:19.16

https://web.archive.org/save/http://～は即時反映でSave Page Nowは遅れて反映されるっぽい

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 10:10:10.27

>>21
>>42
dion.ne.jp
biglobe.ne.jp
jcom.co.jp
も見れないな

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 11:23:57.89

かなりデカい保存対象がやってきた

NAVERまとめサービス終了のお知らせ : NAVERまとめ公式ブログ
http://navermatome-official.blog.jp/archives/83259956.html

>突然ではございますが、NAVERまとめは2020年9月30日をもちましてサービスを終了することとなりました。
>下書きや非表示のまとめも含め、9月30日をもちましてすべて閲覧ができなくなります。

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 16:43:58.70

雑多なまとめサイトすぎて好きじゃなかったな

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 16:49:15.19

所詮は南鮮資本w

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 17:09:06.99

雑多なまとめも多いけど、これを個人サイト的に使ってる人も割といるんだよね
そういう人の書いた良質なページが消えるのは困る

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 18:04:14.59

閉鎖される予定のサイトってnaverまとめ以外何かある？

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:31:56.99

>>168
ヤフーと合併予定でその事業整理過程で精査されてしまったね
まとめサイトのネガティブイメージとかコンプラとかで嫌われる理由はいくらでもあるが

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:47:21.16

>>172
【保存・記録】ウェブアーカイブ総合 Page.01 https://mevius.5ch.net/test/read.cgi/internet/1554553882/

**名無しさん＠お腹いっぱい。** · 2020/07/01(水) 20:57:22.61

NAVERまとめ、サラッと見た感じだと1ページ目は取ってあるけど
2ページ目以降が無いっていういつものパターンが多いな

**名無しさん＠お腹いっぱい。** · 2020/07/02(木) 21:17:22.61

>>171
知らなかった
いろいろな使い方があるもんだ

**名無しさん＠お腹いっぱい。** · 2020/07/02(木) 22:52:12.91

最近のサイトはスマホ用とPC用の画面分けてるが
アーカイブってPC用しか保存されんの？

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 00:34:04.34

スマホのUAでアクセスしたらスマホ用が保存されんじゃないの知らんけど

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 11:11:11.87

Googleが10年以上前のサイトはもう検索結果に出すのやめたそう
やっぱページ膨大だと検索きついのか…
にしても10年より前の情報にはアクセスする手段が無くなるってすごい損失な気がするが

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 14:23:53.34

10年以上前のサイトはそれ専用Googleとか検索エンジン用意すりゃいいのに

**名無しさん＠お腹いっぱい。** · 2020/07/03(金) 23:52:26.95

>>179
期間指定すれば普通に検索できるって聞いてたけど違うの？

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 15:07:25.27

>>179

> にしても10年より前の情報にはアクセスする手段が無くなる

他の検索エンジンなら大丈夫

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 16:05:37.33

普通に10年前以上の結果出るしデマでは？

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 16:52:27.76

Internet Archiveはgoogleみたいにキーワード検索出来るようにすればいいのに

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:06:10.22

デジャブジャブジャブなスレだな

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:08:23.67

>>184
鯖に負担かかりすぎてえらいことになりそう

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:49:51.86

検索機能の話もテンプレ入れた方が良さげだな
数年前に一度全文検索機能が入ったことがあったんだけど、検索対象となるデータの量があまりに急速に増えて追いつかないとかですぐ無くなったんだよ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 17:51:21.60

検索エンジンってサーバリソースを大量に必要とするから、ギリギリの状態でサーバ動かしてる現状のIAではまず無理なんじゃないだろうか

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:11:27.16

全文検索ほしい人は10億円くらい寄付しろ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:32:30.78

せめてタイトルだけでも検索できればいいのにな

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 21:49:53.36

この流れ前も見たぞ

**名無しさん＠お腹いっぱい。** · 2020/07/04(土) 23:55:00.95

検索したいならInternet Archiveに金落とせ、話はそれからだ

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:02:58.15

金落とす金額が鯖代と維持費込みじゃないと無理だろうな

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:41:08.37

一つのURLに重複保存される画像・動画をAIで認識して削除したら、容量の削減になるのに

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 00:53:13.92

ツイッターの失敗は保存しなくていいのにね

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 02:47:20.57

>>194
単にコンテントボディをバイナリ比較すれば良いだけの話なのに AI を使うとか
こんなんじゃ、IA のレスポンスヘッダを含めて丸ごと保存する価値が解る訳も無いなw

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 04:54:05.25

AIとIA

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:05:45.68

そんな用途のためにわざわざAI使ったりしないだろうと思うけどそこは置いておいて、
AI動かすのにだって大量のサーバリソースは必要なんだよ
本末転倒

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:09:03.83

普通に考えて重複保存じゃなくて差分を保存してると思うんだけど・・・

**名無しさん＠お腹いっぱい。** · 2020/07/05(日) 12:29:12.66

アーカイブ見てるとどう考えてもまったく同じ内容のページを何回も重複して保存してるのよくあってサーバーの容量がもったいないなと思う事はよくある
特に自動クロールでとってるであろうサイトのメインページなんて毎日何百ページ位も同じ画面とり続けてたりする