Internet Archive総合 (web.archive.org) #2　©2ch.net

2016/09/30(金) 23:45:13.25

　
　前スレッド

Internet Archive総合 (web.archive.org) #1
http://echo.2ch.net/test/read.cgi/esite/1189771222/
　

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 14:00:49.17

こういうのもちゃんと読んで反応してるんだろうか
問答無用で弾いてるような印象があるが
http://yahoo-mbga.jp/robots.txt

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 14:03:00.66

User-Agent: *
Disallow: /

もうこれだけ読んでやめてる気がしてならない

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 19:07:51.75

10分くらい前から使えなくなってる
何が起きた

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 19:08:23.33

繋がらんな

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 19:12:57.86

一応戻ったが、何でまた急に…

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 19:13:02.20

なおったか

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 19:23:19.47

今落ちてないかい？
ついに…

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 19:26:13.63

うむ、まただ

メンテの予告はないよね？

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 19:26:58.18

落ちてるね
このところ順調だったけど

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 19:30:42.72

ネットワーク診断結果

デバイスまたはリソース（web.archive.org）が応答していません。

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 19:31:33.35

もう、急に何ヒス起こしてるんだよ…

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 19:38:10.25

>>168
問答無用も何も、その robots.txt を規則通りに解釈したら
Internet Archive (ia_archiver) の場合は全拒否になるのだが。

| User-Agent: ia_archiver
| Disallow: /

この少し後ろに "User-Agent: *" で始まるグループがあるが、
上の "User-Agent: ia_archiver" を優先するため無視される。

| User-Agent: *
| Disallow: /
| Allow: /sitemap
| Allow: /$
| ...

仮に上の "User-Agent: ia_archiver" とその次の行が無かったとしても、
Internet Archive は Allow 命令には対応していない。
つまり、"User-Agent: *" とその次の Disallow 命令だけが解釈されて、
どっちみち全拒否となる。

**名無しさん＠お腹いっぱい。** · 2017/09/20(水) 20:39:47.04

何度かYahooスポーツの世話になっていたが、久しぶりに古いページを
見ようとしたらデータが取れなくなってるな。

**名無しさん＠お腹いっぱい。** · 2017/09/26(火) 21:11:20.42

取得時モッサリと重たいんだけど時間帯のせいかな

**名無しさん＠お腹いっぱい。** · 2017/09/27(水) 06:43:46.15

Saving page now...が消えたと思いきやまた表示され
Saving page now...が今度こそ消えたと思いきやまた表示され
Saving page now...が（ｒｙ
この自動ループに陥って結局手動で停止させるんだが
後から確認してみると取れてるのと取れてないのが2:1ぐらい
めんどくせ

**名無しさん＠お腹いっぱい。** · 2017/09/30(土) 09:53:51.13

ﾓｻｰﾘ爆進中

**名無しさん＠お腹いっぱい。** · 2017/10/01(日) 01:02:16.28

根気テストされてるに違いない

**名無しさん＠お腹いっぱい。** · 2017/10/02(月) 11:53:53.32

画像が全然保存できてないな

下手するとさっき保存したものよりも同じページの2009年くらいのスナップショットのほうがたくさん画像が見れたりする

**名無しさん＠お腹いっぱい。** · 2017/10/02(月) 19:51:18.22

>>184
Bummerが3～4回繰り返されるので
既に根気もくそも無くなってるわ

特に19時台が酷い気がするけど
単に気のせいかな

**名無しさん＠お腹いっぱい。** · 2017/10/02(月) 21:30:39.54

気のせいだお
全時間帯まんべんなく酷い

**名無しさん＠お腹いっぱい。** · 2017/10/02(月) 23:44:48.37

ウェブ魚拓も「スカ」が多くなったな
魚拓の類がこんな調子だと本当に困る

**名無しさん＠お腹いっぱい。** · 2017/10/03(火) 18:10:31.64

もうBummer出るのがデフォになってるな
改善される時は来るのだろうか

**名無しさん＠お腹いっぱい。** · 2017/10/04(水) 20:16:52.84

URL検索機能が相変わらず死んだまんまや…

**名無しさん＠お腹いっぱい。** · 2017/10/04(水) 21:57:06.86

検索機能って/*/～*みたいなやつ？

**名無しさん＠お腹いっぱい。** · 2017/10/15(日) 18:42:33.29

wikiにつながらない

**名無しさん＠お腹いっぱい。** · 2017/10/15(日) 20:29:29.29

はぁ？

**名無しさん＠お腹いっぱい。** · 2017/10/16(月) 16:17:25.01

上旬は先月よりだいぶ調子よかったが昨日からまたダメダメ

**名無しさん＠お腹いっぱい。** · 2017/10/21(土) 14:00:43.25

/脱落に因む404大杉

**名無しさん＠お腹いっぱい。** · 2017/10/23(月) 14:40:32.65

去年冬ごろ取得したのは"/"が勝手に加えられての404が多かった

**名無しさん＠お腹いっぱい。** · 2017/10/24(火) 01:09:43.67

なんやそれ

**名無しさん＠お腹いっぱい。** · 2017/10/26(木) 00:50:42.39

悪いひとたちがやって来て
みんなを殺した

理由なんて簡単さ
そこに弱いひとたちがいたから

女達は犯され
老人と子供は燃やされた

悪いひとたちはその土地に
家を建てて子供を生んだ

そして街ができ
悪いひとたちの子孫は増え続けた

朝鮮進駐軍関東大震災日本人大虐殺
https://goo.gl/FTqHJ1
https://goo.gl/1ntWvZ
https://youtu.be/D0vgxFC04JQ
https://goo.gl/h1o4eV
https://www.youtube.com/watch?v=sYsrzIjKJBc

**名無しさん＠お腹いっぱい。** · 2017/10/30(月) 09:15:18.95

ページ自体が表示されないが、今はどういう状況？　メンテ中？

**名無しさん＠お腹いっぱい。** · 2017/11/01(水) 22:03:58.93

Wayback Exception
An unknown exception has occurred. Unexpected Error

こればっか

**名無しさん＠お腹いっぱい。** · 2017/11/24(金) 13:46:14.14

アーカイヴされたことないページへのリンク踏んだら
久々に404にならず"Save this url in the Wayback Machine"が現れてクリック取得ができた
これ常時できてたのって夏休み前だったから感動すら覚える

**名無しさん＠お腹いっぱい。** · 2017/11/24(金) 22:36:52.60

うむ、

**名無しさん＠お腹いっぱい。** · 2017/11/24(金) 22:51:45.43

>>201
夏休みかぁ。若いって良いなぁ。

**名無しさん＠お腹いっぱい。** · 2017/12/12(火) 17:05:40.69

サイトで友達が稼げるようになった情報とか
⇒　http://rprpe093w.sblo.jp/article/181823411.html

興味がある人だけ見てください。

SOF53Y4MWW

**名無しさん＠お腹いっぱい。** · 2017/12/15(金) 14:46:48.96

さて

**名無しさん＠お腹いっぱい。** · 2017/12/17(日) 18:45:14.54

ちくしょ完全にダウンしやがった、、

**名無しさん＠お腹いっぱい。** · 2017/12/17(日) 18:55:40.85

2h前にあった現地の停電の影響
さすがに回避不能だしイラついてもしょうがない
大人しく復旧を待とう

**名無しさん＠お腹いっぱい。** · 2017/12/19(火) 19:03:04.11

今日も調子悪いね

**名無しさん＠お腹いっぱい。** · 2017/12/19(火) 19:31:07.30

日常な気がしてきた

**名無しさん＠お腹いっぱい。** · 2017/12/19(火) 20:14:35.23

あーーーー何か来たぞーーーー

**名無しさん＠お腹いっぱい。** · 2018/01/01(月) 15:04:20.22

新年早々だめだこりゃ

**名無しさん＠お腹いっぱい。** · 2018/01/04(木) 15:44:23.36

>>211
取得しようとしたら、一旦反応はあるものの、
なぜか取得する前段階の画面に戻ってしまっていたな。

結局、1月1日は終始そんな状態だったが、
1日中使えなかったのはあまりに痛すぎる。

**名無しさん＠お腹いっぱい。** · 2018/01/04(木) 20:29:56.52

去年10月の第一週に取得しといたのが半分ぐらい駄目になってる
重要だと思うページは取れてるか確認してみたほうがいい

**名無しさん＠お腹いっぱい。** · 2018/01/04(木) 21:15:03.46

>>213
2015 年よりスクリプトで毎日一回ずつ保存させているものがあるんだけど、
昨年 10 月は第一週に限らずポツポツと抜けている。
URL は公開したくないのでスクショでご勘弁。
ttp://i.imgur.com/4qDvnsI.png
ttp://i.imgur.com/l0lfBpa.png
ttp://i.imgur.com/ZKixGUA.png

**名無しさん＠お腹いっぱい。** · 2018/01/04(木) 21:24:36.49

4月29日何があった

**名無しさん＠お腹いっぱい。** · 2018/01/04(木) 21:58:08.32

>>214
スクリプトってどんな感じの？参考にしたいからやり方教えて下さいm(__)m

**214** · 2018/01/04(木) 22:01:04.72

>>215
403 ページが繰り返し記録されているので Internet Archive の問題ではない。

ちなみにスクリプトは /save/ にリクエストを投げてから、リダイレクトを処理して
最終的に 200 番か 504 番の応答が返ってくれば保存できたと判断、
それ以外なら計 10 回まで試行するように組んである。
ログは取っていないので、保存できなかった日にどういう応答が
返ってきていたのかは判らない。

**名無しさん＠お腹いっぱい。** · 2018/01/04(木) 22:59:58.51

10月散々だな・・・ここのログ読んでも9月末から10月までは大分やばそうな感じだし、見直してみるか

**名無しさん＠お腹いっぱい。** · 2018/01/04(木) 23:15:25.28

>>214
スクリプトを作成する技術があるのなら、アーカイブするよりも
そのページを直接ハードディスクにhtml（またはmhtml）で保存
するほうが確実ではないのか？

**214** · 2018/01/05(金) 03:49:29.13

以下長文失礼。

>>219
いわゆる「証拠保全」の目的で、ブログなどを保存させることもあるでしょう・・・。

>>216
こちらでは Windows Scripting Host 用のスクリプトを JScript で書き、
それを Windows のタスクスケジューラで実行させている。
以下、Internet Archive へ仕掛けるアクセスの内容と、HTTP の応答コードの扱いについて簡単に。

1) 保存させたい URL の前に https://web.archive.org/save/ を付けて、
その URL 向けに HEAD リクエストを投げさせる。
2) 300 番台の応答 (リダイレクト) が返って来た場合、順次追跡して HEAD リクエストを投げさせる。
これは、使用する API によっては特に記述せずとも勝手にやってくれる。
3) 最終的に 200 番の応答が返ってくれば、たぶん保存できている。

保存成否は HTTP の応答コードだけでほぼ判定できる。
コンテントボディは不要なので HEAD メソッドを使っているが、
HEAD を扱えない環境なら GET メソッドでも問題無い。

数百メガバイトの巨大ファイルを保存させようとした場合など、
オリジンサーバから Internet Archive への転送に時間が掛かってしまうと
途中でタイムアウトとなり、504 番の応答が返ってきてしまう。
スクリプトを汎用とする (URL を別途パラメータとして与える) のであれば、
これも一応「保存できた」として扱った方が無難。
504 でも保存がキャンセルされる訳では無いようで、
これをエラーとして扱い再試行させてしまったがために
巨大ファイルを短い間隔で重複して保存させてしまったことがある。

**216** · 2018/01/05(金) 20:15:59.49

>>220
ご丁寧にご解説ありがとうございましたm(__)m

定期保存の方法は大体理解できたのですが
当方JScriptに詳しくないのでスクリプトの具体的な書き方がわかりません(ノД`)・゜・。

ご無理は承知しておりますが
Pastebin.comなどにスクリプトのサンプルを貼って頂けると有り難いのですが・・・
ぜひとも後学の為によろしくお願い致します。（o_ _)ｏ））

**名無しさん＠お腹いっぱい。** · 2018/01/05(金) 21:16:22.82

スレ違い
しかも今どきm(__)m　(ノД`)・゜・。　（o_ _)ｏ））の顔文字
キモいキモすぎる

**名無しさん＠お腹いっぱい。** · 2018/01/06(土) 15:47:30.36

専門板って時間の流れが違う人多いよね

**名無しさん＠お腹いっぱい。** · 2018/01/06(土) 17:38:17.30

時間の流れ方は人それぞれだし、顔文字とか個性があるのは別にいいんじゃない
Internet Archiveに関するスクリプトなら満更スレ違いとも言えないだろうし
Pastebin指定している所見ると、極力スレに迷惑かからないように考慮しているみたいだし
大体このスレ、1年過ぎても1スレの1/5くらいも消費してないくらい話題ないんだから
多少のスレ違いは問題ないっしょ

**名無しさん＠お腹いっぱい。** · 2018/01/06(土) 19:40:14.08

＞スクリプトの具体的な書き方がわかりません(ノД`)・゜・。

から判るのは"参考"までに問うてみるなんてレベルには
背伸びしても達しない現状を隠しつつ>>216を書き
レスが来たと見るやベース丸コピの勢いで乞食メンタリティを現す
呆れた自己中ｸﾚｸﾚ厨という事実

**216** · 2018/01/06(土) 22:55:52.85

私のせいでスレが荒れてしまってすみません(>_<)
すべて無知で乞食で心が貧しかった私のせいです。。。
気分を害された方々、本当に申し訳ありませんでしたm(__)m

**名無しさん＠お腹いっぱい。** · 2018/01/09(火) 16:59:38.81

>>223

ひとくちに専門板といっても
この板とシャワートイレ板や文房具板では雰囲気がまったく違う。

**名無しさん＠お腹いっぱい。** · 2018/01/12(金) 11:17:09.62

懐かしいこの使い心地

**名無しさん＠お腹いっぱい。** · 2018/01/12(金) 22:39:58.08

今さっきからメンテナンスに入った
今日は夕方あたりから「５０３」乱発だったから仕方ないか…

というか昨日・一昨日あたり消えてるっぽいものもあるのだが

**名無しさん＠お腹いっぱい。** · 2018/01/13(土) 08:11:09.82

てか1月10日及び11日の分
やっぱり消えてるわ

**名無しさん＠お腹いっぱい。** · 2018/01/13(土) 08:32:56.05

ありゃりゃ

**名無しさん＠お腹いっぱい。** · 2018/02/27(火) 05:25:01.33

過去に取得されてるURLを現在の表示内容に更新する為に再度保存するにはどこのボタンを押せばいいんですか？

**名無しさん＠お腹いっぱい。** · 2018/02/27(火) 05:28:59.49

>>232
そんなボタンはありません。

**名無しさん＠お腹いっぱい。** · 2018/02/27(火) 08:43:21.75

☆ 日本の、改憲を行いましょう。現在、衆議員と参議院の
両院で、改憲議員が３分の２を超えております。
『憲法改正国民投票法』、でググってみてください。国会の発議は
すでに可能です。平和は勝ち取るものです。お願い致します。☆☆

**名無しさん＠お腹いっぱい。** · 2018/02/27(火) 20:45:30.03

>>232
https://web.archive.org/ の【 Save Page Now 】セクションに
URL入力欄とボタンがあるじゃろ

Capture a web page as it appears now for use as a trusted citation in the future.

**名無しさん＠お腹いっぱい。** · 2018/03/02(金) 07:42:32.15

>>235
御礼が遅れましたがありがとうございました
貴方良い人だ

**名無しさん＠お腹いっぱい。** · 2018/03/03(土) 14:40:00.74

取得歴0のページを新たにセーブしても"2 captures"になるのって何なんだろ

**名無しさん＠お腹いっぱい。** · 2018/03/05(月) 18:14:49.67

去年保存されてしばらくは完全に保存されてたページが
いつの間にかそのページの画像の大半が失われてた

**名無しさん＠お腹いっぱい。** · 2018/03/07(水) 22:29:59.08

This URL has been excluded from the Wayback Machine.
なサイトが復活した事例ってある？
BIGLOBEの例とか見るに必ずしも運営者が手を回したわけじゃないようだし、問い合わせたら復活したりするんじゃないかと思ったんだが

**名無しさん＠お腹いっぱい。** · 2018/03/12(月) 00:57:39.67

Archive.is で Facebook のアーカイブが取れなくなっている。

Archive.is のクローラは Facebook 上では登録ユーザとして振舞っていて、
パブリックでは無いコンテンツのアーカイブも取れるようになっているのだが
そこで使われていたアカウントがブロックされたっぽい。
ttp://Archive.is/TT0nA
Masha とか Nathan とか、過去にアカウント名が変わったことが何回かあるので
今回が初めてでは無いのかも。

>>239
聞いたことが無いですね・・・。

**名無しさん＠お腹いっぱい。** · 2018/04/17(火) 11:35:00.65

今日深夜ずっと繋がらないんだけど何かあった？

**名無しさん＠お腹いっぱい。** · 2018/04/20(金) 09:29:40.69

Archive.isはweb.archive.orgと違ってソース見るとリンクが別の文字列に置き換わるんだな
だから記録したリンクのアドレスをソースで調べようとしてもわからない
リンクアドレスが直接サイト上にすべて表示してあるなら大丈夫だけど
web.archive.orgtが禁止してるサイトを記録できるのはありがたいが中途半端

**名無しさん＠お腹いっぱい。** · 2018/04/23(月) 22:52:27.15

悪いひとたちがやって来て
みんなを殺した

理由なんて簡単さ
そこに弱いひとたちがいたから

女達は犯され
老人と子供は燃やされた

悪いひとたちはその土地に
家を建てて子供を生んだ

そして街ができ
悪いひとたちの子孫は増え続けた

朝鮮進駐軍関東大震災日本人10万人大虐殺

https://youtu.be/iBIA45CrE30
https://youtu.be/D0vgxFC04JQ
https://www.youtube.com/watch?v=sYsrzIjKJBc
https://www.youtube.com/watch?v=SiHp41uWo1I
https://www.youtube.com/watch?v=zYBCTRryFP8
https://youtu.be/-wF31xbwqPM

**名無しさん＠お腹いっぱい。** · 2018/05/22(火) 18:37:32.43

あー重い重い

**名無しさん＠お腹いっぱい。** · 2018/05/24(木) 23:16:48.78

最近は激烈重いな

**名無しさん＠お腹いっぱい。** · 2018/05/31(木) 08:55:50.66

別のところで耳にしたので本当かどうかわかりませんが
webarchiveを用いて消えてしまったリンク
例えばhttp://www.chinpoppo.ne.jp/images/xxxx.jpg
が昔あったが現在images以下が表のページからのリンクが消されたとして（サーバー内には存在するる）
その画像一覧をWebarchiveを用いると現在のページからも落とせると聞いたが本当でしょうか？
もし可能ならその方法を，またWebarchiveを用いないで出来る方法があれば教えてください
スレ違いならこの質問に適したスレを教えてください

**名無しさん＠お腹いっぱい。** · 2018/05/31(木) 10:37:12.73

>>246
日本語でおk。

「Wayback Machine に保存されているファイルの一覧」は出力できても、
「元サーバには置いてあっても Wayback Machine では保存しなかったファイルの一覧」なんか
出力できるわけ無いわ。

**名無しさん＠お腹いっぱい。** · 2018/05/31(木) 22:03:23.29

**名無しさん＠お腹いっぱい。** · 2018/06/01(金) 09:35:59.56

>>247
ありがとうございました

**名無しさん＠お腹いっぱい。** · 2018/06/23(土) 22:07:00.35

このアーカイブてデータをSSDに全部入れ替えたら
アクセスすごい速くなるんだろうな、金額や手間を
考えたら途方もない話だろうけど

**名無しさん＠お腹いっぱい。** · 2018/06/24(日) 21:17:52.37

ストレージの速度も大事なんだろうけれど
データベース系はメモリが足らないとダメなんだろうなって気がする
それこそカネがかかる話だけれどもね

**名無しさん＠お腹いっぱい。** · 2018/07/05(木) 01:48:27.48

ここ数日 /save/ で保存を試みても失敗することが多くなった。
数回ないし十数回リロードすれば通るけど、本当に鬱陶しい。

**名無しさん＠お腹いっぱい。** · 2018/07/07(土) 04:58:10.52

>>252
右に同じ。

しかも、
＞数回ないし十数回リロードすれば通るけど

これがまた結構時間をロスする。
意外とこのサイトの重要性は高まっているので、
ここが機能しなかったら本当に困る。

**名無しさん＠お腹いっぱい。** · 2018/07/07(土) 05:50:54.11

というか基本的な話だが、
同じサイトを複数回取る場合（頻繁にトップページが変わる、新聞社の公式とか）、
Internet Archiveは『１０分程度』、間（あいだ）を置かなきゃダメなんだよね。

「Wayback Exception」でタイムロスがあっては尚更困るんだが。

**名無しさん＠お腹いっぱい。** · 2018/07/07(土) 13:46:21.85

他のアーカイブも利用しろよ
やたら重くていけねえ

**名無しさん＠お腹いっぱい。** · 2018/07/07(土) 15:39:37.64

もちろん他のところも利用してるけど、
1日20回限定だったり、サイトの方から拒否しちゃったりでねえ…

それにしてはここ数日、
ＩnternetArchiveにアクセスが集中しすぎているのか？

**名無しさん＠お腹いっぱい。** · 2018/07/07(土) 18:11:15.42

なんかよく分からんエラー出て使えないと思ったらやっぱ不調なのね

**名無しさん＠お腹いっぱい。** · 2018/07/07(土) 18:13:12.53

というか好調のときってあるのかここ

**名無しさん＠お腹いっぱい。** · 2018/07/07(土) 19:14:44.12

午後から本当に「Sorry」ばかりでガチで不調

一時期のウェブ魚拓もそうだったが
不可解な画像を多量にアーカイブするような
平たく言えば「荒らし」が出てきてるのか？

**名無しさん＠お腹いっぱい。** · 2018/07/07(土) 23:50:33.04

困ったねぇ。

**名無しさん＠お腹いっぱい。** · 2018/07/10(火) 19:44:19.48

今日はこればっかり。

**名無しさん＠お腹いっぱい。** · 2018/07/12(木) 17:50:11.87

保守

**名無しさん＠お腹いっぱい。** · 2018/07/15(日) 01:03:22.54

確信

**名無しさん＠お腹いっぱい。** · 2018/07/24(火) 06:42:47.65

これが無くなるとかなり困るな

**名無しさん＠お腹いっぱい。** · 2018/07/24(火) 19:26:12.66

そりゃな
既存の蓄積の替えがきかないという意味ではGoogleとかよりよっぽど重大だな

**名無しさん＠お腹いっぱい。** · 2018/07/25(水) 10:07:04.60

いっそグーグルが買収してその脅威のメカニズムで
ウェイバックをワード検索できたり、負荷を軽くしたりプログラムを再構成してくれないかな

**名無しさん＠お腹いっぱい。** · 2018/07/25(水) 10:39:55.70

>>266
「他人の著作物を勝手に保存してそのまま勝手に再公開する」という
インターネット・アーカイブがやっている行為について訴訟が起こされたけど、
非営利組織であることが米国著作権法のフェアユース規定を適用できるかどうかの
鍵となっていたはず。
買収で営利組織の傘下に入ると、おそらくそこが崩れて
保管されているアーカイブの殆どが違法コピーに成り下がる。

**名無しさん＠お腹いっぱい。** · 2018/07/29(日) 21:16:40.87

ひ