Internet Archive総合 (web.archive.org) #2 ©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
0206名無しさん@お腹いっぱい。
垢版 |
2017/12/17(日) 18:45:14.54
ちくしょ完全にダウンしやがった、、
0207名無しさん@お腹いっぱい。
垢版 |
2017/12/17(日) 18:55:40.85
2h前にあった現地の停電の影響
さすがに回避不能だしイラついてもしょうがない
大人しく復旧を待とう
0212名無しさん@お腹いっぱい。
垢版 |
2018/01/04(木) 15:44:23.36
>>211
取得しようとしたら、一旦反応はあるものの、
なぜか取得する前段階の画面に戻ってしまっていたな。

結局、1月1日は終始そんな状態だったが、
1日中使えなかったのはあまりに痛すぎる。
0213名無しさん@お腹いっぱい。
垢版 |
2018/01/04(木) 20:29:56.52
去年10月の第一週に取得しといたのが半分ぐらい駄目になってる
重要だと思うページは取れてるか確認してみたほうがいい
0214名無しさん@お腹いっぱい。
垢版 |
2018/01/04(木) 21:15:03.46
>>213
2015 年よりスクリプトで毎日一回ずつ保存させているものがあるんだけど、
昨年 10 月は第一週に限らずポツポツと抜けている。
URL は公開したくないのでスクショでご勘弁。
ttp://i.imgur.com/4qDvnsI.png
ttp://i.imgur.com/l0lfBpa.png
ttp://i.imgur.com/ZKixGUA.png
0217214
垢版 |
2018/01/04(木) 22:01:04.72
>>215
403 ページが繰り返し記録されているので Internet Archive の問題ではない。

ちなみにスクリプトは /save/ にリクエストを投げてから、リダイレクトを処理して
最終的に 200 番か 504 番の応答が返ってくれば保存できたと判断、
それ以外なら計 10 回まで試行するように組んである。
ログは取っていないので、保存できなかった日にどういう応答が
返ってきていたのかは判らない。
0219名無しさん@お腹いっぱい。
垢版 |
2018/01/04(木) 23:15:25.28
>>214
スクリプトを作成する技術があるのなら、アーカイブするよりも
そのページを直接ハードディスクにhtml(またはmhtml)で保存
するほうが確実ではないのか?
0220214
垢版 |
2018/01/05(金) 03:49:29.13
以下長文失礼。

>>219
いわゆる「証拠保全」の目的で、ブログなどを保存させることもあるでしょう・・・。

>>216
こちらでは Windows Scripting Host 用のスクリプトを JScript で書き、
それを Windows のタスクスケジューラで実行させている。
以下、Internet Archive へ仕掛けるアクセスの内容と、HTTP の応答コードの扱いについて簡単に。

1) 保存させたい URL の前に https://web.archive.org/save/ を付けて、
その URL 向けに HEAD リクエストを投げさせる。
2) 300 番台の応答 (リダイレクト) が返って来た場合、順次追跡して HEAD リクエストを投げさせる。
これは、使用する API によっては特に記述せずとも勝手にやってくれる。
3) 最終的に 200 番の応答が返ってくれば、たぶん保存できている。

保存成否は HTTP の応答コードだけでほぼ判定できる。
コンテントボディは不要なので HEAD メソッドを使っているが、
HEAD を扱えない環境なら GET メソッドでも問題無い。

数百メガバイトの巨大ファイルを保存させようとした場合など、
オリジンサーバから Internet Archive への転送に時間が掛かってしまうと
途中でタイムアウトとなり、504 番の応答が返ってきてしまう。
スクリプトを汎用とする (URL を別途パラメータとして与える) のであれば、
これも一応「保存できた」として扱った方が無難。
504 でも保存がキャンセルされる訳では無いようで、
これをエラーとして扱い再試行させてしまったがために
巨大ファイルを短い間隔で重複して保存させてしまったことがある。
0221216
垢版 |
2018/01/05(金) 20:15:59.49
>>220
ご丁寧にご解説ありがとうございましたm(__)m

定期保存の方法は大体理解できたのですが
当方JScriptに詳しくないのでスクリプトの具体的な書き方がわかりません(ノД`)・゜・。

ご無理は承知しておりますが
Pastebin.comなどにスクリプトのサンプルを貼って頂けると有り難いのですが・・・
ぜひとも後学の為によろしくお願い致します。(o_ _)o))
0224名無しさん@お腹いっぱい。
垢版 |
2018/01/06(土) 17:38:17.30
時間の流れ方は人それぞれだし、顔文字とか個性があるのは別にいいんじゃない
Internet Archiveに関するスクリプトなら満更スレ違いとも言えないだろうし
Pastebin指定している所見ると、極力スレに迷惑かからないように考慮しているみたいだし
大体このスレ、1年過ぎても1スレの1/5くらいも消費してないくらい話題ないんだから
多少のスレ違いは問題ないっしょ
0225名無しさん@お腹いっぱい。
垢版 |
2018/01/06(土) 19:40:14.08
>スクリプトの具体的な書き方がわかりません(ノД`)・゜・。

から判るのは"参考"までに問うてみるなんてレベルには
背伸びしても達しない現状を隠しつつ>>216を書き
レスが来たと見るやベース丸コピの勢いで乞食メンタリティを現す
呆れた自己中クレクレ厨という事実
0226216
垢版 |
2018/01/06(土) 22:55:52.85
私のせいでスレが荒れてしまってすみません(>_<)
すべて無知で乞食で心が貧しかった私のせいです。。。
気分を害された方々、本当に申し訳ありませんでしたm(__)m
0229名無しさん@お腹いっぱい。
垢版 |
2018/01/12(金) 22:39:58.08
今さっきからメンテナンスに入った
今日は夕方あたりから「503」乱発だったから仕方ないか…

というか昨日・一昨日あたり消えてるっぽいものもあるのだが
0231名無しさん@お腹いっぱい。
垢版 |
2018/01/13(土) 08:32:56.05
ありゃりゃ
0232名無しさん@お腹いっぱい。
垢版 |
2018/02/27(火) 05:25:01.33
過去に取得されてるURLを現在の表示内容に更新する為に再度保存するにはどこのボタンを押せばいいんですか?
0234名無しさん@お腹いっぱい。
垢版 |
2018/02/27(火) 08:43:21.75
☆ 日本の、改憲を行いましょう。現在、衆議員と参議院の
両院で、改憲議員が3分の2を超えております。
『憲法改正国民投票法』、でググってみてください。国会の発議は
すでに可能です。平和は勝ち取るものです。お願い致します。☆☆
0238名無しさん@お腹いっぱい。
垢版 |
2018/03/05(月) 18:14:49.67
去年保存されてしばらくは完全に保存されてたページが
いつの間にかそのページの画像の大半が失われてた
0239名無しさん@お腹いっぱい。
垢版 |
2018/03/07(水) 22:29:59.08
This URL has been excluded from the Wayback Machine.
なサイトが復活した事例ってある?
BIGLOBEの例とか見るに必ずしも運営者が手を回したわけじゃないようだし、問い合わせたら復活したりするんじゃないかと思ったんだが
0240名無しさん@お腹いっぱい。
垢版 |
2018/03/12(月) 00:57:39.67
Archive.is で Facebook のアーカイブが取れなくなっている。

Archive.is のクローラは Facebook 上では登録ユーザとして振舞っていて、
パブリックでは無いコンテンツのアーカイブも取れるようになっているのだが
そこで使われていたアカウントがブロックされたっぽい。
ttp://Archive.is/TT0nA
Masha とか Nathan とか、過去にアカウント名が変わったことが何回かあるので
今回が初めてでは無いのかも。

>>239
聞いたことが無いですね・・・。
0241名無しさん@お腹いっぱい。
垢版 |
2018/04/17(火) 11:35:00.65
今日深夜ずっと繋がらないんだけど何かあった?
0242名無しさん@お腹いっぱい。
垢版 |
2018/04/20(金) 09:29:40.69
Archive.isはweb.archive.orgと違ってソース見るとリンクが別の文字列に置き換わるんだな
だから記録したリンクのアドレスをソースで調べようとしてもわからない
リンクアドレスが直接サイト上にすべて表示してあるなら大丈夫だけど
web.archive.orgtが禁止してるサイトを記録できるのはありがたいが中途半端
0243名無しさん@お腹いっぱい。
垢版 |
2018/04/23(月) 22:52:27.15
悪いひとたちがやって来て
みんなを殺した

理由なんて簡単さ
そこに弱いひとたちがいたから

女達は犯され
老人と子供は燃やされた

悪いひとたちはその土地に
家を建てて子供を生んだ

そして街ができ
悪いひとたちの子孫は増え続けた


朝鮮進駐軍 関東大震災 日本人10万人大虐殺

https://youtu.be/iBIA45CrE30
https://youtu.be/D0vgxFC04JQ
https://www.youtube.com/watch?v=sYsrzIjKJBc
https://www.youtube.com/watch?v=SiHp41uWo1I
https://www.youtube.com/watch?v=zYBCTRryFP8
https://youtu.be/-wF31xbwqPM
0246名無しさん@お腹いっぱい。
垢版 |
2018/05/31(木) 08:55:50.66
別のところで耳にしたので本当かどうかわかりませんが
webarchiveを用いて消えてしまったリンク
例えばhttp://www.chinpoppo.ne.jp/images/xxxx.jpg
が昔あったが現在images以下が表のページからのリンクが消されたとして(サーバー内には存在するる)
その画像一覧をWebarchiveを用いると現在のページからも落とせると聞いたが本当でしょうか?
もし可能ならその方法を,またWebarchiveを用いないで出来る方法があれば教えてください
スレ違いならこの質問に適したスレを教えてください
0247名無しさん@お腹いっぱい。
垢版 |
2018/05/31(木) 10:37:12.73
>>246
日本語でおk。

「Wayback Machine に保存されているファイルの一覧」は出力できても、
「元サーバには置いてあっても Wayback Machine では保存しなかったファイルの一覧」なんか
出力できるわけ無いわ。
0249名無しさん@お腹いっぱい。
垢版 |
2018/06/01(金) 09:35:59.56
>>247
ありがとうございました
0250名無しさん@お腹いっぱい。
垢版 |
2018/06/23(土) 22:07:00.35
このアーカイブてデータをSSDに全部入れ替えたら
アクセスすごい速くなるんだろうな、金額や手間を
考えたら途方もない話だろうけど
0251名無しさん@お腹いっぱい。
垢版 |
2018/06/24(日) 21:17:52.37
ストレージの速度も大事なんだろうけれど
データベース系はメモリが足らないとダメなんだろうなって気がする
それこそカネがかかる話だけれどもね
0252名無しさん@お腹いっぱい。
垢版 |
2018/07/05(木) 01:48:27.48
ここ数日 /save/ で保存を試みても失敗することが多くなった。
数回ないし十数回リロードすれば通るけど、本当に鬱陶しい。
0253名無しさん@お腹いっぱい。
垢版 |
2018/07/07(土) 04:58:10.52
>>252
右に同じ。

しかも、
>数回ないし十数回リロードすれば通るけど

これがまた結構時間をロスする。
意外とこのサイトの重要性は高まっているので、
ここが機能しなかったら本当に困る。
0254名無しさん@お腹いっぱい。
垢版 |
2018/07/07(土) 05:50:54.11
というか基本的な話だが、
同じサイトを複数回取る場合(頻繁にトップページが変わる、新聞社の公式とか)、
Internet Archiveは『10分程度』、間(あいだ)を置かなきゃダメなんだよね。

「Wayback Exception」でタイムロスがあっては尚更困るんだが。
0256名無しさん@お腹いっぱい。
垢版 |
2018/07/07(土) 15:39:37.64
もちろん他のところも利用してるけど、
1日20回限定だったり、サイトの方から拒否しちゃったりでねえ…

それにしてはここ数日、
InternetArchiveにアクセスが集中しすぎているのか?
0259名無しさん@お腹いっぱい。
垢版 |
2018/07/07(土) 19:14:44.12
午後から本当に「Sorry」ばかりでガチで不調

一時期のウェブ魚拓もそうだったが
不可解な画像を多量にアーカイブするような
平たく言えば「荒らし」が出てきてるのか?
0262名無しさん@お腹いっぱい。
垢版 |
2018/07/12(木) 17:50:11.87
保守
0264名無しさん@お腹いっぱい。
垢版 |
2018/07/24(火) 06:42:47.65
これが無くなるとかなり困るな
0266名無しさん@お腹いっぱい。
垢版 |
2018/07/25(水) 10:07:04.60
いっそグーグルが買収してその脅威のメカニズムで
ウェイバックをワード検索できたり、負荷を軽くしたりプログラムを再構成してくれないかな
0267名無しさん@お腹いっぱい。
垢版 |
2018/07/25(水) 10:39:55.70
>>266
「他人の著作物を勝手に保存してそのまま勝手に再公開する」という
インターネット・アーカイブがやっている行為について訴訟が起こされたけど、
非営利組織であることが米国著作権法のフェアユース規定を適用できるかどうかの
鍵となっていたはず。
買収で営利組織の傘下に入ると、おそらくそこが崩れて
保管されているアーカイブの殆どが違法コピーに成り下がる。
0268名無しさん@お腹いっぱい。
垢版 |
2018/07/29(日) 21:16:40.87
0276名無しさん@お腹いっぱい。
垢版 |
2018/10/02(火) 18:31:41.89
頼れるのがInternet Archiveしかいない…!
0277名無しさん@お腹いっぱい。
垢版 |
2018/10/02(火) 21:28:33.03
ジオシティーズ消滅でだいぶ貴重なデータが失われるな
黒歴史サイトが消える〜って喜んでるのも居るがそんなもんより損失が大きいのが
アーカイブされりゃいいけどニフティなんかアーカイブで見れないサイト多い惨状
他では誰も扱っていないすんげーマニアックなデータを蓄積したサイトとか 勿体無い
0281279
垢版 |
2018/10/11(木) 02:20:55.03
>>279 の件は直ったようだ。
0284名無しさん@お腹いっぱい。
垢版 |
2018/10/21(日) 11:22:22.45
全ページ検索はまだ?
でもモラル上厳しいか
0286名無しさん@お腹いっぱい。
垢版 |
2018/10/21(日) 18:07:24.21
ジオシティーズ削除までに出来る限りアーカイブしとかんとなあ
アーカイブされてそうで意外とされてなかったりする>ジオ
0290名無しさん@お腹いっぱい。
垢版 |
2018/10/22(月) 12:41:35.09
実質、魚拓やArchive isと比べたら、アーカイブサイトでは一番順調なところなのに。
何で数日前以降のものが消えるかね!?

管理者は気がついてるのか!?
0291214
垢版 |
2018/10/22(月) 12:43:48.87
>>288-289
ウチはどうだろう、と思って見てみたら・・・今月 6 日以降の分が全く保存されていない。
ttp://i.imgur.com/cEWjNjz.png
どうも原因はサーバ不調とは別のよう。参考にならず申し訳ない。

>>220 で紹介した手順のまま何も変えていないのだが、明らかにおかしいので
通信内容を追ってみたところ、こちらが送った HEAD リクエストに対して 404 応答を返している。
試しに GET リクエストに切り替えてみると、きちんと 200 応答が返る。多分保存できている。
(以前は途中でリダイレクトがあったはずだが・・・どうだったっけ?)
おそらく仕様が変更されて、HEAD リクエストは使えなくなった、という事だと思う。

以下余談。
>>214 の 3 つのスクショと同じ URL、同じ年のカレンダーを再度見てみた。
ttp://i.imgur.com/71H5nOH.png
ttp://i.imgur.com/8aO7RgA.png
ttp://i.imgur.com/dUdgy82.png
>>214 の時点では歯抜けになっていた 10 月分が、かなり埋まっている。
0295名無しさん@お腹いっぱい。
垢版 |
2018/10/23(火) 18:24:41.33
ここ数日はりきってgeocitiesのアーカイブ保存してたのに消えてるじゃん...最悪
非表示じゃなくてアーカイブごと消滅したってこと?あまり詳しくないからわからんが
0298名無しさん@お腹いっぱい。
垢版 |
2018/10/26(金) 07:00:40.48
どうやら復旧した模様 過去の分も含めてリンクが表示されるようになった
どこかにアナウンスとか上がっているだろうか?
0301名無しさん@お腹いっぱい。
垢版 |
2018/11/01(木) 01:59:51.46
ジオ全盛の頃って累積アクセス数でキリ番踏んだら報告するよう書いてる人結構いたなあ
報告めんどくて毎回スルーしてたら後で踏み逃げ常習者として晒されてたりした
懐かしくて確認してみたらアーカイブ取得されてて(ノ∀`)アチャー
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況