X



Internet Archive総合 (web.archive.org) #2 ©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
0121名無しさん@お腹いっぱい。
垢版 |
2017/06/10(土) 18:59:22.23
うん、何を残してもいいと思うけど
突っ込むならば
大事な物をいつまでも残しておく手段にIAを使う
という所では^_^;
0122名無しさん@お腹いっぱい。
垢版 |
2017/06/11(日) 01:17:03.81
自殺配信して死んだだるまが生きた証と言って残したブログも速攻で消されたけど誰かがIAに保存してたおかげで読めたな
0124名無しさん@お腹いっぱい。
垢版 |
2017/06/11(日) 06:23:44.63
amebloをIAで開くと、トップページはアーカイブされているけど、
月別や個々のURLを入れるとアーカイブされていないことが多い。
まあ、amebloに限った話じゃないが。
0126名無しさん@お腹いっぱい。
垢版 |
2017/07/07(金) 22:15:10.17
>>125
普通に有り得る例としては、そのサイトに直リン除けが掛けられていて
画像向けのリファラーのチェックが行われていたとか。
0128名無しさん@お腹いっぱい。
垢版 |
2017/07/12(水) 16:31:21.72
伺かの小鳩とクロver1.0の2003年のファイル落としたら
中に2007年と2008年と2015年の日付のファイルが入ってた謎
0131名無しさん@お腹いっぱい。
垢版 |
2017/07/12(水) 22:43:57.30
何か意味あるのかな。
ブログでトップに表示させるために2050年とかの記事があるようなものだったりするの?
0134名無しさん@お腹いっぱい。
垢版 |
2017/07/18(火) 05:49:05.50
これ、もうすぐ完全にダメになりそうだ
0137名無しさん@お腹いっぱい。
垢版 |
2017/07/28(金) 11:48:29.31
過去の保存アーカイブの大半が死んでる。検索機能も駄目だし…

ミラー鯖は若干は検索機能でヒットするがやはりあるはずアーカイブにはエラーなのかたどりつけない。
0138名無しさん@お腹いっぱい。
垢版 |
2017/07/28(金) 17:22:45.77
アーカイブ済ページから未アーカイブページへのリンク踏むと
前はsave this url画面になったのに
こないだから404になっていちいちボックスにurl入れなきゃなので面倒
0139名無しさん@お腹いっぱい。
垢版 |
2017/07/28(金) 19:23:03.47
とうとうミラーのtopまで落ちた…
0142名無しさん@お腹いっぱい。
垢版 |
2017/07/31(月) 03:28:01.11
情報求めて初めて来たが、こんな板あったのか……
繋がらないのは俺だけじゃなかったんだな……
ここ使えないとマジで困りますよ……
0145名無しさん@お腹いっぱい。
垢版 |
2017/08/04(金) 20:16:57.48
昨日から久しぶりに使ってたんだが、全然つながらなくなったので調べてたが
ずっと調子悪かったのか
便利なんだけどな
0146名無しさん@お腹いっぱい。
垢版 |
2017/08/05(土) 11:39:53.24
日刊ス○ーツ公式
記事に関して新しいものが取得できなくなってる!?

2〜3日前までに取った記事は表示できるんだが

魚拓で取得不可能になったから(トップページは除く)
ここが使えないと何気に困る
0149名無しさん@お腹いっぱい。
垢版 |
2017/08/16(水) 00:08:42.74
日付が変わって昨日になるが、18時ごろから1時間くらい、
タイムアウトとか言って、使い物にならなかった。

この時間帯で1時間も使えなかったのって、ほんと酷だわ…。
0155名無しさん@お腹いっぱい。
垢版 |
2017/09/01(金) 10:16:43.71
>>153だけど、きのう書いたように仕様変更と思いきや
以前と同じく404吐くのに戻っていた

ちなみに昨日取得したページは、某著名人のブログ2017.8.29夕方アップ記事
きょう取得したのは、昨日と同アカのブログ内の昨晩アップ記事
0157名無しさん@お腹いっぱい。
垢版 |
2017/09/01(金) 21:02:34.83
> IA内に履歴ないURL踏ん
でみたけど
クリックと同時に"Saving page now..."になるページと404のワンクッションおくページとが混在。
中の人らがどこをどういじってるのか知らんが当分は不安定な状態が続きそう。
まーどうにかこうにか取得できてるんでありがたくフリー利用させてもらいまふ
0158名無しさん@お腹いっぱい。
垢版 |
2017/09/02(土) 01:51:59.68
一昨日(8月31日)、「Wayback Exception」という表示が何度も出て、
サイトの取得を妨げていたんだけど、見られた方はいますか?

「Exception」は“例外”という意味らしいけど、毎日のように取ってるサイトで
このような現象が起きたので驚いてる。

因みに昨日(9月1日)は逆に、その表示を一切見ていない。
0160名無しさん@お腹いっぱい。
垢版 |
2017/09/03(日) 10:40:23.83
>>159
そう、確かにその表示なのだが、

>どうして例外が発生したのか見てないの?

そこまでは見ていない、というよりも分からない。

何しろ、普段から取得している複数の新聞社のニュースサイトを
取る作業をしていた際に、この現象が起きたから。
どうにも原因が思いつかない。
0161名無しさん@お腹いっぱい。
垢版 |
2017/09/04(月) 21:57:17.78
Shift_JIS が宣言されていても Windows-31J として処理しくれるような
融通は利かせてくれないものだろうか。
http://web.archive.org/web/1/mevius.2ch.net/test/read.cgi/esite/1475246713/161

@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]_`
abcdefghijklmnopqrstu~∞gョх
括窮欠合紫順灯�
@ABCDEFGHIUVW\]^_`abcdefghijklmn
opqrstuvwxyz{|}~淫戒期釧厚匙囚
穿凧諦日琵放愈簾傅哄奧廈戌曉檄滯。「」、・ヲァィゥェォャュョッ
ーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマ
ミムメモヤユヨラリルレロワン゙゚瓏磅糶脣蕣褝踰鋺顫鴾

@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_
`abcdefghijklmnopqrstuvwxyz{|}~
胤拐棋屑口冊収埴箭蛸蹄乳眉方油練傴哈奬廐戔暾檢漲
。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタ
チツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚
磊糺脯蕘襠踴鍄顯鵆
@ABCDEFGHIJK
0163名無しさん@お腹いっぱい。
垢版 |
2017/09/07(木) 00:12:02.88
>>161 は (0x8794) が 這 (0x9487) に化けてるけど、これは 2ch 側の問題だな。
具体的には、 の文字の 1 個以上の連続のうち、先頭バイトだけが
なぜか HTML 上では脱落する。
専ブラで dat を直接読んでいれば脱落は起こらない。

バイト列で表現するとこんな感じ。
41 41 87 94 87 94 87 94 87 94 41 41 (AA這這這尿A)

41 41 -- 94 87 94 87 94 87 94 41 41 (AA這這這尿A)
http://web.archive.org/web/1/mevius.2ch.net/test/read.cgi/esite/1475246713/163

算術記号の ではなくて、ギリシャ文字の Σ (0x83B0) だと起こらない。
0167名無しさん@お腹いっぱい。
垢版 |
2017/09/16(土) 18:16:34.78
悪いひとたちがやって来て
みんなを殺した

理由なんて簡単さ
そこに弱いひとたちがいたから

女達は犯され
老人と子供は燃やされた

悪いひとたちはその土地に
家を建てて子供を生んだ

そして街ができ
悪いひとたちの子孫は増え続けた


朝鮮進駐軍 関東大震災 日本人大虐殺
https://goo.gl/1ntWvZ
https://youtu.be/D0vgxFC04JQ
https://goo.gl/h1o4eV
https://www.youtube.com/watch?v=sYsrzIjKJBc
https://goo.gl/FTqHJ1
0168名無しさん@お腹いっぱい。
垢版 |
2017/09/20(水) 14:00:49.17
こういうのもちゃんと読んで反応してるんだろうか
問答無用で弾いてるような印象があるが
http://yahoo-mbga.jp/robots.txt
0169名無しさん@お腹いっぱい。
垢版 |
2017/09/20(水) 14:03:00.66
User-Agent: *
Disallow: /

もうこれだけ読んでやめてる気がしてならない
0170名無しさん@お腹いっぱい。
垢版 |
2017/09/20(水) 19:07:51.75
10分くらい前から使えなくなってる
何が起きた
0172名無しさん@お腹いっぱい。
垢版 |
2017/09/20(水) 19:12:57.86
一応戻ったが、何でまた急に…
0174名無しさん@お腹いっぱい。
垢版 |
2017/09/20(水) 19:23:19.47
今落ちてないかい?
ついに…
0175名無しさん@お腹いっぱい。
垢版 |
2017/09/20(水) 19:26:13.63
うむ、まただ

メンテの予告はないよね?
0178名無しさん@お腹いっぱい。
垢版 |
2017/09/20(水) 19:31:33.35
もう、急に何ヒス起こしてるんだよ…
0179名無しさん@お腹いっぱい。
垢版 |
2017/09/20(水) 19:38:10.25
>>168
問答無用も何も、その robots.txt を規則通りに解釈したら
Internet Archive (ia_archiver) の場合は全拒否になるのだが。

| User-Agent: ia_archiver
| Disallow: /

この少し後ろに "User-Agent: *" で始まるグループがあるが、
上の "User-Agent: ia_archiver" を優先するため無視される。

| User-Agent: *
| Disallow: /
| Allow: /sitemap
| Allow: /$
| ...

仮に上の "User-Agent: ia_archiver" とその次の行が無かったとしても、
Internet Archive は Allow 命令には対応していない。
つまり、"User-Agent: *" とその次の Disallow 命令だけが解釈されて、
どっちみち全拒否となる。
0180名無しさん@お腹いっぱい。
垢版 |
2017/09/20(水) 20:39:47.04
何度かYahooスポーツの世話になっていたが、久しぶりに古いページを
見ようとしたらデータが取れなくなってるな。
0182名無しさん@お腹いっぱい。
垢版 |
2017/09/27(水) 06:43:46.15
Saving page now...が消えたと思いきやまた表示され
Saving page now...が今度こそ消えたと思いきやまた表示され
Saving page now...が(ry
この自動ループに陥って結局手動で停止させるんだが
後から確認してみると取れてるのと取れてないのが2:1ぐらい
めんどくせ
0185名無しさん@お腹いっぱい。
垢版 |
2017/10/02(月) 11:53:53.32
画像が全然保存できてないな

下手するとさっき保存したものよりも同じページの2009年くらいのスナップショットのほうがたくさん画像が見れたりする
0186名無しさん@お腹いっぱい。
垢版 |
2017/10/02(月) 19:51:18.22
>>184
Bummerが3〜4回繰り返されるので
既に根気もくそも無くなってるわ

特に19時台が酷い気がするけど
単に気のせいかな
0190名無しさん@お腹いっぱい。
垢版 |
2017/10/04(水) 20:16:52.84
URL検索機能が相変わらず死んだまんまや…
0198名無しさん@お腹いっぱい。
垢版 |
2017/10/26(木) 00:50:42.39
悪いひとたちがやって来て
みんなを殺した

理由なんて簡単さ
そこに弱いひとたちがいたから

女達は犯され
老人と子供は燃やされた

悪いひとたちはその土地に
家を建てて子供を生んだ

そして街ができ
悪いひとたちの子孫は増え続けた


朝鮮進駐軍 関東大震災 日本人大虐殺
https://goo.gl/FTqHJ1
https://goo.gl/1ntWvZ
https://youtu.be/D0vgxFC04JQ
https://goo.gl/h1o4eV
https://www.youtube.com/watch?v=sYsrzIjKJBc
0201名無しさん@お腹いっぱい。
垢版 |
2017/11/24(金) 13:46:14.14
アーカイヴされたことないページへのリンク踏んだら
久々に404にならず"Save this url in the Wayback Machine"が現れてクリック取得ができた
これ常時できてたのって夏休み前だったから感動すら覚える
0206名無しさん@お腹いっぱい。
垢版 |
2017/12/17(日) 18:45:14.54
ちくしょ完全にダウンしやがった、、
0207名無しさん@お腹いっぱい。
垢版 |
2017/12/17(日) 18:55:40.85
2h前にあった現地の停電の影響
さすがに回避不能だしイラついてもしょうがない
大人しく復旧を待とう
0212名無しさん@お腹いっぱい。
垢版 |
2018/01/04(木) 15:44:23.36
>>211
取得しようとしたら、一旦反応はあるものの、
なぜか取得する前段階の画面に戻ってしまっていたな。

結局、1月1日は終始そんな状態だったが、
1日中使えなかったのはあまりに痛すぎる。
0213名無しさん@お腹いっぱい。
垢版 |
2018/01/04(木) 20:29:56.52
去年10月の第一週に取得しといたのが半分ぐらい駄目になってる
重要だと思うページは取れてるか確認してみたほうがいい
0214名無しさん@お腹いっぱい。
垢版 |
2018/01/04(木) 21:15:03.46
>>213
2015 年よりスクリプトで毎日一回ずつ保存させているものがあるんだけど、
昨年 10 月は第一週に限らずポツポツと抜けている。
URL は公開したくないのでスクショでご勘弁。
ttp://i.imgur.com/4qDvnsI.png
ttp://i.imgur.com/l0lfBpa.png
ttp://i.imgur.com/ZKixGUA.png
0217214
垢版 |
2018/01/04(木) 22:01:04.72
>>215
403 ページが繰り返し記録されているので Internet Archive の問題ではない。

ちなみにスクリプトは /save/ にリクエストを投げてから、リダイレクトを処理して
最終的に 200 番か 504 番の応答が返ってくれば保存できたと判断、
それ以外なら計 10 回まで試行するように組んである。
ログは取っていないので、保存できなかった日にどういう応答が
返ってきていたのかは判らない。
0219名無しさん@お腹いっぱい。
垢版 |
2018/01/04(木) 23:15:25.28
>>214
スクリプトを作成する技術があるのなら、アーカイブするよりも
そのページを直接ハードディスクにhtml(またはmhtml)で保存
するほうが確実ではないのか?
0220214
垢版 |
2018/01/05(金) 03:49:29.13
以下長文失礼。

>>219
いわゆる「証拠保全」の目的で、ブログなどを保存させることもあるでしょう・・・。

>>216
こちらでは Windows Scripting Host 用のスクリプトを JScript で書き、
それを Windows のタスクスケジューラで実行させている。
以下、Internet Archive へ仕掛けるアクセスの内容と、HTTP の応答コードの扱いについて簡単に。

1) 保存させたい URL の前に https://web.archive.org/save/ を付けて、
その URL 向けに HEAD リクエストを投げさせる。
2) 300 番台の応答 (リダイレクト) が返って来た場合、順次追跡して HEAD リクエストを投げさせる。
これは、使用する API によっては特に記述せずとも勝手にやってくれる。
3) 最終的に 200 番の応答が返ってくれば、たぶん保存できている。

保存成否は HTTP の応答コードだけでほぼ判定できる。
コンテントボディは不要なので HEAD メソッドを使っているが、
HEAD を扱えない環境なら GET メソッドでも問題無い。

数百メガバイトの巨大ファイルを保存させようとした場合など、
オリジンサーバから Internet Archive への転送に時間が掛かってしまうと
途中でタイムアウトとなり、504 番の応答が返ってきてしまう。
スクリプトを汎用とする (URL を別途パラメータとして与える) のであれば、
これも一応「保存できた」として扱った方が無難。
504 でも保存がキャンセルされる訳では無いようで、
これをエラーとして扱い再試行させてしまったがために
巨大ファイルを短い間隔で重複して保存させてしまったことがある。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況