■ 仔花子を一台で、
仔花子も10台近くなってきた、これを一台でまかなおうかと、
全てのサブドメインを一台のサーバに設定して、bg.2chみたいな構成で、
datは花子に
過去ログの削除は花子のを削除する googleとyahooに急に受付嬢が口説き出されたのが問題なのかな?
それとも誰かに仕向けられた差し金なのだろうか… >>158
いやいや、検索エンジンにクロールしてもらうのもそれに耐えられるものを構築するのも
今回の目的の一つでして、
ヘッダーを一工夫してみようかしら
Date , Last-Modified , Expires あたりを設定するとおとなしくなるかしら、
たぶん今は何も設定していない。
http://gimpo.2ch.net/test/read.cgi/nandemo/1256385142/
これに EXpires Last-Modified をつけたつもりなんだけど
どうやれば見(ら)れるんだっけ? >>161
ヘッダを見るにはtelnetでも使って見るしかないんじゃね・・・ %wget -S http://gimpo.2ch.net/test/read.cgi/nandemo/1256385142/
--2011-01-22 23:09:43-- http://gimpo.2ch.net/test/read.cgi/nandemo/1256385142/
gimpo.2ch.net をDNSに問いあわせています... 207.29.253.145
gimpo.2ch.net|207.29.253.145|:80 に接続しています... 接続しました。
HTTP による接続要求を送信しました、応答を待っています...
HTTP/1.1 200 OK
Date: Sat, 22 Jan 2011 14:09:42 GMT
Server: Apache/2.2.15 (Unix) PHP/5.2.13 mod_ssl/2.2.15 OpenSSL/0.9.8n
Cache-Control: max-age=31536000
Expires: Sun, 22 Jan 2012 14:09:42 GMT
Last-Modified: Thu, 01 Jan 1970 00:00:00 GMT
Vary: Accept-Encoding
Content-Length: 2547
Connection: close
Content-Type: text/html
長さ: 2547 (2.5K) [text/html]
`index.html' に保存中 >>161
cwd=[/home/ulacloud/public_html/test/]
2行目にこんなのが出てますよん firefoxに>>163入れて>>161で実験
GET /test/read.cgi/nandemo/1256385142/ HTTP/1.1
Host: gimpo.2ch.net
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ja,en-us;q=0.7,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: Shift_JIS,utf-8;q=0.7,*;q=0.7
Keep-Alive: 115
Connection: keep-alive
HTTP/1.1 200 OK
Date: Sat, 22 Jan 2011 14:12:08 GMT
Server: Apache/2.2.15 (Unix) PHP/5.2.13 mod_ssl/2.2.15 OpenSSL/0.9.8n
Cache-Control: max-age=31536000
Expires: Sun, 22 Jan 2012 14:12:09 GMT
Last-Modified: Thu, 01 Jan 1970 00:00:00 GMT
Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 1456
Connection: close
Content-Type: text/html
設定したとおりになっている予感
Expires を 60*60*24*365 sec にしたのだ。
Last-Modified は・・・ ap_set_last_modified(r);を呼んだだけなんだが、そう設定されるのね、
これはこれでいいのかな、
Cache-Control: max-age=31536000
Expires: Sun, 22 Jan 2012 14:09:42 GMT
Last-Modified: Thu, 01 Jan 1970 00:00:00 GMT
Last-ModifiedレスポンスヘッダはクライアントのIf-Since-Modifiedリクエストヘッダを見て、
304 Not Modifiedステータスコードと組み合わせないと意味ないんじゃね? みなさんどもども
>>165 まぁ いいんじゃね、
>>166 cul はいってなかった。
追加したコードは
{
apr_time_t now = apr_time_now();
apr_time_t additional = apr_time_from_sec(60*60*24*365);
apr_time_t expires = now + additional;
apr_table_mergen(r->headers_out, "Cache-Control",apr_psprintf(r->pool, "max-age=%d", 60*60*24*365));
char *timestr = apr_palloc(r->pool, APR_RFC822_DATE_LEN);
apr_rfc822_date(timestr, expires);
apr_table_set(r->headers_out, "Expires", timestr);
ap_set_last_modified(r);
// ap_set_content_length(r,tile->data->size);
}
>>169
なるほどなぁ
304返しちゃえば、中身はおくんなくてもいいの? *** Log Reset ***
+++GET 4404+++
GET /test/read.cgi/nandemo/1256385142/ HTTP/1.0
Accept: */*
Accept-Language: ja
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)
Pragma: no-cache
Host: gimpo.2ch.net
Cookie: READJS="off"
Connection: keep-alive
Browser reload detected...
+++RESP 4404+++
HTTP/1.0 200 OK
Date: Sat, 22 Jan 2011 14:16:24 GMT
Server: Apache/2.2.15 (Unix) PHP/5.2.13 mod_ssl/2.2.15 OpenSSL/0.9.8n
Cache-Control: max-age=31536000
ここの部分だけでいいのかな
----------------------------------------------
Expires: Sun, 22 Jan 2012 14:16:24 GMT
Last-Modified: Thu, 01 Jan 1970 00:00:00 GMT
----------------------------------------------
Vary: Accept-Encoding
Content-Length: 2547
Connection: close
Content-Type: text/html
+++CLOSE 4404+++
+++GET 4405+++
GET /disp/1001000000010000/00813400.gif HTTP/1.0
Accept: */*
Referer: http://gimpo.2ch.net/test/read.cgi/nandemo/1256385142/
Accept-Language: ja
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)
If-Modified-Since: Sat, 22 Jan 2011 14:16:06 GMT
Pragma: no-cache
Host: e.ofuda.cc
Connection: keep-alive
+++RESP 4405+++
HTTP/1.0 304 Not Modified
Date: Sat, 22 Jan 2011 14:16:24 GMT
Server: Apache/2.2.15 (Unix) PHP/5.2.13 mod_ssl/2.2.15 OpenSSL/0.9.8n
Connection: close
+++CLOSE 4405+++ とりあえず、If-Since-Modified送るone liner。
curl -v --header "If-Since-Modified: Thu, 01 Jan 1970 00:00:00 GMT" http://gimpo.2ch.net/test/read.cgi/nandemo/1256385142/ 2>&1|less
>>170
入れればおk ○If-Modified-Since
×If-Since-Modified >>171
送らなくていいはず。転送量やディスクから読み出しを節約できます >>175
ゴメン、間違えてた
>>171
むしろ送っちゃいけないみたいよ 来週あけたら curl 入れてもらおう
そして >>174 を見込むと、
>>176
なるほど、それは節約できる。
この辺のこと覚えるとかなり節約できますなぁ ######-########-####-##-###-###-##-#############################-####-#-
#######-#######-#########-#-#######-#####-#############-##-########-####
-##########-####################################-####-######-#-#########
###########-############-################-#######-##-#-############-####
#############-##-########-#-##-#######-##########-##########-#######-###
-####-######-#-######-########-###-#########-###-############-##########
#-#########-##-######-########-##################-#################-##-#
########-########-####-##########-#####-###-##-#####-#####-#############
##############-#####-#############-##-############-####-##-###-###-#####
-#-#-########-##########-######-###-####################-##-######-#####
#####################-#-####-########-#############-#####-#####-###-####
今こんな感じ -キャッシュヒット #花子からdatもってきてキャッシュ
だいぶましにはなったんだけど、クローラーが相手ですからねー
yahoo , google , ガーラ
ガーラは過去ログ読まなくてもいいと思うんだけどなぁ
それも 304 返しでおさまるのか !? apr_ のプログラムで最後304を返すのはどうやってやるのかな? おいちゃん304レスポンスは レスポンスボディを*含んではならない*だよ。 CGIの仕組みとしてはステータスコードを出力するには、例えば304 Not Modifiedだったら
Status: 403 Not Modified
とヘッダに混ぜて出力すれば良かった気がする
CGIでないやつならわかんないです >>184
なんか数字がおかしくなってる
Status: 304 Not Modified
こうでした。 こんなコードを書いてみた
r->status = HTTP_NOT_MODIFIED ; って強引に代入して、return 0;でアパッチに返してやればいいのかなかな?
{
const char *if_modified_since ;
apr_time_t tmp_time;
apr_int64_t mtime;
int not_modified = 0;
if(if_modified_since = apr_table_get(r->headers_in,"If-Modified-Since") != NULL)
{
apr_time_t ims_time;
apr_int64_t ims, reqtime;
tmp_time = ((r->mtime != 0) ? r->mtime : apr_time_now());
mtime = apr_time_sec(tmp_time);
ims_time = apr_date_parse_http(if_modified_since);
ims = apr_time_sec(ims_time);
reqtime = apr_time_sec(r->request_time);
not_modified = ims >= mtime && ims <= reqtime;
if(not_modified)
{
r->status = HTTP_NOT_MODIFIED ;
return 0 ;
}
}
}
DSO HTTP_NOT_MODIFIED でググッたら
sunosさんが書いておいてくれてるじゃありませなーんか、
http://sunos.saita.ma/dso-example.c
/* Not Modified の場合 */
/* return HTTP_NOT_MODIFIED; */
しろと、 これでどうだ、ch2->mtimeはキャッシュファイルの日付だ
{
const char *if_modified_since ;
apr_time_t tmp_time;
apr_int64_t mtime;
int not_modified = 0;
if_modified_since = apr_table_get(r->headers_in,"If-Modified-Since") ;
if(if_modified_since)
{
apr_time_t ims_time ;
apr_int64_t ims ;
tmp_time = ((ch2->mtime != 0) ? ch2->mtime : apr_time_now());
mtime = apr_time_sec(tmp_time);
ims_time = apr_date_parse_http(if_modified_since);
ims = apr_time_sec(ims_time);
not_modified = ims >= mtime;
if(not_modified)
{
return HTTP_NOT_MODIFIED ;
}
}
} うまく行ってるのかどうかよくわからないけど、
クロールのスピードはかなり落ちたなぁ
半分くらいかしら、
負荷はなんなくさばけているんだけど
クロールされているからキャッシュはたまるたまる、
でかいSSDが欲しいなぁ でかいのもあるの? 今1番来ているのはここ 182.48.17.147
yahooさんもgoogleさんも来ていないみたい
EXpires Last-Modified 304の効果か !? 明日は、 htmlを返すというのをやろう
つまり gimpo.2ch.net/accuse/index.html とかそういうの
これが出来たらほぼ完成か! >>190
MLCなら512GB〜1Tまでありますよ〜
SLCだと200GBが一番ですね
どっちもウン十万しますが 高いのぅ
花子の負荷をさげめ為にyasaiもcloudに移してみる あれか、yasaiも古いから .dat じゃなくて .dat.gz しかないのか・・・ http://yasai.2ch.net/test/read.cgi/arc/1000086532/
(・∀・∀・)
(・∀・)サテオシゴト・・・ ε三三三三(; ・∀・)鯖マデオツカイ
HTTP/1.1 302 Found
HTTP/1.1 302 Found
HTTP/1.1 302 Found
( ・∀・) 鯖カラヘンジ(・∀・ ;)つ□ 三三三三3
( @_@) □ ナニナニ・・・ +OK 0/1024K Location:temp/
( ・∀・)(・∀・ )オツカイオワリ 三三三三3
(・∀・∀・)
(・∀・)新着 0件 これは動いているから read.cgi@cloudの問題かしら、
これにレス
引用してレス
同じ名前
逆参照
同じ名前
同じメール
p2 info: ホストの移転を検出しました。(yasai.2ch.net/arc → toki.2ch.net/arc)
お気に板、お気にスレ、最近読んだスレを自動で同期します。
Error:
p2 info - http://yasai.2ch.net/test/read.cgi/arc/1000086532/ に接続できませんでした。
p2 info - 板サーバから最新のdatを取得できませんでした。
(p)http://yasai.2ch.net/test/read.cgi/arc/1000086532/l200
--------------------------------------------------------------------------------
アーケード 似スレ 情報 お気に+ 削除 元スレ
p2で取得しようとするとこんな感じに… >>195
0バイトのdatファイルは取得出来るけど… なんかyasaiとかふるいのやってもいまいちなのでyasaiは元にもどして
他のを見繕ってこよう >>131
>>133
へっかんこが対応したらしい。
現在 piza gimpo tsushima あっそうそう yasaiじゃなくてtsushimaで実験継続していますー >>202
ご対応ありがとうございます(`・ω・´)ゞビシッ!! http://tsushima.2ch.net/test/read.cgi/news/1231206508/l50
read.cgi→■ このスレッドは過去ログ倉庫に格納されています
offlaw.cgi→(404):そんな板orスレッドないです。 見れない datもあるさー それは後回し、
引き続き
schiphol jsk takeshima を移してみた。 今やっていることは、大体見(ら)れればokってことで、
見られないのがあるのはたぶんofflaw.cgiのbugだから
これがおわったらなおしに取り掛かるってことで、 Filesystem 1K-blocks Used Avail Capacity Mounted on
/dev/ada0s1a 1012974 340460 591478 37% /
devfs 1 1 0 100% /dev
/dev/ada0s1e 289526798 8 266364648 0% /hd
/dev/ada1s2e 66547010 31714082 29509168 52% /home
/dev/ada0s1d 4058062 1705618 2027800 46% /usr
/dev/ada1s2d 8122126 43712 7428644 1% /var
/dev/md0 886686 386708 429044 47% /md
/md/usr/local/bin 886686 386708 429044 47% /usr/local/bin
/md/usr/local/sbin 886686 386708 429044 47% /usr/local/sbin
/md/usr/local/lib 886686 386708 429044 47% /usr/local/lib
/md/usr/local/libexec 886686 386708 429044 47% /usr/local/libexec
/md/usr/local/apache2/bin 886686 386708 429044 47% /usr/local/apache2/bin
/md/usr/local/apache2/lib 886686 386708 429044 47% /usr/local/apache2/lib
/md/usr/local/apache2/modules 886686 386708 429044 47% /usr/local/apache2/modules
/dev/ada1s2e 66547010 31714082 29509168 52% /home
SSDは50%を超えてしまったなぁ、hdで実験してみようかなぁ /hd/ にキャッシュ溜め込むようにしようと思ったら
/hd Permition ないしw
あした直してもらおう SSD 78% 超えたので、hdに切り替えてみた゜゜/dev/ada0s1a 1012974 340460 591478 37% /
devfs 1 1 0 100% /dev
/dev/ada0s1e 289526798 74 266364582 0% /hd
/dev/ada1s2e 66547010 47663928 13559322 78% /home
/dev/ada0s1d 4058062 1705618 2027800 46% /usr
/dev/ada1s2d 8122126 43968 7428388 1% /var
/dev/md0 886686 386708 429044 47% /md
/md/usr/local/bin 886686 386708 429044 47% /usr/local/bin
/md/usr/local/sbin 886686 386708 429044 47% /usr/local/sbin
/md/usr/local/lib 886686 386708 429044 47% /usr/local/lib
/md/usr/local/libexec 886686 386708 429044 47% /usr/local/libexec
/md/usr/local/apache2/bin 886686 386708 429044 47% /usr/local/apache2/bin
/md/usr/local/apache2/lib 886686 386708 429044 47% /usr/local/apache2/lib
/md/usr/local/apache2/modules 886686 386708 429044 47% /usr/local/apache2/modules
ul ここっすね
/dev/ada0s1e 289526798 74 266364582 0% /hd ← HDD
/dev/ada1s2e 66547010 47663928 13559322 78% /home ← SSD
SSDとHDDのキャッシュをうまく使い分ける方法ってどんなんだろ?
わくわく なんかまだ動きがへんだなぁ
>>207 の場合
専ぶら立ち上げて一回目は読めるけど、ログ削除して再度読もうとすると・・・
読めない
専ぶらによるのかなぁ
私 Jane View
他の専ブラだとどうなりますか? >>215
styleでは読み込みOK→ログ削除→読み込みOKでした ちなみに1回目に取得した後にログを削除せずに再読込をしたらカコローグと帰ってきたぐらいです 私のJaneViewだけの現象のようだ
ちょっと気になるけど・・・ まっいいか たぶんねー
どれが原本かわからないという現在までの2ch
1. 原本の定義をする
2. 削除は原本を対象に行う
3. 原本以外は見えないようにするか、原本以外は原本に同期させる
これをやらなきゃってことですなー
過去ログへの旅 削除テスト
http://qb7.2ch.net/test/read.cgi/operate2/1295332682/
ということなので mentai , money , choco もお仲間に、 都合
gimpo jfk piza schiphol takeshima tsushima mentai choco money が参加しています まぁびっくりなわけで、
mentaiには.datはなかった。
全部 .dat.gz になっている、格納場所は
public_html/板名/kako/9xx/9xxxxxxxxx.dat.gz or
public_html/板名/kako/1xxx/1xxxx/1xxxxxxxxxx.dat.gz or
だ。 途方に暮れてみる。 もう圧縮ってApacheがやってくれるんですよねぇ。
なら、このコマンドを。。。
find . -name \*.dat.gz | grep /kako/ | xargs gunzip
find . -name \*.dat | grep /kako/ | xargs chmod 0666 今調べてもらったんだが、
サブドメインは全部で200以上あるそうだ、また途方に暮れる
仔花子を経由しないで直接花子に向いているのがあと40ほどあるらしい
cloud.ula.cc のhddはまだまったく忙しくないようなので
またcloudへ向けるのを増やしてみる
namidame mamono pc11 live28 society6 science6 が新たに参加します >>223
その方向の方がよさげですねぇ
hanakoの負荷か下がったときにでも
花子の転送量グラフ
http://traffic.maido3.com/jfj1/McNh/nXAg/ >>223 おわった@mentai
これでmentaiの過去ログは全部 read.cgi offlaw.cgiで読めるはずー mukashiの中身も見られなくなってる
捨てるっていうか忘れてる悪寒?
http://mentai.2ch.net/test/read.cgi/mukashi/943986949/l50
・専ブラ:
1 名前: ERROR ret=2001 OL2ERROR##### dat(58)[/home/ch2mentai/public_html/mukashi/kako/943/943986949.dat]
投稿日:
・ブラウザ:
(`#(1)
1 ERROR ret=2001 OL2ERROR##### dat(58)[/home/ch2mentai/public_html/mukashi/kako/943/943986949.dat]
(`# /home/ulacloud/public_html/_jungle/2ch/mentai.hanako.2ch.net/mukashi/dat/943986949.dat
1メ・???H弓$H酷・
総レス数 1
■ このスレッドは過去ログ倉庫に格納されています
/mukashi/フォルダってhuman、bubbleとか他にもあるのか >>229
mukashiの下に、さらにもう一つ板ディレクトリがあって、その下のkakoディレクトリの中にはいってる感じで、
現在の形式に比べて階層が一つ多いから、
多分特殊な処理をread.cgiに施すとか、あるいはディレクトリ配置を他と同じようにしてもらうとかしてもらわないと
多分見れない。 datの形式も違ってそうでややこしそうな予感がするよ… 仔花子にじゃなく、直接花子に向いているサブドメインがあと31個ある
今日はそのなかから当たらし目のものを10個 cloudiに向けよう love6 live11 live23 live24 yutori money6 pc12 pc11 atlanta game13 です
これからDNSの変更します chocoも >>223 で展開中。
>>234 でたいして負荷上がらなかったからさらにやるー げっ 夜になるとyahooのクロールが大量にくる・・・
負荷あがってなんにもでけへん、朝方こいっちゅうの
cloud収容組の1000.txtとかが読み出せないのは仕様でしょうか まだそこまで手が回ってませーん
読み出せるようにするつもりです、
その仕組みは上の方に書いてありますー
削除が優先です 進捗率 0.1% ここまで現在参加中一覧
atlanta, choco, game13, gimpo, jfk, live11, live23, live24, live28,
love6, mamono, mentai, money, money6, namidame, pc11, pc12, piza,
schiphol, science6, society6, takeshima, tsushima, yutori, /dev/ada0s1e 289526798 78699630 187665026 30% /hd
/dev/ada0s1e 289526798 105700534 160664122 40% /hd
本日移したのは、
jbbs 2chplus afox ebi natto piza2 pyon saki salad salami tako teri ton yasai tv food3
これで直接花子を見にいっているサブドメインはなくなったはず
cloud か仔花子経由になった。 /dev/ada0s1e 289526798 113237464 153127192 43% /hd
/dev/ada0s1e 289526798 147424870 118939786 55% /hd
今日も20くらい移すぜ 本日収容分
science4 science5 society society2 society3 society4 society5
sports sports3 sports4 sports5 sports6 sports7 sports8 sports9 sports10
that that2 that3 that4 dubai
21個 /dev/ada0s1e 289526798 157497478 108867178 59% /hd
/dev/ada0s1e 289526798 180858238 85506418 68% /hd
ううぅ 70%を越えようとしている、、、
cloud2 投入
tmp tmp2 tmp3 tmp4 tmp5 travel travel2 travel3 tora3 v-v
tv2 tv3 tv4 tv5 tv6 tv7 tv8 tv9 tv10
19個
cloud3を来週に投入予定 HDD=2TB のハイブリッドBananaらしい 調子にのって cloud2に
academy6 anchorage changi hideyoshi qb6 仔花子
3238
3279
3211
の3台があいたはず、 cloud に入れたのは全部htmlは見せていない状態です
本当のdatで削除を行えば全てに反映するシステムを構築中です
すみません
tv food3の削除ができるように次頑張ります。
来週私いないので、帰ってきてからやります cloud
/dev/ada0s1e 289526798 217650168 48714488 82% /hd
本日 01/31 cloud2への収容分です。
academy,anime2,anime3,bubble6,etc6,etc7,ex18,ex19,ex2,ex20,
ex21,ex22,ex23,ex25,ex3,ex4,ex5,ex6,ex7,ex8,
ex9,food,food2,food3,food4,food5,food6,food8,game11,game12,
game14,hobby10,hobby11,human7,life8,life9,live25,live27,music8,news21,
news22,news23,news24,school7,science,sports11,tmp6,tmp7,tv11
計49個です。