X



SpamAssassin
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
垢版 |
2005/08/23(火) 13:55:32
apache.orgの傘下になって、ますます勢いづくスパムメールの暗殺者
SpamAssassin
これでSPAM業者を失業に追い込もう.......
とまでには、まだまだ遠い道のりだよ(w
学習しろ!!学習しろ!!学習しろ!!
sa-learn --spam --mbox /home/hiroyuki/mail/spam

ハムをスパムと間違えないで、一生のお願いだから。

スパム業者の荒らしはスルーってことで。
おまいら、まったりとお願いします。

本家 ttp://spamassassin.apache.org/
2005-06-06: SpamAssassin 3.0.4 released!

キーワード
local.cf
user_prefs
spamassassin
ベイズ推定
ベイジアンフィルタ
ホワイトリスト
AWL
bayes_journal
auto-whitelist
0062名無しさん@お腹いっぱい。
垢版 |
2005/10/31(月) 02:56:13
>>61
あ・・・qmail-scannerの問題であってSAの問題じゃないのかな?

症状の再現性については、良くわからないけど
他の添付ファイルでいままで問題が起こったことがないので、
特殊な例かもしれません。
問題を起こす添付ファイルは手元に届いていないし、
届いたとしてもそのまま丸投げするわけに行かないので、
もうちょっと掘り下げてみます。
0063名無しさん@お腹いっぱい。
垢版 |
2005/11/04(金) 07:10:06
bsfilter と共用してる人いる?
それって意味ある? (片方だけ使うよりも、spam と判断する
確率あがる?)

bsfilter、spamassassin はどちらも、 ベイズ推定に基づいてるので、あまり意味がないように感じてるんだけど、効果があるか気になった。
0064名無しさん@お腹いっぱい。
垢版 |
2005/11/04(金) 08:59:06
>>63
ほとんど意味無いと思う。
SpamAssassinのベイジアンフィルタだけを使わないで、bsfilterを多段にかける
とかだったらまだわかるが。
006664
垢版 |
2005/11/04(金) 10:48:57
>>65
あーなるほど。
bsfilterって最初から日本語化されてたっけ?
bsfilterをnkfとkakasiで日本語化して使うなら、SpamAssassinも
そうやって使うというのはどうだろ。

ちなみに、ベイジアンフィルタ使わなくても、設定でほとんど排除出来るよ。>>63
0067名無しさん@お腹いっぱい。
垢版 |
2005/11/04(金) 13:28:25
中国語やらのspamもとんでくるしcharsetの指定とかがめちゃくちゃなのも多いので、
日本語だけ対応していても仕方がない。

実際spamassassinだけで日本語も中国語もほぼ全て弾けてるよ(カスタムルール有)。
たまに英語のspamが抜けてくるけど、一日一通以下(受け取るSPAMは100超/日)。
false alarmは登録したサイトの広告的なメールマガジンみたいなものだけ経験がある。
これは受け取り望んでることがわからなければどこからどうみてもSPAMだよなあ、
と思ったので学習は諦めてwhitelistに入れた。
0072名無しさん@お腹いっぱい。
垢版 |
2005/11/11(金) 20:55:45
>>63
全く無駄ではないと思う。
ごく稀にSAが取りこぼすspamを捕捉するときがある。
多少の取りこぼしが気にならないなら、入れる必要はないけど。
精度はDNSBLやRazor2とか使えて自動学習してくれる分、SAの方に
分があるように思う。
あと、bsfilterはhamの学習がうまくいかないことがたまにある。
0073名無しさん@お腹いっぱい。
垢版 |
2005/11/12(土) 08:09:09
false alarmの可能性も同様に増えるから、そのリスクの見積もりと
SAのみの場合にどれだけ不満かの兼ね合いだろうね。
0074名無しさん@お腹いっぱい。
垢版 |
2005/11/17(木) 12:01:58
>>71 そなのですか?あちゃあ。
BAYES_99は絶対にアウトにする方法ってありますか?
これするとまずい事もあるのですかね。
0075名無しさん@お腹いっぱい。
垢版 |
2005/11/17(木) 12:56:53
>>74
BAYES_99 のスコアをやたら大きな値にしておけばいいんじゃない?

まずい事っていうか、ベイズを 100% 信じる!という運用ポリシーだと
自分を納得さることが出来るの? (俺には出来ない)

いろんなスコアの積み重ねで spam 判定を行うという仕組みは良く
出来てて、納得して利用しているけどなあ。
0077名無しさん@お腹いっぱい。
垢版 |
2005/11/30(水) 14:40:57
>>75-76 サンクス!!
(もともと>>68です)
sa-learn --spamで学習させるという事は絶対にスパム!!wということですよね。
つまり人為的に学習させているわけだけど、BAYES_99のスコアをめちゃ高くしておくと、自動学習でのエラー、つまりハムをスパムと判定してしまったときに、困りますよね。
これはsa-learn --hamで修正するのでしょうけど。あれ?この場合、どっちが勝つんだろ?
仕組みが複雑すぎる..................
0079名無しさん@お腹いっぱい。
垢版 |
2005/11/30(水) 17:37:11
>>77
ベイジアンフィルターの原理わかってる?
sa-learn --hamでそのメールをhamと学習させても、それ以前の
学習結果によって同じメールがBAYS_99と判別されることだってあるぞ。

あと、スコアリングについてまるで理解できてなさげだな。
0082名無しさん@お腹いっぱい。
垢版 |
2005/12/08(木) 13:39:52
>>80 具体的に述べよ。でも、たぶんできるよwww
0083名無しさん@お腹いっぱい。
垢版 |
2006/01/10(火) 11:52:34
各ユーザーがベイジアン学習させるタイミングっていつ?
レン鯖で使っているんだけど、なかなか学習効果でないんですよ。
0086名無しさん@お腹いっぱい。
垢版 |
2006/01/17(火) 12:46:17
sa-learn --spamの学習は、各自のspamボックスを
sa-learn --spam --mbox /home/*/mail/spam
でなめさせるから良いと思うけど、
間違ってspamに入ってしまったのを、
訂正学習させるのはおまいらどうやってます?

sa-learn --ham --mbox /home/*/mail/notspam
とか訂正ボックス作れば良いのかな。
0090名無しさん@お腹いっぱい。
垢版 |
2006/01/26(木) 13:14:55
いつも参考にしていたサイトがディスク障害でデータ消失だって。
ttp://ssss.jp/~trombik/email/spamassassin.html
サルベージしていった方がいいかなぁ。
0091名無しさん@お腹いっぱい。
垢版 |
2006/02/04(土) 19:03:29
qmail/vpopmail
SpamAssassin3.1.0
qmail-scanner1.25
の環境です。

存在しないメールアドレス宛に着た場合、
~vpopmail/domain/example.jp/user1/auto-whitelist
~vpopmail/domain/example.jp/user1/auto-whitelist.mutex
が自動生成されてしまいます。
その為、ユーザーディレクトリが訳のわからない状況になってしまい、
このファイルの自動生成を停止させることはできますか?

検索してみたら、生成先のパスを変更する解説は多かったんですが、
自動生成停止は見つからなかったので、お願いします。
0092名無しさん@お腹いっぱい。
垢版 |
2006/02/16(木) 08:34:09
SPAM判定されたものの行き先フォルダをscoreごとに分けてみた。
5-10: 1
10-20: 3
20-: 10
くらいの割合。
サブジェクトを眺めて誤判定がないか確認するのが楽になった。

scoreに応じて色が変わる(段階的または連続的に)というのも面白いと思ったが
wanderlustでそこまでするのは大変そうなので見送り。
0093名無しさん@お腹いっぱい。
垢版 |
2006/03/11(土) 11:45:40
sendmail+spamassassin+milter で構築しておりやす
外部MTAへ送信するときもX-Flagが付加されているようで
自分自身が送信したメールがX-Spam-Flag:YESって笑えないことも
対策はないでしょうか?
0096名無しさん@お腹いっぱい。
垢版 |
2006/03/23(木) 14:03:58
Spamassasin+Postfixで2年ぐらい前に利用してたのですが、
当時、1時間に2-3000通ぐらいしかメールできなくてしぶしぶ外した経験があります。
最近はハードのスペックも上がってきたし、また検討しているのだけど、
みなさんの負荷具合ってどうなんですかね。
実際運用してる方どうですか?どれぐらいのペースでメールの送受信できます?

なんとなく平均これぐらいは飛ぶよ、ってのがわかればいいんですけど。
0098名無しさん@お腹いっぱい。
垢版 |
2006/03/23(木) 20:31:24
>>96
以前古い処理能力の低い機械をメールゲートウェイにしていた頃は
並列度を上げるより下げた方が実質の処理能力があがったことはある
009996
垢版 |
2006/03/23(木) 22:22:27
>>97-98
当時はCeleronの600MHzぐらいのやつで、他のアプリもごりごり動いてたw

まぁ今回はP4-3GHzぐらいのやつで専用のメールゲートウェイにしようかと思うのだが、
メルマガが配信されることがあるサーバなので、できれば懐は広くしておきたいわけよ。
1時間で数万通とかは余裕?平均がどんなもんかしらないのでアレだけど
0100名無しさん@お腹いっぱい。
垢版 |
2006/03/24(金) 00:20:50
> Celeronの600MHz
って全然2年前じゃないじゃん、5年以上前じゃない?
まあ少なくともパフォーマンスの良いシステムはいくらでも有るわけだから
心配ならそれにしとけば問題ないと思うね
取りあえず2chで使ってるくらいのにしといたら
010196
垢版 |
2006/03/24(金) 12:53:03
>>100
当時、そのスペック使ってた会社だったのでw

あと、何通送れるとかは検証するしかないのか。ちと面倒だな。
最後にSpamassasinのパフォーマンスに関して参考になるサイトがあれば教えて下さいです。
パフォーマンスが落ちるとかなんとか書いているサイトはあるけど具体的な数字で検証しているところが見つからない。
0102名無しさん@お腹いっぱい。
垢版 |
2006/03/24(金) 17:04:43
ま、やってみたら、
結局マシンパワーの問題だから最近の高性能マシンならまず問題起きないよ
逆にそれで問題起こるならスンゴイ大量のユーザ抱えてるっと事だからもっと根本から見直した方が良い
メールGWを複数設置して並列処理するとかね、

ちなみに1時間に2〜3000通って商売はSPAM屋かい?
0105名無しさん@お腹いっぱい。
垢版 |
2006/03/26(日) 16:08:02
3.1.1あげ
0106名無しさん@お腹いっぱい。
垢版 |
2006/04/03(月) 16:05:40
$USER_HOME/.spamassassin/user_prefs:

各ユーザーがWebベースで、このファイルをメンテできるツールありますでしょうか。
0108名無しさん@お腹いっぱい。
垢版 |
2006/04/04(火) 11:20:19
>>107 ありがとうございました。チャレンジしてみます。
他のツールご利用の方いましたら、よろしければ使用感など教えてください。
0109名無しさん@お腹いっぱい。
垢版 |
2006/04/04(火) 13:17:58
>>106
List from SA
ttp://wiki.apache.org/spamassassin/WebUserInterfaces

→phpsaadmin
ttp://www.misak.dk/blog/

→WebUserPrefs
ttp://sourceforge.net/projects/webuserprefs/
0113名無しさん@お腹いっぱい。
垢版 |
2006/05/15(月) 11:28:45
cronで、定期的に
sa-learn --spam /home/*/Maildir/.Spam/cur
とやっているんですが、最新の3.1.1にしてからメールが存在しない時に
archive-iterator: readdir found no mail in '/home/hogehoge/Maildir/.Spam/cur' directory
というエラーを吐くようになりました。このエラーを出さなくする方法ってないんでしょうか?
面倒だけど、メールが無かったら実行しないようにするスクリプトを組まないといけないのかなぁ。
0114名無しさん@お腹いっぱい。
垢版 |
2006/05/17(水) 01:22:09
>>113
そりゃエラーじゃない、「読み込むべき対象がない」と報告したに過ぎない。

>メールが無かったら実行しないようにするスクリプト

それが本来の解決方法。
更に言うなら>>88参照。
0115名無しさん@お腹いっぱい。
垢版 |
2006/06/05(月) 15:25:24
mysqlを設置したのですが、AWLはメールアドレスが順位付けられて
見ていて楽しいです。でも、ユーザー毎に設定されるのが無駄な気が。
デフォーで全ユーザー共通のが便利じゃないかなあ。
0116のくす牧場
垢版 |
2006/07/09(日) 22:26:05
spamassasinは、スペースで単語を区切っているっぽいので、
日本語の場合はkakasiで分かち書きにして学習させるパッチを作ってみました。
せっかくなので興味のある人は使ってみてください。
http://sea-mew.jp/nox/data/linux/spamassassin.html
0117名無しさん@お腹いっぱい。
垢版 |
2006/07/09(日) 23:29:01
自分のやってることが車輪の再発明でないかまず確認してもよかったのではないかと。
いや、努力を否定するつもりはないんだけど……。
0119116
垢版 |
2006/07/10(月) 00:01:24
>>117
もちろん、こんなことだれかが考えていると思って探したら、
ITmediaに記事が出ていたんだけども、
そのサイトに行ってみたけど、
どこから落として良いのかわからなかったのですよ。。。

と思ったら、
http://mm.apache.jp/pipermail/spamassassin-jp/2006-February/000041.html
が見つかりました。

0121名無しさん@お腹いっぱい。
垢版 |
2006/07/10(月) 12:02:32
>>116
SpamAssassinほどメジャーなツールで、意外にずっと分かち書き対応パッチ無かったよね。
自分もずっと探してたんだけど、ずっと見つけられなかったもの。
もう一歩遅かった。
0122名無しさん@お腹いっぱい。
垢版 |
2006/07/10(月) 20:23:50
そんなの必要?
うちだとそんなことしなくても
日本語のSPAMはほぼ完全に蹴ってくれるけど。
パラメータやルールはカスタマイズしてるものの。
0123名無しさん@お腹いっぱい。
垢版 |
2006/07/10(月) 23:28:01
123
0124名無しさん@お腹いっぱい。
垢版 |
2006/07/11(火) 00:25:57
>>122
ベイジアンフィルタの性能は低いよ。原理的に考えてもそうだよね。分かち書きしてないんだから。
だからよく誤検出の元になる。蹴らないんじゃなくて蹴りすぎる。
0125名無しさん@お腹いっぱい。
垢版 |
2006/07/11(火) 11:01:59
うちで蹴りすぎる例はほとんどない。
電気店とかの商売メルマガがたまに蹴られるくらいで、
自分で見てもこれはまあ仕方がない、と思ってしまうようなもの。
2、3回くらいhamとして登録すれば問題なくなるけど、もっとも
こういうのはspamassassinに通すより先に振り分けてしまうからな。
0126名無しさん@お腹いっぱい。
垢版 |
2006/07/13(木) 00:45:22
>>122
そんなパラメータの調整なんて必要?
うちは、日本語化パッチを当てるだけで、完全に蹴ってくれるよ。
そもそも、学習が自動で、調整が要らないのがベイズフィルタの利点では。

>うちで蹴りすぎる例はほとんどない。
蹴っているメールをチェックしなければいけないのであれば、
蹴る意味がないのでは?
(蹴っているんじゃなくて、振り分けているだけでは?)


もちろん、そんなの人それぞれですけどね。
導入も我慢も諦めも、コストですから。
しかし、このパッチの導入コストは、メリットに十分見合うと思うけどね。


0127名無しさん@お腹いっぱい。
垢版 |
2006/07/13(木) 13:48:55
>>126
単語の出現確率だけを扱うようなベイスフィルタでは原理的に捉えられない特徴を
ルールに書いてるので。
ベイズフィルタだけを信用するようなスコア設定にもしていないしね。

spamassassinの導入はportsに頼ってるのでパッチはコストが高いです。
0128名無しさん@お腹いっぱい。
垢版 |
2006/07/13(木) 21:54:23
>>127
> ベイスフィルタでは原理的に捉えられない特徴を
であれば、そのフィルタとベイジアンフィルタの効果は独立事象になるわけだから
ベイジアンフィルタの認識率を上げることは、false positiveを下げるために意味ある
ことになると思うんだけど。
つまり、ベイジアンフィルタの性能を高めることは意味がある、ということね。

ただ、portsだとかaptだとか使ってる場合、パッチだと導入障壁が高いというのは理解できる。
0130名無しさん@お腹いっぱい。
垢版 |
2006/07/15(土) 13:56:50
p5-SpamAssassinってちょくちょくアップデートされるんで
パッチがすばやく追随してくれる保証があってかつporterが日本人じゃないと
無理じゃない?
japanese/ 以下にslave portを作るとかかな。
俺は使う気ないからやらないが。
0131名無しさん@お腹いっぱい。
垢版 |
2006/07/15(土) 15:31:04
>>127
おれ、Fedoraだからわからんけど、Portsって不便なんだな。
update調べてパッチ当ててrebuildする10行のスクリプト、cronで動かしてるよ。

0134名無しさん@お腹いっぱい。
垢版 |
2006/07/16(日) 04:59:19
>>133
なんだ。それはそれですげぇな。

>>126は、そもそも
> 単語の出現確率だけを扱うようなベイスフィルタでは原理的に捉えられない特徴を
> ルールに書いてる
と言っているので、日本語対応のレベルの話じゃなかったな。すまん。

ともあれ、>>120 のパッチすげー。
0136131
垢版 |
2006/07/17(月) 00:48:40
>>135
すまんかった。今は反省している。
0138名無しさん@お腹いっぱい。
垢版 |
2006/08/09(水) 18:43:52
# SpamAssassin 3.1.4に対応した日本語対応パッチ
(案、その5)が発表されました (2006-7-29)
# SpamAssassin 3.1.4がリリースされました (2006-7-27)

from ttp://www.spamassassin.jp/
0139名無しさん@お腹いっぱい。
垢版 |
2006/09/12(火) 16:40:39
3.1.5 にしたら sa-learn が mbx 形式に対してエラーを吐くので調べてみた。
ArchiveIterator.pm の 1144行目。

--- ArchiveIterator.pm.orig     Tue Sep 12 16:39:47 2006
+++ ArchiveIterator.pm  Tue Sep 12 16:39:58 2006
@@ -1141,7 +1141,7 @@
          }
 
           $self->bump_scan_progress();
-         $info->{"$file.$offset"} = Mail::SpamAssassin::Util::receive_date($header);
+         $info->{$offset} = Mail::SpamAssassin::Util::receive_date($header);
 
          # go onto the next message
          seek(INPUT, $offset + $size, 0);
0142139
垢版 |
2006/09/13(水) 01:27:34
誰かエロい人が project に言ってくれねーかなぁと・・・
0144名無しさん@お腹いっぱい。
垢版 |
2006/09/13(水) 09:28:55
ホームページ制作王は、世界の権威として名高いCOMDEXが
21世紀のワールドスタンダードに認定したWebパブリッシングアプリケーションである。

ホームページ制作王に不可能はない。
不可能があるとすれば、そこが人類の英知の限界点である。

21世紀、世界のWebはホームページ制作王を中心に回っていくのである。
にもかかわらず、ここ日本では、心ない風評のため、まだまだ普及に
遅れがみられる。

ホームページ制作王を普及させないかぎり、我が国のWebは、
世界の趨勢の後塵を拝するばかりである。

世界が認めた高性能!ホームページ制作王
http://pc8.2ch.net/test/read.cgi/hp/1106508682/
0146名無しさん@お腹いっぱい。
垢版 |
2006/10/09(月) 10:15:41
ルールを書く際に日本語文字列を使う場合はJISコードに変換して,
さらに,メタキャラクタをエスケープしなければなりませんが,
皆さんこの辺はどうやっているのでしょうか。

JISコードへの変換は次のようにやればいいと,ググって見つけたのですが,
メタキャラクタのエスケープを実行してくれるような方法はないのでしょうか。

echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}'
0148名無しさん@お腹いっぱい。
垢版 |
2006/10/11(水) 23:52:15
>>146
あまりスマートとは言えませんが、
そのあとにsedでもかければいいのではないでしょうか

echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}' | sed 's/\(\.\|\`\|\*\|\+\|\/\|\?\|\^\|\$\|\#\|\{\|\}\|\(\|\)\|\[\|\]/\\\1/g'
0149148
垢版 |
2006/10/11(水) 23:57:59
>>146
ごめん、今試したらミスってた。
↓でどうでしょう?

echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}' | sed 's/\(\.\|`\|\*\|\+\|\/\|\?\|\^\|\$\|\#\|{\|}\|(\|)\|\[\|\]\)/\\\1/g'

# どっちにしろスマートじゃないよなぁ。
0150146
垢版 |
2006/10/12(木) 09:47:07
>>149

サンクス。これはすばらしい。早速使わせてもらいます。
0152148
垢版 |
2006/10/12(木) 16:40:22
sa-updateについて質問です。

http://spamassassin.jp/modules/xhnewbb/viewtopic.php?topic_id=14
↑を見てsa-updateを使える状況にはなっています。
crontabに登録して自動的に更新するようにしたいのですが、
どのくらいの頻度で更新するのがよいのでしょうか?

現在は
0 2 * * 5 /somewhere/spamassassin-update
として金曜日に更新するようにしています。
週1回くらいでちょうどいいものなのでしょうか?
spamassassin-updateはsa-updateとspamdのrestartをしています。
0153146
垢版 |
2006/10/13(金) 09:06:42
>>151

おお,これはすばらしい。これなら,簡単にルールを作れそうです。
どうもありがとうございます。
0157名無しさん@お腹いっぱい。
垢版 |
2006/10/19(木) 11:41:12
>>155 Gmailとthunderbirdで同系列のメールを受信させているけど、
こちらはやや低下してはいるけど、assassinの捕捉率ががた落ちしちゃった。

例えば、

------------------------------------
Company name: Texhoma Energy, Inc.
Stock symbol: TXHE.PK
Current price: 0.10$ (growth + 10%)
Expected price 10/18/2006: 0.29$
Expected price 10/20/2006: 4.52$
------------------------------------
Please read this mail attentively!!!!!!!!! This is strictly confidential information. Don't send it
to anybody. Only now is a right moment to buy that stock. You can take it now for a low price. On Friday , 20
October the following news will be announced:

以下略
0158名無しさん@お腹いっぱい。
垢版 |
2006/10/19(木) 21:58:20
>>157
うちもすり抜けてウザーだったから
portupgrade mail/p5-Mail-SpamAssassinしたら
3.1.6で補足出来てますよ〜
0159名無しさん@お腹いっぱい。
垢版 |
2006/10/29(日) 09:24:22
>>154
どんなのがすり抜けてきてる?
0161名無しさん@お腹いっぱい。
垢版 |
2006/11/14(火) 16:54:34
3.1.5です。>157みたいな英文のスパムの捕捉率がついに50%割っちゃったotz
レンサバなので3.1.6にできない。くやしーw
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況