SpamAssassin
■ このスレッドは過去ログ倉庫に格納されています
apache.orgの傘下になって、ますます勢いづくスパムメールの暗殺者 SpamAssassin これでSPAM業者を失業に追い込もう....... とまでには、まだまだ遠い道のりだよ(w 学習しろ!!学習しろ!!学習しろ!! sa-learn --spam --mbox /home/hiroyuki/mail/spam ハムをスパムと間違えないで、一生のお願いだから。 スパム業者の荒らしはスルーってことで。 おまいら、まったりとお願いします。 本家 ttp://spamassassin.apache.org/ 2005-06-06: SpamAssassin 3.0.4 released! キーワード local.cf user_prefs spamassassin ベイズ推定 ベイジアンフィルタ ホワイトリスト AWL bayes_journal auto-whitelist >>97-98 当時はCeleronの600MHzぐらいのやつで、他のアプリもごりごり動いてたw まぁ今回はP4-3GHzぐらいのやつで専用のメールゲートウェイにしようかと思うのだが、 メルマガが配信されることがあるサーバなので、できれば懐は広くしておきたいわけよ。 1時間で数万通とかは余裕?平均がどんなもんかしらないのでアレだけど > Celeronの600MHz って全然2年前じゃないじゃん、5年以上前じゃない? まあ少なくともパフォーマンスの良いシステムはいくらでも有るわけだから 心配ならそれにしとけば問題ないと思うね 取りあえず2chで使ってるくらいのにしといたら >>100 当時、そのスペック使ってた会社だったのでw あと、何通送れるとかは検証するしかないのか。ちと面倒だな。 最後にSpamassasinのパフォーマンスに関して参考になるサイトがあれば教えて下さいです。 パフォーマンスが落ちるとかなんとか書いているサイトはあるけど具体的な数字で検証しているところが見つからない。 ま、やってみたら、 結局マシンパワーの問題だから最近の高性能マシンならまず問題起きないよ 逆にそれで問題起こるならスンゴイ大量のユーザ抱えてるっと事だからもっと根本から見直した方が良い メールGWを複数設置して並列処理するとかね、 ちなみに1時間に2〜3000通って商売はSPAM屋かい? >>102 SPAM屋だったら単位時間あたり送付量にゼロの数が二つくらい足らないと思われ $USER_HOME/.spamassassin/user_prefs: 各ユーザーがWebベースで、このファイルをメンテできるツールありますでしょうか。 user_prefsをMySQLで管理しているのであれば、すぐにいくつか見つかると思う。 俺はSquirrelmailのプラグインを使っている。 http://www.squirrelmail.org/plugin_view.php?id=167 >>107 ありがとうございました。チャレンジしてみます。 他のツールご利用の方いましたら、よろしければ使用感など教えてください。 >>106 List from SA ttp://wiki.apache.org/spamassassin/WebUserInterfaces →phpsaadmin ttp://www.misak.dk/blog/ →WebUserPrefs ttp://sourceforge.net/projects/webuserprefs/ 06.3.18 SpamAssassinユーザー会発足 ttp://www.spamassassin.jp/ これってサーバーに入ってなくてもユーザーがホームディレクトリにインストールしてつかえるの? cronで、定期的に sa-learn --spam /home/*/Maildir/.Spam/cur とやっているんですが、最新の3.1.1にしてからメールが存在しない時に archive-iterator: readdir found no mail in '/home/hogehoge/Maildir/.Spam/cur' directory というエラーを吐くようになりました。このエラーを出さなくする方法ってないんでしょうか? 面倒だけど、メールが無かったら実行しないようにするスクリプトを組まないといけないのかなぁ。 >>113 そりゃエラーじゃない、「読み込むべき対象がない」と報告したに過ぎない。 >メールが無かったら実行しないようにするスクリプト それが本来の解決方法。 更に言うなら>>88 参照。 mysqlを設置したのですが、AWLはメールアドレスが順位付けられて 見ていて楽しいです。でも、ユーザー毎に設定されるのが無駄な気が。 デフォーで全ユーザー共通のが便利じゃないかなあ。 spamassasinは、スペースで単語を区切っているっぽいので、 日本語の場合はkakasiで分かち書きにして学習させるパッチを作ってみました。 せっかくなので興味のある人は使ってみてください。 http://sea-mew.jp/nox/data/linux/spamassassin.html 自分のやってることが車輪の再発明でないかまず確認してもよかったのではないかと。 いや、努力を否定するつもりはないんだけど……。 >>117 もちろん、こんなことだれかが考えていると思って探したら、 ITmediaに記事が出ていたんだけども、 そのサイトに行ってみたけど、 どこから落として良いのかわからなかったのですよ。。。 と思ったら、 http://mm.apache.jp/pipermail/spamassassin-jp/2006-February/000041.html が見つかりました。 >>116 SpamAssassinほどメジャーなツールで、意外にずっと分かち書き対応パッチ無かったよね。 自分もずっと探してたんだけど、ずっと見つけられなかったもの。 もう一歩遅かった。 そんなの必要? うちだとそんなことしなくても 日本語のSPAMはほぼ完全に蹴ってくれるけど。 パラメータやルールはカスタマイズしてるものの。 >>122 ベイジアンフィルタの性能は低いよ。原理的に考えてもそうだよね。分かち書きしてないんだから。 だからよく誤検出の元になる。蹴らないんじゃなくて蹴りすぎる。 うちで蹴りすぎる例はほとんどない。 電気店とかの商売メルマガがたまに蹴られるくらいで、 自分で見てもこれはまあ仕方がない、と思ってしまうようなもの。 2、3回くらいhamとして登録すれば問題なくなるけど、もっとも こういうのはspamassassinに通すより先に振り分けてしまうからな。 >>122 そんなパラメータの調整なんて必要? うちは、日本語化パッチを当てるだけで、完全に蹴ってくれるよ。 そもそも、学習が自動で、調整が要らないのがベイズフィルタの利点では。 >うちで蹴りすぎる例はほとんどない。 蹴っているメールをチェックしなければいけないのであれば、 蹴る意味がないのでは? (蹴っているんじゃなくて、振り分けているだけでは?) もちろん、そんなの人それぞれですけどね。 導入も我慢も諦めも、コストですから。 しかし、このパッチの導入コストは、メリットに十分見合うと思うけどね。 >>126 単語の出現確率だけを扱うようなベイスフィルタでは原理的に捉えられない特徴を ルールに書いてるので。 ベイズフィルタだけを信用するようなスコア設定にもしていないしね。 spamassassinの導入はportsに頼ってるのでパッチはコストが高いです。 >>127 > ベイスフィルタでは原理的に捉えられない特徴を であれば、そのフィルタとベイジアンフィルタの効果は独立事象になるわけだから ベイジアンフィルタの認識率を上げることは、false positiveを下げるために意味ある ことになると思うんだけど。 つまり、ベイジアンフィルタの性能を高めることは意味がある、ということね。 ただ、portsだとかaptだとか使ってる場合、パッチだと導入障壁が高いというのは理解できる。 portsに日本語化patchをオプションで適用できようにsend-prすりゃええやん。 p5-SpamAssassinってちょくちょくアップデートされるんで パッチがすばやく追随してくれる保証があってかつporterが日本人じゃないと 無理じゃない? japanese/ 以下にslave portを作るとかかな。 俺は使う気ないからやらないが。 >>127 おれ、Fedoraだからわからんけど、Portsって不便なんだな。 update調べてパッチ当ててrebuildする10行のスクリプト、cronで動かしてるよ。 >131 portsだとMakefile.localで1行でローカルなpatchは当てられる >>133 なんだ。それはそれですげぇな。 >>126 は、そもそも > 単語の出現確率だけを扱うようなベイスフィルタでは原理的に捉えられない特徴を > ルールに書いてる と言っているので、日本語対応のレベルの話じゃなかったな。すまん。 ともあれ、>>120 のパッチすげー。 >>131 知らないのなら口を出さないほうがいいぞ。あまりにも的外れ。 # SpamAssassin 3.1.4に対応した日本語対応パッチ (案、その5)が発表されました (2006-7-29) # SpamAssassin 3.1.4がリリースされました (2006-7-27) from ttp://www.spamassassin.jp/ 3.1.5 にしたら sa-learn が mbx 形式に対してエラーを吐くので調べてみた。 ArchiveIterator.pm の 1144行目。 --- ArchiveIterator.pm.orig Tue Sep 12 16:39:47 2006 +++ ArchiveIterator.pm Tue Sep 12 16:39:58 2006 @@ -1141,7 +1141,7 @@ } $self->bump_scan_progress(); - $info->{"$file.$offset"} = Mail::SpamAssassin::Util::receive_date($header); + $info->{$offset} = Mail::SpamAssassin::Util::receive_date($header); # go onto the next message seek(INPUT, $offset + $size, 0); 誰かエロい人が project に言ってくれねーかなぁと・・・ >>142 お前さんの手柄なんだから自分でコミットすればいいじゃん ホームページ制作王は、世界の権威として名高いCOMDEXが 21世紀のワールドスタンダードに認定したWebパブリッシングアプリケーションである。 ホームページ制作王に不可能はない。 不可能があるとすれば、そこが人類の英知の限界点である。 21世紀、世界のWebはホームページ制作王を中心に回っていくのである。 にもかかわらず、ここ日本では、心ない風評のため、まだまだ普及に 遅れがみられる。 ホームページ制作王を普及させないかぎり、我が国のWebは、 世界の趨勢の後塵を拝するばかりである。 世界が認めた高性能!ホームページ制作王 http://pc8.2ch.net/test/read.cgi/hp/1106508682/ ルールを書く際に日本語文字列を使う場合はJISコードに変換して, さらに,メタキャラクタをエスケープしなければなりませんが, 皆さんこの辺はどうやっているのでしょうか。 JISコードへの変換は次のようにやればいいと,ググって見つけたのですが, メタキャラクタのエスケープを実行してくれるような方法はないのでしょうか。 echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}' つ tlec.linux.or.jp の「おりじなるこんてんつ」 >>146 あまりスマートとは言えませんが、 そのあとにsedでもかければいいのではないでしょうか echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}' | sed 's/\(\.\|\`\|\*\|\+\|\/\|\?\|\^\|\$\|\#\|\{\|\}\|\(\|\)\|\[\|\]/\\\1/g' >>146 ごめん、今試したらミスってた。 ↓でどうでしょう? echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}' | sed 's/\(\.\|`\|\*\|\+\|\/\|\?\|\^\|\$\|\#\|{\|}\|(\|)\|\[\|\]\)/\\\1/g' # どっちにしろスマートじゃないよなぁ。 >>149 サンクス。これはすばらしい。早速使わせてもらいます。 sa-updateについて質問です。 http://spamassassin.jp/modules/xhnewbb/viewtopic.php?topic_id=14 ↑を見てsa-updateを使える状況にはなっています。 crontabに登録して自動的に更新するようにしたいのですが、 どのくらいの頻度で更新するのがよいのでしょうか? 現在は 0 2 * * 5 /somewhere/spamassassin-update として金曜日に更新するようにしています。 週1回くらいでちょうどいいものなのでしょうか? spamassassin-updateはsa-updateとspamdのrestartをしています。 >>151 おお,これはすばらしい。これなら,簡単にルールを作れそうです。 どうもありがとうございます。 最近は Returned mail 型が大量に増えますた。一括で別フォルダに振り分けるしかないか。 >>155 Gmailとthunderbirdで同系列のメールを受信させているけど、 こちらはやや低下してはいるけど、assassinの捕捉率ががた落ちしちゃった。 例えば、 ------------------------------------ Company name: Texhoma Energy, Inc. Stock symbol: TXHE.PK Current price: 0.10$ (growth + 10%) Expected price 10/18/2006: 0.29$ Expected price 10/20/2006: 4.52$ ------------------------------------ Please read this mail attentively!!!!!!!!! This is strictly confidential information. Don't send it to anybody. Only now is a right moment to buy that stock. You can take it now for a low price. On Friday , 20 October the following news will be announced: 以下略 >>157 うちもすり抜けてウザーだったから portupgrade mail/p5-Mail-SpamAssassinしたら 3.1.6で補足出来てますよ〜 spamassassinがqmailscannerと連動してくれない clamavやperlscannerとは連動しているのに どうしてなんだろ 3.1.5です。>157みたいな英文のスパムの捕捉率がついに50%割っちゃったotz レンサバなので3.1.6にできない。くやしーw Company: The Motion Picture Group Symbol: MPRG Price: $0.25 3 Day Target: $1.00 Status: Strong Investment この書式をNG登録する良い方法って無いでしょうか。 Company: Symbol: Price: $ 3 Day Target: Status: >>162 それボットネット野郎のspamですなw SAのスレなのは承知でひとつ、 どうしてもSAでダメならProcmailのレシピで SAに飛ばす手前で処理させればよろし。 振り分けがmilterだったら調べてくだされ。 例) :0 B * < 3000 * .*Symbol* * .*Price* * .*3 Day Target* * .*Status* $MAILDIR/trash/. >>164 ここまでわかってるのになんでタイーホできないんだろうねぇ やっぱり国の事情なのかなぁ(´・ω・`) 腹立ってしょうがない >162 ここの日記が参考になります。 株式spamの排除 その3 2006年11月14日 ttp://nikki.hart.co.jp/ ttp://nikki.hart.co.jp/index.php?UID=1163472431 安倍内閣メールマガジン ttp://www.kantei.go.jp/jp/m-magazine/ このメールのアドレスを whitelist_from kantei@mmz.kantei.go.jp としたんだけどスパム扱いになってしまった。 どうも、Fromの "首相官邸 <kantei@mmz.kantei.go.jp>" ってやつの 首の字がまずいような気がする。 ( 首が、JISで 3c37 ってことは < と同じなんだよね。) 全国の首の字で始まる方、ご注意ください。 だったらそんなフィルタ入れてる上流に文句言うべきだよな。 俺のところにはちゃんとMIMEエンコードで来てたから。 もしかして、日本語対応パッチっていうのをやっているからなのかなぁ... MeCabいれて、MeCabの辞書いれて、いくつかのPerlモジュールいれたんだよなぁ... 日本語対応パッチがヘッダのエンコードをデコードしてしまっているためかもしれないなぁ... よくわからんけど... >>172 それだったらさらに関係ないんじゃない? 日本語パッチでは確か、内部UTF-8処理だったと思うんで。 でも、JIS のMIMEエンコードをデコードしてからUTF-8に変換するんじゃないの? MIMEエンコードをデコードしてそれを処理してからUTF-8に変換するのか? 変な奴。 >>163 このシリーズで、gifに埋め込まれて送られるバージョンが来た!! RBL関連のスコアはかなり低くしといたほうがよさげ。 SORBSとNJABLでInfoWebの動的IPがblacklist入りして、それだけでスコアが3.9に。 RCVD_NUMERIC_HELOが1.5なので、HELOに適当なホスト名ではなく自分のIPアドレスを 名乗るMTAだったりすると、もうspamと判定されちゃう。 >>176 株式タイプはgifだけじゃなくてpngもjpegもあるよ、 うちにはずいぶん前からきてる procmailの場合下のキーワードにwindows-1250なんかの文字コードや 他にいくつかのキーワードを混ぜてはじいてる。 おいらはSA使ってないからよくわからんけど (ってかSA使うスキルないからこのスレ指くわえて見てるだけのヘタレだけど) SAはデフォルトだと画像系防げないの? * ^Content-Type: image/gif; >>177 自分のIPを名乗るMTAって、それだけでだいぶダメなんだが。 >>179 ヘッダを見ると Received: from 会社のメールサーバのFQDN Received: from xxx.xxx.xxx.xxx (foo@sample.com@xxx.xxx.xxx.xxx) Received: from unknown (HELO ?192.168.1.33?) (foo@sample.com@xxx.xxx.xxx.xxx) 注: xxx.xxx.xxx.xxxはプロバイダのIPアドレス で、最後にヲレ専用のメールサーバに着いていた。 どうやら、送信側の自宅のMUA -> 会社のメールサーバ -> ヲレ専用のメールサーバ ってな感じで配送されてきたメールの模様。 んで、user_prefsのinternal networksに会社のメールサーバのネットワークを 書いていたんで、xxx.xxx.xxx.xxxにRBLやRCVD_NUMERIC_HELOが適用されたのかな。 >>180 それスパムじゃないメールなの? 相手はどんな環境からメール出してるんだ?? >>183 そ。普通の文章を普通のMUAからNATルータ越しに送ってきたもの。なので、最初のHELOは ローカルIPが生で入っている模様。 会社のサーバでqmail-scannerでウイルスチェックかけて、ヲレのサーバでもclamdで ウイルスチェックかけているんで、実際のreceived:はもうちょっと煩雑なものになるんだけど。 >>184 つまりMTA->MTAじゃなくMUA->MTAってことなんだろ? ということは自分とこのユーザってことだから、それは当然だわな。 その場合も、MTAからのものと同じようにSpamAssassinのチェックが掛かるということが 177が言ってる問題の本質とみた。 あ、clamdじゃなくてclamsmtpで、ですな。ウイルスチェック自体はclamdがやっているけど。 >>185 そそ。動的IPアドレスブロックつかって自前のMTAをあげている場合なら まだしも、MUAからのメールではまることがあったので驚いたのですだ。 あと、別のサーバから転送されてくるspamの判別を効かせるためにinternal networks を設定するとはまることがあるんだなぁというお話。 >>177 自分のIPアドレスを 名乗る「MTA」だったりすると、もうspamと判定されちゃう。 これで>>180 「MUA」を例示するからややこしい。 そもそも、RBL系を利用しているのだから、判定されやすいのは当然なのに。 それに、MUAが吐き出すHELOはほぼ不正なんだけど。 まあ、spamassassinのデフォルト設定のスコアリングの危険性が知られるのはいいことだと思う。 俺の環境では、LANのIPアドレスがRCVD_NUMERIC_HELOでスコアされる事はないぞ。 MTA上でspamdとして動いています。 user_prefsはtlec謹呈。 3.1.5 & 3.1.7 その辺、internal_networksやtrusted_networksの書き方次第じゃないの? >>190 tlecのuser_prefsがイイってこと? >>181 >他にいくつかのキーワードを混ぜてはじいてる。 >>190 tlecのuser_prefsには、internal_networksの記述は無い。 trusted_networksはコメントアウトされている。 >>193 trusted_networks は利用者が個別に書くことを推奨している。 それが private_prefs と作者が勝手に名付けている奴。 これは、private_prefsファィルを設置しないと、働かないんでしょ? spamass-milterでsubjectだけ加工するってのは無いのかょ ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.1 2024/04/28 Walang Kapalit ★ | Donguri System Team 5ちゃんねる