SpamAssassin
■ このスレッドは過去ログ倉庫に格納されています
apache.orgの傘下になって、ますます勢いづくスパムメールの暗殺者 SpamAssassin これでSPAM業者を失業に追い込もう....... とまでには、まだまだ遠い道のりだよ(w 学習しろ!!学習しろ!!学習しろ!! sa-learn --spam --mbox /home/hiroyuki/mail/spam ハムをスパムと間違えないで、一生のお願いだから。 スパム業者の荒らしはスルーってことで。 おまいら、まったりとお願いします。 本家 ttp://spamassassin.apache.org/ 2005-06-06: SpamAssassin 3.0.4 released! キーワード local.cf user_prefs spamassassin ベイズ推定 ベイジアンフィルタ ホワイトリスト AWL bayes_journal auto-whitelist >>133 なんだ。それはそれですげぇな。 >>126 は、そもそも > 単語の出現確率だけを扱うようなベイスフィルタでは原理的に捉えられない特徴を > ルールに書いてる と言っているので、日本語対応のレベルの話じゃなかったな。すまん。 ともあれ、>>120 のパッチすげー。 >>131 知らないのなら口を出さないほうがいいぞ。あまりにも的外れ。 # SpamAssassin 3.1.4に対応した日本語対応パッチ (案、その5)が発表されました (2006-7-29) # SpamAssassin 3.1.4がリリースされました (2006-7-27) from ttp://www.spamassassin.jp/ 3.1.5 にしたら sa-learn が mbx 形式に対してエラーを吐くので調べてみた。 ArchiveIterator.pm の 1144行目。 --- ArchiveIterator.pm.orig Tue Sep 12 16:39:47 2006 +++ ArchiveIterator.pm Tue Sep 12 16:39:58 2006 @@ -1141,7 +1141,7 @@ } $self->bump_scan_progress(); - $info->{"$file.$offset"} = Mail::SpamAssassin::Util::receive_date($header); + $info->{$offset} = Mail::SpamAssassin::Util::receive_date($header); # go onto the next message seek(INPUT, $offset + $size, 0); 誰かエロい人が project に言ってくれねーかなぁと・・・ >>142 お前さんの手柄なんだから自分でコミットすればいいじゃん ホームページ制作王は、世界の権威として名高いCOMDEXが 21世紀のワールドスタンダードに認定したWebパブリッシングアプリケーションである。 ホームページ制作王に不可能はない。 不可能があるとすれば、そこが人類の英知の限界点である。 21世紀、世界のWebはホームページ制作王を中心に回っていくのである。 にもかかわらず、ここ日本では、心ない風評のため、まだまだ普及に 遅れがみられる。 ホームページ制作王を普及させないかぎり、我が国のWebは、 世界の趨勢の後塵を拝するばかりである。 世界が認めた高性能!ホームページ制作王 http://pc8.2ch.net/test/read.cgi/hp/1106508682/ ルールを書く際に日本語文字列を使う場合はJISコードに変換して, さらに,メタキャラクタをエスケープしなければなりませんが, 皆さんこの辺はどうやっているのでしょうか。 JISコードへの変換は次のようにやればいいと,ググって見つけたのですが, メタキャラクタのエスケープを実行してくれるような方法はないのでしょうか。 echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}' つ tlec.linux.or.jp の「おりじなるこんてんつ」 >>146 あまりスマートとは言えませんが、 そのあとにsedでもかければいいのではないでしょうか echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}' | sed 's/\(\.\|\`\|\*\|\+\|\/\|\?\|\^\|\$\|\#\|\{\|\}\|\(\|\)\|\[\|\]/\\\1/g' >>146 ごめん、今試したらミスってた。 ↓でどうでしょう? echo 'サンプル' | nkf -j | awk '{gsub(/\x1B[$(]B/,"");print}' | sed 's/\(\.\|`\|\*\|\+\|\/\|\?\|\^\|\$\|\#\|{\|}\|(\|)\|\[\|\]\)/\\\1/g' # どっちにしろスマートじゃないよなぁ。 >>149 サンクス。これはすばらしい。早速使わせてもらいます。 sa-updateについて質問です。 http://spamassassin.jp/modules/xhnewbb/viewtopic.php?topic_id=14 ↑を見てsa-updateを使える状況にはなっています。 crontabに登録して自動的に更新するようにしたいのですが、 どのくらいの頻度で更新するのがよいのでしょうか? 現在は 0 2 * * 5 /somewhere/spamassassin-update として金曜日に更新するようにしています。 週1回くらいでちょうどいいものなのでしょうか? spamassassin-updateはsa-updateとspamdのrestartをしています。 >>151 おお,これはすばらしい。これなら,簡単にルールを作れそうです。 どうもありがとうございます。 最近は Returned mail 型が大量に増えますた。一括で別フォルダに振り分けるしかないか。 >>155 Gmailとthunderbirdで同系列のメールを受信させているけど、 こちらはやや低下してはいるけど、assassinの捕捉率ががた落ちしちゃった。 例えば、 ------------------------------------ Company name: Texhoma Energy, Inc. Stock symbol: TXHE.PK Current price: 0.10$ (growth + 10%) Expected price 10/18/2006: 0.29$ Expected price 10/20/2006: 4.52$ ------------------------------------ Please read this mail attentively!!!!!!!!! This is strictly confidential information. Don't send it to anybody. Only now is a right moment to buy that stock. You can take it now for a low price. On Friday , 20 October the following news will be announced: 以下略 >>157 うちもすり抜けてウザーだったから portupgrade mail/p5-Mail-SpamAssassinしたら 3.1.6で補足出来てますよ〜 spamassassinがqmailscannerと連動してくれない clamavやperlscannerとは連動しているのに どうしてなんだろ 3.1.5です。>157みたいな英文のスパムの捕捉率がついに50%割っちゃったotz レンサバなので3.1.6にできない。くやしーw Company: The Motion Picture Group Symbol: MPRG Price: $0.25 3 Day Target: $1.00 Status: Strong Investment この書式をNG登録する良い方法って無いでしょうか。 Company: Symbol: Price: $ 3 Day Target: Status: >>162 それボットネット野郎のspamですなw SAのスレなのは承知でひとつ、 どうしてもSAでダメならProcmailのレシピで SAに飛ばす手前で処理させればよろし。 振り分けがmilterだったら調べてくだされ。 例) :0 B * < 3000 * .*Symbol* * .*Price* * .*3 Day Target* * .*Status* $MAILDIR/trash/. >>164 ここまでわかってるのになんでタイーホできないんだろうねぇ やっぱり国の事情なのかなぁ(´・ω・`) 腹立ってしょうがない >162 ここの日記が参考になります。 株式spamの排除 その3 2006年11月14日 ttp://nikki.hart.co.jp/ ttp://nikki.hart.co.jp/index.php?UID=1163472431 安倍内閣メールマガジン ttp://www.kantei.go.jp/jp/m-magazine/ このメールのアドレスを whitelist_from kantei@mmz.kantei.go.jp としたんだけどスパム扱いになってしまった。 どうも、Fromの "首相官邸 <kantei@mmz.kantei.go.jp>" ってやつの 首の字がまずいような気がする。 ( 首が、JISで 3c37 ってことは < と同じなんだよね。) 全国の首の字で始まる方、ご注意ください。 だったらそんなフィルタ入れてる上流に文句言うべきだよな。 俺のところにはちゃんとMIMEエンコードで来てたから。 もしかして、日本語対応パッチっていうのをやっているからなのかなぁ... MeCabいれて、MeCabの辞書いれて、いくつかのPerlモジュールいれたんだよなぁ... 日本語対応パッチがヘッダのエンコードをデコードしてしまっているためかもしれないなぁ... よくわからんけど... >>172 それだったらさらに関係ないんじゃない? 日本語パッチでは確か、内部UTF-8処理だったと思うんで。 でも、JIS のMIMEエンコードをデコードしてからUTF-8に変換するんじゃないの? MIMEエンコードをデコードしてそれを処理してからUTF-8に変換するのか? 変な奴。 >>163 このシリーズで、gifに埋め込まれて送られるバージョンが来た!! RBL関連のスコアはかなり低くしといたほうがよさげ。 SORBSとNJABLでInfoWebの動的IPがblacklist入りして、それだけでスコアが3.9に。 RCVD_NUMERIC_HELOが1.5なので、HELOに適当なホスト名ではなく自分のIPアドレスを 名乗るMTAだったりすると、もうspamと判定されちゃう。 >>176 株式タイプはgifだけじゃなくてpngもjpegもあるよ、 うちにはずいぶん前からきてる procmailの場合下のキーワードにwindows-1250なんかの文字コードや 他にいくつかのキーワードを混ぜてはじいてる。 おいらはSA使ってないからよくわからんけど (ってかSA使うスキルないからこのスレ指くわえて見てるだけのヘタレだけど) SAはデフォルトだと画像系防げないの? * ^Content-Type: image/gif; >>177 自分のIPを名乗るMTAって、それだけでだいぶダメなんだが。 >>179 ヘッダを見ると Received: from 会社のメールサーバのFQDN Received: from xxx.xxx.xxx.xxx (foo@sample.com@xxx.xxx.xxx.xxx) Received: from unknown (HELO ?192.168.1.33?) (foo@sample.com@xxx.xxx.xxx.xxx) 注: xxx.xxx.xxx.xxxはプロバイダのIPアドレス で、最後にヲレ専用のメールサーバに着いていた。 どうやら、送信側の自宅のMUA -> 会社のメールサーバ -> ヲレ専用のメールサーバ ってな感じで配送されてきたメールの模様。 んで、user_prefsのinternal networksに会社のメールサーバのネットワークを 書いていたんで、xxx.xxx.xxx.xxxにRBLやRCVD_NUMERIC_HELOが適用されたのかな。 >>180 それスパムじゃないメールなの? 相手はどんな環境からメール出してるんだ?? >>183 そ。普通の文章を普通のMUAからNATルータ越しに送ってきたもの。なので、最初のHELOは ローカルIPが生で入っている模様。 会社のサーバでqmail-scannerでウイルスチェックかけて、ヲレのサーバでもclamdで ウイルスチェックかけているんで、実際のreceived:はもうちょっと煩雑なものになるんだけど。 >>184 つまりMTA->MTAじゃなくMUA->MTAってことなんだろ? ということは自分とこのユーザってことだから、それは当然だわな。 その場合も、MTAからのものと同じようにSpamAssassinのチェックが掛かるということが 177が言ってる問題の本質とみた。 あ、clamdじゃなくてclamsmtpで、ですな。ウイルスチェック自体はclamdがやっているけど。 >>185 そそ。動的IPアドレスブロックつかって自前のMTAをあげている場合なら まだしも、MUAからのメールではまることがあったので驚いたのですだ。 あと、別のサーバから転送されてくるspamの判別を効かせるためにinternal networks を設定するとはまることがあるんだなぁというお話。 >>177 自分のIPアドレスを 名乗る「MTA」だったりすると、もうspamと判定されちゃう。 これで>>180 「MUA」を例示するからややこしい。 そもそも、RBL系を利用しているのだから、判定されやすいのは当然なのに。 それに、MUAが吐き出すHELOはほぼ不正なんだけど。 まあ、spamassassinのデフォルト設定のスコアリングの危険性が知られるのはいいことだと思う。 俺の環境では、LANのIPアドレスがRCVD_NUMERIC_HELOでスコアされる事はないぞ。 MTA上でspamdとして動いています。 user_prefsはtlec謹呈。 3.1.5 & 3.1.7 その辺、internal_networksやtrusted_networksの書き方次第じゃないの? >>190 tlecのuser_prefsがイイってこと? >>181 >他にいくつかのキーワードを混ぜてはじいてる。 >>190 tlecのuser_prefsには、internal_networksの記述は無い。 trusted_networksはコメントアウトされている。 >>193 trusted_networks は利用者が個別に書くことを推奨している。 それが private_prefs と作者が勝手に名付けている奴。 これは、private_prefsファィルを設置しないと、働かないんでしょ? spamass-milterでsubjectだけ加工するってのは無いのかょ spamassassinにスパム学習させる為だけに怪しい出会い系に 入会した私は変態でしょうか? 出会い系の登録してそこからのメールを自動的にスパム学習させると スパムのトレンドに自動的に追随してくれるかなと思って 出来心でやってしまいました。 でも、今一番難しいのは株を買え!系なんですが。 >>202 折角なんで有効活用したら?w 株系の画像添付はなかなか難しいよなぁ・・・ うちではほとんどカットしてくれてるけどなあ >画像添付 何かコピペか自動生成かって感じの文章が書いてあるだけのが時々抜けてくる。 SpamAssassinを使っているのですが OBSCURED_EMAIL BODY: Message seems to contain rot13ed address でSPAM扱いされるメールがあるのですよ。 ROT13(アルファベットを十三文字ずらすあれ)でエンコードされたアドレスがある というのは判るんだが 何を基準にrot13edかそうでないかを判断してるのかが判らんとです。 教えてエロイ人。 >>208 ^ と ( を見てるくさい。 @ と . がこれに変換されるのかな。 ってことは /usr/share/spamassassin/20_body_tests.cf の body EMAIL_ROT13 /\b[a-z(\]-]+\^[a-z-]+\([a-z]{2,3}\b/ ですか。 a-z,(,],- の繰り返しで始まり、 ^ a-z,- の繰り返し、 ( a-z (2 or 3) で終わるってことニカ? なんか違うような・・・正規表現ですよねこれ 最近、株式SPAMのキーワードがコロコロ変わって大変です。 こんなのや S.umbol: UTEV Current price: $0.012 Recommendation: very aggresive buy!!! こんなの Search for: UTEV Current price: $0.012 Market: bullish. 全部の文字間にHTMLタグとか テーブルのセル1個に1文字とか そんなん? いえ、textっす(´・ω・`) 今、また13発着弾してしまいました。 /etc/mail/spamassassin/local.cfを、 ttp://tlec.linux.or.jp/docs/の user_prefsと入れ換えてもOKですか? ユーザーは50人位です。 >>214 個人向け、つまりfalse_positiveも自己責任で処理することを 前提に作られているから、正直お勧めしない。 多少取りこぼしてもよいのなら、 required_score 30 以上に すれば、少しは安全になるかも。 report_safe 0の 設定を/etc/mail/SA/local.cfに書いているのですが、 なぜか、スパムの判定結果がattachedされてしまいます。 3.17のときは全く問題なかったのですが、3.18にあげてから、 このようになりました。 どなたか教えていただけないでしょうか。 >>216 SAを実行するユーザにて su して、 spamassassin -d spamfile|spamassassin -t -D 2>&1|lv する。 spamd を使っている場合は、spamd を止めてから spamd -D 2>&1 とする。 デバッグメッセージに以下のようなメッセージが出てくる筈。 > [3772] dbg: config: read file /etc/spamassassin/local.cf >>217 レスありがとうございます。 仰せの通りやってみました。 [4218] dbg: config: using "/etc/mail/spamassassin" for site rules dir [4218] dbg: config: read file /etc/mail/spamassassin/local.cf という感じで、ただしく設定したものを読んでいるようです。 >>218 なら、その後に何か error 或は warning が出てきてないか? 因みに俺の手元では spamc で問題なく実行できた。 local.cf の中身を report_safe 0 だけにしてみる。 それでダメなら、ファイルの改行コードを疑う。 >>220 通らないね。なのでRazor2とDCCだけ。 >>219 いろいろありがとうございます。 ふと思いついてHTML::Parserのモジュールを アップグレードしてみたら、今のところ、うまく 動いているようです。 お騒がせしました。 普段はCPANでアップグレードしていたのですが、 気づかないうちに整合性がとれていなかったのかもしれません。 前から気になってたんですが、 spamassassinが、SURBL等に参照するときに、 bodyを全部送っているのでしょうか? http:// と続く部分だけ送っているのでしょうか? httpプロトコルのように、 RBLサーバとのやりとりが説明されたサイトはありませんか? みんなが使うから、たぶん効率の良い方法を取っていると思うのですが、 どういう方法にて、やりとりしているのでしょうか? SURLBLの問い合わせもDNSBLと同じ、つまりDNS引いてるだけだから 送られるのはドメイン名のみのはず。 * bug 4636: Add support for charset normalization, so rules can be written in UTF-8 to match text in other charsets. UTF-8対応したんだね。 分かち書きは対応してないのかな? postfixでバーチャルドメインな環境ですが、 特定のドメインのユーザ(複数ドメイン指定)だけ、spamassassin先生を呼ぶことはできますか? hogehoge@aaa.com → spamassassin → メールボックス sagesage@aaa.com → spamassassin → メールボックス fugaduga@bbb.com → そのままメールボックスへ hagehage@ccc.com → spamassassin → メールボックス それとも、postfixは、すべてのメールをspamassassinに渡してしまうのでしょうか? spamc の -u オプションを使えないようにしたい (spamdの起動ユーザを spamcの起動ユーザのみにしたい) のですが、ソースをどう修正すればよいでしょうか。 spamc -u hoge としてspamdを起動すれば、 /home/hoge/.spamassassin/user_pref を意図的に作り出せることが出来てしまいます。 これを避けたいためです。 spamd は perl ですが、 spamc は C言語なんですね、、、 spamd だけの修正(パッチ当て)で何とか対応できないでしょうか。 >>232 spamcはspamdを呼び出すためのインターフェイスなだけだから 実際にuser_prefを作ってるのはspamdのはずだよ。 でspamdはrootとか特権ユーザで動いてるから、そうやってファイル作ることも出来てるわけ。 spamcとspamdは通信でユーザを渡してると思うので、根本的に対応するには、そのプロトコルから 変更しないと無理だと思われ。 小手先だけの対応なら、spamcのソースから-uオプションの指定をはずしてやればいいんでない? ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.1 2024/04/28 Walang Kapalit ★ | Donguri System Team 5ちゃんねる