Forums: users (Thread #10856)

bsfilter 1.0.13のProbability値が変? (2006-04-22 19:20 by Anonymous #21440)

Windows環境で、exeファイルを使用しています。

bsfilter 1.0.13 (revision 1.78)に変更したところ、
POP proxyでのProbability値が特定のメールでおかしいように思われます。

以下のエンコードのメールでスパム判定に疑問を感じたので、
revision 1.78とrevision 1.77.2.1でProbability値を比べてみました。

Content-Type: text/plain; charset="iso-2022-jp"
Content-Transfer-Encoding: base64

ちなみに、POP proxyではbsfilterw.exeを使用し、
コマンドラインではbsfilter.exeを使用しています。
すべてで「refer-header Subject」のオプションを使用しています。

以下はサーバーにある同じメールを、
POP proxyでそれぞれのリビジョンに読ませた結果です。

X-Spam-Revision: bsfilter release 1.0.13 revision 1.78
X-Spam-Probability: 0.000908

X-Spam-Revision: bsfilter release - revision 1.77.2.1
X-Spam-Probability: 0.996479

以下は同じメールをコマンドライン引数で与えたもので、
リビジョンによる差はありませんでした。

combined probability test.eml 1 0.996479

revision 1.78のPOP proxyで、Probabilityの値が変なのか、
revision 1.78のbsfilterw.exeで、Probabilityの値が変なのか、
どちらなのでしょうか?

Reply to #21440×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: bsfilter 1.0.13のProbability値が変? (2006-04-23 00:40 by nabeken #21443)

revision 1.78では、base64 encodeされているらしいことを確認してから、実際にdecodeするようになっています。確認ルーチンの問題で、decodeが必要なのに行われないケースが生じてしまったのだと思います。
bsfilter.exeとbsfilterw.exeでの違い、ファイルを読み込ませたときとPOP proxyでの違いはないつもりです。

障害原因が分かりませんので、
http://sourceforge.jp/users/nabeken/
に出ているメールアドレスまで、問題となったメールを送って貰えないでしょうか。
Reply to #21440

Reply to #21443×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: bsfilter 1.0.13のProbability値が変? (2006-04-27 00:54 by nabeken #21525)

いまだ原因がつかめておりません。
-d オプションを付けて実行し、tokenの切り出し状況、tokenごとのspam確率がバージョン間で異なっているのか、見ていただけないでしょうか。

Reply to #21443

Reply to #21525×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: bsfilter 1.0.13のProbability値が変? (2006-04-29 23:10 by Anonymous #21568)

POP proxyでbsfilter.exeを使用してみました。

bsfilter.exe --refer-header Subject --pop --tasktray -d -v >pop.txt

前回の書き込みのときも試みたのですが、
--tasktrayを使わずにプロセスを強制終了させていたので
ログが取れませんでした。

ログファイルは、メールにてお送りします。
Reply to #21525

Reply to #21568×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: bsfilter 1.0.13のProbability値が変? (2006-05-03 01:05 by Anonymous #21620)

revision 1.78.6.2で同様の検証をした結果、
良好でした。

ログファイルは、メールにてお送りします。
Reply to #21568

Reply to #21620×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: bsfilter 1.0.13のProbability値が変? (2006-04-27 08:20 by Anonymous #21527)

私も先日から一部のスパムメールがすりぬけるようになりました。
先に ruby 版の bsfilter を通して受信してデータベースに登録済みのメールを
bsfilterw.exe を通してまとめて二重受信するときに、
一部のスパムメールの判定が正しく行われていないようです。
shift_jis を base64 でエンコードしたマルチパートのメールで、
shift_jis が正しく指定されていない場合に起こるようです。
同じメールを ruby 版で再度チェックしても正しく判定されます。
まだ検証が十分ではないのでもう少し調べてみます。
Reply to #21440

Reply to #21527×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: bsfilter 1.0.13のProbability値が変? (2006-04-27 09:28 by Anonymous #21528)

補足ですが、コマンドラインから bsfilter.exe で判定しても問題はないようです。
bsfilterw.exe だけの問題のようなのですが。
Reply to #21527

Reply to #21528×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: bsfilter 1.0.13のProbability値が変? (2006-04-29 10:56 by nabeken #21566)

bsfilterw.exe -d -v の結果をファイルに残すように変更して、コマンドラインからメールのファイルについて実行してみましたが、bsfilter.exe との差は見られませんでした。

コマンドプロンプト内から、
bsfilter.exe -d -v --pop .... > debug.log
のように起動して、POP proxyで異常があるときのログを採取してもらえないでしょうか。
(実験の再現性を確保するために、--auto-update等でのデータベースの更新を一時、止めて頂けるとありがたいです)

Reply to #21528

Reply to #21566×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: bsfilter 1.0.13のProbability値が変? (2006-04-29 23:16 by Anonymous #21569)

ご指摘の通り、bsfilter.exe と bsfilterw.exe の違いではないようです。
今回は bsfilter.exe を使いデバッグログを採取してみましたが、
> shift_jis を base64 でエンコードしたマルチパートのメールで、
> shift_jis が正しく指定されていない場合に起こるようです。
この問題が同じように発生しました。
問題のメールを受信したときのログを見てみると、
日本語のメールにもかかわらず tokenizer C body しか使われてないようです。
確認のために普通の日本語のメールを受信してみましたが、
tokenizer ja body がきちんと現れます。
ログの見方を理解しているわけではないので手探りですが、
きちんと decode されていないのでしょうか?
Reply to #21566

Reply to #21569×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: bsfilter 1.0.13のProbability値が変? (2006-04-30 02:42 by Anonymous #21573)

shift_jis を base64 でエンコードしたシングルパートの日本語のメールでも、
charset が間違っていると tokenizer C body しか現れませんね。
でもその場合は combined probability は結果的に正しいみたいです。
これはこれで正常な動作なんでしょうか?
Reply to #21569

Reply to #21573×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: bsfilter 1.0.13のProbability値が変? (2006-05-01 16:30 by nabeken #21603)

POPで取り出したメールの末尾には、"."のみの行が付く、
というのを忘れていたためbase64 decodeされない、というバグが1.0.13で入りました。revision 1.78.6.1で修正しました。

base64されている部分の1行あたりの文字数によってはデコード結果が異常、という問題が以前からあり、これは1.78.6.2で修正しました。よくある、76文字で折り返してあるメールの場合は、この問題は発生しません。

日本語のメールかどうかの判定はコード変換前にbsfilterがad hocに行っているので、この判定に失敗する可能性はあります。が、本文のcharsetは見ていないつもりです。
Reply to #21573

Reply to #21603×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: bsfilter 1.0.13のProbability値が変? (2006-05-03 18:31 by Anonymous #21638)

私の理解が不十分でやや誤解を招いたかもしれません。
shift_jis (base64) で charset が正しく指定されないスパムメールが
頻繁に届くのですが、
iso-2022-jp (base64) の場合には charset も正しく指定されていて、
デコードも判定も正常に行われていたので特に触れませんでした。
charset の問題そのものは余計だったかもしれません。

今まで bsfilter.exe/bsfilterw.exe と ruby 版を使い分けていたので、
pop プロキシの動作の問題を ruby 版との違いのように書いてしまいました。
VisualuRuby をインストールすれば ruby 版で --tasktray オプションも
使えるので、
pop プロキシも ruby 版にして1.78.6.2でログを取ってみました。
その結果、上のような場合にもきちんとデコードされ、
token の切り出しや判定も正常に行われるようになりました。
報告が行き届かずお手数をおかけしました。
Reply to #21603

Reply to #21638×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login