Forums: users (Thread #6069)

誤判定について (2004-09-30 10:12 by Anonymous #11235)

半年ほど前からbsfilterを使わせていただいております。

私が受け取るcleanなメッセージはそのほとんどが日本語のプレーンテキストで、英語のメールやHTML形式のメールはほぼすべてがspamです。
そのためか、まれに英語やHTMLのcleanなメールが届くとbsfilterにspamと誤判定されてしまうことが多いのですが、有効な対策があればご教示いただけませんでしょうか。

~/.bsfilter/内のファイルの大きさを見てみると、英語のメッセージではspamのほうを多く学習させてしまっているようです。
これを減らせば英語のcleanなメッセージの誤判定は減るでしょうか。
[hogehoge@host:/home/hogehoge]% ls -al .bsfilter
total 24979
drwx------ 2 hogehoge users 512 Sep 30 10:03 ./
drwx-----x 23 hogehoge users 2048 Sep 30 10:04 ../
-rw------- 1 hogehoge users 4096 Sep 29 13:28 C.clean.sdbm.dir
-rw------- 1 hogehoge users 523264 Sep 29 13:28 C.clean.sdbm.pag
-rw------- 1 hogehoge users 4096 Sep 30 07:39 C.prob.sdbm.dir
-rw------- 1 hogehoge users 16751616 Sep 30 09:09 C.prob.sdbm.pag
-rw------- 1 hogehoge users 4096 Sep 30 09:09 C.spam.sdbm.dir
-rw------- 1 hogehoge users 8388608 Sep 30 09:09 C.spam.sdbm.pag
-rw------- 1 hogehoge users 4096 Sep 29 13:28 ja.clean.sdbm.dir
-rw------- 1 hogehoge users 2089984 Sep 29 13:28 ja.clean.sdbm.pag
-rw------- 1 hogehoge users 4096 Sep 30 09:30 ja.prob.sdbm.dir
-rw------- 1 hogehoge users 4175872 Sep 30 09:30 ja.prob.sdbm.pag
-rw------- 1 hogehoge users 4096 Sep 30 09:30 ja.spam.sdbm.dir
-rw------- 1 hogehoge users 129024 Sep 30 09:30 ja.spam.sdbm.pag

Reply to #11235×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: 誤判定について (2004-09-30 22:28 by nabeken #11240)

まず、-dオプションを付けて実行することによりtokenごとのspam確率を見てください。ひょっとすると、なにか原因が掴めるかもしれません。

過去に1回しか出会ったことのないtokenのspam確率(robx)を求めておき、判定時に初めて出会ったtokenのspam確率として使用しています。spamの学習が多いと、この確率が上がります。
"--method g"の場合、このrobxが使用されませんので、試す価値があるかもしれません。

あとは、--spam-cutoffによる閾値の変更ですが、これはあまり効果がないと思います。
Reply to #11235

Reply to #11240×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: 誤判定について (2004-10-04 11:08 by Anonymous #11359)

bsfilter.confに"method g"を書いて、
先日spamと誤判定されたメッセージを除く
過去2か月分のemailを学習させなおしました。

% bsfilter --show-db-status
db C 1220 23 76339 8017 76683
db ja 62278 1119 7106 129 66654

あいかわらずspamとcleanの数に大きな偏りがありますが、
問題のメッセージはcleanと判断されましたし、
この数日間はcleanをspamと誤判定するのは起きていないようです。
spamをcleanとしてしまうのは5件/日ほどです。

ありがとうございました。
Reply to #11235

Reply to #11359×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login