Download
Magazine
Develop
Account
Download
Magazine
Develop
Login
Forgot Account/Password
Create Account
Language
Help
Language
Help
×
Login
Login Name
Password
×
Forgot Account/Password
Category:
Software
People
PersonalForge
Magazine
Wiki
Search
OSDN
>
Find Software
>
Communications
>
Email
>
Filters
>
bsfilter
>
Forums
>
users
>
誤判定について
bsfilter
Description
Project Summary
Developer Dashboard
Developers
Image Gallery
List of RSS Feeds
Activity
Statistics
History
Downloads
List of Releases
Stats
Source Code
Code Repository list
CVS
View Repository
Ticket
Ticket List
Milestone List
Type List
Component List
List of frequently used tickets/RSS
Submit New Ticket
Documents
FrontPage
Title index
Recent changes
Communication
List of Forums
users (627)
Forums:
users
(Thread #6069)
Return to Thread list
RSS
誤判定について (2004-09-30 10:12 by
Anonymous
#11235)
Reply
Create ticket
半年ほど前からbsfilterを使わせていただいております。
私が受け取るcleanなメッセージはそのほとんどが日本語のプレーンテキストで、英語のメールやHTML形式のメールはほぼすべてがspamです。
そのためか、まれに英語やHTMLのcleanなメールが届くとbsfilterにspamと誤判定されてしまうことが多いのですが、有効な対策があればご教示いただけませんでしょうか。
~/.bsfilter/内のファイルの大きさを見てみると、英語のメッセージではspamのほうを多く学習させてしまっているようです。
これを減らせば英語のcleanなメッセージの誤判定は減るでしょうか。
[hogehoge@host:/home/hogehoge]% ls -al .bsfilter
total 24979
drwx------ 2 hogehoge users 512 Sep 30 10:03 ./
drwx-----x 23 hogehoge users 2048 Sep 30 10:04 ../
-rw------- 1 hogehoge users 4096 Sep 29 13:28 C.clean.sdbm.dir
-rw------- 1 hogehoge users 523264 Sep 29 13:28 C.clean.sdbm.pag
-rw------- 1 hogehoge users 4096 Sep 30 07:39 C.prob.sdbm.dir
-rw------- 1 hogehoge users 16751616 Sep 30 09:09 C.prob.sdbm.pag
-rw------- 1 hogehoge users 4096 Sep 30 09:09 C.spam.sdbm.dir
-rw------- 1 hogehoge users 8388608 Sep 30 09:09 C.spam.sdbm.pag
-rw------- 1 hogehoge users 4096 Sep 29 13:28 ja.clean.sdbm.dir
-rw------- 1 hogehoge users 2089984 Sep 29 13:28 ja.clean.sdbm.pag
-rw------- 1 hogehoge users 4096 Sep 30 09:30 ja.prob.sdbm.dir
-rw------- 1 hogehoge users 4175872 Sep 30 09:30 ja.prob.sdbm.pag
-rw------- 1 hogehoge users 4096 Sep 30 09:30 ja.spam.sdbm.dir
-rw------- 1 hogehoge users 129024 Sep 30 09:30 ja.spam.sdbm.pag
Reply to #11235
×
Subject
Body
Reply To Message #11235 > 半年ほど前からbsfilterを使わせていただいております。 > > 私が受け取るcleanなメッセージはそのほとんどが日本語のプレーンテキストで、英語のメールやHTML形式のメールはほぼすべてがspamです。 > そのためか、まれに英語やHTMLのcleanなメールが届くとbsfilterにspamと誤判定されてしまうことが多いのですが、有効な対策があればご教示いただけませんでしょうか。 > > ~/.bsfilter/内のファイルの大きさを見てみると、英語のメッセージではspamのほうを多く学習させてしまっているようです。 > これを減らせば英語のcleanなメッセージの誤判定は減るでしょうか。 > [hogehoge@host:/home/hogehoge]% ls -al .bsfilter > total 24979 > drwx------ 2 hogehoge users 512 Sep 30 10:03 ./ > drwx-----x 23 hogehoge users 2048 Sep 30 10:04 ../ > -rw------- 1 hogehoge users 4096 Sep 29 13:28 C.clean.sdbm.dir > -rw------- 1 hogehoge users 523264 Sep 29 13:28 C.clean.sdbm.pag > -rw------- 1 hogehoge users 4096 Sep 30 07:39 C.prob.sdbm.dir > -rw------- 1 hogehoge users 16751616 Sep 30 09:09 C.prob.sdbm.pag > -rw------- 1 hogehoge users 4096 Sep 30 09:09 C.spam.sdbm.dir > -rw------- 1 hogehoge users 8388608 Sep 30 09:09 C.spam.sdbm.pag > -rw------- 1 hogehoge users 4096 Sep 29 13:28 ja.clean.sdbm.dir > -rw------- 1 hogehoge users 2089984 Sep 29 13:28 ja.clean.sdbm.pag > -rw------- 1 hogehoge users 4096 Sep 30 09:30 ja.prob.sdbm.dir > -rw------- 1 hogehoge users 4175872 Sep 30 09:30 ja.prob.sdbm.pag > -rw------- 1 hogehoge users 4096 Sep 30 09:30 ja.spam.sdbm.dir > -rw------- 1 hogehoge users 129024 Sep 30 09:30 ja.spam.sdbm.pag
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: 誤判定について (2004-09-30 22:28 by
nabeken
#11240)
Reply
Create ticket
まず、-dオプションを付けて実行することによりtokenごとのspam確率を見てください。ひょっとすると、なにか原因が掴めるかもしれません。
過去に1回しか出会ったことのないtokenのspam確率(robx)を求めておき、判定時に初めて出会ったtokenのspam確率として使用しています。spamの学習が多いと、この確率が上がります。
"--method g"の場合、このrobxが使用されませんので、試す価値があるかもしれません。
あとは、--spam-cutoffによる閾値の変更ですが、これはあまり効果がないと思います。
Reply to
#11235
Reply to #11240
×
Subject
Body
Reply To Message #11240 > まず、-dオプションを付けて実行することによりtokenごとのspam確率を見てください。ひょっとすると、なにか原因が掴めるかもしれません。 > > 過去に1回しか出会ったことのないtokenのspam確率(robx)を求めておき、判定時に初めて出会ったtokenのspam確率として使用しています。spamの学習が多いと、この確率が上がります。 > "--method g"の場合、このrobxが使用されませんので、試す価値があるかもしれません。 > > あとは、--spam-cutoffによる閾値の変更ですが、これはあまり効果がないと思います。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: 誤判定について (2004-10-04 11:08 by
Anonymous
#11359)
Reply
Create ticket
bsfilter.confに"method g"を書いて、
先日spamと誤判定されたメッセージを除く
過去2か月分のemailを学習させなおしました。
% bsfilter --show-db-status
db C 1220 23 76339 8017 76683
db ja 62278 1119 7106 129 66654
あいかわらずspamとcleanの数に大きな偏りがありますが、
問題のメッセージはcleanと判断されましたし、
この数日間はcleanをspamと誤判定するのは起きていないようです。
spamをcleanとしてしまうのは5件/日ほどです。
ありがとうございました。
Reply to
#11235
Reply to #11359
×
Subject
Body
Reply To Message #11359 > bsfilter.confに"method g"を書いて、 > 先日spamと誤判定されたメッセージを除く > 過去2か月分のemailを学習させなおしました。 > > % bsfilter --show-db-status > db C 1220 23 76339 8017 76683 > db ja 62278 1119 7106 129 66654 > > あいかわらずspamとcleanの数に大きな偏りがありますが、 > 問題のメッセージはcleanと判断されましたし、 > この数日間はcleanをspamと誤判定するのは起きていないようです。 > spamをcleanとしてしまうのは5件/日ほどです。 > > ありがとうございました。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel