Forums: users (Thread #11832)

Paul Graham方式の全token数 (2006-07-24 17:21 by Anonymous #23937)

Windows環境で、bsfilter release 1.0.14 revision 1.79 の
exeファイルを使用しています。

「Gary Robinson-Fisher方式」から「Paul Graham方式」に
変更したのですが、--show-db-status の値について教えてください。

以前の書き込みに以下の内容がありました。
>言語ごとに一行で表示されており、数字は左から
>clean token数、clean mail数、spam token数 spam amil数、全token数
>になります。

「Gary Robinson-Fisher方式」ですと、
全token数が、clean token数とspam token数の和くらいになっています。
db C 1398 1855 24010 8951 24420
db ja 172459 19396 29490 29279 186951

「Paul Graham方式」ですと、
全token数が、clean token数とspam token数の和になっていません。
db C 1398 1855 24010 8951 14996
db ja 172459 19396 29490 29279 77753

特に問題はないのでしょうか?

Reply to #23937×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: Paul Graham方式の全token数 (2006-07-25 00:26 by nabeken #23946)

問題ないと思います。

Paul Graham方式では、
http://www.shiro.dreamhost.com/scheme/trans/spam-j.html
の、"全体で5回以上出現していない単語は計算から外している"あたりの処理により、全token数が小さくなっていると思われます。
bsfilterだと、"正当なメイル中の単語は倍"の処理の前に、"計算から外し"てますね。
Reply to #23937

Reply to #23946×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: Paul Graham方式の全token数 (2006-07-25 08:36 by Anonymous #23949)

了解しました。

--method g で --update を行なうと、
全token数が少なくなったので心配していたのですが、
一安心です。

Gary Robinson-Fisher方式を使用していたのですが、
spam token数に比べて clean token数が多いからか、
新たなスパムメールの spam確率が低めに出ていたので、
Paul Graham方式に変更しました。
Reply to #23946

Reply to #23949×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login