Forums: POPFile 全般 (Thread #4842)

分類されたバケツに含まれる確率をヘッダに追加 (2004-03-23 00:21 by amatubu #8831)

要望リストにあった、「分類されたバケツに含まれる確率をヘッダに追加」を
実現するパッチを作ってみました。
http://sourceforge.jp/tracker/index.php?func=detail&aid=4114&group_id=759&atid=2945

bsfilter の、X-Spam-Probability: ヘッダのようなイメージです。
http://bsfilter.org/

とりあえず、X-Max-Bucket-Probability: というヘッダにしていますが、
ほかにもっといい名前があれば教えてください。

適用方法などについていは、上記のパッチの説明を参照してください。
また、もし試す場合には、必ず POPFile フォルダとデータフォルダの
バックアップをおこなってからお願いします。

#と、作ったのはいいのですが、私の環境ではこれまでのところ、0.999999
#しか見たことがありません……(汗)

RE: 分類されたバケツに含まれる確率をヘッダに追加 (2004-03-23 12:48 by orbital #8835)

お世話になっております。
POPFile経由で細かくClassifyされたMailを
さらにMailer側で細かくClassifyする場合には
非常に有用かもしれませんが…

私の環境では、そもそもバケツがspamとWorkの二つ
しかないので、どっちも0.999999 になってしまって
おりますです。
Reply to #8831

RE: 分類されたバケツに含まれる確率をヘッダに追加 (2004-03-23 20:41 by amatubu #8842)

ありがとうございます。
私もあったらおもしろいかなと思って作ってみたのですが、
これまでのところ 0.999999 ばかりです。(うちもマグネットを使わずに
分類しているバケツは2つだけです)

とりあえずもうしばらく様子をみてみようと思います。
Reply to #8835

あまり意味のない機能かもしれません (2004-04-29 13:20 by amatubu #9310)

2ちゃんねるでも要望として出ているようなので、少し補足します。

まず、パッチを作って試してみた感想ですが、大部分のメールは
確率が 0.999999 になってしまうので、この数字を使って振り分けする意味は
ほとんどないと考えられます。

また、例えば、ある一定以上の確率だったら spam と判断させたいのであれば、
詳細設定タブで、bayes_unclassified_weight の値を調整することで同じ
ようなことを実現することができます。

デフォルトでは 10 だったかと思いますが、これは、一番可能性の高いバケツと
二番目に可能性の高いバケツの確率の比が 10 倍以上である場合のみ
振り分けする(それ以外の場合は unclassified にする)ということを意味して
います。ですから、仮に spam と それ以外 の2つのバケツしかない場合、
デフォルトでは、spam である確率を p とすれば、p/(1-p)>10 の場合だけ
spam と認識される訳です。これを解けば、p>90.90... となりますから、
spam 確率が 90.9% 以上の場合のみ、spam と判定している訳です。
同様に、100 にすれば 99.0%、1000 にすれば 99.9%、10000 にすれば
99.99% ……というように、しきい値を好きなところに調整できる訳です。

ここで、bayes_unclassified_weight を w 、spam としたい確率の最小値を
p とすれば、
p >= w/(1+w)
w <= p/(1-p)
の関係が成り立つ時に振り分けられることになりますから(どちらも同じ意味です
が)、p=0.995(99.5%)としたければ(要するに 99.5% 以上の場合に判定)、
w(bayes_unclassified_weight)=199 とすればいいのです。

(おまけ)
逆に、unclassified にせずに、すべてどちらかに分類したければ、p=0.5、
すなわち w=1 とすれば ok かと。
個人的には、unclassified という「クッション」を置いていることも、POPFile の
大きな特徴だと思っているので、あまりおすすめはしませんが。

(参考)
POPFile Option Reference
http://popfile.sourceforge.net/cgi-bin/wiki.pl?OptionReference
POPFile Option Refernece(私が翻訳したもの)
http://popfile.sourceforge.net/cgi-bin/wiki.pl?JP_OptionReference
Reply to #8842

RE: 分類されたバケツに含まれる確率をヘッダに追加 (2004-04-29 16:49 by amatubu #9314)

「spam としたい確率の最小値」を p としたのだから、
p=w/(1+w)
w=p/(1-p)
でした。

あと、bayes_unclassified_weight のデフォルト値は、100 でした。
(どなかたわかりませんが、指摘どうも)
Reply to #8831