You are not logged in. This forum allows only logged in users to post. If you want to post in the forum, please log in.
Download
Magazine
Develop
Account
Download
Magazine
Develop
Login
Forgot Account/Password
Create Account
Language
Help
Language
Help
×
Login
Login Name
Password
×
Forgot Account/Password
Category:
Software
People
PersonalForge
Magazine
Wiki
Search
OSDN
>
Find Software
>
Communications
>
Email
>
Filters
>
POPFile(自動メールフィルター)の日本語化
>
Forums
>
POPFile 全般
>
分類されたバケツに含まれる確率をヘッダに追加
POPFile(自動メールフィルター)の日本語化
Description
Project Summary
Developer Dashboard
Web Page
Developers
Image Gallery
List of RSS Feeds
Activity
Statistics
History
Downloads
List of Releases
Stats
Ticket
Ticket List
Milestone List
Type List
Component List
List of frequently used tickets/RSS
Submit New Ticket
Documents
Communication
Forums
List of Forums
オフトピック (69)
POPFile 全般 (982)
POPFile 初学者専用 (1265)
Mailing Lists
list of ML
News
Forums:
POPFile 全般
(Thread #4842)
Return to Thread list
RSS
分類されたバケツに含まれる確率をヘッダに追加 (2004-03-23 00:21 by
amatubu
#8831)
Create ticket
要望リストにあった、「分類されたバケツに含まれる確率をヘッダに追加」を
実現するパッチを作ってみました。
http://sourceforge.jp/tracker/index.php?func=detail&aid=4114&group_id=759&atid=2945
bsfilter の、X-Spam-Probability: ヘッダのようなイメージです。
http://bsfilter.org/
とりあえず、X-Max-Bucket-Probability: というヘッダにしていますが、
ほかにもっといい名前があれば教えてください。
適用方法などについていは、上記のパッチの説明を参照してください。
また、もし試す場合には、必ず POPFile フォルダとデータフォルダの
バックアップをおこなってからお願いします。
#と、作ったのはいいのですが、私の環境ではこれまでのところ、0.999999
#しか見たことがありません……(汗)
RE: 分類されたバケツに含まれる確率をヘッダに追加 (2004-03-23 12:48 by
orbital
#8835)
Create ticket
お世話になっております。
POPFile経由で細かくClassifyされたMailを
さらにMailer側で細かくClassifyする場合には
非常に有用かもしれませんが…
私の環境では、そもそもバケツがspamとWorkの二つ
しかないので、どっちも0.999999 になってしまって
おりますです。
Reply to
#8831
RE: 分類されたバケツに含まれる確率をヘッダに追加 (2004-03-23 20:41 by
amatubu
#8842)
Create ticket
ありがとうございます。
私もあったらおもしろいかなと思って作ってみたのですが、
これまでのところ 0.999999 ばかりです。(うちもマグネットを使わずに
分類しているバケツは2つだけです)
とりあえずもうしばらく様子をみてみようと思います。
Reply to
#8835
あまり意味のない機能かもしれません (2004-04-29 13:20 by
amatubu
#9310)
Create ticket
2ちゃんねるでも要望として出ているようなので、少し補足します。
まず、パッチを作って試してみた感想ですが、大部分のメールは
確率が 0.999999 になってしまうので、この数字を使って振り分けする意味は
ほとんどないと考えられます。
また、例えば、ある一定以上の確率だったら spam と判断させたいのであれば、
詳細設定タブで、bayes_unclassified_weight の値を調整することで同じ
ようなことを実現することができます。
デフォルトでは 10 だったかと思いますが、これは、一番可能性の高いバケツと
二番目に可能性の高いバケツの確率の比が 10 倍以上である場合のみ
振り分けする(それ以外の場合は unclassified にする)ということを意味して
います。ですから、仮に spam と それ以外 の2つのバケツしかない場合、
デフォルトでは、spam である確率を p とすれば、p/(1-p)>10 の場合だけ
spam と認識される訳です。これを解けば、p>90.90... となりますから、
spam 確率が 90.9% 以上の場合のみ、spam と判定している訳です。
同様に、100 にすれば 99.0%、1000 にすれば 99.9%、10000 にすれば
99.99% ……というように、しきい値を好きなところに調整できる訳です。
ここで、bayes_unclassified_weight を w 、spam としたい確率の最小値を
p とすれば、
p >= w/(1+w)
w <= p/(1-p)
の関係が成り立つ時に振り分けられることになりますから(どちらも同じ意味です
が)、p=0.995(99.5%)としたければ(要するに 99.5% 以上の場合に判定)、
w(bayes_unclassified_weight)=199 とすればいいのです。
(おまけ)
逆に、unclassified にせずに、すべてどちらかに分類したければ、p=0.5、
すなわち w=1 とすれば ok かと。
個人的には、unclassified という「クッション」を置いていることも、POPFile の
大きな特徴だと思っているので、あまりおすすめはしませんが。
(参考)
POPFile Option Reference
http://popfile.sourceforge.net/cgi-bin/wiki.pl?OptionReference
POPFile Option Refernece(私が翻訳したもの)
http://popfile.sourceforge.net/cgi-bin/wiki.pl?JP_OptionReference
Reply to
#8842
RE: 分類されたバケツに含まれる確率をヘッダに追加 (2004-04-29 16:49 by
amatubu
#9314)
Create ticket
「spam としたい確率の最小値」を p としたのだから、
p=w/(1+w)
w=p/(1-p)
でした。
あと、bayes_unclassified_weight のデフォルト値は、100 でした。
(どなかたわかりませんが、指摘どうも)
Reply to
#8831