Forums: users (Thread #10244)

Subject:だけは利用したい (2006-02-21 15:01 by Anonymous #20063)

Windows環境で、exeファイルを使用しています。

今は --ignore-header でヘッダを無視して利用していますが、件名にはインパクトのある言葉が多いので、Subject:だけは判定と学習に利用できればと思っています。
どれほど判定に影響するかはわからないのですが、オプション追加は可能でしょうか?

Reply to #20063×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: Subject:だけは利用したい (2006-02-24 23:10 by nabeken #20138)

参考までに、--ignore-header を使用している理由を教えて下さい。

Subjectだけを見る機能をつけるのならば、ヘッダそれぞれについてon/offが切り替えれるといいですね。どんなオプションにするといいのでしょうか...

オプション追加した場合、ベンチマークして貰えますか?
テストとして実装して、評価して有効そうだったら正式採用とか、考えてます。
Reply to #20063

Reply to #20138×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: Subject:だけは利用したい (2006-02-25 00:00 by Anonymous #20139)

--ignore-header を使用している理由は・・・

1.
bsfilterをサーバー側に組み込んでPOP proxyモードで使用しています。
それで問題になったのが、誤判定したメールをクライアント側から簡単に再学習させる方法でした。

2.
クライアントでメールソフトにOutlook2000を使用しています。
Outlook Expressと違いヘッダ付きのテキスト形式で簡単にエクスポートできませんでした。

1.と2.の解決方法として、誤判定したメールを再学習用のメールアドレスに転送することにしました。
サーバーはspam用とclean用のアドレスに届いたメールをそれぞれ学習しています。
この方法だと誤判定したメールを受け取ったものが簡単に再学習させることができました。

ただ、転送メールの変わってしまったヘッダ情報は学習には邪魔になるらしく、ヘッダ情報込みで再学習させてもspam判定はあまり安定しませんでした。
--ignore-headerを使用してからはspam判定も安定してきていますが、本文が短いものはやはりspamの確率値が落ちてしまいます。
それで、転送メールでも変わらないSubjectを、判定と学習に用いたいのです。

現在は、--ignore-header付きで作成したデータベースを、
--ignore-header付きでフィルタリングモードの判定に用いて、
--ignore-header付きでメンテナンスで再学習させています。
Reply to #20138

Reply to #20139×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

--ignore-header str,str,str... (2006-02-25 00:34 by Anonymous #20141)

オプションの数を増やさないという点では、--ignore-header に見たいヘッダを追記でしょうか?
x-も含めるとヘッダの種類は多いので、見たいヘッダを記述したほうが絞り込めるのかなと思います。

私的には、--ignore-header Subjectになりますが、見たいものが多い人は、--ignore-header Subject,Content-Type,Date と長くなりそうですね。

実際に、これをコード化する場合、オプションを増やしたほうが楽なのでしょうか?

溜まっているspamからそれぞれにデータベースを再構築してのテストは可能です。
Reply to #20138

Reply to #20141×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

--refer-header str,str,str... (2006-02-25 23:43 by nabeken #20167)

r177_headerブランチに
--refer-header str,str,str...
を追加してみました。

--ignore-header

--refer-header ""
は等価です。

試して貰えるとありがたいです。
http://nabeken.tdiary.net/20060225.html
のツッコミでメールアドレスを教えて頂ければ、.exeを送付できます。
Reply to #20138

Reply to #20167×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: --refer-header str,str,str... (2006-02-26 17:21 by Anonymous #20189)

データベースを「--refer-header Subject」で再構築してテスト中です。

テスト中にデバッグ出力したところ、すべてのSubjectでtokenのspam確率が同じになっていました。
確認をお願いします。

エクスポートしたデータベース中のspamなtokenの出現回数は、
ja subject 写 3
ja subject 女性 8
ja subject 金持 4
ja subject 出会 5
ja subject 経済 1
ja subject サポート 2
ja subject メッセージ 3

デバッグ出力したtokenごとのspam確率は、
word probability subject 写 1 0.088848
word probability subject 女性 1 0.088848
word probability subject 金持 1 0.088848
word probability subject 出会 1 0.088848
word probability subject 経済 1 0.088848
word probability subject サポート 1 0.088848
word probability subject メッセージ 1 0.088848
Reply to #20167

Reply to #20189×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: --refer-header str,str,str... (2006-02-26 20:54 by nabeken #20193)

現象が再現出来ません。

--export-spam, --export-cleanにより
ja .internal file_count 10
というようにメール数が分かります。
メール数 > token出現回数 であることを確認して下さい。
メール数以上のtoken出現回数は、メール数に丸められるため、spam確率が一緒になります。

-d でのtokenごとspam確率と、
--export-probability でのダンプ結果が一致していることを確認して下さい。データベース作成時の問題か、メール判定時の問題か、切り分け出来ると思います。
Reply to #20189

Reply to #20193×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: --refer-header str,str,str... (2006-02-27 10:57 by Anonymous #20210)

すいません。私の大きなミスです。

--ignore-header と --refer-header Subject で、それぞれにデータベースを再構築して、それぞれを比較しながらテストをしていました。
その途中で記述ミスをしたらしく、--ignore-headerで再構築したデータベースで、--refer-header Subjectのspam確率を見たいたみたいです。

今朝、それぞれのデータベースの再構築からやり直したところ、私自身の環境でも再現しませんでしたので、このようになった原因を調べていました。

お騒がせしてすいませんでした。
Reply to #20193

Reply to #20210×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

--refer-header Subject (2006-02-27 14:26 by Anonymous #20215)

「--ignore-header」と「--refer-header Subject」でそれぞれにデータベースを再構築してテストをしてみました。

テストを想定してメールを保存していなかったので、データベースの再構築に使用したメールは、cleanを140通、spamを181通です。
テストに使用したのは、データベースの再構築に使用していないspamで、日本語を50通、日本語以外を50通です。

使用したメール数が少ないからか、メールごとのspam確率への影響は少なかったのですが、Subjectのtokenごとのspam確率では0.99以上が半分以上ありました。
Subjectに同じtokenが多く使用されることがわかったので、「--refer-header Subject」で運用していきたいと思います。

メールごとのspam確率で見てみると、以下のようになりました。
日本語メールは、確率値がどちらも1.000000が28通、どちらも0.500000が12通、それ以外のが以下の10通でした。
--ignore-header --refer-header
↑0.999582  0.997820
↑0.500480  0.500292
 0.500013 ↑0.500035
 0.500013 ↑0.500035
↑0.581199  0.577137
↑0.505548  0.500055
↑0.525707  0.522120
 0.500013 ↑0.500018
 0.550013 ↑0.559220
↑0.500106  0.500103
日本語以外のメールは、確率値がどちらも1.000000が48通、それ以外のが以下の2通でした。
--ignore-header --refer-header
 0.999006 ↑0.999894
 0.500039 ↑0.500694

Subjectのtokenごとのspam確率で見てみると、以下のようになりました。
日本語メールで、292個のtokenのspam確率範囲ごとの分布数
0.99~1.00 159
0.31~0.32 3
0.09~0.10 118
0.05~0.06 4
0.03~0.04 2
0.02~0.03 3
0.00 3
日本語以外のメールで、281個のtokenのspam確率範囲ごとの分布数
0.99~1.00 171
0.79~0.80 108
0.00 2
Reply to #20167

Reply to #20215×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login