Download
Magazine
Develop
Account
Download
Magazine
Develop
Login
Forgot Account/Password
Create Account
Language
Help
Language
Help
×
Login
Login Name
Password
×
Forgot Account/Password
Category:
Software
People
PersonalForge
Magazine
Wiki
Search
OSDN
>
Find Software
>
Communications
>
Email
>
Filters
>
bsfilter
>
Forums
>
users
>
bsfilterの学習方法
bsfilter
Description
Project Summary
Developer Dashboard
Developers
Image Gallery
List of RSS Feeds
Activity
Statistics
History
Downloads
List of Releases
Stats
Source Code
Code Repository list
CVS
View Repository
Ticket
Ticket List
Milestone List
Type List
Component List
List of frequently used tickets/RSS
Submit New Ticket
Documents
FrontPage
Title index
Recent changes
Communication
List of Forums
users (627)
Forums:
users
(Thread #4757)
Return to Thread list
RSS
bsfilterの学習方法 (2004-03-11 01:08 by
a39
#8583)
Reply
Create ticket
1. spamをham(clean)と誤判定する場合は,繰り返しspamだよspamだよと教育するより,ham(clean)ぢゃないよと教育した方が効果的.
undocumentedだけど,原理を考えれば自明.でも,気付かなくて当然かも...
2. --ignore-plain-text-part --ignore-after-last-atag
は(現状では)かなり有効だと思う...
3. --auto-update系の採用には注意が必要(手動還元優先派?/自動還元優先派?)
他にもコツはありますかね?
Reply to #8583
×
Subject
Body
Reply To Message #8583 > 1. spamをham(clean)と誤判定する場合は,繰り返しspamだよspamだよと教育するより,ham(clean)ぢゃないよと教育した方が効果的. > undocumentedだけど,原理を考えれば自明.でも,気付かなくて当然かも... > > 2. --ignore-plain-text-part --ignore-after-last-atag > は(現状では)かなり有効だと思う... > > 3. --auto-update系の採用には注意が必要(手動還元優先派?/自動還元優先派?) > > 他にもコツはありますかね?
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: bsfilterの学習方法 (2004-03-11 01:16 by
nabeken
#8585)
Reply
Create ticket
自分で入れといてアレですが、2は両方とも使っていません。
ゴミも込みで学習させてデータベースを調整しておかないと、捨てきれなかったゴミに過剰に反応しそうなので。曖昧な言い方ですが。
Reply to
#8583
Reply to #8585
×
Subject
Body
Reply To Message #8585 > 自分で入れといてアレですが、2は両方とも使っていません。 > ゴミも込みで学習させてデータベースを調整しておかないと、捨てきれなかったゴミに過剰に反応しそうなので。曖昧な言い方ですが。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: bsfilterの学習方法 (2004-03-11 01:22 by
a39
#8587)
Reply
Create ticket
この1週間,全てのspamを一通り見て判定してみています.
確率的に,2. は両方含めた方が効果的と判断しています.
word saladはランダムな文字列だったりするので,学習させても効果が薄い(token DBが肥大化するだけ)と踏んでいます.
Reply to
#8585
Reply to #8587
×
Subject
Body
Reply To Message #8587 > この1週間,全てのspamを一通り見て判定してみています. > 確率的に,2. は両方含めた方が効果的と判断しています. > > word saladはランダムな文字列だったりするので,学習させても効果が薄い(token DBが肥大化するだけ)と踏んでいます.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: bsfilterの学習方法 (2004-03-11 21:41 by
nabeken
#8608)
Reply
Create ticket
--ignoreを使って学習(DB作成)、判定
と、
--ignoreを使わずに学習、判定
との比較結果ですか?
Reply to
#8587
Reply to #8608
×
Subject
Body
Reply To Message #8608 > --ignoreを使って学習(DB作成)、判定 > と、 > --ignoreを使わずに学習、判定 > との比較結果ですか?
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: bsfilterの学習方法 (2004-03-11 21:50 by
a39
#8610)
Reply
Create ticket
はいそうです.
ベンチマークとして同じ条件での比較はやっていませんが,実運用時の体感的なものです.
故に,恣意的と言われれば(現状では)反論できませんけれど.
新たにDBを再構築する形で定量的な評価をした方がよいですかね?
# ちょっとscript書かないといけないかなぁ.auto-updateしながらの評価だから...
Reply to
#8608
Reply to #8610
×
Subject
Body
Reply To Message #8610 > はいそうです. > ベンチマークとして同じ条件での比較はやっていませんが,実運用時の体感的なものです. > > 故に,恣意的と言われれば(現状では)反論できませんけれど. > 新たにDBを再構築する形で定量的な評価をした方がよいですかね? > # ちょっとscript書かないといけないかなぁ.auto-updateしながらの評価だから...
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: bsfilterの学習方法 (2004-03-14 01:01 by
nabeken
#8654)
Reply
Create ticket
手元のメールで試した結果では、誤差の範囲の差しかありませんでした。
Reply to
#8610
Reply to #8654
×
Subject
Body
Reply To Message #8654 > 手元のメールで試した結果では、誤差の範囲の差しかありませんでした。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: bsfilterの学習方法 (2004-03-11 12:31 by
koie
#8595)
Reply
Create ticket
通常の判定でspamともcleanとも判断がつかないときで、
DBにない単語がやたら多いとかそういう単語が連続して大量にある場合に、
spamに倒すとか、あるいは
X-Spam-Flag: maybe yes
というヘッダをinsertするとか、どうでしょう。
Reply to
#8583
Reply to #8595
×
Subject
Body
Reply To Message #8595 > 通常の判定でspamともcleanとも判断がつかないときで、 > DBにない単語がやたら多いとかそういう単語が連続して大量にある場合に、 > spamに倒すとか、あるいは > X-Spam-Flag: maybe yes > というヘッダをinsertするとか、どうでしょう。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: bsfilterの学習方法 (2004-03-11 21:46 by
nabeken
#8609)
Reply
Create ticket
DBにない単語については、robxが使われます。
~% bsfilter --export-prob | grep '.internal robx'
C .internal robx 0.839176
ja .internal robx 0.735862
rev1.42以降でrobxの計算方法が変っていますが、これは平均spam確率で、spamがランダムな文字列を使えば使うほど、この値が上がるはずです。
なので、DBにない単語が多い場合は、自動的にspamに倒れると期待しています。
Reply to
#8595
Reply to #8609
×
Subject
Body
Reply To Message #8609 > DBにない単語については、robxが使われます。 > ~% bsfilter --export-prob | grep '.internal robx' > C .internal robx 0.839176 > ja .internal robx 0.735862 > > rev1.42以降でrobxの計算方法が変っていますが、これは平均spam確率で、spamがランダムな文字列を使えば使うほど、この値が上がるはずです。 > なので、DBにない単語が多い場合は、自動的にspamに倒れると期待しています。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: bsfilterの学習方法 (2004-03-11 12:46 by
koie
#8596)
Reply
Create ticket
1って具体的にどうすればいいのでしょうか。
bs_spamスクリプトでは「cleaちゃないよspamだよ」
と教育しているようにみえます。
Reply to
#8583
Reply to #8596
×
Subject
Body
Reply To Message #8596 > 1って具体的にどうすればいいのでしょうか。 > bs_spamスクリプトでは「cleaちゃないよspamだよ」 > と教育しているようにみえます。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: bsfilterの学習方法 (2004-03-11 13:38 by
a39
#8597)
Reply
Create ticket
mewフロントエンドに含まれるbs_spamを使うのが効果的ですが,皆が使っているとは限らないので,コマンドを打つことを想定して書きました.
bsfilter --update --sub-clean --add-spam (bs_spam と同じ)
で訂正しても,物覚えがよろしくない場合に...
bsfilter --update -add-spam
なんてことをする人がいるのかも?と.
実際に学習させても緩やかにしか確率がspam寄りに変化しない場合,1通につき判定&還元1回だと数十通の学習を順次進めねばならないことが,しばしばありました.
そもそもcleanだよと誤判定するのは,
・clean のtoken DBにあるtokenが多い
・spamのtoken DBに無いtokenが多い
という事なので,あまり長々と検出漏れを繰り返すspamにお付き合いしたくない場合は,人手で補正をしてあげることも可能ですよね.
bs_spamでも良いのですが,false positiveが発生するのが恐いので,
bsfilter --update --sub-clean --add-spam (bs_spam と同じ)
の後に
bsfilter --update --sub-clean
として,cleanのtoken DBから引く作業だけを行ってみた次第.
あくまで,物覚えが悪いときの例外的処理という意味です.
勿論,bs_spamの2連発の方が強烈だと思います.
Reply to
#8596
Reply to #8597
×
Subject
Body
Reply To Message #8597 > mewフロントエンドに含まれるbs_spamを使うのが効果的ですが,皆が使っているとは限らないので,コマンドを打つことを想定して書きました. > > bsfilter --update --sub-clean --add-spam (bs_spam と同じ) > > で訂正しても,物覚えがよろしくない場合に... > > bsfilter --update -add-spam > > なんてことをする人がいるのかも?と. > > 実際に学習させても緩やかにしか確率がspam寄りに変化しない場合,1通につき判定&還元1回だと数十通の学習を順次進めねばならないことが,しばしばありました. > > そもそもcleanだよと誤判定するのは, > ・clean のtoken DBにあるtokenが多い > ・spamのtoken DBに無いtokenが多い > という事なので,あまり長々と検出漏れを繰り返すspamにお付き合いしたくない場合は,人手で補正をしてあげることも可能ですよね. > > bs_spamでも良いのですが,false positiveが発生するのが恐いので, > > bsfilter --update --sub-clean --add-spam (bs_spam と同じ) > の後に > bsfilter --update --sub-clean > > として,cleanのtoken DBから引く作業だけを行ってみた次第. > あくまで,物覚えが悪いときの例外的処理という意味です. > 勿論,bs_spamの2連発の方が強烈だと思います.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: bsfilterの学習方法 (2004-03-24 17:21 by
a39
#8860)
Reply
Create ticket
かなり手抜きですが,ちょっとだけ--ignore系オプションの効果を観察してみました.
結論から言うと,この1ヶ月に限った小生の環境では何も考えずにword saladも一緒に食べさせた方がspamの判定確率が高くなる事が判明しました.
clean DBは使用中のsnap shotを使い回し,学習用spamは最近の約2200通(全部日本語以外)を使いました.
そして更に新しい95通のspam(全部日本語以外)を判定してみた次第です.
spamの見逃しについては,
--ignore-body (6/95)
全部評価 (12/95)
--ignore-plain-text-part (16/95)
--ignore-after-last-atag (17/95)
--ignore-after-last-atag --ignore-plain-text-part 併用 (16/95)
--ignore-header (21/95)
の順に,良い成績でした.
少ない事例ですが50通弱のcleanの(spamだとの)誤判定はありませんでした.
実はこの1ヶ月間,現実逃避としてコツコツと「極力word saladを食べさせないように」と意識しながらDBの学習をさせてみました.
word saladを食べさせない努力をしても,約70%の見逃しが発生しており,約30%もcleanじゃないよspamだよと再教育する必要がありました.
bsfilter 1.40より前の,tagカテゴリがない時代からDBを維持し続けていますので,tagカテゴリの影響による判定確度の低下もあるのでしょうけれど.
情報共有までに.
Reply to
#8583
Reply to #8860
×
Subject
Body
Reply To Message #8860 > かなり手抜きですが,ちょっとだけ--ignore系オプションの効果を観察してみました. > 結論から言うと,この1ヶ月に限った小生の環境では何も考えずにword saladも一緒に食べさせた方がspamの判定確率が高くなる事が判明しました. > > clean DBは使用中のsnap shotを使い回し,学習用spamは最近の約2200通(全部日本語以外)を使いました. > そして更に新しい95通のspam(全部日本語以外)を判定してみた次第です. > > spamの見逃しについては, > > --ignore-body (6/95) > 全部評価 (12/95) > --ignore-plain-text-part (16/95) > --ignore-after-last-atag (17/95) > --ignore-after-last-atag --ignore-plain-text-part 併用 (16/95) > --ignore-header (21/95) > > の順に,良い成績でした. > > 少ない事例ですが50通弱のcleanの(spamだとの)誤判定はありませんでした. > > 実はこの1ヶ月間,現実逃避としてコツコツと「極力word saladを食べさせないように」と意識しながらDBの学習をさせてみました. > word saladを食べさせない努力をしても,約70%の見逃しが発生しており,約30%もcleanじゃないよspamだよと再教育する必要がありました. > bsfilter 1.40より前の,tagカテゴリがない時代からDBを維持し続けていますので,tagカテゴリの影響による判定確度の低下もあるのでしょうけれど. > > 情報共有までに.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
benchmark #1 (2004-03-30 01:21 by
a39
#8951)
Reply
Create ticket
bsfilter 1.53(To:, Cc:等を最後の1個しか見ない版)を使用
C.clean.sdbm 97380 tokens 5383 mails
ja.clean.sdbm 132690 tokens 9447 mails
C.spam.sdbm 115920 tokens 2777 mails
ja.spam.sdbm 2741 tokens 17 mails
判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語)
1. とにかく全部学習(オプションなし)
spam : 2001/2296 ... 87.2%
clean : 999/999 ..... 100%
time : 0:53:29
2. --ignore-header
spam : 1854/2296 ... 80.7%
clean : 999/999 ..... 100%
time : 0:43:50
3. --ignore-body
spam : 2121/2296 ... 92.4%
clean : 988/999 ..... 98.9% ※
time : 0:31:11
4. --ignore-after-last-atag
spam : 1860/2296 ... 81.0%
clean : 999/999 ..... 100%
time : 0:44:16
5. --ignore-plain-text-part
spam : 1992/2296 ... 86.8%
clean : 999/999 ..... 100%
time : 0:52:13
6. --ignore-after-last-atag & --ignore-plain-text-part
spam : 1862/2296 ... 81.1%
clean : 999/999 ..... 100%
time : 0:43:09
※ spamと判定された11通は,InterScan VirusWallをで駆除されたSWENとNetsky.
Reply to
#8583
Reply to #8951
×
Subject
Body
Reply To Message #8951 > bsfilter 1.53(To:, Cc:等を最後の1個しか見ない版)を使用 > > C.clean.sdbm 97380 tokens 5383 mails > ja.clean.sdbm 132690 tokens 9447 mails > C.spam.sdbm 115920 tokens 2777 mails > ja.spam.sdbm 2741 tokens 17 mails > > 判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語) > > 1. とにかく全部学習(オプションなし) > spam : 2001/2296 ... 87.2% > clean : 999/999 ..... 100% > time : 0:53:29 > 2. --ignore-header > spam : 1854/2296 ... 80.7% > clean : 999/999 ..... 100% > time : 0:43:50 > 3. --ignore-body > spam : 2121/2296 ... 92.4% > clean : 988/999 ..... 98.9% ※ > time : 0:31:11 > 4. --ignore-after-last-atag > spam : 1860/2296 ... 81.0% > clean : 999/999 ..... 100% > time : 0:44:16 > 5. --ignore-plain-text-part > spam : 1992/2296 ... 86.8% > clean : 999/999 ..... 100% > time : 0:52:13 > 6. --ignore-after-last-atag & --ignore-plain-text-part > spam : 1862/2296 ... 81.1% > clean : 999/999 ..... 100% > time : 0:43:09 > > ※ spamと判定された11通は,InterScan VirusWallをで駆除されたSWENとNetsky.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
benchmark #2 (2004-03-30 08:10 by
a39
#8956)
Reply
Create ticket
bsfilter 1.53(To:, Cc:等を最後の1個しか見ない版)を使用
継続行の連結処理を改善.(日本語Subject:等の対策無し)
spam判定において若干(+0.1%)の改善がみられるため,改良が望ましい.
C.clean.sdbm 97380 tokens 5383 mails
ja.clean.sdbm 132690 tokens 9447 mails
C.spam.sdbm 115920 tokens 2777 mails
ja.spam.sdbm 2741 tokens 17 mails
判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語)
1. とにかく全部学習(オプションなし)
spam : 2004/2296 ... 87.3% (+3, +0.1%)
clean : 999/999 ..... 100%
time : 0:53:29
2. --ignore-header
spam : 1854/2296 ... 80.7% (+0, +0.0%)
clean : 999/999 ..... 100%
time : 0:43:50
3. --ignore-body
spam : 2123/2296 ... 92.5% (+2, +0.1%)
clean : 988/999 ..... 98.9% ※
time : 0:31:11
4. --ignore-after-last-atag
spam : 1862/2296 ... 81.0% (+2, +0.1%)
clean : 999/999 ..... 100%
time : 0:44:16
5. --ignore-plain-text-part
spam : 1995/2296 ... 86.8% (+3, +0.1%)
clean : 999/999 ..... 100%
time : 0:52:13
6. --ignore-after-last-atag & --ignore-plain-text-part
spam : 1864/2296 ... 81.1% (+2, +0.1%)
clean : 999/999 ..... 100%
time : 0:43:09
※ spamと判定された11通は,InterScan VirusWallをで駆除されたSWENとNetsky.
Reply to
#8583
Reply to #8956
×
Subject
Body
Reply To Message #8956 > bsfilter 1.53(To:, Cc:等を最後の1個しか見ない版)を使用 > 継続行の連結処理を改善.(日本語Subject:等の対策無し) > spam判定において若干(+0.1%)の改善がみられるため,改良が望ましい. > > C.clean.sdbm 97380 tokens 5383 mails > ja.clean.sdbm 132690 tokens 9447 mails > C.spam.sdbm 115920 tokens 2777 mails > ja.spam.sdbm 2741 tokens 17 mails > > 判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語) > > 1. とにかく全部学習(オプションなし) > spam : 2004/2296 ... 87.3% (+3, +0.1%) > clean : 999/999 ..... 100% > time : 0:53:29 > 2. --ignore-header > spam : 1854/2296 ... 80.7% (+0, +0.0%) > clean : 999/999 ..... 100% > time : 0:43:50 > 3. --ignore-body > spam : 2123/2296 ... 92.5% (+2, +0.1%) > clean : 988/999 ..... 98.9% ※ > time : 0:31:11 > 4. --ignore-after-last-atag > spam : 1862/2296 ... 81.0% (+2, +0.1%) > clean : 999/999 ..... 100% > time : 0:44:16 > 5. --ignore-plain-text-part > spam : 1995/2296 ... 86.8% (+3, +0.1%) > clean : 999/999 ..... 100% > time : 0:52:13 > 6. --ignore-after-last-atag & --ignore-plain-text-part > spam : 1864/2296 ... 81.1% (+2, +0.1%) > clean : 999/999 ..... 100% > time : 0:43:09 > > ※ spamと判定された11通は,InterScan VirusWallをで駆除されたSWENとNetsky.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: benchmark #2 (訂正版) (2004-03-30 08:18 by
a39
#8957)
Reply
Create ticket
bsfilter 1.53(To:, Cc:等を最後の1個しか見ない版)を使用
継続行の連結処理を改善.(日本語Subject:等の対策無し)
spam判定において若干(+0.1%)の改善がみられるため,改良が望ましい.
C.clean.sdbm 97380 tokens 5383 mails
ja.clean.sdbm 132690 tokens 9447 mails
C.spam.sdbm 115920 tokens 2777 mails
ja.spam.sdbm 2741 tokens 17 mails
判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語)
1. とにかく全部学習(オプションなし)
spam : 2004/2296 ... 87.3% (+3, +0.1%)
clean : 999/999 ..... 100%
time : 0:52:59
2. --ignore-header
spam : 1854/2296 ... 80.7% (+0, +0.0%)
clean : 999/999 ..... 100%
time : 0:44:49
3. --ignore-body
spam : 2123/2296 ... 92.5% (+2, +0.1%)
clean : 988/999 ..... 98.9% ※
time : 0:31:05
4. --ignore-after-last-atag
spam : 1862/2296 ... 81.0% (+2, +0.1%)
clean : 999/999 ..... 100%
time : 0:43:39
5. --ignore-plain-text-part
spam : 1995/2296 ... 86.8% (+3, +0.1%)
clean : 999/999 ..... 100%
time : 0:52:35
6. --ignore-after-last-atag & --ignore-plain-text-part
spam : 1864/2296 ... 81.1% (+2, +0.1%)
clean : 999/999 ..... 100%
time : 0:45:35
※ spamと判定された11通は,InterScan VirusWallをで駆除されたSWENとNetsky.
Reply to
#8583
Reply to #8957
×
Subject
Body
Reply To Message #8957 > bsfilter 1.53(To:, Cc:等を最後の1個しか見ない版)を使用 > 継続行の連結処理を改善.(日本語Subject:等の対策無し) > spam判定において若干(+0.1%)の改善がみられるため,改良が望ましい. > > C.clean.sdbm 97380 tokens 5383 mails > ja.clean.sdbm 132690 tokens 9447 mails > C.spam.sdbm 115920 tokens 2777 mails > ja.spam.sdbm 2741 tokens 17 mails > > 判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語) > > 1. とにかく全部学習(オプションなし) > spam : 2004/2296 ... 87.3% (+3, +0.1%) > clean : 999/999 ..... 100% > time : 0:52:59 > 2. --ignore-header > spam : 1854/2296 ... 80.7% (+0, +0.0%) > clean : 999/999 ..... 100% > time : 0:44:49 > 3. --ignore-body > spam : 2123/2296 ... 92.5% (+2, +0.1%) > clean : 988/999 ..... 98.9% ※ > time : 0:31:05 > 4. --ignore-after-last-atag > spam : 1862/2296 ... 81.0% (+2, +0.1%) > clean : 999/999 ..... 100% > time : 0:43:39 > 5. --ignore-plain-text-part > spam : 1995/2296 ... 86.8% (+3, +0.1%) > clean : 999/999 ..... 100% > time : 0:52:35 > 6. --ignore-after-last-atag & --ignore-plain-text-part > spam : 1864/2296 ... 81.1% (+2, +0.1%) > clean : 999/999 ..... 100% > time : 0:45:35 > > ※ spamと判定された11通は,InterScan VirusWallをで駆除されたSWENとNetsky.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
benchmark #3 (2004-03-31 09:41 by
a39
#8968)
Reply
Create ticket
bsfilter 1.55(複数のTo:, Cc:等を全て考慮する版)を使用
継続行の連結処理の改善なし.
C.clean.sdbm 97380 tokens 5383 mails
ja.clean.sdbm 132690 tokens 9447 mails
C.spam.sdbm 115920 tokens 2777 mails
ja.spam.sdbm 2741 tokens 17 mails
判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語)
1. とにかく全部学習(オプションなし)
spam : 2000/2296 ... 87.1% (-1, -0.2%)
clean : /999 ..... 100%
time : 0:54:32
2. --ignore-header
spam : 1854/2296 ... 80.7% (+0, +0.0%)
clean : 999/999 ..... 100%
time : 0:46:23
3. --ignore-body
spam : 2122/2296 ... 92.4% (+1, +0.0%)
clean : 987/999 ..... 98.8% ※
time : 0:31:49
4. --ignore-after-last-atag
spam : 1860/2296 ... 81.0% (+0, +0.0%)
clean : 999/999 ..... 100%
time : 0:47:22
5. --ignore-plain-text-part
spam : 1990/2296 ... 86.7% (-2, -0.1%)
clean : 999/999 ..... 100%
time : 0:53:08
6. --ignore-after-last-atag & --ignore-plain-text-part
spam : 1862/2296 ... 81.1% (+0, +0.0%)
clean : 999/999 ..... 100%
time : 0:42:43
※ spamと判定された12通は,InterScan VirusWallをで駆除されたSWENとNetsky.
Reply to
#8583
Reply to #8968
×
Subject
Body
Reply To Message #8968 > bsfilter 1.55(複数のTo:, Cc:等を全て考慮する版)を使用 > 継続行の連結処理の改善なし. > > C.clean.sdbm 97380 tokens 5383 mails > ja.clean.sdbm 132690 tokens 9447 mails > C.spam.sdbm 115920 tokens 2777 mails > ja.spam.sdbm 2741 tokens 17 mails > > 判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語) > > 1. とにかく全部学習(オプションなし) > spam : 2000/2296 ... 87.1% (-1, -0.2%) > clean : /999 ..... 100% > time : 0:54:32 > 2. --ignore-header > spam : 1854/2296 ... 80.7% (+0, +0.0%) > clean : 999/999 ..... 100% > time : 0:46:23 > 3. --ignore-body > spam : 2122/2296 ... 92.4% (+1, +0.0%) > clean : 987/999 ..... 98.8% ※ > time : 0:31:49 > 4. --ignore-after-last-atag > spam : 1860/2296 ... 81.0% (+0, +0.0%) > clean : 999/999 ..... 100% > time : 0:47:22 > 5. --ignore-plain-text-part > spam : 1990/2296 ... 86.7% (-2, -0.1%) > clean : 999/999 ..... 100% > time : 0:53:08 > 6. --ignore-after-last-atag & --ignore-plain-text-part > spam : 1862/2296 ... 81.1% (+0, +0.0%) > clean : 999/999 ..... 100% > time : 0:42:43 > > ※ spamと判定された12通は,InterScan VirusWallをで駆除されたSWENとNetsky.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
benchmark #4 (2004-04-01 00:21 by
a39
#8981)
Reply
Create ticket
bsfilter 1.55(複数のTo:, Cc:等を全て考慮する版)を使用
全てのReceived:を処理.
継続行の連結処理も改善.(Received:に影響するため)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
オリジナルの clean sdbm を用いた場合(Received: の重複処理なしのまま)
C.clean.sdbm 97380 tokens 5383 mails
ja.clean.sdbm 132690 tokens 9447 mails
C.spam.sdbm 117853 tokens 2777 mails (全部学習させた場合)
ja.spam.sdbm 2869 tokens 17 mails (全部学習させた場合)
判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語)
1. とにかく全部学習(オプションなし)
spam : 2208/2296 ... 96.2% (+207, +9.0%)
clean : 999/999 ..... 100%
time : 1:02:46
2. --ignore-header
spam : 1854/2296 ... 80.7% (+0, +0.0%) ← 当然
clean : 999/999 ..... 100%
time : 0:44:25
3. --ignore-body
spam : 2268/2296 ... 98.8% (+147, +6.4%)
clean : 957/999 ..... 95.8% ※1
time : 0:39:18
4. --ignore-after-last-atag
spam : 2183/2296 ... 95.1% (+323, +14.1%)
clean : 999/999 ..... 100%
time : 0:52:29
5. --ignore-plain-text-part
spam : 2211/2296 ... 96.3% (+219, +9.5%)
clean : 986/999 ..... 98.7% ※2
time : 1:01:33
6. --ignore-after-last-atag & --ignore-plain-text-part
spam : 1862/2296 ... 81.1% (+0, +0.0%)
clean : 987/999 ..... 98.8% ※3
time : 0:51:15
※1 spamと判定された42通は,InterScan VirusWallをで駆除されたSWENとNetsky.
※2 spamと判定された13通は,InterScan VirusWallをで駆除されたSWENとNetsky.
※3 spamと判定された12通は,InterScan VirusWallをで駆除されたSWENとNetsky.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
確実に付随するReceived:ヘッダ分の出現情報を,手作業で修正(付加)し,
--import-cleanで取り込んだもの.(擬似的にReceived:の重複処理を再現)
C.clean.sdbm 97390 tokens 5383 mails
ja.clean.sdbm 132708 tokens 9447 mails
C.spam.sdbm 117853 tokens 2777 mails (全部学習させた場合)
ja.spam.sdbm 2869 tokens 17 mails (全部学習させた場合)
判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語)
1. とにかく全部学習(オプションなし)
spam : 2013/2296 ... 87.7% (+12, +0.5%)
clean : 999/999 ..... 100%
time : 0:59:33
2. --ignore-header
spam : 1854/2296 ... 80.7% (+0, +0.0%) ← 当然
clean : 999/999 ..... 100%
time : 0:44:08
3. --ignore-body
spam : 2140/2296 ... 93.2% (+19, +0.8%)
clean : 994/999 ..... 99.5% ※
time : 0:35:04
4. --ignore-after-last-atag
spam : 1878/2296 ... 81.8% (+18, +0.8%)
clean : 999/999 ..... 100%
time : 0:47:50
5. --ignore-plain-text-part
spam : 2008/2296 ... 87.5% (+16, +0.7%)
clean : 999/999 ..... 100%
time : 0:58:55
6. --ignore-after-last-atag & --ignore-plain-text-part
spam : 1874/2296 ... 81.6% (+12, +0.5%)
clean : 999/999 ..... 100%
time : 0:47:18
※ spamと判定された5通は,InterScan VirusWallをで駆除されたSWENとNetsky.
Reply to
#8583
Reply to #8981
×
Subject
Body
Reply To Message #8981 > bsfilter 1.55(複数のTo:, Cc:等を全て考慮する版)を使用 > 全てのReceived:を処理. > 継続行の連結処理も改善.(Received:に影響するため) > > - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - > オリジナルの clean sdbm を用いた場合(Received: の重複処理なしのまま) > > C.clean.sdbm 97380 tokens 5383 mails > ja.clean.sdbm 132690 tokens 9447 mails > C.spam.sdbm 117853 tokens 2777 mails (全部学習させた場合) > ja.spam.sdbm 2869 tokens 17 mails (全部学習させた場合) > > 判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語) > > 1. とにかく全部学習(オプションなし) > spam : 2208/2296 ... 96.2% (+207, +9.0%) > clean : 999/999 ..... 100% > time : 1:02:46 > 2. --ignore-header > spam : 1854/2296 ... 80.7% (+0, +0.0%) ← 当然 > clean : 999/999 ..... 100% > time : 0:44:25 > 3. --ignore-body > spam : 2268/2296 ... 98.8% (+147, +6.4%) > clean : 957/999 ..... 95.8% ※1 > time : 0:39:18 > 4. --ignore-after-last-atag > spam : 2183/2296 ... 95.1% (+323, +14.1%) > clean : 999/999 ..... 100% > time : 0:52:29 > 5. --ignore-plain-text-part > spam : 2211/2296 ... 96.3% (+219, +9.5%) > clean : 986/999 ..... 98.7% ※2 > time : 1:01:33 > 6. --ignore-after-last-atag & --ignore-plain-text-part > spam : 1862/2296 ... 81.1% (+0, +0.0%) > clean : 987/999 ..... 98.8% ※3 > time : 0:51:15 > > ※1 spamと判定された42通は,InterScan VirusWallをで駆除されたSWENとNetsky. > ※2 spamと判定された13通は,InterScan VirusWallをで駆除されたSWENとNetsky. > ※3 spamと判定された12通は,InterScan VirusWallをで駆除されたSWENとNetsky. > > - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - > 確実に付随するReceived:ヘッダ分の出現情報を,手作業で修正(付加)し, > --import-cleanで取り込んだもの.(擬似的にReceived:の重複処理を再現) > > C.clean.sdbm 97390 tokens 5383 mails > ja.clean.sdbm 132708 tokens 9447 mails > C.spam.sdbm 117853 tokens 2777 mails (全部学習させた場合) > ja.spam.sdbm 2869 tokens 17 mails (全部学習させた場合) > > 判定対象 spam : 2296通(99%日本語以外), clean : 999通(半分くらい日本語) > > 1. とにかく全部学習(オプションなし) > spam : 2013/2296 ... 87.7% (+12, +0.5%) > clean : 999/999 ..... 100% > time : 0:59:33 > 2. --ignore-header > spam : 1854/2296 ... 80.7% (+0, +0.0%) ← 当然 > clean : 999/999 ..... 100% > time : 0:44:08 > 3. --ignore-body > spam : 2140/2296 ... 93.2% (+19, +0.8%) > clean : 994/999 ..... 99.5% ※ > time : 0:35:04 > 4. --ignore-after-last-atag > spam : 1878/2296 ... 81.8% (+18, +0.8%) > clean : 999/999 ..... 100% > time : 0:47:50 > 5. --ignore-plain-text-part > spam : 2008/2296 ... 87.5% (+16, +0.7%) > clean : 999/999 ..... 100% > time : 0:58:55 > 6. --ignore-after-last-atag & --ignore-plain-text-part > spam : 1874/2296 ... 81.6% (+12, +0.5%) > clean : 999/999 ..... 100% > time : 0:47:18 > > ※ spamと判定された5通は,InterScan VirusWallをで駆除されたSWENとNetsky.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: benchmark #4 (2004-04-01 00:31 by
a39
#8982)
Reply
Create ticket
ということで,cleanの場合はReceived:の学習で手を抜く,(他のパラメータでも同様かも)ということで,劇的(?)にspamの判定率が向上しました.
但し,SWEN/Netsky等のspamだよとの誤判定率(?)も大幅に向上していますので,諸刃の剣というところでしょうか.
Received:の判定・学習を,詐称されているかも知れない最後の1つに絞る必然性は見当たらず,むしろsalad同様全て学習させた方が,特徴抽出のためには効果的と思わせてくれる結果でした.
Reply to
#8981
Reply to #8982
×
Subject
Body
Reply To Message #8982 > ということで,cleanの場合はReceived:の学習で手を抜く,(他のパラメータでも同様かも)ということで,劇的(?)にspamの判定率が向上しました. > 但し,SWEN/Netsky等のspamだよとの誤判定率(?)も大幅に向上していますので,諸刃の剣というところでしょうか. > > Received:の判定・学習を,詐称されているかも知れない最後の1つに絞る必然性は見当たらず,むしろsalad同様全て学習させた方が,特徴抽出のためには効果的と思わせてくれる結果でした.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: benchmark #4 (2004-04-01 00:39 by
nabeken
#8983)
Reply
Create ticket
「cleanの場合はReceived:の学習で手を抜く」
とは、どういう意味ですか?
Reply to
#8982
Reply to #8983
×
Subject
Body
Reply To Message #8983 > 「cleanの場合はReceived:の学習で手を抜く」 > とは、どういう意味ですか?
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: benchmark #4 (2004-04-01 01:01 by
a39
#8988)
Reply
Create ticket
全てのReceived:を学習せず,一番最後のReceived:のみを(詐称されている物であるかもしれなくても)学習するということです.
先に書きましたが,信用でき且つ学習対象として有効なのは,自明なReceived:の直前のReceived:*だけ*だと思います.その前のReceived:は「詐称されているかもしれない可能性」がありますので,word salad同様フィルタが惑わされる可能性が高いと思います.
Reply to
#8983
Reply to #8988
×
Subject
Body
Reply To Message #8988 > 全てのReceived:を学習せず,一番最後のReceived:のみを(詐称されている物であるかもしれなくても)学習するということです. > > 先に書きましたが,信用でき且つ学習対象として有効なのは,自明なReceived:の直前のReceived:*だけ*だと思います.その前のReceived:は「詐称されているかもしれない可能性」がありますので,word salad同様フィルタが惑わされる可能性が高いと思います.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel