Download
Magazine
Develop
Account
Download
Magazine
Develop
Login
Forgot Account/Password
Create Account
Language
Help
Language
Help
×
Login
Login Name
Password
×
Forgot Account/Password
Category:
Software
People
PersonalForge
Magazine
Wiki
Search
OSDN
>
Find Software
>
Communications
>
Email
>
Filters
>
bsfilter
>
Forums
>
users
>
メッセージに含まれるヘッダのSpam度
bsfilter
Description
Project Summary
Developer Dashboard
Developers
Image Gallery
List of RSS Feeds
Activity
Statistics
History
Downloads
List of Releases
Stats
Source Code
Code Repository list
CVS
View Repository
Ticket
Ticket List
Milestone List
Type List
Component List
List of frequently used tickets/RSS
Submit New Ticket
Documents
FrontPage
Title index
Recent changes
Communication
List of Forums
users (627)
Forums:
users
(Thread #12746)
Return to Thread list
RSS
メッセージに含まれるヘッダのSpam度 (2006-11-05 14:49 by
Anonymous
#25780)
Reply
Create ticket
水口です。 お世話になります。
Spam発信ソフトの固有の特徴がメッセージヘッダーに現われないかと思い立ち、調べてみました。
調査対象は、私自身が最近1年間に受信した Spam 28524件と Clean 1774件で、「メッセージが含むヘッダー名」に注目して「Spam/Clean メッセージがそのヘッダーを含む確率」を調べました。 対象をヘッダーの名称に限定すれば、ヘッダー個別のパース処理が不要で bsfilter にとっても扱い易いと考えたからです。
私はベイズ理論を理解していないので結果を評価できないのですが、メッセージに含まれるヘッダーの名称を tokenizer として扱う様にするのが bsfilterとして可能ならば、検討して頂けないでしょうか?
調査結果は
http://www2.famille.ne.jp/~zxcv/poi/CkHdr.html
に置いていますが、以下に私にとって興味深い部分を紹介します。
各明細行は、Spamメッセージがそのヘッダーを含む率・同じくCleanが含む率・ヘッダー名 の項目順です。
1 「無ければSpam」グループ
これらは MUA か最初の MTA が付けるヘッダーのはずです。 これが漏れるのは、MTAに成り済ますヘボいソフトから発信されたとか、最初の MTA が spamer に管理されるヘボサーバーとかの事情でしょうか。
94% 100% date:
94% 100% message-id:
2 高Spam度グループ
8% 0% x-ip:
4% 0% x-magazineid:
4% 0% x-message-info:
4% 0% x-uid:
3 高Clean度グループ
私が参加するメーリングリスト固有のヘッダーが少なからずあります。
0% 27% authentication-results:
0% 7% content-disposition:
0% 54% in-reply-to:
0% 54% references:
0% 10% x-face:
0% 21% x-ml-count:
0% 3% x-pgp-fingerprint:
0% 21% x-sendinghost:
0% 1% x-weather:
4 意味不明グループ
これらは、頻度は少いもののSpamだけに現れます。 一般的な smtp ヘッダーでは無い様で、私が欲しかった Spam送信ソフト固有の特徴かも知れません。
http:
pro-private.commessage-id:
servbright.commessage-id:
このあとは以下の調査をしようかと考えていますが、これらにかかわらず有用そうなテーマがあればご指示ください。
・Spam 発信ソフトの自己宣伝がヘッダー中に無いか?
・意味不明グループの中身の調査
Reply to #25780
×
Subject
Body
Reply To Message #25780 > 水口です。 お世話になります。 > > Spam発信ソフトの固有の特徴がメッセージヘッダーに現われないかと思い立ち、調べてみました。 > > > 調査対象は、私自身が最近1年間に受信した Spam 28524件と Clean 1774件で、「メッセージが含むヘッダー名」に注目して「Spam/Clean メッセージがそのヘッダーを含む確率」を調べました。 対象をヘッダーの名称に限定すれば、ヘッダー個別のパース処理が不要で bsfilter にとっても扱い易いと考えたからです。 > > 私はベイズ理論を理解していないので結果を評価できないのですが、メッセージに含まれるヘッダーの名称を tokenizer として扱う様にするのが bsfilterとして可能ならば、検討して頂けないでしょうか? > > > 調査結果は http://www2.famille.ne.jp/~zxcv/poi/CkHdr.html に置いていますが、以下に私にとって興味深い部分を紹介します。 > > 各明細行は、Spamメッセージがそのヘッダーを含む率・同じくCleanが含む率・ヘッダー名 の項目順です。 > > > 1 「無ければSpam」グループ > これらは MUA か最初の MTA が付けるヘッダーのはずです。 これが漏れるのは、MTAに成り済ますヘボいソフトから発信されたとか、最初の MTA が spamer に管理されるヘボサーバーとかの事情でしょうか。 > > 94% 100% date: > 94% 100% message-id: > > > 2 高Spam度グループ > > 8% 0% x-ip: > 4% 0% x-magazineid: > 4% 0% x-message-info: > 4% 0% x-uid: > > > 3 高Clean度グループ > 私が参加するメーリングリスト固有のヘッダーが少なからずあります。 > 0% 27% authentication-results: > 0% 7% content-disposition: > 0% 54% in-reply-to: > 0% 54% references: > 0% 10% x-face: > 0% 21% x-ml-count: > 0% 3% x-pgp-fingerprint: > 0% 21% x-sendinghost: > 0% 1% x-weather: > > > 4 意味不明グループ > これらは、頻度は少いもののSpamだけに現れます。 一般的な smtp ヘッダーでは無い様で、私が欲しかった Spam送信ソフト固有の特徴かも知れません。 > http: > pro-private.commessage-id: > servbright.commessage-id: > > > > このあとは以下の調査をしようかと考えていますが、これらにかかわらず有用そうなテーマがあればご指示ください。 > > ・Spam 発信ソフトの自己宣伝がヘッダー中に無いか? > > ・意味不明グループの中身の調査
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: メッセージに含まれるヘッダのSpam度 (2006-11-12 21:47 by
nabeken
#25999)
Reply
Create ticket
テスト用に 1.82.4.1 をcommitしました。
--refer-header Headers オプションによりヘッダの有無を計算に入れるようになります。見るのは有無のみで、内容は見ていません。
-d --refer-header Headers のようにすれば、以下のように動作を確認出来ます。
tokenizer headers X-Mailer
tokenizer headers Mime-Version
--refer-header オプションのデフォルト引数は、usageで表示されるように
"Ufrom,From,To,Cc,Subject,Reply-to,Return-path,Received,Content-Transfer-Encoding,Content-Type,charset,C
ontent-Disposition"
となっているので、必要でしたら、これにHeadersを追加して下さい。
Reply to
#25780
Reply to #25999
×
Subject
Body
Reply To Message #25999 > テスト用に 1.82.4.1 をcommitしました。 > --refer-header Headers オプションによりヘッダの有無を計算に入れるようになります。見るのは有無のみで、内容は見ていません。 > -d --refer-header Headers のようにすれば、以下のように動作を確認出来ます。 > tokenizer headers X-Mailer > tokenizer headers Mime-Version > > --refer-header オプションのデフォルト引数は、usageで表示されるように > "Ufrom,From,To,Cc,Subject,Reply-to,Return-path,Received,Content-Transfer-Encoding,Content-Type,charset,C > ontent-Disposition" > となっているので、必要でしたら、これにHeadersを追加して下さい。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: メッセージに含まれるヘッダのSpam度 (2006-11-13 22:21 by
Anonymous
#26011)
Reply
Create ticket
水口です。 テスト版をありがとうございます。
まずは -d モードでの出力を確認しました。
効果の確認は、少し時間をください。 調査に使用した過去1年のメールを学習用(古い9割) と判定確認用(新しい1割) に分けて、新規DB作成と判定確認を行おうかと思います。 Headersオプションを使う場合と使わない場合で Spam-Probability がどう変化するか見るつもりです。
Reply to
#25780
Reply to #26011
×
Subject
Body
Reply To Message #26011 > 水口です。 テスト版をありがとうございます。 > > まずは -d モードでの出力を確認しました。 > > 効果の確認は、少し時間をください。 調査に使用した過去1年のメールを学習用(古い9割) と判定確認用(新しい1割) に分けて、新規DB作成と判定確認を行おうかと思います。 Headersオプションを使う場合と使わない場合で Spam-Probability がどう変化するか見るつもりです。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: メッセージに含まれるヘッダのSpam度 (2006-11-24 00:38 by
Anonymous
#26159)
Reply
Create ticket
水口です。
遅くなりましたが、やっと結果をまとめ終りました。
結果を一言で言えば、
・SpamメッセージをCleanに誤判定するケースが 1.40% から 1.13% に減少。
・Cleanメッセージの判定では実質誤判定なしを維持。
というところです。 効果はあったものの、画期的では無かったですね。
詳細な報告は、掲示板中で見易くまとめる自信が無かったので HTML で書きました。
http://www2.famille.ne.jp/~zxcv/poi/statistics.html
に置いています。
余談ですが、bsfilter には処理対象ファイルのパスを stdin から入力するオプションは無いんですよね? 事情があって xargs を使えなくて、オプションがあれば便利だと思いました。
Reply to
#26011
Reply to #26159
×
Subject
Body
Reply To Message #26159 > 水口です。 > > 遅くなりましたが、やっと結果をまとめ終りました。 > > 結果を一言で言えば、 > > ・SpamメッセージをCleanに誤判定するケースが 1.40% から 1.13% に減少。 > > ・Cleanメッセージの判定では実質誤判定なしを維持。 > > というところです。 効果はあったものの、画期的では無かったですね。 > > > 詳細な報告は、掲示板中で見易くまとめる自信が無かったので HTML で書きました。http://www2.famille.ne.jp/~zxcv/poi/statistics.html に置いています。 > > > 余談ですが、bsfilter には処理対象ファイルのパスを stdin から入力するオプションは無いんですよね? 事情があって xargs を使えなくて、オプションがあれば便利だと思いました。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: メッセージに含まれるヘッダのSpam度 (2006-11-24 19:46 by
nabeken
#26175)
Reply
Create ticket
直観ですが、ヘッダの重みづけを増すのが有効かもしれませんね。そういう機能はないのですが。
xargsが使えない事情の背景が分からないのですが、ruby scriptが自由に使えれば、以下のように代替できます。
#! /usr/bin/env
load "somewhere/bsfilter'
bsfilter = Bsfilter::new
bsfilter.setup(ARGV)
while (path = STDIN.gets)
path.chomp!
bsfilter.run(path)
end
Reply to
#26159
Reply to #26175
×
Subject
Body
Reply To Message #26175 > 直観ですが、ヘッダの重みづけを増すのが有効かもしれませんね。そういう機能はないのですが。 > > xargsが使えない事情の背景が分からないのですが、ruby scriptが自由に使えれば、以下のように代替できます。 > > #! /usr/bin/env > > load "somewhere/bsfilter' > > bsfilter = Bsfilter::new > bsfilter.setup(ARGV) > while (path = STDIN.gets) > path.chomp! > bsfilter.run(path) > end
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: メッセージに含まれるヘッダのSpam度 (2006-11-26 23:24 by
Anonymous
#26225)
Reply
Create ticket
水口です。 ありがとうございます。
ヘッダの重みづけのシミュレーションは、 export-spam/clean したものから headers を選別して同じ DB に import すれば良いんでしょうか?
xargs の代替は、せっかく sample を示して頂きましたが、試してみると無応答でハング(?)してしまいます。 ruby を全く知らない身には手っ取り早く動かすのは難しそうで、これから勉強する教材にさせて頂きます。
xargs が使えないのは、あるとき 1回だけ動くはずの指定コマンドが複数回動くのを発見して手元の Cygwin環境に不安を感じたからでした。
Reply to
#26175
Reply to #26225
×
Subject
Body
Reply To Message #26225 > 水口です。 ありがとうございます。 > > ヘッダの重みづけのシミュレーションは、 export-spam/clean したものから headers を選別して同じ DB に import すれば良いんでしょうか? > > > xargs の代替は、せっかく sample を示して頂きましたが、試してみると無応答でハング(?)してしまいます。 ruby を全く知らない身には手っ取り早く動かすのは難しそうで、これから勉強する教材にさせて頂きます。 > > xargs が使えないのは、あるとき 1回だけ動くはずの指定コマンドが複数回動くのを発見して手元の Cygwin環境に不安を感じたからでした。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel