You are not logged in. This forum allows only logged in users to post. If you want to post in the forum, please log in.
Download
Magazine
Develop
Account
Download
Magazine
Develop
Login
Forgot Account/Password
Create Account
Language
Help
Language
Help
×
Login
Login Name
Password
×
Forgot Account/Password
Category:
Software
People
PersonalForge
Magazine
Wiki
Search
OSDN
>
Find Software
>
Communications
>
Email
>
Filters
>
POPFile(自動メールフィルター)の日本語化
>
Forums
>
POPFile 全般
>
日経バイト2004年2月号の記事でPOPFileが紹介されています
POPFile(自動メールフィルター)の日本語化
Description
Project Summary
Developer Dashboard
Web Page
Developers
Image Gallery
List of RSS Feeds
Activity
Statistics
History
Downloads
List of Releases
Stats
Ticket
Ticket List
Milestone List
Type List
Component List
List of frequently used tickets/RSS
Submit New Ticket
Documents
Communication
Forums
List of Forums
オフトピック (69)
POPFile 全般 (982)
POPFile 初学者専用 (1265)
Mailing Lists
list of ML
News
Forums:
POPFile 全般
(Thread #4305)
Return to Thread list
RSS
日経バイト2004年2月号の記事でPOPFileが紹介されています (2004-01-30 11:49 by
jishiha
#7662)
Create ticket
日経バイト2004年2月号の記事「スパムメールはどこまで排除できるか」の中で、検証対象のスパムフィルターの一つとして POPFile が紹介されています。
http://store.nikkeibp.co.jp/mokuji/nby249.html
少量の学習で有効に働いたただ一つのスパムフィルター、
日本語のメールをそれなりに分類できた3製品のうちの一つ
(Norton AntiSpam、ウィルスバスター、POPFile)とのことです。
RE: 日経バイト2004年2月号の記事でPOPFileが紹介されています (2004-01-30 23:47 by
jishiha
#7677)
Create ticket
以下、私が編集部にあてて送ったメールからの引用です。
>>>
スパムメールについてここまで分析・検証した
日本語の記事はあまりこれまでになかったので、
非常に興味深く読ませていただきました。
ご指摘されている3つの課題についてですが、
1) かなりの量のメールをきちんと学習させ
なければならない
というのはその通りで、POPFile の開発チームの
間では満足できる判定率(97%以上)に到達する
ためには 1000 通近いメールを受け取ることが
必要だろうと考えられています。これは、1000通
近いメールをいちいち学習させる必要がある、と
いうことではなく、1000通のうちいくつかのメール
では分類間違いが起こりこれらは学習させる必要
があるけれども、あとのほとんどのメールに対しては
何もする必要がないが、安定した判定率を得るために
は合計1000通ほどのメールを受け取る必要がある
ということです。
参照:
http://popfile.sourceforge.net/cgi-bin/wiki.pl?FrequentlyAskedQuestions/WhenGood
POPFile には、初期状態で既に受け取ったメールを読み
込ませて学習させる insert.pl というツールが付属して
いるのですが、どちらかというと開発者向け・上級者
向けツールと位置づけられており、またこのツールは
まだ日本語には対応しておりません。
1) の課題を受けて、insert.pl を初心者にも使えるよう
にすること、そして日本語化がPOPFile の課題だと
感じました。
2) 日本語に即した処理を充実させる必要がある
ですが、分類ルールをあらかじめ持つことをせず、
完全に学習に依存する POPFile は、上記のようにある
程度のサンプル数がないと満足できる判定率は得られず、
記事中での検証に使われたサンプル数は少な過ぎると
感じました。
ある程度の学習をおこなえば、日本語のメールに対して
Kakasi による形態素分析だけでも、かなり高い判定率を
得ることができると考えていますし、実際そのような
高い判定率を経験しているという報告を多くの日本語
ユーザーから受けております。
とはいえ、例えば、途中で改行してしまった単語の処理など
日本語に即した処理の充実は確かに必要だと思います。
日本語化をすすめている立場から、こうした日本語特有の
課題をひとつひとつ解決していき、POPFile をよりよい
ものにしていこうと思っています。
3) メールの意味を判断できていない
については非常に興味深いと思いました。なかなか
チャレンジングな内容で、ちょっと考えただけでは
これに対する具体的な解決方法は見えてきません。
米国の開発者チームに伝えたら、きっと「Good Question」
(Good Question とは文字通り「良い質問だ」という意味も
ありますが、「難しくて今のところ良い回答が思いつかな
い」という意味もあるようです)と言われそうですね。
今後の課題として考えたいと思っています。
Reply to
#7662
POPFile in Nikkei Byte(Japanese magazine) (2004-01-30 23:53 by
jishiha
#7678)
Create ticket
この記事に関して、私が popfile.sourceforge.net の
フォーラムの方に投稿したものです。
http://sourceforge.net/forum/forum.php?thread_id=1014646&forum_id=230652
Reply to
#7662
RE:日経バイト2004年2月号の記事でPOPFileが紹介されています (2004-06-12 05:48 by
jishiha
#9851)
Create ticket
無料のアカウント登録が必要ですが、記事がオンラインで読めるようになりました。
http://itpro.nikkeibp.co.jp/members/NBY/techsquare/20040528/1/mokuji.jsp
これまで雑誌に掲載された POPFile 関連の記事で一番気に入っている記事のうちの一つなのでお知らせしておきます。
Reply to
#7662