Download
Magazine
Develop
Account
Download
Magazine
Develop
Login
Forgot Account/Password
Create Account
Language
Help
Language
Help
×
Login
Login Name
Password
×
Forgot Account/Password
Category:
Software
People
PersonalForge
Magazine
Wiki
Search
OSDN
>
Find Software
>
Communications
>
Email
>
Filters
>
POPFile(自動メールフィルター)の日本語化
>
Forums
>
POPFile 初学者専用
>
バケツの単語を編集するには?
POPFile(自動メールフィルター)の日本語化
Description
Project Summary
Developer Dashboard
Web Page
Developers
Image Gallery
List of RSS Feeds
Activity
Statistics
History
Downloads
List of Releases
Stats
Ticket
Ticket List
Milestone List
Type List
Component List
List of frequently used tickets/RSS
Submit New Ticket
Documents
Communication
Forums
List of Forums
オフトピック (69)
POPFile 全般 (982)
POPFile 初学者専用 (1265)
Mailing Lists
list of ML
News
Forums:
POPFile 初学者専用
(Thread #14519)
Return to Thread list
RSS
バケツの単語を編集するには? (2007-04-06 19:19 by
seasoft
#28905)
Reply
Create ticket
バケツに登録されている単語を追加・削除・変更など、
できるインターフェイスは存在するのでしょうか?
WEB でも Perl(コマンドライン)でも良いのですが。
popfile.db をSQLで編集したりするのですかね?
Reply to #28905
×
Subject
Body
Reply To Message #28905 > バケツに登録されている単語を追加・削除・変更など、 > できるインターフェイスは存在するのでしょうか? > WEB でも Perl(コマンドライン)でも良いのですが。 > > popfile.db をSQLで編集したりするのですかね?
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: バケツの単語を編集するには? (2007-04-06 21:53 by
amatubu
#28908)
Reply
Create ticket
私の知る限りではそのような機能は用意されていません。
Perl から POPFile のモジュールを直接操作するような
スクリプトを書けば可能かもしれませんが。
データベースを直接編集するのが一番簡単だと思いますが、
手動で単語を追加、削除することによってコーパスの
バランスが悪くなり、結果として分類精度に悪影響が
出る可能性もありますので、あまりおすすめはできません。
もし、既存の機能(POP3 プロキシなど)とは異なる
用途に使いたい、ということであれば、そのための
モジュールを書くのがよいのではないかと思います。
Reply to
#28905
Reply to #28908
×
Subject
Body
Reply To Message #28908 > 私の知る限りではそのような機能は用意されていません。 > Perl から POPFile のモジュールを直接操作するような > スクリプトを書けば可能かもしれませんが。 > > データベースを直接編集するのが一番簡単だと思いますが、 > 手動で単語を追加、削除することによってコーパスの > バランスが悪くなり、結果として分類精度に悪影響が > 出る可能性もありますので、あまりおすすめはできません。 > > もし、既存の機能(POP3 プロキシなど)とは異なる > 用途に使いたい、ということであれば、そのための > モジュールを書くのがよいのではないかと思います。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: バケツの単語を編集するには? (2007-04-07 10:54 by
seasoft
#28952)
Reply
Create ticket
振り分けに有効な単語で登録されないものがあったので、
手動で追加したいと考えていました。
しかし、記事を投稿してから気づいたのですが、
登録されない単語を登録しても、結局は振り分けで
使われないという事ですよね?
これを改善するには、形態素解析(MeCab)側に手を加える
(辞書に追加する?)必要がありそうですね。
Reply to
#28908
Reply to #28952
×
Subject
Body
Reply To Message #28952 > 振り分けに有効な単語で登録されないものがあったので、 > 手動で追加したいと考えていました。 > > しかし、記事を投稿してから気づいたのですが、 > 登録されない単語を登録しても、結局は振り分けで > 使われないという事ですよね? > > これを改善するには、形態素解析(MeCab)側に手を加える > (辞書に追加する?)必要がありそうですね。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: バケツの単語を編集するには? (2007-04-07 13:49 by
amatubu
#28963)
Reply
Create ticket
例えばどんな単語が登録されませんか?
POPFile では、漢字やひらがな 1 文字の単語(?)は分類に利用
しないようになっています。同じく、メールを再分類しても
コーパスに登録されることはありません。
また、記号についても同様に無視しています。
Kakasi では未定義語は 1 字 1 字ばらばらになるようですので
コーパスに登録されない(=分類に利用されない)と思いますが、MeCab では未定義語もばらばらにされることはないので登録される
のではないかと思います。
Kakasi の場合であれば、辞書に登録するというのが有効な方法
かも知れません。Kakasi の辞書に単語を登録するということに
関しては、過去に
http://sourceforge.jp/forum/forum.php?thread_id=9353&forum_id=3073
という投稿をしています。
効果のほどが不明なのと、動作テストが足りていないため、
POPFile 本体に取り込むというところまではできていませんが。
Reply to
#28952
Reply to #28963
×
Subject
Body
Reply To Message #28963 > 例えばどんな単語が登録されませんか? > > POPFile では、漢字やひらがな 1 文字の単語(?)は分類に利用 > しないようになっています。同じく、メールを再分類しても > コーパスに登録されることはありません。 > また、記号についても同様に無視しています。 > > Kakasi では未定義語は 1 字 1 字ばらばらになるようですので > コーパスに登録されない(=分類に利用されない)と思いますが、MeCab では未定義語もばらばらにされることはないので登録される > のではないかと思います。 > > Kakasi の場合であれば、辞書に登録するというのが有効な方法 > かも知れません。Kakasi の辞書に単語を登録するということに > 関しては、過去に > http://sourceforge.jp/forum/forum.php?thread_id=9353&forum_id=3073 > という投稿をしています。 > 効果のほどが不明なのと、動作テストが足りていないため、 > POPFile 本体に取り込むというところまではできていませんが。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: バケツの単語を編集するには? (2007-04-07 14:19 by
seasoft
#28966)
Reply
Create ticket
漢字で構成される固有名詞です。
たとえば、氏名の場合だと、苗字は登録されるが、
名前が登録されないなどです。
最初は Kakasi で試したのですが、駄目で MeCab に
変更したのですが、やはり登録されませんでした。
あと、Kakasi だと文字化けが発生していました。
「From:」が文字化けしているspamを受信しているのが
原因かなと考えています。MeCab だと文字化けは
無いようです。
POPFile は昨日から使い始めたのですが、なかなか
良いですね。確認するメールの件数が激減して寂しい
くらいです(笑)
現在は Windows クライアントで動作させているのですが、
サーバでの動作も挑戦しようかと考えています。
Reply to
#28905
Reply to #28966
×
Subject
Body
Reply To Message #28966 > 漢字で構成される固有名詞です。 > > たとえば、氏名の場合だと、苗字は登録されるが、 > 名前が登録されないなどです。 > > 最初は Kakasi で試したのですが、駄目で MeCab に > 変更したのですが、やはり登録されませんでした。 > > あと、Kakasi だと文字化けが発生していました。 > 「From:」が文字化けしているspamを受信しているのが > 原因かなと考えています。MeCab だと文字化けは > 無いようです。 > > POPFile は昨日から使い始めたのですが、なかなか > 良いですね。確認するメールの件数が激減して寂しい > くらいです(笑) > 現在は Windows クライアントで動作させているのですが、 > サーバでの動作も挑戦しようかと考えています。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: バケツの単語を編集するには? (2007-04-07 22:37 by
amatubu
#28984)
Reply
Create ticket
固有名詞は辞書に登録されていない可能性が高いと思いますので
そのあたりの影響でしょうか。
POPFile コントロールセンターのシングルメッセージビューを確認
すれば、どのように分かち書きされたかがわかると思います。
もし、そこで漢字 1 字 1 字に分割されていれば(もしくは思ったのと
違う部分で分かち書きされていれば)その単語は分類には使用されません。
Kakasi で文字化けというのはどういう症状なのでしょうか?
もし、分類に支障があるのであれば対処したいと思います。
Reply to
#28966
Reply to #28984
×
Subject
Body
Reply To Message #28984 > 固有名詞は辞書に登録されていない可能性が高いと思いますので > そのあたりの影響でしょうか。 > POPFile コントロールセンターのシングルメッセージビューを確認 > すれば、どのように分かち書きされたかがわかると思います。 > もし、そこで漢字 1 字 1 字に分割されていれば(もしくは思ったのと > 違う部分で分かち書きされていれば)その単語は分類には使用されません。 > > Kakasi で文字化けというのはどういう症状なのでしょうか? > もし、分類に支障があるのであれば対処したいと思います。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: バケツの単語を編集するには? (2007-04-07 23:04 by
seasoft
#28986)
Reply
Create ticket
シングルメッセージビューで漢字 1 字 1 字に分割されている事を確認しました。
Kakasi で試したのは短い時間だったので、明確な記憶ではありませんが、
バケツの詳細(単語リスト)表示で英数字と日本語の間に、
大量の「・(中黒)」などが表示されていたと思います。
そして、その「・」をクリックすると、単語表に文字化けした文字が入っていました。
分類に支障はなかったと思いますが、厳密には把握できていないです。
Reply to
#28984
Reply to #28986
×
Subject
Body
Reply To Message #28986 > シングルメッセージビューで漢字 1 字 1 字に分割されている事を確認しました。 > > Kakasi で試したのは短い時間だったので、明確な記憶ではありませんが、 > バケツの詳細(単語リスト)表示で英数字と日本語の間に、 > 大量の「・(中黒)」などが表示されていたと思います。 > > そして、その「・」をクリックすると、単語表に文字化けした文字が入っていました。 > 分類に支障はなかったと思いますが、厳密には把握できていないです。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: バケツの単語を編集するには? (2007-04-08 02:42 by
amatubu
#28993)
Reply
Create ticket
> 漢字 1 字 1 字に分割されている
なるほど。そうすると、分割されている漢字 1 字 1 字が定義語なの
かも知れません。
バケツの詳細での文字化けということですね。
少し調べてみましたら、EUC-JP では使用されない 0x8EF0~0x8EFE を
誤って EUC-JP の 2 バイト文字として扱ってしまっていることが
わかりました。
文字化けしていたのが 14 個以下であれば、これが原因かも
しれません。
次のバージョンで修正したいと思います。
Reply to
#28986
Reply to #28993
×
Subject
Body
Reply To Message #28993 > > 漢字 1 字 1 字に分割されている > > なるほど。そうすると、分割されている漢字 1 字 1 字が定義語なの > かも知れません。 > > バケツの詳細での文字化けということですね。 > 少し調べてみましたら、EUC-JP では使用されない 0x8EF0~0x8EFE を > 誤って EUC-JP の 2 バイト文字として扱ってしまっていることが > わかりました。 > 文字化けしていたのが 14 個以下であれば、これが原因かも > しれません。 > 次のバージョンで修正したいと思います。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: バケツの単語を編集するには? (2007-04-08 15:43 by
seasoft
#29018)
Reply
Create ticket
Kakashi に戻して再現を試みたのですが、
発生しませんでした。
また何か分かったら、報告させていただきます。
Reply to
#28905
Reply to #29018
×
Subject
Body
Reply To Message #29018 > Kakashi に戻して再現を試みたのですが、 > 発生しませんでした。 > > また何か分かったら、報告させていただきます。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel