Forums: POPFile 初学者専用 (Thread #14519)

バケツの単語を編集するには? (2007-04-06 19:19 by seasoft #28905)

バケツに登録されている単語を追加・削除・変更など、
できるインターフェイスは存在するのでしょうか?
WEB でも Perl(コマンドライン)でも良いのですが。

popfile.db をSQLで編集したりするのですかね?

Reply to #28905×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: バケツの単語を編集するには? (2007-04-06 21:53 by amatubu #28908)

私の知る限りではそのような機能は用意されていません。
Perl から POPFile のモジュールを直接操作するような
スクリプトを書けば可能かもしれませんが。

データベースを直接編集するのが一番簡単だと思いますが、
手動で単語を追加、削除することによってコーパスの
バランスが悪くなり、結果として分類精度に悪影響が
出る可能性もありますので、あまりおすすめはできません。

もし、既存の機能(POP3 プロキシなど)とは異なる
用途に使いたい、ということであれば、そのための
モジュールを書くのがよいのではないかと思います。
Reply to #28905

Reply to #28908×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: バケツの単語を編集するには? (2007-04-07 10:54 by seasoft #28952)

振り分けに有効な単語で登録されないものがあったので、
手動で追加したいと考えていました。

しかし、記事を投稿してから気づいたのですが、
登録されない単語を登録しても、結局は振り分けで
使われないという事ですよね?

これを改善するには、形態素解析(MeCab)側に手を加える
(辞書に追加する?)必要がありそうですね。
Reply to #28908

Reply to #28952×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: バケツの単語を編集するには? (2007-04-07 13:49 by amatubu #28963)

例えばどんな単語が登録されませんか?

POPFile では、漢字やひらがな 1 文字の単語(?)は分類に利用
しないようになっています。同じく、メールを再分類しても
コーパスに登録されることはありません。
また、記号についても同様に無視しています。

Kakasi では未定義語は 1 字 1 字ばらばらになるようですので
コーパスに登録されない(=分類に利用されない)と思いますが、MeCab では未定義語もばらばらにされることはないので登録される
のではないかと思います。

Kakasi の場合であれば、辞書に登録するというのが有効な方法
かも知れません。Kakasi の辞書に単語を登録するということに
関しては、過去に
http://sourceforge.jp/forum/forum.php?thread_id=9353&forum_id=3073
という投稿をしています。
効果のほどが不明なのと、動作テストが足りていないため、
POPFile 本体に取り込むというところまではできていませんが。
Reply to #28952

Reply to #28963×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: バケツの単語を編集するには? (2007-04-07 14:19 by seasoft #28966)

漢字で構成される固有名詞です。

たとえば、氏名の場合だと、苗字は登録されるが、
名前が登録されないなどです。

最初は Kakasi で試したのですが、駄目で MeCab に
変更したのですが、やはり登録されませんでした。

あと、Kakasi だと文字化けが発生していました。
「From:」が文字化けしているspamを受信しているのが
原因かなと考えています。MeCab だと文字化けは
無いようです。

POPFile は昨日から使い始めたのですが、なかなか
良いですね。確認するメールの件数が激減して寂しい
くらいです(笑)
現在は Windows クライアントで動作させているのですが、
サーバでの動作も挑戦しようかと考えています。
Reply to #28905

Reply to #28966×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: バケツの単語を編集するには? (2007-04-07 22:37 by amatubu #28984)

固有名詞は辞書に登録されていない可能性が高いと思いますので
そのあたりの影響でしょうか。
POPFile コントロールセンターのシングルメッセージビューを確認
すれば、どのように分かち書きされたかがわかると思います。
もし、そこで漢字 1 字 1 字に分割されていれば(もしくは思ったのと
違う部分で分かち書きされていれば)その単語は分類には使用されません。

Kakasi で文字化けというのはどういう症状なのでしょうか?
もし、分類に支障があるのであれば対処したいと思います。
Reply to #28966

Reply to #28984×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: バケツの単語を編集するには? (2007-04-07 23:04 by seasoft #28986)

シングルメッセージビューで漢字 1 字 1 字に分割されている事を確認しました。

Kakasi で試したのは短い時間だったので、明確な記憶ではありませんが、
バケツの詳細(単語リスト)表示で英数字と日本語の間に、
大量の「・(中黒)」などが表示されていたと思います。

そして、その「・」をクリックすると、単語表に文字化けした文字が入っていました。
分類に支障はなかったと思いますが、厳密には把握できていないです。
Reply to #28984

Reply to #28986×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: バケツの単語を編集するには? (2007-04-08 02:42 by amatubu #28993)

> 漢字 1 字 1 字に分割されている

なるほど。そうすると、分割されている漢字 1 字 1 字が定義語なの
かも知れません。

バケツの詳細での文字化けということですね。
少し調べてみましたら、EUC-JP では使用されない 0x8EF0~0x8EFE を
誤って EUC-JP の 2 バイト文字として扱ってしまっていることが
わかりました。
文字化けしていたのが 14 個以下であれば、これが原因かも
しれません。
次のバージョンで修正したいと思います。
Reply to #28986

Reply to #28993×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: バケツの単語を編集するには?  (2007-04-08 15:43 by seasoft #29018)

Kakashi に戻して再現を試みたのですが、
発生しませんでした。

また何か分かったら、報告させていただきます。
Reply to #28905

Reply to #29018×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login