Forums: POPFile 全般 (Thread #11521)

POPFile 0.22.4 日本語パッチのテスト公開 (2006-06-19 22:33 by amatubu #23166)

分かち書きに MeCab を使うパッチに別の修正を加え、POPFile 0.22.4
用の日本語パッチをテスト公開しました。
http://sourceforge.jp/forum/forum.php?thread_id=11344&forum_id=3073

パッチの内容は、
・分かち書きに使用するプログラムとして、Kakasi だけでなく
MeCab や文字種による分割をサポート
 (UI の詳細設定タブの bayes_japanese_parser パラメータの
  値を変更することにより、分かち書きに使用するプログラムを
  選択することが可能)
 (文字種による分割は、外部モジュールを必要としません)
・文字コード変換で、変換不要な場合はスキップすることにより、
 若干のパフォーマンス向上
・HTML エンティティが使用されている場合にメールの分類に失敗
 することがある問題を修正

となっています。

POPFile の次のバージョンに追加したい機能や修正したい不具合を
ひとつのパッチとしてまとめたものです。動作テストにご協力
いただける方を募集しています。
また、他に追加したいことがあれば、これもあわせて募集します。
(cp932 への対応や、辞書への単語の追加なども気になるところ
 ですが、それほど大きな必要性は感じなかったので保留です)

いったん日本語パッチとして本家からはアンオフィシャルな形で
リリースし、POPFile の次のバージョンに取り込んでもらうように
していく予定です。

動作報告や、ご意見などいただけたらありがたいです。

MeCab のインストール方法など詳細については、後日 Wiki に
まとめる予定です。

RE: POPFile 0.22.4 日本語パッチのテスト公開 (2006-06-25 17:49 by amatubu #23283)

Windows 版のインストーラを用意してみました。
http://idisk.mac.com/amatubu/Public/POPFile/popfile_0224-win_jpn.zip
からダウンロードできます。

MeCab を使用してみたい方は、MeCab 0.91 と辞書を同梱した
http://idisk.mac.com/amatubu/Public/POPFile/popfile_0224-win_jpn_mecab.zip
をお使いください。

分かち書きに使用するプログラムを変更するには、詳細設定タブを
開いて「bayes_japanese_parser」を「mecab」に変更してください。
Reply to #23166

RE: POPFile 0.22.4 日本語パッチのテスト公開 (2006-08-14 21:20 by amatubu #24378)

MeCab 0.92 と辞書を同梱したインストーラを作成しました。
http://idisk.mac.com/amatubu/Public/POPFile/popfile_0224_win_jpn_mecab_0.92.zip

パッチの内容自体は変わりありません。

変更点は、
・MeCab Perl モジュールを 0.92 にバージョンアップ
・辞書を ipadic-2.7.0-20060707 にバージョンアップ
・POPFile のインストール先を自動的に見つけるように修正
です。
Reply to #23283

POPFile で使うための MeCab をインストールする方法など (2006-08-06 00:09 by amatubu #24180)

遅くなりましたが、ようやく Wiki にドキュメントを書きました。
http://popfile.sourceforge.net/cgi-bin/wiki.pl?JP_FrequentlyAskedQuestions/MeCab

これからインストールされる方の参考になれば幸いです。
Reply to #23166

MeCab の利用でコアダンプ (2007-04-09 19:25 by seasoft #29056)

MeCab を使用すると、3時間程度でコアダンプ(不正終了)するようです。

環境
・POPFile v0.22.4
・FreeBSD 6.0-RELEASE #24
・Perl v5.8.7
・ja-mecab-0.95 (by Ports)
・MeCab.pm (http://idisk.mac.com/amatubu/Public/POPFile/popfile_0224_win_jpn_mecab_0.92.zip に付属のもの)
・Kakasi (v2.3.4)

・再起動すると、しばらくは正常に動作します。
・bayes_japanese_parser=kakashi に戻すと、
 問題なく連続動作するようです。
 (試験中)
Reply to #23166

RE: MeCab の利用でコアダンプ (2007-04-09 19:50 by amatubu #29058)

MeCab と MeCab.pm のバージョンが違うのが気になります。
(パッチに入っているのはバージョン 0.92 です)
まずは MeCab の Perl モジュールを別途インストールした
方がよいのではないかと思います。
Reply to #29056

RE: MeCab の利用でコアダンプ (2007-04-09 20:18 by seasoft #29060)

全くその通りですね。

「mecab-perl-0.95」はインストールしたのですが、
MeCab.pm だけが別の版になっていました。

# 我ながら、不可解なことをしてしまいました…

mecab に設定を戻して試してみます。
Reply to #29058

RE: MeCab の利用でコアダンプ (2007-04-12 12:53 by seasoft #29174)

その後、24時間以上 コアダンプすることなく動作しているので、
どうやらご指摘いただいた不整合がコアダンプの原因だった
ようです。

FreeBSD Ports の p5-Text-MeCab で動作しなくて、色々と
試している過程で不整合状態を作ってしまったようです。

ご指摘いただきありがとうございました。
Reply to #29060

RE: MeCab の利用でコアダンプ (2007-04-12 19:01 by amatubu #29182)

うまく動いているようで安心しました。
パッチは正式リリースに向けて改良していきたいと
思っていますので、何かありましたらまたご指摘ください。
Reply to #29174

RE: MeCab の利用でコアダンプ (2007-05-05 13:33 by seasoft #29472)

その後も継続して運用していますが、下記のタイミングで coredump しました。

・2007/04/14
・2007/04/19
・2007/05/05

とりあえず、報告まで。
Reply to #29182

RE: MeCab の利用でコアダンプ (2007-05-07 20:54 by amatubu #29493)

4/15 にパッチを更新しています。
https://sourceforge.jp/tracker/index.php?func=detail&aid=10287&group_id=759&atid=2945
こちらはお試しいただきましたでしょうか。

いずれにしましても、MeCab 内部でエラーが起こっているのだと
しますと、POPFile 側では対処が難しいというのが現実です。

MeCab 0.95 以降に公開されているパッチ
http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-March/000257.html
を試してみるくらいしか思いつかないです。すみません。
Reply to #29472

RE: POPFile 0.22.4 日本語パッチのテスト公開その2 (2007-04-15 18:23 by amatubu #29223)

パッチを更新しました。
https://sourceforge.jp/tracker/index.php?func=detail&aid=10287&group_id=759&atid=2945

パッチの内容は、
1. 分かち書きに使用するプログラムとして、Kakasi だけでな
 くMeCab や文字種による分割をサポート
 (UI の詳細設定タブの bayes_japanese_parser パラメー
  タの値を変更することにより、分かち書きに使用する
  プログラムを選択することが可能)
 (文字種による分割は、外部モジュールを必要としません)

 詳細については、
 http://popfile.sourceforge.net/wiki/jp:faq:mecab
 を参照。

2. 文字コード変換で、変換不要な場合はスキップすることに
 より、若干のパフォーマンス向上

3. HTML エンティティが使用されている場合にメールの分類に
 失敗することがある問題を修正

4. メールの処理ごとにキャラクタセットをリセットすること
 により、間違ったキャラクタセットが使われないように修正

5. 日本語環境において、'uninitialized value' の警告が発生
 する問題を修正

です。

このうち、 2 ~ 5 については、POPFile の次のバージョン
(0.22.5 / 0.23.0)に反映される予定です。
(CVS にはすでに反映されています)

POPFile の次のバージョンに追加したい機能や修正したい不
具合をひとつのパッチとしてまとめたものです。動作テスト
にご協力いただける方を募集しています。また、他に追加
したいことがあれば、これもあわせて募集します。
いったん日本語パッチとして本家からはアンオフィシャルな
形でリリースし、POPFile の次のバージョンに取り込んで
もらうようにしていく予定です。

MeCab を使用する場合には別途インストールしておく必要が
あります。
MeCab は最新バージョン(0.95)で動作確認しています。

■テスト版その1からの変更点
・MeCab を使用する場合、辞書ファイルの修正が不要となった
・4、5 の内容を追加した など
Reply to #23166