Forums: POPFile 全般 (Thread #7058)

0.22.2 用日本語パッチ(試験公開)の動作テストをしていただける方募集 (2005-03-01 21:55 by amatubu #13045)

0.22.2 用日本語パッチを試験公開します。
https://sourceforge.jp/tracker/index.php?func=detail&aid=5652&group_id=759&atid=2945

このパッチは、
・Kakasi による分かち書きのパフォーマンスを向上させるパッチ
 https://sourceforge.jp/tracker/index.php?func=detail&aid=5577&group_id=759&atid=2945
・Base64 でエンコードされた日本語メールに対応させるためのパッチ
 https://sourceforge.jp/tracker/index.php?func=detail&aid=5045&group_id=759&atid=2945
・UI で、件名の最後が 不正なメールのリンクが無効になる
 https://sourceforge.jp/tracker/index.php?func=detail&aid=5595&group_id=759&atid=2947
を統合し、一部改良を加えたものです。
(新たに加えた改良は、UI の操作とメールの受信を同時に行った
 場合に起こりうる問題についても効果があるのではないかと思います)

このパッチを使用するためには、Text::Kakasi 2.04 が必要です。
パッチセクションに Windows 用のバイナリも登録してあります
ので、Windows 版インストーラでインストールしている方は
入れ替えを行ってください。

パッチのテストは、Mac OS X 10.3.8 上と Windows XP SP2 上で
行っています。

動作に支障がないようであれば、0.22.2 用の日本語パッチと
して公開したいと思っています。
動作テストにご協力いただける方を募集しています。
よろしくお願いします。

RE: 0.22.2 用日本語パッチ(試験公開)の動作テストをしていただける方募集 (2005-03-02 10:48 by yahonda #13048)

こんにちは。

昨日より、0.22.2 をMacOS X(10.3.8)で稼働させています。
いまのところ問題は発生していませんが、
なにかあれば報告させていただきます。
Reply to #13045

RE: 0.22.2 用日本語パッチ(試験公開)の動作テストをしていただける方募集 (2005-03-02 22:55 by amatubu #13062)

動作報告ありがとうございます。
なにかありましたらまたよろしくお願いします。
Reply to #13048

分類に失敗することがある (2005-03-17 09:23 by haganob #13329)

本来spamに分類して欲しいメールがunclassifiedになっていたため、メールを再分類しようと思ってUIから見ると
現在のコーパスによる分類:spam
と表示されていることがあります。
UIとpopで適用されるものが異なるのか、popで分類に失敗することとがあるのか分からないのですが。

とくにメールを大量に受信した際に時々起こるようです。
パッチを適用する前からあって気づかなかっただけかもしれないのですが……
Reply to #13045

RE: 分類に失敗することがある (2005-03-17 13:03 by amatubu #13332)

ご報告ありがとうございます。

環境は、0.22.2+日本語パッチでしょうか。
また、Windows 版ですか? クロスプラットフォーム版ですか?

以前投稿した、Kakasi のパフォーマンスを向上させるパッチの
古いバージョンでは時々同じような症状が発生していたの
ですが、私の環境では、新しいバージョンにしてからは
特に問題なく動いています。

どうも、なんらかの原因(Text::Kakasi のバグ?)のために、
辞書を開いたままでしばらく使っていると急に分かち書きが
できなくなってしまうというケースがあるように感じているの
ですが、どういう場合に起こるのかがはっきりとわかっていません。

確実に再現する条件がわかるとよいのですが・・・。
Reply to #13329

RE: 分類に失敗することがある (2005-03-17 18:06 by haganob #13334)

すみません、環境を書いていませんでした。
windows2000上で、0.22.2+日本語パッチで使っています。
そういえば確かに以前のパッチの時の方が頻度が高かったと思います。週明けに多数のメールを受信するとかなりの頻度で起こっていました。
新しいパッチにしてからはあまりなかったのですが……
感覚としては、CPU負荷が高いかHDDアクセスが多いかで動作が遅くなったときに受信したメールで起こったような気がします。
Reply to #13332

RE: 分類に失敗することがある (2005-03-17 21:11 by amatubu #13336)

環境について、了解です。

旧バージョンでは私のところでも時々この症状が起こることがあり、それで
改良を行ったのですが、その後は問題なく動いています。おそらくはなんらかの
原因で分かち書きに失敗しているのだと思いますが、あれこれ試してみても
今のところ問題が再現できていません。
とりあえず、Text::Kakasi でエラーが起こっていないかどうかをログに残す
ようにしたパッチを作成しようと思います。
Reply to #13334

RE: 分類に失敗することがある (2005-04-10 15:31 by amatubu #13641)

大変遅くなりましたが、原因究明のためのパッチを作成しました。

https://sourceforge.jp/tracker/index.php?func=detail&aid=5652&group_id=759&atid=2945
にある、「チェック用コード入りバージョン」をお試しください。
(標準エラーにログを出力しますので、Windows の場合はコマンド
 プロンプトから実行するか、Message Capture Utility をお使い
 ください)

また、0x00-0x7F の文字だけしか含まない場合(英文のメール
など)には分かち書きをスキップするように修正しました。
これにより、英語のメールや Base64 でエンコードされたメールの
処理速度が改善されると思います。
Reply to #13336

RE: 分類に失敗することがある (2005-04-14 18:32 by haganob #13701)

さっそくインストールしたのですが、まだ分類失敗が起こっていないのでわかりません。
wakachi:で始まる、分かち書きに失敗したと思われるメッセージ(罫線文字が入る場合によくあるみたいです)と、
Use of uninitialized value in concatenation (.) or string at c:\progra~1\popfile/POPFile/Configuration.pm line 554.
というメッセージが時々ある程度です。

失敗する事象が起こったらまた書き込みます。
ただ、今まで失敗するのは主に英文メールだったので、分かち書きスキップのおかげでエラーが発生しなくなればいいなあと思っています。
Reply to #13641

RE: 分類に失敗することがある (2005-04-14 21:39 by amatubu #13703)

分かち書きの前後で変化がなかった場合に「wakachi」のログを
出力するようにしています。
ですが、
> 今まで失敗するのは主に英文メール
ということですと、見当違いのチェックをかけているのかもしれません。
分かち書きに失敗したとき、元のテキストがそのまま戻ってくるもの
だと思い込んでいたのですが、英文メールで失敗するということに
なると、元のテキストではなくヌル文字列かなにかが戻ってくる
のでしょうかね。だとすると、原因究明にはつながらないかも
しれません……。

いずれにしましても、なにかありましたら教えてください。
Reply to #13701

対処を行いました(0.22.2 用日本語パッチ適用後に分類に失敗することがある) (2005-05-30 22:22 by amatubu #14439)

ようやく原因(おそらく)がわかりましたので対処を行いました。
http://sourceforge.jp/tracker/index.php?func=detail&aid=5652&group_id=759&atid=2945

修正は、Classifier/MailParse.pm のみですので、この(差し替え2)を
ダウンロードして入れ替えてみてください。
私の環境では、適用後問題は起こっていません。
(パフォーマンスは若干低下しているかもしれません)

(以下は今回見つけた原因についてです)
どうやら、Text::Kakasi 2.x のオブジェクトを使って分かち書きを
行う場合、最初に入力と出力のエンコードを指定していても、
Encode で違うエンコード間の変換を行うと、それに引きずられて
しまうようです(偶然、いつでもこの問題が起こるメールを
見つけたことによって原因がつかめました)。
今回、分かち書きを行うたびに set メソッドでエンコードを指定
することにより、問題への対処を行いました。

これで解決するとよいのですが。
Reply to #13329

RE: 対処を行いました(0.22.2 用日本語パッチ適用後に分類に失敗することがある) (2005-05-31 11:19 by (del#7468) #14451)

さしかえてみました。環境はWindows XP SP2です。

100通ぐらいのメールを受信するときに、20件ぐらい
でPOPFileが落ちる現象に遭遇(タスクトレイからも
消える)。再度POPFileを起動して続きを受信すると、
また同じぐらいのメッセージを受信したところで落
ちました。そこで前のバージョン(さしかえ1)に
再度入れ替えたところ、今度は落ちない、という具合
です。

落ちる条件を追いきれていませんが、ご参考まで。
Reply to #14439

RE: 対処を行いました(0.22.2 用日本語パッチ適用後に分類に失敗することがある) (2005-05-31 12:17 by amatubu #14456)

ご報告ありがとうございます。

私のところでも同じ症状が確認されました。
どうも、今回加えた改良の副作用で、Kakasi の辞書が
何度も開かれてしまい、「too many open files」という
エラーで落ちてしまっているようです。
どうやらもっと別の対策が必要なようです。
もう少し考えてみますので、今しばらくお待ちください。
Reply to #14451

再度修正しました(0.22.2 用日本語パッチ適用後に分類に失敗することがある) (2005-05-31 19:25 by amatubu #14461)

> どうやらもっと別の対策が必要なようです。
> もう少し考えてみますので、今しばらくお待ちください。
文字コードが変更された場合には Kakasi の辞書を閉じて開き直す
ように改修を行いました。
文字化けの問題も、ファイルを開き続けてしまう問題もこれで解決
すると思います。
http://sourceforge.jp/tracker/index.php?func=detail&aid=5652&group_id=759&atid=2945

今度こそすべての問題が解決するとよいのですが。
Reply to #14456

RE: 再度修正しました(0.22.2 用日本語パッチ適用後に分類に失敗することがある) (2005-05-31 22:20 by amatubu #14471)

> 今度こそすべての問題が解決するとよいのですが。

すみません。
分類に失敗する問題(分かち書きで文字化けが起こる問題)は
まだ解決していませんでした。原因は考えていたのとはまた別の
ところにあるようです。

この修正で改善されるケースもあるようですが、どんな場合でも
大丈夫というわけではないようです。
もう少し調べてみます。
Reply to #14461

RE: 再度修正しました(0.22.2 用日本語パッチ適用後に分類に失敗することがある) (2005-06-01 21:23 by amatubu #14486)

> この修正で改善されるケースもあるようですが、どんな場合でも
> 大丈夫というわけではないようです。
> もう少し調べてみます。

さらに修正を行いました。(下記の差し替え4)
http://sourceforge.jp/tracker/index.php?func=detail&aid=5652&group_id=759&atid=2945

どうやら、問題は Encode でも複数の文字コードでもなく、
一部の euc-jp の文字列を Text::Kakasi に渡したときに
漢字コードが shift-jis (おそらく)だと判定されてしまう
ということが原因だったようです。
入力の漢字コードを正しく設定することにより、問題を
回避することができました。

文字化け問題がこれで完全に解決するのかどうかはわかり
ませんが、少なくとも今回発見した問題については解決
できたと思います。
(今回修正した問題は、パッチをあてていない状態の
 0.22.2 でも潜在的には起こりうる問題でした)

今度こそ解決するとよいのですが。

#前回の差し替え3より、Text::Kakasi 1.x でも動作するように
#修正しましたので、2.04 に入れ替える必要はなくなりました。
Reply to #14471