Forums: users (Thread #11820)

SPAMデータベースについて (2006-07-23 00:00 by Anonymous #23903)

--export-spam でSPAMデータベースをエクスポートしてみたところ、以下のような、おおよそ日常では使用しない漢字が多数登録されておりました。(もちろん、正常な単語も登録されています。)
ja body 嫩彡 2
ja body 寞寫 2
ja body 罘薊 2
ja body 靤駲 2
ja body 弃霸 2
ja body 璃痢 2
ja body 椁椈 2
ja body 卅凖 2
ja body 拇歸 2
ja body 殼灑 2
ja body 祁彪 2
ja body 螽鍼 2
ja body 瓰紮 2
ja body 喨塋 2
ja body 羈覲 2
ja body 膕覯 2
ja body 圄圈 2
ja body 慎諜 2
ja body 囿圄 2
ja body 緜臘 2
文字を正しく判定していないようなのですが、何が原因なのでしょうか。また、このような状態でSPAM判定を続けた場合、問題はないでしょうか。

Reply to #23903×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: SPAMデータベースについて (2006-07-24 14:25 by Anonymous #23931)

データベースを作り直してみたところ、このような単語は作成されていませんでした。
Reply to #23903

Reply to #23931×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: SPAMデータベースについて (2006-07-25 00:14 by nabeken #23943)

非日本語のメールを日本語と誤認識したか
日本語の文字コードを誤認識したか、だと思われます。
誤判定するメールについては、spamかどうかの判定に失敗する確率は、かなり上がると思いますが、他のメールへの影響は小さいと思います。

日本語かどうかの判定はad hocに行っていますので、ある程度の誤認識はやむを得ません。
誤認識しているメール(-dオプションでの表示が異常)を送ってもらえれば、ad hocに調整できるかもしれません。
Reply to #23903

Reply to #23943×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login