Forums: users (Thread #4822)

kakasi (2004-03-19 17:11 by Anonymous #8754)

bigramで使っていますが

Reply to #8754×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: kakasi (2004-03-19 17:29 by koie #8755)

(途中で送信してしまいました)
[connect24h:7286]によるとbigramからkakasiに変えたら誤変換が減ったとのことです。
どこかでbigramでも問題ないはずということが書いてあったと記憶があります。
kakasiの辞書にspam用語が登録してあるなら別ですが
そうでないのに改善されたのなら、bigramよりも
連続する漢字を1つの単語として扱う方がいい
ということにはならないでしょうか。
Reply to #8754

Reply to #8755×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: kakasi (2004-03-19 23:30 by nabeken #8759)

1.49で、-j block により、連続する漢字を単語として扱うようにしてみました。いいパラメータの名前、ないですかね。

社会保険完備委細面談 みたいなのが、一つの単語として扱われて嬉しいのか、嬉しくないのか、というところに帰着する問題だと思います。
Reply to #8755

Reply to #8759×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: kakasi (2004-03-19 23:42 by a39 #8760)

bigramでも十分に検出制度を上げることができたという評価結果が,bigramが推奨されている重大な理由ではなかったのでしょうか.
cheapなホストですとbigramが最もパフォマンスが高かったりして... :<
で,bigramを使い続けているのですが,bsfilterの辞書学習の方法として,簡便に日本語のtoken等を追加できるユーザインタフェースがあるといいな…とは思います.

例えば,「※未承諾広告」とか「※末承諾広告」とかを簡便に登録しておいてもいいじゃないかと思うのです.
また,これは明らかにspamに良く使われる語だよね...というのを,shareするための受け皿が用意できれば,ユーザが選択的に「こんな情報要らない」というのを,*.spam.sdb.pagに反映できると思うのです.

# 脊髄反射的に反応してしまいました.未毒のメイルが数千通... :<
Reply to #8759

Reply to #8760×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: kakasi (2004-03-20 02:44 by nabeken #8766)

手元のデータでは、blockよりbigramの方が、成績が上でした。
Reply to #8759

Reply to #8766×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: kakasi (2004-03-22 13:26 by koie #8808)

手元のメイルをつかって比較評価するときの手順はどのようなものでしょうか。
たとえば学習メイルをどの程度にするかなどです。
(とりあえずスパムメイルは14667通5ヶ月たまりました。)
そんなことを面倒みてくれるスクリプトがあるととてもいいです。
Reply to #8766

Reply to #8808×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: kakasi (2004-03-22 15:56 by nabeken #8810)

http://nabeken.tdiary.net/20040313.html
のようなことをやっています。
半数のメイルで学習しておき、全メイルを判定しているだけです。
(n-1)通で学習し、n通目を判定、というのを、全てのnでやれ、とも言われてますが。
Reply to #8808

Reply to #8810×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: kakasi (2004-03-22 22:03 by a39 #8823)

(n-1)通で学習して,n通目を判定する評価をできないと,実運用環境に即した評価でないのでは? と言ってる張本人です.
Bourn shellで書いても,大した量ではないのですが,なかなかそこまで手が回らなかったりして :<

# 取り敢えず溜め込んでるspamは30000通を越えていますが,捨てたのはもっと多いかなぁ...

どうせ評価するならspamの種類も分別しておいて,どのタイプのspamに弱いかとかも観察できないと,KAIZENに寄与できないです.頭の中で練っているネタも実装する方向で動けていませんし.

Rubyがわからないながらも,

--ignore-after-last-atagと類似するもので,
--ignore-after-last-imgtag
とか,
--ignore-after-last-a_and_imgtag

みたいなAdHocな改造をしてみています.ただ,nabekenさんが--ignore-after-last-atag有益か否かを判断できていないように,現状では学習への反映の際に使う程度で「有効」と断言できないところです.(決め打ちにしたら簡単に回避されちゃうし...)
Reply to #8810

Reply to #8823×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: kakasi (2004-03-23 13:29 by a39 #8836)

しまった... typo です.
--ignore-after-last-a_or_imgtag でした.
Reply to #8823

Reply to #8836×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login