Download
Magazine
Develop
Account
Download
Magazine
Develop
Login
Forgot Account/Password
Create Account
Language
Help
Language
Help
×
Login
Login Name
Password
×
Forgot Account/Password
Category:
Software
People
PersonalForge
Magazine
Wiki
Search
OSDN
>
Find Software
>
Communications
>
Email
>
Filters
>
bsfilter
>
Forums
>
users
>
kakasi
bsfilter
Description
Project Summary
Developer Dashboard
Developers
Image Gallery
List of RSS Feeds
Activity
Statistics
History
Downloads
List of Releases
Stats
Source Code
Code Repository list
CVS
View Repository
Ticket
Ticket List
Milestone List
Type List
Component List
List of frequently used tickets/RSS
Submit New Ticket
Documents
FrontPage
Title index
Recent changes
Communication
List of Forums
users (627)
Forums:
users
(Thread #4822)
Return to Thread list
RSS
kakasi (2004-03-19 17:11 by
Anonymous
#8754)
Reply
Create ticket
bigramで使っていますが
Reply to #8754
×
Subject
Body
Reply To Message #8754 > bigramで使っていますが
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: kakasi (2004-03-19 17:29 by
koie
#8755)
Reply
Create ticket
(途中で送信してしまいました)
[connect24h:7286]によるとbigramからkakasiに変えたら誤変換が減ったとのことです。
どこかでbigramでも問題ないはずということが書いてあったと記憶があります。
kakasiの辞書にspam用語が登録してあるなら別ですが
そうでないのに改善されたのなら、bigramよりも
連続する漢字を1つの単語として扱う方がいい
ということにはならないでしょうか。
Reply to
#8754
Reply to #8755
×
Subject
Body
Reply To Message #8755 > (途中で送信してしまいました) > [connect24h:7286]によるとbigramからkakasiに変えたら誤変換が減ったとのことです。 > どこかでbigramでも問題ないはずということが書いてあったと記憶があります。 > kakasiの辞書にspam用語が登録してあるなら別ですが > そうでないのに改善されたのなら、bigramよりも > 連続する漢字を1つの単語として扱う方がいい > ということにはならないでしょうか。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: kakasi (2004-03-19 23:30 by
nabeken
#8759)
Reply
Create ticket
1.49で、-j block により、連続する漢字を単語として扱うようにしてみました。いいパラメータの名前、ないですかね。
社会保険完備委細面談 みたいなのが、一つの単語として扱われて嬉しいのか、嬉しくないのか、というところに帰着する問題だと思います。
Reply to
#8755
Reply to #8759
×
Subject
Body
Reply To Message #8759 > 1.49で、-j block により、連続する漢字を単語として扱うようにしてみました。いいパラメータの名前、ないですかね。 > > 社会保険完備委細面談 みたいなのが、一つの単語として扱われて嬉しいのか、嬉しくないのか、というところに帰着する問題だと思います。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: kakasi (2004-03-19 23:42 by
a39
#8760)
Reply
Create ticket
bigramでも十分に検出制度を上げることができたという評価結果が,bigramが推奨されている重大な理由ではなかったのでしょうか.
cheapなホストですとbigramが最もパフォマンスが高かったりして... :<
で,bigramを使い続けているのですが,bsfilterの辞書学習の方法として,簡便に日本語のtoken等を追加できるユーザインタフェースがあるといいな…とは思います.
例えば,「※未承諾広告」とか「※末承諾広告」とかを簡便に登録しておいてもいいじゃないかと思うのです.
また,これは明らかにspamに良く使われる語だよね...というのを,shareするための受け皿が用意できれば,ユーザが選択的に「こんな情報要らない」というのを,*.spam.sdb.pagに反映できると思うのです.
# 脊髄反射的に反応してしまいました.未毒のメイルが数千通... :<
Reply to
#8759
Reply to #8760
×
Subject
Body
Reply To Message #8760 > bigramでも十分に検出制度を上げることができたという評価結果が,bigramが推奨されている重大な理由ではなかったのでしょうか. > cheapなホストですとbigramが最もパフォマンスが高かったりして... :< > で,bigramを使い続けているのですが,bsfilterの辞書学習の方法として,簡便に日本語のtoken等を追加できるユーザインタフェースがあるといいな…とは思います. > > 例えば,「※未承諾広告」とか「※末承諾広告」とかを簡便に登録しておいてもいいじゃないかと思うのです. > また,これは明らかにspamに良く使われる語だよね...というのを,shareするための受け皿が用意できれば,ユーザが選択的に「こんな情報要らない」というのを,*.spam.sdb.pagに反映できると思うのです. > > # 脊髄反射的に反応してしまいました.未毒のメイルが数千通... :<
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: kakasi (2004-03-20 02:44 by
nabeken
#8766)
Reply
Create ticket
手元のデータでは、blockよりbigramの方が、成績が上でした。
Reply to
#8759
Reply to #8766
×
Subject
Body
Reply To Message #8766 > 手元のデータでは、blockよりbigramの方が、成績が上でした。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: kakasi (2004-03-22 13:26 by
koie
#8808)
Reply
Create ticket
手元のメイルをつかって比較評価するときの手順はどのようなものでしょうか。
たとえば学習メイルをどの程度にするかなどです。
(とりあえずスパムメイルは14667通5ヶ月たまりました。)
そんなことを面倒みてくれるスクリプトがあるととてもいいです。
Reply to
#8766
Reply to #8808
×
Subject
Body
Reply To Message #8808 > 手元のメイルをつかって比較評価するときの手順はどのようなものでしょうか。 > たとえば学習メイルをどの程度にするかなどです。 > (とりあえずスパムメイルは14667通5ヶ月たまりました。) > そんなことを面倒みてくれるスクリプトがあるととてもいいです。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: kakasi (2004-03-22 15:56 by
nabeken
#8810)
Reply
Create ticket
http://nabeken.tdiary.net/20040313.html
のようなことをやっています。
半数のメイルで学習しておき、全メイルを判定しているだけです。
(n-1)通で学習し、n通目を判定、というのを、全てのnでやれ、とも言われてますが。
Reply to
#8808
Reply to #8810
×
Subject
Body
Reply To Message #8810 > http://nabeken.tdiary.net/20040313.html > のようなことをやっています。 > 半数のメイルで学習しておき、全メイルを判定しているだけです。 > (n-1)通で学習し、n通目を判定、というのを、全てのnでやれ、とも言われてますが。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: kakasi (2004-03-22 22:03 by
a39
#8823)
Reply
Create ticket
(n-1)通で学習して,n通目を判定する評価をできないと,実運用環境に即した評価でないのでは? と言ってる張本人です.
Bourn shellで書いても,大した量ではないのですが,なかなかそこまで手が回らなかったりして :<
# 取り敢えず溜め込んでるspamは30000通を越えていますが,捨てたのはもっと多いかなぁ...
どうせ評価するならspamの種類も分別しておいて,どのタイプのspamに弱いかとかも観察できないと,KAIZENに寄与できないです.頭の中で練っているネタも実装する方向で動けていませんし.
Rubyがわからないながらも,
--ignore-after-last-atagと類似するもので,
--ignore-after-last-imgtag
とか,
--ignore-after-last-a_and_imgtag
みたいなAdHocな改造をしてみています.ただ,nabekenさんが--ignore-after-last-atag有益か否かを判断できていないように,現状では学習への反映の際に使う程度で「有効」と断言できないところです.(決め打ちにしたら簡単に回避されちゃうし...)
Reply to
#8810
Reply to #8823
×
Subject
Body
Reply To Message #8823 > (n-1)通で学習して,n通目を判定する評価をできないと,実運用環境に即した評価でないのでは? と言ってる張本人です. > Bourn shellで書いても,大した量ではないのですが,なかなかそこまで手が回らなかったりして :< > > # 取り敢えず溜め込んでるspamは30000通を越えていますが,捨てたのはもっと多いかなぁ... > > どうせ評価するならspamの種類も分別しておいて,どのタイプのspamに弱いかとかも観察できないと,KAIZENに寄与できないです.頭の中で練っているネタも実装する方向で動けていませんし. > > Rubyがわからないながらも, > > --ignore-after-last-atagと類似するもので, > --ignore-after-last-imgtag > とか, > --ignore-after-last-a_and_imgtag > > みたいなAdHocな改造をしてみています.ただ,nabekenさんが--ignore-after-last-atag有益か否かを判断できていないように,現状では学習への反映の際に使う程度で「有効」と断言できないところです.(決め打ちにしたら簡単に回避されちゃうし...)
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: kakasi (2004-03-23 13:29 by
a39
#8836)
Reply
Create ticket
しまった... typo です.
--ignore-after-last-a_or_imgtag でした.
Reply to
#8823
Reply to #8836
×
Subject
Body
Reply To Message #8836 > しまった... typo です. > --ignore-after-last-a_or_imgtag でした.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel