[Anthy-dev 3411] Re: alt-cannadic の非活用語を mecab-ipadic に取り込む

Back to archive index

Yusuke TABATA yusuk****@w5*****
2007年 3月 6日 (火) 21:23:16 JST


田畑です。

Mamoru KOMACHI wrote:
> 同音異義語の変換誤りの話だと、たぶん頻度の情報というよりは、近くにどう
> いう単語が来ているかといった情報のほうが変換分けに有効なんではないかと
> 思います。(そこは田畑さんが Anthy を MEMM 化したので、今後変わっていく
> ところかなと想像しています)
すいません、今はMEMMじゃなくなってます。
去年ぐらいに色々面倒だったので、最大エントロピーの分布にfittingさせるのを
やめて、経験的確率をそのままハードコードしてます。
確率もある素性の組み合わせの出現する確率じゃなくて、
ある素性の組み合わせを出して誤変換にならなかった確率を
使うようにしてます。
memory basedな識別モデルというべきでしょうか。

あと、現時点では単語を素性とはしていないので、候補の順序には
手を付けられてないです。


-- 
--
 CHAOS AND CHANCE!
  Yusuke TABATA



Anthy-dev メーリングリストの案内
Back to archive index