Re: alt-cannadic の非活用語を mecab-ipadic に取り込む (Anthy-dev 3407) - Anthy

小町です。

At Mon, 05 Mar 2007 20:40:02 +0900,
Yusuke TABATA wrote:

> UTUMI Hirosi wrote:
> >>実際のところ、変換精度を向上させるためには
> >>99,90,50,10(上位1%,10%,50%,下位10%)
> >>ぐらいがあれば十分で、そんなに細かくする必要は
> >>ないんじゃないかと予想しています。
> 
> > 日本語は同音異義語が非常に多いので、上位の語は細かく分類しないと
> > 適切な変換結果を得られないかもしれません。
> > (切る/斬る, 蛸/凧 のように)
> 確かに候補の順序についてはそうなんですが、区切り間違いで頻度の
> 低い単語が入るものはもっと大雑把で良いんじゃないかと予想してます。

10倍くらい出やすさが違うとこいつは違うなという感じですが、数倍程度だと
似たり寄ったりな印象を受けますね(取得元のコーパスの影響が出るし)。田畑
さんの言うように

上位1% - 10% - それ以外

くらいでいいんじゃないかと思います。もっと語彙が多い(上位1%では粗すぎ
る)なら上位0.1%を取ってもいいかもしれません。

同音異義語の変換誤りの話だと、たぶん頻度の情報というよりは、近くにどう
いう単語が来ているかといった情報のほうが変換分けに有効なんではないかと
思います。(そこは田畑さんが Anthy を MEMM 化したので、今後変わっていく
ところかなと想像しています)

-- 
Mamoru KOMACHI <usata****@usata*****>, <mamor****@is*****>
Nara Institute of Science and Technology

Anthy

[Anthy-dev 3407] Re: alt-cannadic の非活用語を mecab-ipadic に取り込む