Yusuke TABATA
yusuk****@w5*****
2007年 6月 2日 (土) 01:30:07 JST
nokuno wrote: >>(1) サンプルから取り出せる結論の強さはサンプルの量に線形には比例 >> しないため、そのうちサンプル集めの苦労が割に合わなくなる。 > サンプルを(半)自動的に集める方法が必要そうですね。 > ただ、著作権とかの判断は確かに微妙ですが… 一応、補足しておくと、anthyの場合は開発者と単にダウンロードした 人との間で持ってる情報に差が出ないようにしたいので、再配布可能な データを持つようにしています。 一般には統計データは二次的著作物とはならないようなので、他の アプリケーションを作る時には再配布を許していないコーパスや文章を 元に統計データを作り、そのデータを使ってサービスを提供することは 可能なようです。 >>(3) サンプルが多くなると、より進んだ方法を使って結論を出すことが >> できる。ただし、その方法を使うのは割と面倒な場合がある。 > たとえば単語自体を素性とすると、 > 各単語を含む例文がそれぞれ10個くらい必要だったり? > 他の素性との組み合わせも考えるともっと増える?? そういう場合、よく出てくる単語、特に誤変換に絡む単語などを 素性として選び出す、あるいは高い重みを設定することになりそうです。 使ってるモデルにもよるのですが、理論的な裏付けのある方法から いい加減なヒューリスティクスまで色々と選択肢はあると思います。 で、選択するのが面倒な上に無駄な作業をするリスクがあるので 例文が増えてからにしようと考えてます。 今のanthyの場合、例文の変換とパラメータの収集を繰り返すことが できるので(anthy-dev 3470参照)、一定の回数繰り返しても直らない 誤変換に対して単語を狙い撃ちで素性として選択するコードを作ることが 可能とみてます。 (例えば「はない」という文字列に対しては「〜ではない〜」という 文節と人名の「花井」のどちらになるかの正確な確率を計算 できるようにする) -- -- CHAOS AND CHANCE! Yusuke TABATA