[groonga-dev,00904] Re: Re: 更新処理時のbinlog誤データの記入

Back to archive index

Endo Akira endo4****@goo*****
2012年 5月 26日 (土) 03:16:28 JST


遠藤です。こんにちは。という時間帯ではないですが。

> 2)検索キーワードでの検索漏れの問題
> 検索は、mecab ipadicを利用し in boolean modeで検索していますが、
> たとえば、ハイネと検索語を入れた場合、
> ハイネ詩集、ハイネ・回想録などは、検索されるのですが、なぜか
> ハイネ研究は検索されません、、

mecabを使って2万語ほどの用語集の漢字にヨミを振ったことがあり
ましたが、結構大変でした。
辞書を合わせていく必要があるわけですが、こちらをたてるとあちらが
たたなくなって、結局最後は手作業を加えて完成させたのだったと
記憶しています。気に入らないヨミが振られるものを拾い出していって、
それを登録していくわけですが、三島郡三島町(さんとうぐんみしままち)
をmecabに処理させるのは至難のわざです。

外れかもしれませんが、本件はハ・イネ研究に分割されて登録されて
しまっているのだと思います。
ちゃんと拾わせるには、意味を考えたりしないでインデックスを作って
いくn-gram系列を使う必要があると思います。

そういえばgroongaにたどりついたのは、Namazuの検索で取りこぼし
があるのも原因の一つでした。東京都をインデックスにどう登録するか
を考えると、辞書を使って単語を区切っていく方式には限界があります。
機械にはやはり機械的にやらせる仕事が向いています。




groonga-dev メーリングリストの案内
Back to archive index