Endo Akira
endo4****@goo*****
2012年 5月 26日 (土) 03:16:28 JST
遠藤です。こんにちは。という時間帯ではないですが。 > 2)検索キーワードでの検索漏れの問題 > 検索は、mecab ipadicを利用し in boolean modeで検索していますが、 > たとえば、ハイネと検索語を入れた場合、 > ハイネ詩集、ハイネ・回想録などは、検索されるのですが、なぜか > ハイネ研究は検索されません、、 mecabを使って2万語ほどの用語集の漢字にヨミを振ったことがあり ましたが、結構大変でした。 辞書を合わせていく必要があるわけですが、こちらをたてるとあちらが たたなくなって、結局最後は手作業を加えて完成させたのだったと 記憶しています。気に入らないヨミが振られるものを拾い出していって、 それを登録していくわけですが、三島郡三島町(さんとうぐんみしままち) をmecabに処理させるのは至難のわざです。 外れかもしれませんが、本件はハ・イネ研究に分割されて登録されて しまっているのだと思います。 ちゃんと拾わせるには、意味を考えたりしないでインデックスを作って いくn-gram系列を使う必要があると思います。 そういえばgroongaにたどりついたのは、Namazuの検索で取りこぼし があるのも原因の一つでした。東京都をインデックスにどう登録するか を考えると、辞書を使って単語を区切っていく方式には限界があります。 機械にはやはり機械的にやらせる仕事が向いています。