nn2480
nishi****@webre*****
2012年 5月 26日 (土) 10:31:41 JST
遠藤様 ご連絡有難うございました; > mecabを使って2万語ほどの用語集の漢字にヨミを振ったことがあり > ましたが、結構大変でした。 > 辞書を合わせていく必要があるわけですが、こちらをたてるとあちらが > たたなくなって、結局最後は手作業を加えて完成させたのだったと > 記憶しています。気に入らないヨミが振られるものを拾い出していって、 > それを登録していくわけですが、三島郡三島町(さんとうぐんみしままち) > をmecabに処理させるのは至難のわざです。 これは難しそうですね、、 > > 外れかもしれませんが、本件はハ・イネ研究に分割されて登録されて > しまっているのだと思います。 そうなんですか? 確かに、ハイネ研究は、歯、稲研究に分割できますね、、 > ちゃんと拾わせるには、意味を考えたりしないでインデックスを作って > いくn-gram系列を使う必要があると思います。 そうですか、、n-gram方式は東京都の検索時に京都もヒットするので、 mecab方式をえらんだのですが、ある程度の誤検出があっても、 n-gram方式がベターかもしれませんね、、 色々とご教授有難うございました。 2012/5/26 西山拝 ----- Original Message ----- From: "Endo Akira" <endo4****@goo*****> To: "全文検索エンジンGroonga開発メーリングリスト" <groon****@lists*****> Sent: Saturday, May 26, 2012 3:16 AM Subject: [groonga-dev,00904] Re: Re: 更新処理時のbinlog誤データの記入 > 遠藤です。こんにちは。という時間帯ではないですが。 > >> 2)検索キーワードでの検索漏れの問題 >> 検索は、mecab ipadicを利用し in boolean modeで検索していますが、 >> たとえば、ハイネと検索語を入れた場合、 >> ハイネ詩集、ハイネ・回想録などは、検索されるのですが、なぜか >> ハイネ研究は検索されません、、 > > mecabを使って2万語ほどの用語集の漢字にヨミを振ったことがあり > ましたが、結構大変でした。 > 辞書を合わせていく必要があるわけですが、こちらをたてるとあちらが > たたなくなって、結局最後は手作業を加えて完成させたのだったと > 記憶しています。気に入らないヨミが振られるものを拾い出していって、 > それを登録していくわけですが、三島郡三島町(さんとうぐんみしままち) > をmecabに処理させるのは至難のわざです。 > > 外れかもしれませんが、本件はハ・イネ研究に分割されて登録されて > しまっているのだと思います。 > ちゃんと拾わせるには、意味を考えたりしないでインデックスを作って > いくn-gram系列を使う必要があると思います。 > > そういえばgroongaにたどりついたのは、Namazuの検索で取りこぼし > があるのも原因の一つでした。東京都をインデックスにどう登録するか > を考えると、辞書を使って単語を区切っていく方式には限界があります。 > 機械にはやはり機械的にやらせる仕事が向いています。 > > _______________________________________________ > groonga-dev mailing list > groon****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/groonga-dev >