[groonga-dev,00905] Re: 更新処理時のbinlog誤データの記入

Back to archive index

nn2480 nishi****@webre*****
2012年 5月 26日 (土) 10:31:41 JST


遠藤様

ご連絡有難うございました;

> mecabを使って2万語ほどの用語集の漢字にヨミを振ったことがあり
> ましたが、結構大変でした。
> 辞書を合わせていく必要があるわけですが、こちらをたてるとあちらが
> たたなくなって、結局最後は手作業を加えて完成させたのだったと
> 記憶しています。気に入らないヨミが振られるものを拾い出していって、
> それを登録していくわけですが、三島郡三島町(さんとうぐんみしままち)
> をmecabに処理させるのは至難のわざです。
これは難しそうですね、、
> 
> 外れかもしれませんが、本件はハ・イネ研究に分割されて登録されて
> しまっているのだと思います。
そうなんですか?
確かに、ハイネ研究は、歯、稲研究に分割できますね、、

> ちゃんと拾わせるには、意味を考えたりしないでインデックスを作って
> いくn-gram系列を使う必要があると思います。
そうですか、、n-gram方式は東京都の検索時に京都もヒットするので、
mecab方式をえらんだのですが、ある程度の誤検出があっても、
n-gram方式がベターかもしれませんね、、

色々とご教授有難うございました。

2012/5/26 西山拝



----- Original Message ----- 
From: "Endo Akira" <endo4****@goo*****>
To: "全文検索エンジンGroonga開発メーリングリスト" <groon****@lists*****>
Sent: Saturday, May 26, 2012 3:16 AM
Subject: [groonga-dev,00904] Re: Re: 更新処理時のbinlog誤データの記入


> 遠藤です。こんにちは。という時間帯ではないですが。
> 
>> 2)検索キーワードでの検索漏れの問題
>> 検索は、mecab ipadicを利用し in boolean modeで検索していますが、
>> たとえば、ハイネと検索語を入れた場合、
>> ハイネ詩集、ハイネ・回想録などは、検索されるのですが、なぜか
>> ハイネ研究は検索されません、、
> 
> mecabを使って2万語ほどの用語集の漢字にヨミを振ったことがあり
> ましたが、結構大変でした。
> 辞書を合わせていく必要があるわけですが、こちらをたてるとあちらが
> たたなくなって、結局最後は手作業を加えて完成させたのだったと
> 記憶しています。気に入らないヨミが振られるものを拾い出していって、
> それを登録していくわけですが、三島郡三島町(さんとうぐんみしままち)
> をmecabに処理させるのは至難のわざです。
> 
> 外れかもしれませんが、本件はハ・イネ研究に分割されて登録されて
> しまっているのだと思います。
> ちゃんと拾わせるには、意味を考えたりしないでインデックスを作って
> いくn-gram系列を使う必要があると思います。
> 
> そういえばgroongaにたどりついたのは、Namazuの検索で取りこぼし
> があるのも原因の一つでした。東京都をインデックスにどう登録するか
> を考えると、辞書を使って単語を区切っていく方式には限界があります。
> 機械にはやはり機械的にやらせる仕事が向いています。
> 
> _______________________________________________
> groonga-dev mailing list
> groon****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/groonga-dev
>




groonga-dev メーリングリストの案内
Back to archive index