[groonga-dev,02556] Re: 中黒「・」を含む単語の存在する文章の検索について

Back to archive index

Naoya Murakami visio****@gmail*****
2014年 7月 30日 (水) 19:56:57 JST


村上です。


昨日、ゆらぎの吸収と申したのは、「アル・カポネ」でも「アルカポネ」でも検索ができることでした。
>
> ただし、単純に中黒「・」を除去しただけの場合、例えば、
> 「イネ・ムギ・ブナ・アカマツ」のように同格の名詞を列挙した場合、
> 単純な中黒抜きだと「ムギ」では検索できなくなるという悪影響があります。→末尾
>

「イネムギブナアカマツ」、たしかにIPAdicだとひとまとまりになりますね。
アル・カポネもですがIPAdicはデフォルトでは知らない文脈でのカタカナの
まとめ方がいまいちぽいですね。

IPAdicは、デフォルトだと正直、全文検索にはあまり向いていない
区切られ方されていると思います。特にカタカナ、未知語周り。

ちなみにNAIST-jdicやUniDicであれば、 「イネムギブナアカマツ」は、
デフォルトで「イネ/ムギ/ブナ/アカマツ」になります。

まずは何より検索漏れを防ぎたい、というのがございますので、
>

あえてデフォルトのTokenBigramではなく、MeCabを選んでいるので
おそらくそちらを好んでいるのでしょうが、Ngram系のトークナイザ
(TokenBigram等)では、検索漏れはなくなります。辞書の調整も不要です。
ただし、検索ノイズが増えるのと転置索引のサイズが増えるというのと
トレードオフです。

Ngramであれば、「・」等を除去しても特に問題はないはずです。

(ちなみにSymbolフィルター相当の機能があれば、自動で除去できたり
するのですが、今のMroongaにはないので、すでにやられているような
手法で頑張るか、自前でC言語でトークナイザもしくはノーマライザ側を
カスタマイズして除去してやるしかありません。)

以上、ご参考まで。



groonga-dev メーリングリストの案内
Back to archive index