Naoya Murakami
visio****@gmail*****
2014年 7月 30日 (水) 19:56:57 JST
村上です。 昨日、ゆらぎの吸収と申したのは、「アル・カポネ」でも「アルカポネ」でも検索ができることでした。 > > ただし、単純に中黒「・」を除去しただけの場合、例えば、 > 「イネ・ムギ・ブナ・アカマツ」のように同格の名詞を列挙した場合、 > 単純な中黒抜きだと「ムギ」では検索できなくなるという悪影響があります。→末尾 > 「イネムギブナアカマツ」、たしかにIPAdicだとひとまとまりになりますね。 アル・カポネもですがIPAdicはデフォルトでは知らない文脈でのカタカナの まとめ方がいまいちぽいですね。 IPAdicは、デフォルトだと正直、全文検索にはあまり向いていない 区切られ方されていると思います。特にカタカナ、未知語周り。 ちなみにNAIST-jdicやUniDicであれば、 「イネムギブナアカマツ」は、 デフォルトで「イネ/ムギ/ブナ/アカマツ」になります。 まずは何より検索漏れを防ぎたい、というのがございますので、 > あえてデフォルトのTokenBigramではなく、MeCabを選んでいるので おそらくそちらを好んでいるのでしょうが、Ngram系のトークナイザ (TokenBigram等)では、検索漏れはなくなります。辞書の調整も不要です。 ただし、検索ノイズが増えるのと転置索引のサイズが増えるというのと トレードオフです。 Ngramであれば、「・」等を除去しても特に問題はないはずです。 (ちなみにSymbolフィルター相当の機能があれば、自動で除去できたり するのですが、今のMroongaにはないので、すでにやられているような 手法で頑張るか、自前でC言語でトークナイザもしくはノーマライザ側を カスタマイズして除去してやるしかありません。) 以上、ご参考まで。