Kouhei Sutou
kou****@clear*****
2013年 4月 24日 (水) 10:12:51 JST
須藤です。 In <20130****@clear*****> "[groonga-dev,01313] Re: utf8_unicode_ci使用時の検索結果について" on Mon, 22 Apr 2013 14:39:44 +0900 (JST), Kouhei Sutou <kou****@clear*****> wrote: >>> 「ぁ」とかだけならNormalizerMySQLUnicodeCIExpectKanaCIでよさそ >>> うです。濁点も区別するとなると、つなげて >>> NormalizerMySQLUnicodeCIExpectKanaCIVoicedSoundMarkとかですか >>> ねぇ。 >>> 「゙」は「U+3099 COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK」 >>> で、 >>> 「゚」は「U+309A COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK」 >>> なので、まとめてVoicedSoundMarkにしてみました。 >> >> 日本語表記にも色々ネーミングがあるんですね。 >> 多少長くても、表現が厳密な方が間違いがなくていいですね! >> >> そもそも、ノーマライザーとして実装して頂ける時点で有り難いことです。 > > では、この方向で検討してみます。 実装しました。 ノーマライザーの名前は長いですが以下のようにしました。 (使うときに自分は何をしようとしているのかを注意するきっかけ に) NormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMark 使うときは以下のようにします。 FULLTEXT INDEX (column) COMMENT 'normalizer "NormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMark"' -- 須藤 功平 <kou****@clear*****> 株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270) groongaサポート: http://groonga.org/ja/support/ パッチ採用はじめました: http://www.clear-code.com/recruitment/ コミットへのコメントサービスはじめました: http://www.clear-code.com/services/commit-comment.html