Kouhei Sutou
kou****@clear*****
2013年 4月 21日 (日) 19:29:53 JST
須藤です。 In <87166****@web10*****> "[groonga-dev,01306] Re: utf8_unicode_ci使用時の検索結果について" on Sun, 21 Apr 2013 18:47:46 +0900 (JST), <mail_babir****@yahoo*****> wrote: > 諸々ご対応頂きありがとうございます。 いえいえ! こちらこそいろいろ報告してもらってありがとうございます! >> MySQLのcollationを増やすことはできないので、コメントに >> 'normalizer "NormalizerXXX"'とgroongaのノーマライザーを直接 >> 指定する方法で実現することになると思います。 >> >> 問題はノーマライザーの名前を何にするかということですが、うーん、考えてみます。 > > こちら、私の方でも少し考えてみたのですが、 > イメージとしては > NormalizerMySQLUnicodeCIRigid > NormalizerMySQLUnicodeCISensitive > のような感じでしょうか。 > > ただ、utf8_unicode_ciのciはcase-insensitiveの略らしいので、 > 「つ」が大文字「っ」が小文字というように捉えるなら、 > case-sensitiveということで、 > NormalizerMySQLUnicodeCS > などが一番自然な感じなのかなとは思います。 なるほど。ただ、case-sensitiveにしてしまうと「A」と「a」も区 別するようの印象がありますよねぇ。。。 「ぁ」とかだけならNormalizerMySQLUnicodeCIExpectKanaCIでよさそ うです。濁点も区別するとなると、つなげて NormalizerMySQLUnicodeCIExpectKanaCIVoicedSoundMarkとかですか ねぇ。 「゙」は「U+3099 COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK」 で、 「゚」は「U+309A COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK」 なので、まとめてVoicedSoundMarkにしてみました。 なんか、長くて読みづらいですが。。。 -- 須藤 功平 <kou****@clear*****> 株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270) groongaサポート: http://groonga.org/ja/support/ パッチ採用はじめました: http://www.clear-code.com/recruitment/ コミットへのコメントサービスはじめました: http://www.clear-code.com/services/commit-comment.html