[groonga-dev,01308] Re: utf8_unicode_ci使用時の検索結果について

Back to archive index

Kouhei Sutou kou****@clear*****
2013年 4月 21日 (日) 19:29:53 JST


須藤です。

In <87166****@web10*****>
  "[groonga-dev,01306] Re: utf8_unicode_ci使用時の検索結果について" on Sun, 21 Apr 2013 18:47:46 +0900 (JST),
  <mail_babir****@yahoo*****> wrote:

> 諸々ご対応頂きありがとうございます。

いえいえ!
こちらこそいろいろ報告してもらってありがとうございます!

>> MySQLのcollationを増やすことはできないので、コメントに
>> 'normalizer "NormalizerXXX"'とgroongaのノーマライザーを直接
>> 指定する方法で実現することになると思います。
>>
>> 問題はノーマライザーの名前を何にするかということですが、うーん、考えてみます。
> 
> こちら、私の方でも少し考えてみたのですが、
> イメージとしては
> NormalizerMySQLUnicodeCIRigid
> NormalizerMySQLUnicodeCISensitive
> のような感じでしょうか。
> 
> ただ、utf8_unicode_ciのciはcase-insensitiveの略らしいので、
> 「つ」が大文字「っ」が小文字というように捉えるなら、
> case-sensitiveということで、
> NormalizerMySQLUnicodeCS
> などが一番自然な感じなのかなとは思います。

なるほど。ただ、case-sensitiveにしてしまうと「A」と「a」も区
別するようの印象がありますよねぇ。。。

「ぁ」とかだけならNormalizerMySQLUnicodeCIExpectKanaCIでよさそ
うです。濁点も区別するとなると、つなげて
NormalizerMySQLUnicodeCIExpectKanaCIVoicedSoundMarkとかですか
ねぇ。
「゙」は「U+3099 COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK」
で、
「゚」は「U+309A COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK」
なので、まとめてVoicedSoundMarkにしてみました。

なんか、長くて読みづらいですが。。。

-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270)

groongaサポート:
  http://groonga.org/ja/support/
パッチ採用はじめました:
  http://www.clear-code.com/recruitment/
コミットへのコメントサービスはじめました:
  http://www.clear-code.com/services/commit-comment.html



groonga-dev メーリングリストの案内
Back to archive index