[groonga-dev,01320] Re: utf8_unicode_ci使用時の検索結果について

Back to archive index

Kouhei Sutou kou****@clear*****
2013年 4月 24日 (水) 10:12:51 JST


須藤です。

In <20130****@clear*****>
  "[groonga-dev,01313] Re: utf8_unicode_ci使用時の検索結果について" on Mon, 22 Apr 2013 14:39:44 +0900 (JST),
  Kouhei Sutou <kou****@clear*****> wrote:

>>> 「ぁ」とかだけならNormalizerMySQLUnicodeCIExpectKanaCIでよさそ
>>> うです。濁点も区別するとなると、つなげて
>>> NormalizerMySQLUnicodeCIExpectKanaCIVoicedSoundMarkとかですか
>>> ねぇ。
>>> 「゙」は「U+3099 COMBINING KATAKANA-HIRAGANA VOICED SOUND  MARK」
>>> で、
>>> 「゚」は「U+309A COMBINING KATAKANA-HIRAGANA SEMI-VOICED  SOUND MARK」
>>> なので、まとめてVoicedSoundMarkにしてみました。
>> 
>> 日本語表記にも色々ネーミングがあるんですね。
>> 多少長くても、表現が厳密な方が間違いがなくていいですね!
>> 
>> そもそも、ノーマライザーとして実装して頂ける時点で有り難いことです。
> 
> では、この方向で検討してみます。

実装しました。

ノーマライザーの名前は長いですが以下のようにしました。
(使うときに自分は何をしようとしているのかを注意するきっかけ
に)

  NormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMark

使うときは以下のようにします。

  FULLTEXT INDEX (column) COMMENT 'normalizer "NormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMark"'

-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270)

groongaサポート:
  http://groonga.org/ja/support/
パッチ採用はじめました:
  http://www.clear-code.com/recruitment/
コミットへのコメントサービスはじめました:
  http://www.clear-code.com/services/commit-comment.html



groonga-dev メーリングリストの案内
Back to archive index