[groonga-dev,02108] NormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMarkがノーマライズした記号が意図したとおりトークナイズされない

Back to archive index

yoku ts. yoku0****@gmail*****
2014年 2月 5日 (水) 20:04:08 JST


こんばんは、yoku0825といいます。
件名長いですね、ごめんなさい。。

TokenBigramでトークナイズしているときに、
"yoku0825!" のレコードは "yoku", "0825", "!" のように3トークンにトークナイズされることを期待しています。
NormalizerAuto, NormalizerMySQLGeneralCI を使っている時は上記のようにトークナイズされますが、
NormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMarkを使っているときのみ
"yoku", "0825!" の2トークンにトークナイズされてしまいます(何故か正規化後の"!"が直前のトークンにくっついてしまう)

ちなみに"yoku0825!"(半角"!")の場合はどのノーマライザーでも"yoku", "0825", "!"の3トークンに分割されます。

https://gist.github.com/yoku0825/8821138

これは、もともとこういう動作が想定されていたりしますか?
(であれば、自分でノーマライザーに手を入れるのかなぁ、と思いながら。。)

よろしくお願いします。。


/* yoku0825 */




groonga-dev メーリングリストの案内
Back to archive index