yoku ts.
yoku0****@gmail*****
2014年 2月 5日 (水) 20:04:08 JST
こんばんは、yoku0825といいます。 件名長いですね、ごめんなさい。。 TokenBigramでトークナイズしているときに、 "yoku0825!" のレコードは "yoku", "0825", "!" のように3トークンにトークナイズされることを期待しています。 NormalizerAuto, NormalizerMySQLGeneralCI を使っている時は上記のようにトークナイズされますが、 NormalizerMySQLUnicodeCIExceptKanaCIKanaWithVoicedSoundMarkを使っているときのみ "yoku", "0825!" の2トークンにトークナイズされてしまいます(何故か正規化後の"!"が直前のトークンにくっついてしまう) ちなみに"yoku0825!"(半角"!")の場合はどのノーマライザーでも"yoku", "0825", "!"の3トークンに分割されます。 https://gist.github.com/yoku0825/8821138 これは、もともとこういう動作が想定されていたりしますか? (であれば、自分でノーマライザーに手を入れるのかなぁ、と思いながら。。) よろしくお願いします。。 /* yoku0825 */