[groonga-dev,01587] Re: groongaのトークナイザの改善について

Back to archive index

Naoya Murakami visio****@gmail*****
2013年 8月 8日 (木) 23:58:15 JST


お世話になっております。村上です。

うおおお、展開がはやくてすごいです。ありがとうございます!

めちゃめちゃ参考になります!また、うれしい機能です!
こちらの機能も即時、盛り込もうか検討してみます!

とりあえず、先日つくっていただいたサンプルにbigramのみを実装して、
以下を追加してみました。
これにより、grntestツールで、normalizerAutoで4096バイト以上の
アルファベット、記号、数字列が、too longにならないことが確認できました。
また、defineを4097にした場合、too longになることが確認できました。

#define MY_KEY_BYTE_LIMIT 4096
  if ( len >= MY_KEY_BYTE_LIMIT) { break; }

しかしながら、作ったトークナイザをmroongaでparser指定して、4kを超える
長いアルファベット列をinsertすると、too longとなりました。
mroonga_command("table_list")を見ても、TokenBigramにしかなっておらず、
プラグインのregisterがうまくいってないのかなぁ。。とか検討しているところです。

そういえば、groongaコマンドで毎回registerうたないとトークナイザが
認識されてないところも気になっています。

さらにつくっていただいたサンプルもみつつ、mroongaでプラグインの
トークナイザが使えるようになるようもう少し自分で試行錯誤してみます!

どうやってもうまくいかなければ、また、相談させていただいちゃうかもしれませんが。。。

重ね重ねありがとうございました。

以上、よろしくお願いします。




2013年8月8日 22:43 Kouhei Sutou <kou****@clear*****>:

> 須藤です。
>
> In <CANM+****@mail*****>
>   "[groonga-dev,01581] Re: groongaのトークナイザの改善について" on Wed, 7 Aug 2013
> 23:34:04 +0900,
>   Naoya Murakami <visio****@gmail*****> wrote:
>
> > ぬああああ、サンプルまでわざわざつくっていただいて、
> > 至れり尽くせりでどうもありがとうございます。
> >
> > 非常に助かります。参考にしてつくってみたいと思います。
>
> お役に立てるならとてもよかったです!
>
> もう少し凝ったサンプルの説明を林さんがQiitaに書いてくれたので
> そちらもあわせてどうぞ。
>   http://qiita.com/groonga/items/891537181b4e21736264
>
> ↑ではトークナイザーで単語の正規化(単数形に揃えるとか)をし
> ていますが、ノーマライザーでやる方法もあります。トークナイザー
> でやる方が、すでに単語に切れていて作りやすいのですが、ノーマ
> ライザーでやるとsnippetでも効果があるという違いがあります。
> (トークナイザーでやるとsnippetでは効かない気がする。)
>
> > とりあえず、喫緊で、TokenBigramを所定の文字以下で切れるようにして、
> > mroongaでインデックスを構築したいので、これを実装したいと思います。
> > (公式にご対応を検討していただけるとのことですが、データサイズが大きく
> > インデックスの構築にすごい時間がかかるので、できるだけ早くはじめたい
> > と思っていまして。。)
>
> はい!
>
> > 少し、落ち着いたら、今まで培ったノウハウや、懇切に教えていただいた内容は、
> > blog等で情報発信してgroonga、mroongaの普及のお手伝いになればと思ってます!
>
> それはとてもうれしいです!ありがとうございます!
>
> --
> 須藤 功平 <kou****@clear*****>
> 株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270)
>
> groongaサポート:
>   http://groonga.org/ja/support/
> パッチ採用はじめました:
>   http://www.clear-code.com/recruitment/
> コミットへのコメントサービスはじめました:
>   http://www.clear-code.com/services/commit-comment.html
>
> _______________________________________________
> groonga-dev mailing list
> groon****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/groonga-dev
>



groonga-dev メーリングリストの案内
Back to archive index