[groonga-dev,01565] Re: 特殊記号混じりの前方一致検索について

Back to archive index

HAYASHI Kentaro hayas****@clear*****
2013年 8月 1日 (木) 18:28:13 JST


林です。

On Thu, 1 Aug 2013 17:57:18 +0900
"yoku ts." <yoku0****@gmail*****> wrote:

> 須藤さん、田辺さん
> こんにちは、yokuです。
> 
> > さらに想像すると、「(仮)テスト テスト1」は
> >   「(仮)テスト」「テスト1」
> > ではなく、
> >   「仮」「テスト」「テスト1」
> > とトークナイズされているような気がします。
> 
snip
> 
> $ myisam_ftdump -c test 1
>         1            0.0000000 テスト
>         2            0.0000000 テスト1
>         1            0.0000000 仮
>         1            0.0000000 仮テスト
> 
> お知らせまで。
> 
> http://dev.mysql.com/doc/refman/5.6/en/myisam-ftdump.html
> 
> 
> ( ´-`).oO(このmyisam_ftdumpみたいな機能をgroongaでやるには、頑張って.mrnファイルをselect
> --table ..で取り出して自前でパースするしか(今のところ)ないですかね…?
> 

groongaでどうトークナイズされるかというのであれば、そのものずばりtokenizeコマンドがあります。
myisam_ftdumpみたいに統計だとか一覧としては出せませんが。。。

  http://groonga.org/ja/docs/reference/commands/tokenize.html

隔週連載groongaでお馴染み吉田さんがこのあたりtokenizeコマンドについても解説記事を書いてくれています。
  
「groonga/mroongaのトークナイザー(tokenizer)の挙動を追ってみる」
  http://y-ken.hatenablog.com/entry/mroonga-tokenizer-behavior

mroongaでやるにはmroonga_commandというのもあって、以下のような感じで
groongaのtokenizeコマンドを叩けます。

  select mroonga_command("tokenize ....");

というわけで、.mrnファイルをgroongaのselect..で取り出して自前でパースよりかは楽できます。:-)
が、かえってくる結果はそのままでは見づらいかも。。。

-- 
HAYASHI Kentaro <hayas****@clear*****>




groonga-dev メーリングリストの案内
Back to archive index