[groonga-dev,01566] Re: 特殊記号混じりの前方一致検索について

Back to archive index

yoku ts. yoku0****@gmail*****
2013年 8月 1日 (木) 18:47:12 JST


林さん
ありがとうございます!

残念なことにtokenizeのされ方ではなく、
tokenizeされたあとのインデックスの濃度が知りたい方でした。。

とりあえず手でがんばります :)


yoku ts.


2013年8月1日 18:28 HAYASHI Kentaro <hayas****@clear*****>:
>
> 林です。
>
> On Thu, 1 Aug 2013 17:57:18 +0900
> "yoku ts." <yoku0****@gmail*****> wrote:
>
>> 須藤さん、田辺さん
>> こんにちは、yokuです。
>>
>> > さらに想像すると、「(仮)テスト テスト1」は
>> >   「(仮)テスト」「テスト1」
>> > ではなく、
>> >   「仮」「テスト」「テスト1」
>> > とトークナイズされているような気がします。
>>
> snip
>>
>> $ myisam_ftdump -c test 1
>>         1            0.0000000 テスト
>>         2            0.0000000 テスト1
>>         1            0.0000000 仮
>>         1            0.0000000 仮テスト
>>
>> お知らせまで。
>>
>> http://dev.mysql.com/doc/refman/5.6/en/myisam-ftdump.html
>>
>>
>> ( ´-`).oO(このmyisam_ftdumpみたいな機能をgroongaでやるには、頑張って.mrnファイルをselect
>> --table ..で取り出して自前でパースするしか(今のところ)ないですかね…?
>>
>
> groongaでどうトークナイズされるかというのであれば、そのものずばりtokenizeコマンドがあります。
> myisam_ftdumpみたいに統計だとか一覧としては出せませんが。。。
>
>   http://groonga.org/ja/docs/reference/commands/tokenize.html
>
> 隔週連載groongaでお馴染み吉田さんがこのあたりtokenizeコマンドについても解説記事を書いてくれています。
>
> 「groonga/mroongaのトークナイザー(tokenizer)の挙動を追ってみる」
>   http://y-ken.hatenablog.com/entry/mroonga-tokenizer-behavior
>
> mroongaでやるにはmroonga_commandというのもあって、以下のような感じで
> groongaのtokenizeコマンドを叩けます。
>
>   select mroonga_command("tokenize ....");
>
> というわけで、.mrnファイルをgroongaのselect..で取り出して自前でパースよりかは楽できます。:-)
> が、かえってくる結果はそのままでは見づらいかも。。。
>
> --
> HAYASHI Kentaro <hayas****@clear*****>
>
> _______________________________________________
> groonga-dev mailing list
> groon****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/groonga-dev




groonga-dev メーリングリストの案内
Back to archive index