HAYASHI Kentaro
hayas****@clear*****
2013年 8月 1日 (木) 18:28:13 JST
林です。 On Thu, 1 Aug 2013 17:57:18 +0900 "yoku ts." <yoku0****@gmail*****> wrote: > 須藤さん、田辺さん > こんにちは、yokuです。 > > > さらに想像すると、「(仮)テスト テスト1」は > > 「(仮)テスト」「テスト1」 > > ではなく、 > > 「仮」「テスト」「テスト1」 > > とトークナイズされているような気がします。 > snip > > $ myisam_ftdump -c test 1 > 1 0.0000000 テスト > 2 0.0000000 テスト1 > 1 0.0000000 仮 > 1 0.0000000 仮テスト > > お知らせまで。 > > http://dev.mysql.com/doc/refman/5.6/en/myisam-ftdump.html > > > ( ´-`).oO(このmyisam_ftdumpみたいな機能をgroongaでやるには、頑張って.mrnファイルをselect > --table ..で取り出して自前でパースするしか(今のところ)ないですかね…? > groongaでどうトークナイズされるかというのであれば、そのものずばりtokenizeコマンドがあります。 myisam_ftdumpみたいに統計だとか一覧としては出せませんが。。。 http://groonga.org/ja/docs/reference/commands/tokenize.html 隔週連載groongaでお馴染み吉田さんがこのあたりtokenizeコマンドについても解説記事を書いてくれています。 「groonga/mroongaのトークナイザー(tokenizer)の挙動を追ってみる」 http://y-ken.hatenablog.com/entry/mroonga-tokenizer-behavior mroongaでやるにはmroonga_commandというのもあって、以下のような感じで groongaのtokenizeコマンドを叩けます。 select mroonga_command("tokenize ...."); というわけで、.mrnファイルをgroongaのselect..で取り出して自前でパースよりかは楽できます。:-) が、かえってくる結果はそのままでは見づらいかも。。。 -- HAYASHI Kentaro <hayas****@clear*****>