[groonga-dev,01577] Re: groongaのトークナイザの改善について

Back to archive index

Naoya Murakami visio****@gmail*****
2013年 8月 7日 (水) 08:37:29 JST


お世話になっております。村上です。

いつも、迅速なご回答ありがとうございます。

プログラミングの知識は、大学でかじった程度ですが、所定以上の長さ以上にならないように
切り出す処理を追加するのは、groonga/lib/token.cをみると、
ngram_next内の353,365行目とかの、GRN_STR_ISBLANKとかでbreakしているのをまねて、
所定の長さ以上になったらbreakするみたいな感じですかね?
https://github.com/groonga/groonga/blob/master/lib/token.c

token.cのngramのトークナイザをpluginにしてみて、適当にいじってみて遊ぼうかなあ、と思ったのですが、Cのpluginの開発について無知のため、トークナイザpluginのビルド方法について教えてください。

以下のような手順で問題なかったでしょうか?

1.groonga/plugin/tokenizerに<トークナイザ>.cを作る。
2.groonga/plugin/tokenizer/に<トークナイザ>_sources.amを作る。
3.groonga/plugin/tokenizer/Makefile.amを修正する。
4.groonga/configure.acを修正する。
5.sh autogen.shにより、configureを生成する。
6. ./configure CFLAGS="-O0 -g3" CXXFLAGS="-O0 -g3"する。(とりあえず、テストのため、最適化OFF)
7. make→make install

昨日は、<トークナイザ>.la,lo,oファイルが生成されるところまで確認しましたが、goongaでtokenizeコマンドを実行しても、unknown
tokenizerといわれたところでつまりました。


以上、よろしくお願いします。



groonga-dev メーリングリストの案内
Back to archive index