Re: mecabトークナイザでのtoo long sentenceの回避方法について (groonga-dev,01815) - Groonga - fulltext search engine.

お世話になっております。村上です。

補足ですが、今回いじったmecabトークナイザで失敗した日本語のデータベースは、
TokenBigramでは、インデックス構築に成功しております。

ご調査いただいているデータベースは、TokenBigramですが、英語のデータ
ベースなので、実質は、単語区切りです。

このことから、純粋なバイグラムトークンでは、事象が発生せず（数がさらに増えれば発生
するかもしれませんが。。）、単語ベースのトークンの場合、インデックス構築に失敗している
ということがわかります。

ひょっとしたら、１個あたりの語彙サイズと語彙の総数あたりが何か関連しているのかも
しれません。（よくわかりません。）

以上、よろしくお願いします。

Groonga - fulltext search engine.

[groonga-dev,01815] Re: mecabトークナイザでのtoo long sentenceの回避方法について