Naoya Murakami
visio****@gmail*****
2013年 9月 24日 (火) 07:16:22 JST
お世話になっております。村上です。 補足ですが、今回いじったmecabトークナイザで失敗した日本語のデータベースは、 TokenBigramでは、インデックス構築に成功しております。 ご調査いただいているデータベースは、TokenBigramですが、英語のデータ ベースなので、実質は、単語区切りです。 このことから、純粋なバイグラムトークンでは、事象が発生せず(数がさらに増えれば発生 するかもしれませんが。。)、単語ベースのトークンの場合、インデックス構築に失敗している ということがわかります。 ひょっとしたら、1個あたりの語彙サイズと語彙の総数あたりが何か関連しているのかも しれません。(よくわかりません。) 以上、よろしくお願いします。