[groonga-dev,01610] Re: mroongaログのtoo many postingsの警告メッセージの影響について

Back to archive index

Naoya Murakami visio****@gmail*****
2013年 8月 12日 (月) 21:17:39 JST


お世話になっております。村上です。

>groongaのソースを見てみたところ、1つの文書あたり、
>最大で
>0x1ffff個(= 131071個)のpostingを紐付けることができるみたい
>です。エラーメッセージの中には実際のposting数が「227573」で、
>捨てたのが「96502」とあるので、227573 - 96502 = 131071と合致
>します。

うあ。。。1つの文書のトークン数の上限が131,071個だとすると、
純粋なBigramだと、256kbyte程度(2byte文字のみなら、この2倍)
の文書までしか正常にインデックスできないということですか?

実際には、このメッセージは、英文、日文ともに数Mbyteぐらいの
文章になると結構でてきているようです。

英文でSplit系でないbigramでやっても、これがでてきているので、
ここにきて、これは、非常に厳しい。。。

これは、チューニング等では、どうやっても、乗り越えられない壁ですか?

以上、よろしくお願いします。



groonga-dev メーリングリストの案内
Back to archive index