Naoya Murakami
visio****@gmail*****
2013年 8月 12日 (月) 21:17:39 JST
お世話になっております。村上です。 >groongaのソースを見てみたところ、1つの文書あたり、 >最大で >0x1ffff個(= 131071個)のpostingを紐付けることができるみたい >です。エラーメッセージの中には実際のposting数が「227573」で、 >捨てたのが「96502」とあるので、227573 - 96502 = 131071と合致 >します。 うあ。。。1つの文書のトークン数の上限が131,071個だとすると、 純粋なBigramだと、256kbyte程度(2byte文字のみなら、この2倍) の文書までしか正常にインデックスできないということですか? 実際には、このメッセージは、英文、日文ともに数Mbyteぐらいの 文章になると結構でてきているようです。 英文でSplit系でないbigramでやっても、これがでてきているので、 ここにきて、これは、非常に厳しい。。。 これは、チューニング等では、どうやっても、乗り越えられない壁ですか? 以上、よろしくお願いします。