[groonga-dev,01765] Re: 仮想メモリサイズを超えるmroongaのインデックス構築について

Back to archive index

Kouhei Sutou kou****@clear*****
2013年 9月 6日 (金) 11:13:58 JST


須藤です。

In <CANM+HhcU-xsvm3V0e1=VB3oOf92Twchf09x5ome-8Oh_J2eJ3****@mail*****>
  "[groonga-dev,01764] Re: 仮想メモリサイズを超えるmroongaのインデックス構築について" on Fri, 6 Sep 2013 10:28:36 +0900,
  Naoya Murakami <visio****@gmail*****> wrote:

> インデックス構築に失敗していた英語のデータベースのインデックスを3分割に
> してやったのですが、同様にインデックス構築に失敗しました。

おぉ。。。

> 他のサーバで、これよりもさらにでかいインデックスサイズの日本語のデータベース
> もあるのですが、そちらは、インデックスを分けることにより、インデックス構築に
> 成功しました。一番大きいインデックスで58.6GiB(63012233352)でした。
> インデックス総サイズも成功しているデータベースの方が大きいです。
> 
> なお、こちらも分割前はインデックス構築に失敗していました。
> 
> したがって、今回のケースはインデックスのサイズ以外が要因となっていると
> 思われます。

たしかにそのような気がします。

> 環境またはデータそのものが悪いおそれがあるのでしょうか。。
> 日本語のサーバも分割前は失敗していることからインデックスサイズが要因
> のものもある?

トークンの最大出現回数に違いはありそうですか?例えば、1つの文
書に「the」がたくさんあり、さらに多くの文書が同じように「the」
をたくさん含んでいる、というようなことがあるかどうかです。

↑はGRN_II_MAX_TFが関連してくる値なのですが、GRN_II_MAX_TFを
大きくしたためにデータが壊れているのではないか、というのが気
になりました。

-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270)

groongaサポート:
  http://groonga.org/ja/support/
パッチ採用はじめました:
  http://www.clear-code.com/recruitment/
コミットへのコメントサービスはじめました:
  http://www.clear-code.com/services/commit-comment.html




groonga-dev メーリングリストの案内
Back to archive index