[groonga-dev,02015] Re: TokenTrigramトークナイザを使ったオフラインインデックス構築時のsegment allocate failedについて

Back to archive index

Kouhei Sutou kou****@clear*****
2013年 12月 19日 (木) 14:17:00 JST


須藤です。

In <CANM+****@mail*****>
  "[groonga-dev,02014] TokenTrigramトークナイザを使ったオフラインインデックス構築時のsegment allocate failedについて" on Thu, 19 Dec 2013 13:03:05 +0900,
  Naoya Murakami <visio****@gmail*****> wrote:

> 相談するか、しまいか悩んだのですが、まずは、カジュアルに相談してみます。

カジュアルに相談してもらって大丈夫です!

> ちょっと実験してみると、思ったよりもTokenTrigramトークナイザの検索パフォーマンス
> が非常によかったです。
> 
> 日本語Wikipedia程度では、TokenMecabトークナイザで頻出語を除去させても、
> まだTokenTrigramの方がはやかったです。
> (この辺の実験結果は土曜日分のAdvent Calendarでまとめます。)

おぉ。楽しみにしています!

> そこで、頻出語を除去するようにいじったTokenMecabトークナイザで構築している
> 400GiB超のデータベースでもTokenTrigramを試したらどうなるかなぁ、と思って
> 試したのですが、インデックス構築の最後の段階で、以下のように失敗しました。
> 
> 落ちる時には、segment allocate failedと、deadlock detected!!! in
> GRN_IO_SEG_REF(0x7f1394083680, 65536, 24614)の2種類でています。
>
> こいつの原因を解析するのは大変そうですか?

これは、もう限界容量にきていますね。。。
lib/ii.hのGRN_II_MAX_LSEGを増やせば容量が増えるかもしれませ
んが、他に影響がでてダメになりそうな気がします。。。

もしかしたら、(オフラインじゃなくて)オンラインインデックス
構築だったらいけるかもしれません。そこはオフラインインデック
ス構築のときにだけ通るコードなんです。


-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270)

Groongaサポート:
  http://groonga.org/ja/support/
パッチ採用はじめました:
  http://www.clear-code.com/recruitment/
コミットへのコメントサービスはじめました:
  http://www.clear-code.com/services/commit-comment.html




groonga-dev メーリングリストの案内
Back to archive index