Kouhei Sutou
kou****@clear*****
2013年 12月 19日 (木) 14:17:00 JST
須藤です。 In <CANM+****@mail*****> "[groonga-dev,02014] TokenTrigramトークナイザを使ったオフラインインデックス構築時のsegment allocate failedについて" on Thu, 19 Dec 2013 13:03:05 +0900, Naoya Murakami <visio****@gmail*****> wrote: > 相談するか、しまいか悩んだのですが、まずは、カジュアルに相談してみます。 カジュアルに相談してもらって大丈夫です! > ちょっと実験してみると、思ったよりもTokenTrigramトークナイザの検索パフォーマンス > が非常によかったです。 > > 日本語Wikipedia程度では、TokenMecabトークナイザで頻出語を除去させても、 > まだTokenTrigramの方がはやかったです。 > (この辺の実験結果は土曜日分のAdvent Calendarでまとめます。) おぉ。楽しみにしています! > そこで、頻出語を除去するようにいじったTokenMecabトークナイザで構築している > 400GiB超のデータベースでもTokenTrigramを試したらどうなるかなぁ、と思って > 試したのですが、インデックス構築の最後の段階で、以下のように失敗しました。 > > 落ちる時には、segment allocate failedと、deadlock detected!!! in > GRN_IO_SEG_REF(0x7f1394083680, 65536, 24614)の2種類でています。 > > こいつの原因を解析するのは大変そうですか? これは、もう限界容量にきていますね。。。 lib/ii.hのGRN_II_MAX_LSEGを増やせば容量が増えるかもしれませ んが、他に影響がでてダメになりそうな気がします。。。 もしかしたら、(オフラインじゃなくて)オンラインインデックス 構築だったらいけるかもしれません。そこはオフラインインデック ス構築のときにだけ通るコードなんです。 -- 須藤 功平 <kou****@clear*****> 株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270) Groongaサポート: http://groonga.org/ja/support/ パッチ採用はじめました: http://www.clear-code.com/recruitment/ コミットへのコメントサービスはじめました: http://www.clear-code.com/services/commit-comment.html