[groonga-dev,02016] Re: TokenTrigramトークナイザを使ったオフラインインデックス構築時のsegment allocate failedについて

Back to archive index

Naoya Murakami visio****@gmail*****
2013年 12月 19日 (木) 14:55:09 JST


お世話になっております。村上です。

>これは、もう限界容量にきていますね。。。
>lib/ii.hのGRN_II_MAX_LSEGを増やせば容量が増えるかもしれませ
>んが、他に影響がでてダメになりそうな気がします。。。

了解しました!
とりあえず、Trigramでの実験はあきらめます。ちょっと常識を外れたサイズですしね。。

>もしかしたら、(オフラインじゃなくて)オンラインインデックス
>構築だったらいけるかもしれません。そこはオフラインインデック
>ス構築のときにだけ通るコードなんです。

追加分だけならともかく、オンラインで一からやるのは時間的に無理そうなので
やめときます。(オフラインで1日ぐらいかかるので、何十日もかかるかも。。)

でも、こんなサイズでも0.数秒〜数秒とかで検索できるので素晴らしいです!

Droongaの今後にも期待しています!

この前、少しいじったのですが、集計結果を足し込むところが
まだ実装されていないなぁ、と思ったところでやめました。

とりあえず、現状の構成で進めて、Droongaの開発がある程度進んできたら、
また試したいと思っています。

余談ですが、ちょうど、今週のQiitaの記事でもドリルダウンが話題に
なりましたが、検索結果が非常に多いときのドリルダウンに非常に時間が
かかっているのが今の悩みです。
ドリルダウン対象はテーブル型のベクターカラムです。

検索結果が700万件ぐらいだと、10項目ぐらいのドリルダウンが数十秒
ぐらいかかります。(ドリルダウンなしだと2秒)
ちなみにこれは、除外対象外の最頻出の単語で、最悪ケースです。

検索結果が100万件ぐらいだと数秒程度、10万件ぐらいだと1秒以内でした。

まあ、このような非常に多数の件数がヒットする検索はあまり起こりえず、
検索する方が悪いので、タイムアウトさせるか、Groongaのselect関数を
いじって、ある件数以上は後段のドリルダウンしないようにしてみようかなぁ
とか考えてます。

以上、よろしくお願いします。



groonga-dev メーリングリストの案内
Back to archive index