[groonga-dev,02692] Re: オフラインインデックス構築後のgrn_ii_estimate_sizeの値について

Back to archive index

morit****@razil***** morit****@razil*****
2014年 8月 28日 (木) 17:50:08 JST


お世話になっております。森と申します。

ご指摘ありがとうございます!!

オフラインインデックスの時にDF値を保存する処理が抜けていたようです。
修正したいと思います。

どうぞよろしくお願いします。



2014-08-28 12:56 GMT+09:00 Naoya Murakami <visio****@gmail*****>:

> お世話になっております。村上です。
>
> 現在、検索スコアをいろいろいじってみようと思っていろいろ調べています。
>
> 類似文書検索等において、トークンを含む文書数(DF)を算出するために
> grn_ii_estimateを利用していると思います。
>
> https://github.com/groonga/groonga/blob/master/lib/ii.c#L5686
>
> 今日、初めて知ったのですが、語彙表のインデックスカラムの数値は
> この値を示しているのですね。
>
>
> http://mroonga.org/ja/docs/reference/full_text_search/scoring.html#calculating-weight-per-token
>
> オンラインインデックス構築後は、若干ずれているものの、概算のDF値を
> 正しく取得することができています。
>
> しかしながら、オフラインインデックス後はすべて2になっています。
>
> https://gist.github.com/naoa/f9b83dfb67f6cb077d27
>
> (ii.cにデバッグログを埋め込んでesの値もみましたがやはり2でした)
>
> このため、オフラインインデックス構築したデータベースでは、類似文書検索
> では正しいスコアを算出できていないと思います。
>
> grn_ii_estimateで正しいDF値を返すようにすることは可能でしょうか?
>
> 以上、よろしくお願いします。
> _______________________________________________
> groonga-dev mailing list
> groon****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/groonga-dev
>



groonga-dev メーリングリストの案内
Back to archive index