[groonga-dev,01057] 【mroonga】類似文書検索のスコアについて

Back to archive index

今井真宏 masaz****@gmail*****
2012年 10月 21日 (日) 11:57:45 JST


はじめまして、masaと申します。

mroonga2.07をラッパーモードで使用しています。

文章を比較した結果、似ている文章を表示するプログラムを作成しています。
比較のエンジンにmroongaの類似文書検索を使用しています。

現在、類似文書検索のスコアに百万、一千万単位の値をしばしば取得します。
これは完全一致している文章と比較したときよりも多きなスコアです。
そのため、スコアの算出基準がわからず困っています。

スコアを取得するためのクエリは以下のURLを参照して作成しました。
http://mroonga.github.com/ja/docs/userguide/storage.html#how-to-get-search-score

例)
SELECT MATCH (content) AGAINST ("晴れ") FROM diaries WHERE MATCH
(content) AGAINST ("晴れ") ORDER BY MATCH (content) AGAINST ("晴れ") DESC;

算出基準が分かれば、スコアから類似度(たとえばパーセンテージや0〜1の数値で表現)が出来ると考えているのですが、
スコア算出基準をご教授いただけませんでしょうか?

何卒、よろしくお願いいたします。

-- 
masa
masaz****@gmail*****




groonga-dev メーリングリストの案内
Back to archive index