[groonga-dev,04379] Re: 転置インデックスカラムについてご教示頂きたく

Back to archive index

Kouhei Sutou kou****@clear*****
2017年 6月 7日 (水) 16:56:40 JST


須藤です。

In <20170****@syste*****>
  "Re: [groonga-dev,04374] Re: 転置インデックスカラムについてご教示頂きたく" on Fri, 2 Jun 2017 19:07:59 +0900,
  石橋 卓見 <ishib****@syste*****> wrote:

>> ちなみに、そういう情報を使って本当にやりたいことはなんですか?
>> おそらく、そういう情報を取得することが目的ではなく、そういう
>> 情報を使ってなにかをしたいんじゃないかなぁと思っています。
> 現状は、News記事毎のTF-IDFスコア算出結果により、単純に記事の
> 重要度を決定しているのですが、今後、何らかのプラスアルファの
> ロジックを検討したいので、生の転置INDEX情報を可視化できるように
> してほしいとの先方の要望があり、このような質問をさせていただき
> ました。

なるほど。
ドキュメントはまだ書けていないのですが、この間のリリースから
index_df_ratio()という関数を追加しています。この関数は各トー
クンが検索対象の文書集合のうちどのくらいの割合の文書に含まれ
ているかを返します。(100文書中30文書くらいに含まれていそう
なら0.3を返す。)

使い方はこんな感じで
https://github.com/groonga/groonga/blob/master/test/command/suite/select/function/index_column/index_column_df_ratio_between/and.test
結果はこんな感じです。
https://github.com/groonga/groonga/blob/master/test/command/suite/select/function/index_column/index_column_df_ratio_between/and.expected

もしかしたらなにかに使えるかもしれません。

> 尚、同様の質問と回答を見つけることが出来ました!INDEXのダンプを
> 出力できるのですね。試してみます。
> http://asdferqew.seesaa.net/pages/user/m/article?article_id=421743365
> # MLの過去記事を探しきれず、失礼いたしました。

メーリングリストの内容を検索できるサイトをGroongaで作るとよ
さそうと思うんですが、なかなか作って運用してくれる人が現れな
いんですよね。。。だれかやりませんか!?


-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/>

Groongaベースの全文検索システムを総合サポート:
  http://groonga.org/ja/support/
パッチ採用 - プログラミングが楽しい人向けの採用プロセス:
  http://www.clear-code.com/recruitment/
OSS開発支援サービス:
  http://www.clear-code.com/blog/2016/6/27.html




groonga-dev メーリングリストの案内
Back to archive index