[groonga-dev,00573] tfやidfの算出

Back to archive index

Tomoki MAEDA tmaed****@ruby-*****
2011年 10月 14日 (金) 22:49:28 JST


初めまして、前田と申します。

先日札幌での昼下がりイベントに参加して
今日初めて本格的にgroongaに触り始めました。

groongaに格納されているドキュメントや
インデックスの情報を利用して、
tfやidfを計算したり、テキストに関する
いろいろな統計情報などの算出をしたいと
考えています。

例えば、
http://groonga.org/ja/docs/tutorial/micro_blog.html
のマイクロブログ検索とか
http://groonga.rubyforge.org/rroonga/en/file.tutorial.html
のブックマーク検索のような例において、
* ある単語が出現するドキュメント一覧とか数
* あるドキュメントに出現するトークン一覧と出現回数
といったようなものを求めるにはどうしたら良いでしょう?


groongaコマンドで
  select --table bigram
などするとわかるのかと思ったのですが、これで得られる
comment_index
とか
users_index
の値が何を表す数字なのかわかりませんでした。
(ドキュメントidかと思ったのですが、ドキュメントid=1
しかレコードが存在しないのに、3とかが返って来たりするので
よくわかりませんでした)

rroongaだと何か取れて来るのかと思い
users_index = Groonga["bigram.users_index"]
users_index.search("foo").each do |record|
  pp record
end
とかしてみましたが、よくわからないHashが
取れて来たり...

http://www.clear-code.com/blog/2011/10/5.html
ここの説明にある lexicon とか index columnのvalue
などにアクセスできると良いのですが、
もしかして、そんなプリミティブなことをしなくても
うまいこと検索条件を組み立てるだけで
欲しい情報が得られたりするのでしょうか。

以上、よろしくお願い致します。




groonga-dev メーリングリストの案内
Back to archive index