Tomoki MAEDA
tmaed****@ruby-*****
2011年 10月 14日 (金) 22:49:28 JST
初めまして、前田と申します。 先日札幌での昼下がりイベントに参加して 今日初めて本格的にgroongaに触り始めました。 groongaに格納されているドキュメントや インデックスの情報を利用して、 tfやidfを計算したり、テキストに関する いろいろな統計情報などの算出をしたいと 考えています。 例えば、 http://groonga.org/ja/docs/tutorial/micro_blog.html のマイクロブログ検索とか http://groonga.rubyforge.org/rroonga/en/file.tutorial.html のブックマーク検索のような例において、 * ある単語が出現するドキュメント一覧とか数 * あるドキュメントに出現するトークン一覧と出現回数 といったようなものを求めるにはどうしたら良いでしょう? groongaコマンドで select --table bigram などするとわかるのかと思ったのですが、これで得られる comment_index とか users_index の値が何を表す数字なのかわかりませんでした。 (ドキュメントidかと思ったのですが、ドキュメントid=1 しかレコードが存在しないのに、3とかが返って来たりするので よくわかりませんでした) rroongaだと何か取れて来るのかと思い users_index = Groonga["bigram.users_index"] users_index.search("foo").each do |record| pp record end とかしてみましたが、よくわからないHashが 取れて来たり... http://www.clear-code.com/blog/2011/10/5.html ここの説明にある lexicon とか index columnのvalue などにアクセスできると良いのですが、 もしかして、そんなプリミティブなことをしなくても うまいこと検索条件を組み立てるだけで 欲しい情報が得られたりするのでしょうか。 以上、よろしくお願い致します。