Tasuku SUENAGA
a****@razil*****
2008年 3月 12日 (水) 16:16:29 JST
末永です。 sennachk -lの出力結果について説明します。 tid(Term ID): 単語のIDです。 df(Document Frequency): 単語が出現する文書数です。 sf(Section Frequency): 単語が出現するセクション数です。 nposts(Number of POSTingS): 単語が出現する総数です。 term(TERM): 単語そのものです。 Sennaは、1つの文書を複数にセクションに区切って保持することができます。 これらの値を用いて、 nposts / df = ある単語が1文書あたりに出現する平均回数 などの計算を行うことができます。 渡部 浩二 さんは書きました: > 渡部です。 > > 返信ありがとうございます。 > > 私が得たい情報は、 > トークン化された文字列が実際にどのように登録されているかということです。 > > 教えて頂いた、sennachkを使用することにより確認することができました。 > ありがとうございました。 > > そこで、sennachkに関して質問なんですが、 > 下記項目について、何を表しているのか教えていただけませんでしょうか。 > > tid, > df, > sf, > nposts > term > > 宜しくお願いします。 > > > On Wed, 12 Mar 2008 13:50:56 +0900 > Tasuku SUENAGA <a****@razil*****> wrote: > >> 末永です。 >> こんにちは!! >> >> インデックスのどのような情報の得たいのでしょうか。 >> >> sennachkというコマンドに -l オプションを与えることによって、 >> 単語一覧のみ取得可能です、が、 >> あまりリッチな情報を得ることができませんし、 >> CUIのアプリケーションです。 >> >> 将来的に、 >> SennaQLを用いたインデックスブラウザを作成することは >> 予定されています。 >> >> 渡部 浩二 さんは書きました: >>> 渡部と申します。 >>> >>> 最近Sennaを使い始めたばかりの初心者です。 >>> >>> LuceneのLukeのようなインデックスブラウザはSennaにはないのでしょうか? >>> ない場合、今後作る予定などはありますか。 >>> >>> ご存知の方いらっしゃいましたら教えてください。 --- tasuku