[groonga-dev,00500] Re: 1つのインデックスにおける論理上の上限値について

Back to archive index

Kouhei Sutou kou****@clear*****
2011年 4月 21日 (木) 19:28:00 JST


須藤です。

In <20110****@S1000*****>
  "[groonga-dev,00499] Re: 1つのインデックスにおける論理上の上限値について" on Thu, 21 Apr 2011 19:10:04 +0900,
  ookub****@sec***** (大久保 聡) wrote:

> あと、もう1点ご存知であれば教えてください。
> 現状の語彙数を調べる方法なのですが、
> 
> ・MySQLでは、以下のような方法で調査可能でしょうか?
>  SHOW SENNA STATUS で、
>  『語彙テーブル (.SEN.I) のレコード数の合計を示します
>  - Senna_lexicon_size』
>  このレコード数の合計値が、
>  現状の語彙数と考えれば良いのでしょうか。

むむ。groonga storage engineではなく、Tritonnの話でしょうか?
おそらく、それであっていると思います。

> ・postgresqlでは、調べることは難しいのでしょうか?

す、すみません。。。
そちらはわかりません。


別解ですが。。。
groonga storage engineもtextsearch_groongaも内部でgroongaの
データベースを持っています。なので、groongaコマンドでSQL経由
ではなく直接語彙数を調べることができます。

例えば、lexiconテーブルを語彙表に使っている場合は以下のよう
にして調べられます。

  % groonga db-dir/db select lexicon --limit 0
  [[0,1303381480.517,0.000982224],[[[28204],[["_id","UInt32"],["_key","ShortText"],...]]]]

↑の結果だと28204が語彙数です。


と、ここまで書いて思ったのですが、

> 現状の語彙数を調べる方法なのですが、

ということなので、「現在はSennaを利用していて、そのSennaの語
彙数を調べる方法」という意味でしょうか?

であれば、↑に書いたことは見当違いですね。。。


> #現状10万件。10年間で100万件程度の規模を想定しています。
> #件数としては、それほどではないので、
> #最大レコード数と最大インデックスサイズは、
> #クリアできると踏んでおりますが、
> #インデックスを張る対象カラムに含まれる文字数が
> #数百、もしくは、千文字以上のものもあり、
> #この最大語彙数の制限に引っかかることを懸念しているもので。

なるほど。なので、現在の語彙数を調べてみて10年後にどうなって
いるかを推定したいわけですね。

-- 
須藤 功平 <kou****@clear*****>
株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270)

プログラミングが好きなソフトウェア開発者を募集中:
  http://www.clear-code.com/recruitment/




groonga-dev メーリングリストの案内
Back to archive index