Kouhei Sutou
kou****@clear*****
2011年 4月 21日 (木) 19:28:00 JST
須藤です。 In <20110****@S1000*****> "[groonga-dev,00499] Re: 1つのインデックスにおける論理上の上限値について" on Thu, 21 Apr 2011 19:10:04 +0900, ookub****@sec***** (大久保 聡) wrote: > あと、もう1点ご存知であれば教えてください。 > 現状の語彙数を調べる方法なのですが、 > > ・MySQLでは、以下のような方法で調査可能でしょうか? > SHOW SENNA STATUS で、 > 『語彙テーブル (.SEN.I) のレコード数の合計を示します > - Senna_lexicon_size』 > このレコード数の合計値が、 > 現状の語彙数と考えれば良いのでしょうか。 むむ。groonga storage engineではなく、Tritonnの話でしょうか? おそらく、それであっていると思います。 > ・postgresqlでは、調べることは難しいのでしょうか? す、すみません。。。 そちらはわかりません。 別解ですが。。。 groonga storage engineもtextsearch_groongaも内部でgroongaの データベースを持っています。なので、groongaコマンドでSQL経由 ではなく直接語彙数を調べることができます。 例えば、lexiconテーブルを語彙表に使っている場合は以下のよう にして調べられます。 % groonga db-dir/db select lexicon --limit 0 [[0,1303381480.517,0.000982224],[[[28204],[["_id","UInt32"],["_key","ShortText"],...]]]] ↑の結果だと28204が語彙数です。 と、ここまで書いて思ったのですが、 > 現状の語彙数を調べる方法なのですが、 ということなので、「現在はSennaを利用していて、そのSennaの語 彙数を調べる方法」という意味でしょうか? であれば、↑に書いたことは見当違いですね。。。 > #現状10万件。10年間で100万件程度の規模を想定しています。 > #件数としては、それほどではないので、 > #最大レコード数と最大インデックスサイズは、 > #クリアできると踏んでおりますが、 > #インデックスを張る対象カラムに含まれる文字数が > #数百、もしくは、千文字以上のものもあり、 > #この最大語彙数の制限に引っかかることを懸念しているもので。 なるほど。なので、現在の語彙数を調べてみて10年後にどうなって いるかを推定したいわけですね。 -- 須藤 功平 <kou****@clear*****> 株式会社クリアコード <http://www.clear-code.com/> (03-6231-7270) プログラミングが好きなソフトウェア開発者を募集中: http://www.clear-code.com/recruitment/