Akihiko Shinohara
sino****@valle*****
2008年 2月 20日 (水) 00:26:09 JST
こんにちは、篠原です。
返事がとても遅くなってしまいました。すいません。
> 個人的な興味としては、
> 検索対象の
> ・件数
> ・データ量
> ・テキストの種別
> の3点が気になります。
まず、この件ですが、2つの環境として
(1) 新規登録環境
(a). 件数 約300万件
(b). データ量 約20GB
(c). テキストの種類 MEDIUMTEXT ,SJISコード
(2) 0.8系で使用していたテーブルからのインデックス再作成
(a). 件数 約300万件
(b). データ量 約13GB
(c). テキストの種類 MEDIUMTEXT ,SJISコード
但し、変換元のテーブルの型は、TEXTなので、最大でもTEXTのサイズを
超えることはありません。
という環境です。
今まで、INITIAL_N_SEGMENTSは、使用メモリサイズとスピードに関連する
パラメータと思っていて、あまり気にしていませんでしたが、
実は、以下の説明にもあるように、
http://lists.sourceforge.jp/mailman/archives/senna-dev/2006-February/000197.html
初期値の512の設定だと、最大8G程度のインデックスしか作成できないという制限な
のです
ね、言い換えれば、形態素解析では、ほぼテーブルサイズのインデックスとなり
N-gramのインデックスでは、テーブルサイズの1.5倍程度のインデックスとなるので
形態素解析では、8G
N-gramでは、5.3G
のへんが境界線という事でしょうか。
という事で最初に示した環境は無謀もいいところですね。(^^;
INITIAL_N_SEGMENTSを調整することで無事にインデックスが
作成できました。
ありがとうございました。
----
sino