[groonga-dev,03415] Re: 日付データと、highlight_htmlのことについて押してください。

Back to archive index

Hiroyuki Sato hiroy****@gmail*****
2015年 8月 17日 (月) 10:03:44 JST


須藤様

佐藤です。
ありがとうございました。

よく理解できました。自分なりにまとめました。ありがとうございました。

高速にデータを検索をしたい場合、語彙表を作る。
語彙表をつくる場合、語彙表テーブルを作成する
語彙表テーブルは、検索対象のカラムと型を同じにする。
カラムAと、カラムB用に語彙表をつくる際、それぞれの型が異なる場合は、個別に語彙表テーブルを作る。
カラムAと、カラムB用に語彙表をつくる際、それぞれの型が同じ場合は、同じ語彙表テーブルでまとめたり、個別の語彙表に分けることができる。
同じにしたほうが良いのは、それぞれのカラムで同じ語句が使われており、データが共有化できるかどうかを基準にすると良い。

2015年8月16日 12:06 Kouhei Sutou <kou****@clear*****>:
> 須藤です。
>
> In <CA+Tq****@mail*****>
>   "[groonga-dev,03413] Re: 日付データと、highlight_htmlのことについて押してください。" on Sat, 15 Aug 2015 01:42:22 +0900,
>   Hiroyuki Sato <hiroy****@gmail*****> wrote:
>
>> ちなみに、二つのカラムが同じ型(ex ShortText)である場合
>> インデックス用のテーブルを別々にしたほうが良いケースはありますでしょうか?
>>
>> 例えば
>>
>> http://groonga.org/ja/docs/tutorial/match_columns.html?highlight=複数%20カラム%20インデックス
>> こちらのtitle,messageのような場合
>>
>> titleはTitleIndexテーブル、messageはMessageIndexとするようなケースです。
>> それぞれで異なるトークナイズの方法が違う場合はそれぞれ別にテーブルを作る必要がある
>> という理解で良いでしょうか?
>
> はい、トークナイズの方法が違うときはそれぞれ別にテーブルを作
> る必要があります。
>
> データの傾向が違うときも別にした方がよいです。
> 極端な例ですが、韓国語と日本語のデータがある場合は、別にした
> 方がよいです。一緒にしても共通のトークンがほとんどないからで
> す。
>
> 共通のトークンがある場合は同じテーブルにするとトークン管理用
> の情報を共有できるので、効率がよいです。(ディスク効率もよい
> ですし、同じトークンを登録しなくてもよいので更新時の効率もよ
> いです。)
>
>
> --
> 須藤 功平 <kou****@clear*****>
> 株式会社クリアコード <http://www.clear-code.com/>
>
> Groongaベースの全文検索システムを総合サポート:
>   http://groonga.org/ja/support/
> パッチ採用 - プログラミングが楽しい人向けの採用プロセス:
>   http://www.clear-code.com/recruitment/
> コードリーダー育成支援 - 自然とリーダブルコードを書くチームへ:
>   http://www.clear-code.com/services/code-reader/
>
> _______________________________________________
> groonga-dev mailing list
> groon****@lists*****
> http://lists.osdn.me/mailman/listinfo/groonga-dev



-- 
Hiroyuki Sato



groonga-dev メーリングリストの案内
Back to archive index