Hiroyuki Sato
hiroy****@gmail*****
2015年 8月 17日 (月) 10:03:44 JST
須藤様 佐藤です。 ありがとうございました。 よく理解できました。自分なりにまとめました。ありがとうございました。 高速にデータを検索をしたい場合、語彙表を作る。 語彙表をつくる場合、語彙表テーブルを作成する 語彙表テーブルは、検索対象のカラムと型を同じにする。 カラムAと、カラムB用に語彙表をつくる際、それぞれの型が異なる場合は、個別に語彙表テーブルを作る。 カラムAと、カラムB用に語彙表をつくる際、それぞれの型が同じ場合は、同じ語彙表テーブルでまとめたり、個別の語彙表に分けることができる。 同じにしたほうが良いのは、それぞれのカラムで同じ語句が使われており、データが共有化できるかどうかを基準にすると良い。 2015年8月16日 12:06 Kouhei Sutou <kou****@clear*****>: > 須藤です。 > > In <CA+Tq****@mail*****> > "[groonga-dev,03413] Re: 日付データと、highlight_htmlのことについて押してください。" on Sat, 15 Aug 2015 01:42:22 +0900, > Hiroyuki Sato <hiroy****@gmail*****> wrote: > >> ちなみに、二つのカラムが同じ型(ex ShortText)である場合 >> インデックス用のテーブルを別々にしたほうが良いケースはありますでしょうか? >> >> 例えば >> >> http://groonga.org/ja/docs/tutorial/match_columns.html?highlight=複数%20カラム%20インデックス >> こちらのtitle,messageのような場合 >> >> titleはTitleIndexテーブル、messageはMessageIndexとするようなケースです。 >> それぞれで異なるトークナイズの方法が違う場合はそれぞれ別にテーブルを作る必要がある >> という理解で良いでしょうか? > > はい、トークナイズの方法が違うときはそれぞれ別にテーブルを作 > る必要があります。 > > データの傾向が違うときも別にした方がよいです。 > 極端な例ですが、韓国語と日本語のデータがある場合は、別にした > 方がよいです。一緒にしても共通のトークンがほとんどないからで > す。 > > 共通のトークンがある場合は同じテーブルにするとトークン管理用 > の情報を共有できるので、効率がよいです。(ディスク効率もよい > ですし、同じトークンを登録しなくてもよいので更新時の効率もよ > いです。) > > > -- > 須藤 功平 <kou****@clear*****> > 株式会社クリアコード <http://www.clear-code.com/> > > Groongaベースの全文検索システムを総合サポート: > http://groonga.org/ja/support/ > パッチ採用 - プログラミングが楽しい人向けの採用プロセス: > http://www.clear-code.com/recruitment/ > コードリーダー育成支援 - 自然とリーダブルコードを書くチームへ: > http://www.clear-code.com/services/code-reader/ > > _______________________________________________ > groonga-dev mailing list > groon****@lists***** > http://lists.osdn.me/mailman/listinfo/groonga-dev -- Hiroyuki Sato