[Groonga-commit] droonga/presentation-droonga-meetup-1-introduction at d8509b3 [master] Add database size examples

Back to archive index

Piro / YUKI Hiroshi null+****@clear*****
Wed Jul 30 05:03:00 JST 2014


Piro / YUKI Hiroshi	2014-07-30 05:03:00 +0900 (Wed, 30 Jul 2014)

  New Revision: d8509b3d6350a795a41bd1d1e4f547919dcfc02e
  https://github.com/droonga/presentation-droonga-meetup-1-introduction/commit/d8509b3d6350a795a41bd1d1e4f547919dcfc02e

  Message:
    Add database size examples

  Modified files:
    benchmark/README.md

  Modified: benchmark/README.md (+13 -10)
===================================================================
--- benchmark/README.md    2014-07-30 03:19:26 +0900 (8c2b141)
+++ benchmark/README.md    2014-07-30 05:03:00 +0900 (fe9f39e)
@@ -69,17 +69,25 @@ Wikipediaのデータを取得し、Groongaのダンプファイルに変換す
     % bundle install
     % time rake data:convert:groonga:ja
 
-既定の状態では、Wikipedia日本語版の全ページのうち先頭5000件、各ページは先頭から1000文字までのみ変換される。
+既定の状態では、Wikipedia日本語版の全ページのうち先頭5000件、各ページは先頭から最大1000文字までのみ変換される。
 それ以上の件数を変換するには、以下の箇所で「--max-n-*」を指定しているコマンドラインオプションを変更する。
 (正しいやり方が分かり次第、この説明を更新する。)
 
 https://github.com/droonga/wikipedia-search/blob/master/lib/wikipedia-search/task.rb#L79
 
-検証時には、184万件のページ全件をロードするとデータベースは17GiB程度になった。
-大雑把に考えて、10万件で1GiBになる。
-前述の計算から、データベースサイズは1.5GiB程度までに収める必要があるので、ロードするべきページの件数は15万件程度が妥当と言える。
+件数とデータベースサイズは残念ながら比例関係にない。
+以下は、実際の変換結果。
 
-検証環境では、15万件のデータの変換には12分程度を要した。
+ * 184万件のページ全件をロードすると、データベースは17GiB程度になった。
+   (Groongaへのロードには10時間程度を要した)
+ * 15万件のページをロードすると、データベースは3GiB程度になった。
+   (変換には12分程度、Groongaへのロードには24分程度を要した)
+ * 7万5千件のページをロードすると、データベースは1.9GiB程度になった。
+   (変換には7分程度、Groongaへのロードには12分程度を要した)
+ * 30万件のページを各ページごとに最大1000文字までロードすると、データベースは1.1GiB程度になった。
+   (変換には17分程度、Groongaへのロードには6分程度を要した)
+
+以上のことから、今回は30万件のページを各ページごとに最大1000文字まで変換したデータに基づく1.1GiBのデータベースを使用した。
 
 
 ## Groongaのセットアップ
@@ -103,9 +111,6 @@ https://github.com/droonga/wikipedia-search/blob/master/lib/wikipedia-search/tas
     % time (cat ~/wikipedia-search/config/groonga/indexes.grn | groonga $HOME/groonga/db/db)
     % time (cat ~/wikipedia-search/data/groonga/ja-pages.grn | groonga $HOME/groonga/db/db)
 
-検証環境では、184万件全件のロードだと10時間程度を要した。
-15万件のロードだと、24分を要した。
-
 ### HTTPサーバの起動
 
     % groonga -p 10041 -d --protocol http $HOME/groonga/db/db
@@ -185,8 +190,6 @@ droonga-sendを使うが、スキーマ定義の時は宛先は1ノードだけ
                            --server=192.168.200.4 \
                            --report-throughput)
 
-検証環境では、15万件のロードだとXX分を要した。
-
 ## ベンチマーク実行環境のセットアップ
 
 192.168.200.2で行う。
-------------- next part --------------
HTML����������������������������...
Download 



More information about the Groonga-commit mailing list
Back to archive index