toshio_uchiy****@mirro*****
toshio_uchiy****@mirro*****
2017年 3月 30日 (木) 20:18:14 JST
各位 お世話になります。内山と申します。 先ほどのメール言葉足らずでした。誤解された方もいるかと 思いますので、加筆します。 現在のわたくしの使っている全文検索エンジンだと、漢字2文字「感謝」で 早くて(わたくしの環境では、1ミリ秒以下)ローマ字5文字apple だと遅い (わたくしの環境では、200ミリ秒程度)という傾向が見られます。 できれば、200文字 x 5000万行(ローマ字、ひらがな、カタカナ、 漢字が混じっている)でローマ字の単語(英単語)、ひらがなの単語、 漢字の単語、カタカナの単語で検索した時に、どれも、1ミリ秒を 切って0.x ミリ秒だと助かります。 ヒット数は 100件から1000件を考えています。もしかしたら1万件 くらいもあるかも知れません。 上記のスペックを期待して、PGroonga を試してみようと考えています。 何かアドバイスありましたらよろしくお願いします。 -----Original Message----- From: groon****@lists***** [mailto:groon****@lists*****] On Behalf Of toshio_uchiy****@mirro***** Sent: Thursday, March 30, 2017 3:00 PM To: groon****@lists***** Subject: [groonga-dev,04305] よろしくお願いします。 先ほど、groong のメーリングリストに加入させていただいた内山と申します。 よろしくお願いします。 talk がなくて、dev に入会してしまったようですが、大丈夫でしょうか。 早速ですが、PGroonga について質問させてください。場違いでしたら 返信なしでも構いません。 PGroonga のページ https://pgroonga.github.io/ja/overview/ を拝見すると、 「ソースコードを変更しなくてもあらゆる言語をサポートした全文検索を実現できま す」 と書いてあります。この点について質問させてください。 PostgreSQL 9.4 あるいは 9.5 系で、日本語や英語 200文字 x 5000万行(initdb は、UTF8) 程度のデータに全文検索用のインデックスを付けた時、何も気にせず検索語にローマ 字数文字、 ひらがな数文字を使っても問題ないでしょうか。 現在、漢字2文字だと早くて(わたくしの環境では、1ミリ秒以下)ローマ字5文字 apple だと遅い (わたくしの環境では、200ミリ秒程度)という傾向が見られます。 できれば、200文字 x 5000万行(ローマ字、ひらがな、カタカナ、漢字が混じって いる)で ローマ字の単語、ひらがなの単語、漢字の単語で検索した時に、どれも、1ミリ秒を 切って0.x ミリ秒 だと助かります。 マシンは、Fujitsu TX1310 M1、メモリー 32GB(アドテックのサーバー用)、HDD WD 1TBミラーリング (RAIDサーバー用 2 台)です。CPU は、Celeron G1820 です。 アドバイスあれば助かります。よろしくお願いします。 _______________________________________________ groonga-dev mailing list groon****@lists***** http://lists.osdn.me/mailman/listinfo/groonga-dev