Develop and Download Open Source Software

View README

category(Tag) tree

file info

category(Tag)
root
file name
README
last update
2006-12-12 16:36
type
HTML
editor
Masatake Iwasaki
description
Ludiaの概要と、基本的な使い方についての説明です。
language
Japanese
translate

Ludia 0.9.0 ユーザガイド

Ludiaについて

概要

LudiaはPostgreSQLに高速な全文検索機能を提供します。 全文検索エンジンSennaを利用し、データベース内のテキスト情報を高速検索します。 Ludiaは以下のような特徴をもっています。

PostgreSQLインデックス機能への統合
PostgreSQLのインデックスアクセスメソッドとして実装されているため、 B-treeインデックスなど他の種類のインデックスと同じように、 あるいは他の種類のインデックスと組み合わせて使うことができます。 検索は追加定義の「@@」演算子を用いて行います。 また、テーブルにレコードの追加、更新、削除を行った際は、 インデックス側の情報も自動的に更新されます。
スコアを利用したクエリ文
全文検索エンジンの検索スコア(検索内容との合致度)をクエリ中で取得し、 フィルタ条件やソート条件として使用することができます。

ライセンス

LudiaはOSS(オープンソースソフトウェア)です。 あなたは、Free Software Foundationが公表した GNU Lesser General Public Licenseのバージョン2.1が定める条項に従って、 本プログラムを再頒布または変更することができます。 頒布にあたっては、 市場性及び特定目的適合性についての暗黙の保証を含めて、 いかなる保障も行いません。 詳細は GNU LESSER GENERAL PUBLIC LICENSE Version 2.1 をお読みください。

動作環境

以下の環境で動作確認をしています。

OS:RedHat Enterprise Linux AS[ES] 4
DBMS:PostgreSQL 8.1.5
Senna:0.8.2
MeCab:0.93

制限事項

  • 複数列インデックスとしては使用できません。
  • 一意性インデックスとしては使用できません。
  • VACUUMには対応していません。 VACUUM FULL後にテーブルを更新すると、 インデックスとテーブルの内容の整合性が取れなくなる場合があります。 VACUUM FULLを行った場合には、インデックスを再構築してください。
  • DROP、REINDEXを実行すると、Sennaのインデックスファイルが残ります。 ( インデックスの削除 の節に削除方法があります。)
  • LudiaのインデックスによるCLUSTERには対応していません。
  • (@@演算子は)シーケンシャルスキャンとして実行された場合に、 インデックススキャンと同等な結果を返却することができません。

問い合わせ先

バグ報告や技術的な質問については、 Ludia-usersメーリングリスト でお問い合わせください。

インストール

インストール方法については、 このファイルと同じディレクトリにあるINSTALLを参照してください。

使い方

インデックスアクセスメソッドの登録

Ludiaを使用するデータベースに対してインデックスアクセスメソッドを登録します。 ソースアーカイブに含まれている pgsenna2.sql をpsqlから実行してください。 (pgsenna2.sqlはPostgreSQLのshareディレクトリにインストールされます。):

$ psql -f /usr/local/pgsql/share/pgsenna2.sql testdb

設定ファイルの編集

Ludiaを使用するデータベースクラスタのpostgresql.confファイルに、 以下の設定内容を追加してください。 設定を反映するためにはPostgreSQLを再起動する必要があります。 postgresql.confの設定が反映されていないと、 実行時にエラーになってしまうので注意してください。 設定内容についての詳細は、 実行時の設定 の節を参照してください。:

custom_variable_classes = 'ludia'
ludia.max_n_sort_result = 10000
ludia.enable_seqscan = on
ludia.sen_index_flags = 31

もしすでにcustom_variable_classesが設定されている場合は、 そこにludiaというクラス名を追加してください。

インデックスの作成

ここでは、例として以下のようなテーブルを利用します。:

CREATE TABLE table1 (col1 text, col2 varchar(128));
INSERT INTO table1 VALUES ('すもももももももものうち', 'あの壺はよいものだ');
INSERT INTO table1 VALUES ('ももから生まれた桃太郎', 'あの壷はよいものだ');

全文検索インデックスはCREATE INDEX 文を利用して作成します。:

CREATE INDEX index1 ON table1 USING fulltext(col1);

Ludiaがインデックス対象とできるのはtext型のみなので、 char型などの列に対してインデックスを作成したい場合はキャストしてください。:

CREATE INDEX index2 ON table1 USING fulltextb((col2::text));

インデックスアクセスメソッド名には

  • fulltext : 正規化 + 形態素解析 (SEN_INDEX_NORMALIZE)
  • fulltextb : 正規化 + 2-gram (SEN_INDEX_NORMALIZE|SEN_INDEX_NGRAM)
  • fulltextu : ユーザ定義

の3種類があり、どれを指定するかによってSennaインデックスのフラグが変わります。 ユーザ定義(fulltextu)の詳細は Sennaインデックス作成時のオプション の節を参照してください。

検索の実行

Ludiaのインデックスを用いた検索を行う場合には @@ 演算子を使用します。 @@ 演算子の右辺には Sennaの検索クエリ を指定してください。

SELECT * FROM table1 WHERE col1 @@ 'もも';
           col1           |        col2
--------------------------+--------------------
 すもももももももものうち | あの壺はよいものだ
 ももから生まれた桃太郎   | あの壷はよいものだ
(2 rows)

また、この検索における検索スコアを取得するためには、 pgs2getscore関数を利用します。 pgs2getscore関数は2つの引数をとります。 1番目の引数には検索対象となった行のTIDを、 2番目の引数にはインデックス名を指定してください。:

SELECT col1, pgs2getscore(table1.ctid, 'index1') FROM table1 WHERE col1 @@ 'もも';
           col1           | pgs2getscore
--------------------------+--------------
 すもももももももものうち |           10
 ももから生まれた桃太郎   |            5

インデックスの削除

PostgreSQLのインデックスリレーションファイルと、 Ludiaのインデックスファイルは以下の5つから構成されます。 (テーブル空間を使用している場合は、テーブル空間定義時に指定した場所に置かれます。)

  1. PGDATA/base/データベースのOID/インデックスのファイルノード番号
  2. PGDATA/base/データベースのOID/インデックスのファイルノード番号.SEN
  3. PGDATA/base/データベースのOID/インデックスのファイルノード番号.SEN.i
  4. PGDATA/base/データベースのOID/インデックスのファイルノード番号.SEN.i.c
  5. PGDATA/base/データベースのOID/インデックスのファイルノード番号.SEN.l

1 はPostgreSQLのインデックスリレーションファイル、 2〜5はSennaのインデックスファイルです。 2〜5のファイルは手作業で削除する必要があります。

参考として、インデックスのファイルノード番号は以下のようなクエリで取得できます。:

SELECT relfilenode FROM pg_class WHERE relname = 'index1';

また、データベースのOIDは以下のようなクエリで取得できます。:

SELECT oid FROM pg_database WHERE datname = 'dbname';

1のファイルについては、DROP INDEXを実行することで削除されます。:

DROP INDEX index1;

あるいは、pgs2destroy関数を利用すると、 データベース中の不要になったSennaインデックスファイルを一括して削除できます。 pgs2destroy関数は、2~5が存在するが1のファイルが存在しない、という場合に、 2~5のファイルを削除します。:

# DROP TABLE table1;
DROP TABLE

# SELECT pgs2destroy();
 pgs2destroy
-------------
           1
(1 row)

関数の返り値は、削除したインデックス数です。 (上記の2~5のファイルで1セットです。)

実行時の設定

シーケンシャルスキャンの抑制

@@演算子を用いた全文検索条件を指定しても、シーケンシャルスキャンが実行された場合には、 インデックススキャンの場合と同様の検索を行うことができません。 そのためLudiaでは、 デフォルトではシーケンシャルスキャンが実行された場合にエラーにする設定になっています。 (この例ではenable_indexscanをoffにして、シーケンシャルスキャンを実行しています。):

# SET enable_indexscan TO off;
SET

# EXPLAIN SELECT col1 FROM table1 WHERE col1 @@ 'もも';
                      QUERY PLAN
-------------------------------------------------------
 Seq Scan on table1  (cost=0.00..1.02 rows=1 width=32)
   Filter: (col1 @@ 'もも'::text)
(2 rows)

# SELECT col1 FROM table1 WHERE col1 @@ 'もも';
ERROR:  pgsenna2: sequencial scan disabled.
ERROR:  pgsenna2: sequencial scan disabled.

この設定はpostgresql.confのludia.enable_seqscan変数で指定されますが、 SETコマンドでも変更することができます。 (SETコマンドによる変更はそのセッション内でのみ有効です。):

# SET ludia.enable_seqscan TO on;
SET

# SELECT col1 FROM table1 WHERE col1 @@ 'もも';
           col1
--------------------------
 すもももももももものうち
 ももから生まれた桃太郎
(2 rows)

しかし、この場合@@演算子は、単純な文字列の比較をしているだけで、 全文検索を行っている場合と同じ結果が得られるわけではないので注意してください。 たとえば、Sennaの+演算子を付けて検索しようとした場合、 単純に'+もも'という文字列が含まれるかが検査されるため、文字列は一致しなくなります。:

# SELECT col1 FROM table1 WHERE col1 @@ '+もも';
 col1
------
(0 rows)

検索ヒット数の上限の設定

Ludiaのデフォルトの設定では、 検索でヒットした行をスコアが高い順に postgresql.confのludia.max_n_sort_resultで設定された行数まで返却します。:

# SHOW ludia.max_n_sort_result;
 ludia.max_n_sort_result
-------------------------
 10000
(1 row)

# SELECT col1, pgs2getscore(ctid, 'index1') FROM table1 WHERE col1 @@ 'もも';
           col1           | pgs2getscore
--------------------------+--------------
 すもももももももものうち |           10
 ももから生まれた桃太郎   |            5
(2 rows)

この上限はSETコマンドでも変更することができます。 (SETコマンドによる変更はそのセッション内でのみ有効です。):

# SET ludia.max_n_sort_result TO 1;
SET

# SELECT col1, pgs2getscore(ctid, 'index1') FROM table1 WHERE col1 @@ 'もも';
           col1           | pgs2getscore
--------------------------+--------------
 すもももももももものうち |           10
(1 row)

Sennaインデックス作成時のオプション

アクセスメソッドとしてfulltextuを選択すると、 インデックス作成時にSennaインデックスのフラグを指定することができます。 利用できるフラグは(Senna 0.8.2では)以下のような定義と意味をもっています。 (詳しくは SennaのAPIドキュメント を参照してください。)

#define SEN_INDEX_NORMALIZE                     0x0001
#define SEN_INDEX_SPLIT_ALPHA                   0x0002
#define SEN_INDEX_SPLIT_DIGIT                   0x0004
#define SEN_INDEX_SPLIT_SYMBOL                  0x0008
#define SEN_INDEX_NGRAM                         0x0010
#define SEN_INDEX_DELIMITED                     0x0020
SEN_INDEX_NORMALIZE
英文字の大文字/小文字、全角文字/半角文字を正規化してインデックスに登録する
SEN_INDEX_SPLIT_ALPHA
N-gramインデックスで正規化を指定した際、英文字列もN文字の要素に分割する (それ以外の場合は連続した英文字列を1単語とする)
SEN_INDEX_SPLIT_DIGIT
N-gramインデックスで正規化を指定した際、数字文字列もN文字の要素に分割する (それ以外の場合は連続した数字文字列を1単語とする)
SEN_INDEX_SPLIT_SYMBOL
N-gramインデックスで正規化を指定した際、記号文字列もN文字の要素に分割する (それ以外の場合は、連続した記号文字列を1単語とする)
SEN_INDEX_NGRAM
(形態素解析ではなく)n-gramを用いる
SEN_INDEX_DELIMITED
(形態素解析ではなく)空白区切りで単語を区切る。

postgresql.confの設定には、10進数の値を指定してください。 例えば、 SEN_INDEX_NGRAM|SEN_INDEX_NORMALIZE|SEN_INDEX_SPLIT_ALPHA というフラグを指定する場合には、:

ludia.sen_index_flags = 19

となります。

使い方(応用編)

ヒット件数を高速に取得する

pgs2getnhits() 関数を用いると、 セッション内で最後に行われたSennaの検索ヒット件数を取得することができます。:

# SELECT * FROM table1 WHERE col1 @@ 'もも';
           col1           |        col2
--------------------------+--------------------
 すもももももももものうち | あの壺はよいものだ
 ももから生まれた桃太郎   | あの壷はよいものだ
(2 rows)

# SELECT pgs2getnhits();
 pgs2getnhits
--------------
            2
(1 row)

これを利用すると、ヒット件数が非常に多い場合でも、 LIMIT句と組み合わせて利用することで、高速にヒット件数を取得することができます。:

# SELECT * FROM table1 WHERE col1 @@ 'もも' LIMIT 0;
 col1 | col2
------+------
(0 rows)

# SELECT pgs2getnhits();
 pgs2getnhits
--------------
            2
(1 row)

ただし、ここで得られるヒット件数はSennaの検索結果についての値であるため、 以下に挙げるような制限があります。

  • この方法で得られるヒット件数は、セッション内で最後に行われたSennaの検索に関するものです。 一回の問い合わせ中に複数回、同一インデックスに対する検索が行われるような場合には、 最後に行われるSennaインデックスのスキャンに関するヒット件数が得られます。
  • 問い合わせに全文検索条件以外の条件が指定されていても、反映はされません。
  • 得られるヒット件数にはUPDATEやDELETEで無効になった行も含まれています。 インデックスの更新が頻繁に行われる場合には、誤差が大きくなります。
  • 検索ヒット数の上限設定(ludia.max_n_sort_result の値)は、 ここで得られるヒット件数には反映されません。

テキストフィルタを利用する

Ludiaのユーティリティ関数を利用することで、PDFファイルに対してインデックスを作成することができます。 ここでは Xpdf というツールに含まれている、pdftotextというコマンドを利用します。 まずはXpdfと日本語サポートパッケージをインストールしてください。

Ludiaではpdftotextを利用するための関数が2種類用意されています、 pgs2pdftotext1という関数は、PDFファイルのpathを引数としてとり、 pdftotextを呼び出してPDFファイルからテキストを取り出します。:

# select pgs2pdftotext1('/tmp/PostgresForest.pdf');
 pgs2pdftotext1
-----------------

高性能・高信頼の並列分散データベース環境を低コストで実現 複数ノード上
でそれぞれ稼動している PostgreSQL をシングルシステムイメー ジとしてユー
ザに提供 PostgreSQL と互換性があるため、アプリケーション開発時に新たな
トレーニン グが不要 オープンソースでのシステム構築可能性を向上
...(省略)

また、pdf2pdftotext2という関数はPDFファイルそのものをbytea型のデータとして受け取り、 (それをtmpディレクトリに一時ファイルとして書き出して) pdftotextを呼び出し、PDFファイルからテキストを書き出します。:

# select pgs2pdftotext1('\\120\\104\\106\\055\\061\\056\\064\\012...(省略)');

ここでは例として、以下のようなテーブルを使用します。:

# CREATE TABLE pdffiles (id SERIAL PRIMARY KEY, filepath text, filedata bytea);

# \d pdffiles
                          Table "public.pdffiles"
  Column  |  Type   |                       Modifiers
----------+---------+-------------------------------------------------------
 id       | integer | not null default nextval('pdffiles_id_seq'::regclass)
 filepath | text    |
 filedata | bytea   |
Indexes:
    "pdffiles_pkey" PRIMARY KEY, btree (id)

PDFファイルは、

  1. filepath列にはPDFファイルのPATHが格納され、ファイルそのものはファイルシステム上に格納する。
  2. filedata列にPDFファイルそのものをbatea型で格納する。

のいずれかの方法で格納されているとします。:

# SELECT id, filepath, substring(encode(filedata, 'hex') from 1 for 30) FROM pdffiles;
 id |        filepath         |           substring
----+-------------------------+--------------------------------
  1 | /tmp/PostgresForest.pdf | 255044462d312e340a25c7ec8fa20a
(1 row)

1の場合にはpgs2pdftotext1を、2の場合にはpgs2pdftotext2を利用して 関数インデックスを作成することができます。:

# CREATE INDEX pidx1 on pdffiles USING fulltextb(pgs2pdftotext1(filepath));
CREATE INDEX

# CREATE INDEX pidx2 on pdffiles USING fulltextb(pgs2pdftotext2(filedata));
CREATE INDEX

# \d pdffiles
                          Table "public.pdffiles"
  Column  |  Type   |                       Modifiers
----------+---------+-------------------------------------------------------
 id       | integer | not null default nextval('pdffiles_id_seq'::regclass)
 filepath | text    |
 filedata | bytea   |
Indexes:
    "pdffiles_pkey" PRIMARY KEY, btree (id)
    "pidx1" fulltextb (pgs2pdftotext1(filepath))
    "pidx2" fulltextb (pgs2pdftotext2(filedata))

このインデックスを利用することで、PDFファイル中のテキストに対する検索を行うことができます。 検索を実行する際にも列名に対して関数を適用してください。 (検索の際には関数は実行されません。):

# SELECT id FROM pdffiles WHERE pgs2pdftotext1(filepath) @@ '高性能';
 id
----
  1
(1 row)

# SELECT id FROM pdffiles WHERE pgs2pdftotext2(filedata) @@ '高信頼';
 id
----
  1
(1 row)

ここで、PDFファイルに複製不可やパスワードの設定が行われていると、 この関数はエラーを返すことに注意してください。