PGroongaをインストールしてPostgreSQLの全文検索を高速に実行する

PostgreSQLで全文検索を実現するにはいくつか方法がありますが、PGroongaをインストールして使用する方法がとても高速です。

実際、今仕事で開発しているWEBアプリケーションで、大量のテキストデータを全文検索する必要がでてきました。データベースはPostgreSQLを使っていて、シノニム（同義語）を含めたクエリーを発行するため、多くの類義語をORでつないで検索することになり、スピードが著しく落ちてしまいました。そのため、高速な全文検索はできないかと思い、調査したところPGroongaというのが良さそうということで、早速インストールして使ってみました。

結果はとても良好で、とても快適に検索できるようになりました。私がインストールを行った環境は以下のものです。

インストールした環境とプログラムのバージョン

Cent OS 5.5
PostgreSQL 9.4.5
Groonga 5.1.0
PGroonga 1.0.0

以下にPostgreSQLのインストールとPGroongaのインストール、ならびにPGroongaでの全検索の方法をまとめていますのでご参考にしてみてください。

PostgreSQLをインストール

まず最初にPostgreSQLをインストールします。パッケージではなく、ソースからコンパイルしてインストールしています。ここでは、PostgreSQLを/home/test_user/postgres下にインストールしています。

１．PostgreSQL 9.4.5をダウンロードします。PGroongaはPostgreSQL9.3, 9.4に対応しています。
wget https://ftp.postgresql.org/pub/source/v9.4.5/postgresql-9.4.5.tar.gz

２．解凍します。
tar xvfz postgresql-9.4.5.tar.gz

３．ディレクトリ変更します。
cd postgresql-9.4.5

４．./configure --prefix=/home/test_user/postgres

５．make

６．make install

７．/home/test_user/postgresにPostgreSQL 9.4.5がインストールされます。

８．環境変数の設定
　　.bash_profileに以下の変数をセットします。
　　

PATH=$PATH:/home/test_user/postgres/bin
export POSTGRES_HOME=/home/test_user/postgres
export PGDATA=$POSTGRES_HOME/data
export PGLIB=$POSTGRES_HOME/lib
export LD_LIBRARY_PATH=$POSTGRES_HOME/lib:/home/test_user/groonga/lib ←　これは後で必要になります。
export PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/home/test_user/groonga/lib/pkgconfig ←　これは後で必要になります。

９．source .bash_profile

１０．initdb

１１．セットアップ完了

Groongaインストール

次にGroongaを/home/test_user/groongaにインストールします。インストールは以下のページを参考にしました。http://groonga.org/ja/docs/install/centos.html#build-from-source　（Groonga公式サイト）

１．Groongaをダウンロードします。
　　wget http://packages.groonga.org/source/groonga/groonga-5.1.0.tar.gz

２．解凍します。
　　tar xvzf groonga-5.1.0.tar.gz

３．ディレクトリを変更します。
　　cd groonga-5.1.0

４．./configure --prefix=/home/test_user/groonga

５．make -j$(grep '^processor' /proc/cpuinfo | wc -l)
　　環境を見て最適化しながらインストールを行うので、しばらく時間がかかります。

６．make install

７．インストール完了です。

PGroongaのインストール

最後にPGroongaをインストールします。以下のPGroonga公式サイトを参考にしました。
参考サイト：https://pgroonga.github.io/ja/install/source.html（公式サイト）

１．事前確認　
　pg_config にパスが通っているかどうかを確認します。pg_confまで入力してタブ・キーを押し、補完されればパスは通っています。

　pkg-config --list-allを入力して、groongaが入っているかどうかを確認する。
　ソースから/home/test_user以下にインストールする場合はpkg_configには入っていないので、上記のように.bash_profileに環境変数をセットしておく必要があります。

２．PGroongaをダウンロードします。
wget http://packages.groonga.org/source/pgroonga/pgroonga-1.0.0.tar.gz
　
３．ディレクトリを移動します。
　　cd pgroonga-1.0.0

４．PGroongaをビルドします。
　　make

５．make install
　　インストール完了です。

データベース作成

引き続いてデータベースを作成します。

１．pgroonga_testという名前のデータベースを作成します。
　　psql --command 'CREATE DATABASE pgroonga_test'

２．CREATE EXTENSION pgroongaの実行
psql -d pgroonga_test --command 'CREATE EXTENSION pgroonga;'

これを実行したときにundefined symbolとか出ましたが、LD_LIBRARY_PATHをいじってデータベースを再起動したら直りました。上に書いたものが正常に動いたLD_LIBRARY_PATHになります。

インデックス作成

PGroongaでデータベースを作成することができたら、いよいよテーブルを作ってデータを登録していきます。テーブルを作る際にはPGroongaで高速に検索できるインデックスを張っておきます。

text型のカラムを全文検索させたかったので、次のようなインデックスを作成しました。

CREATE INDEX ${INDEX_NAME} ON ${TABLE_NAME} USING pgroonga (${COLUMN});

たとえば、次のようなテーブルがあるとします。

CREATE TABLE memos (
id integer,
content text
);

pgroongaでのインデックスは主に２つあります。

１．tokenizerを指定しない

CREATE INDEX pgroonga_content_index
ON memos
USING pgroonga (content);

２．tokenizerを指定する

CREATE INDEX pgroonga_content_index
ON memos
USING pgroonga (content)
WITH (tokenizer='TokenBigramSplitSymbolAlphaDigit');

１と２の違いは、tokenizerを指定している点にあります。１の場合はtokenizerを指定していません。１はキーワードがアルファベットの場合、部分一致での検索に対応していません。２でtokenizerを指定すると、アルファベットでも部分一致が有効になります。

たとえば、memosテーブルのcontentsカラムに、PostgreSQLという言葉が入っていて、sqlで検索すると、１の場合はヒットせず、２だとヒットするということになります。前方一致でpostgresで検索すると１も２も両方ヒットします。
どのような検索をするかによって、tokenizerの指定をする必要があります。

参考ページ：https://pgroonga.github.io/ja/reference/create-index-using-pgroonga.html

全文検索

インデックスを作成した後は、とても簡単なSQLで高速な全文検索を実行できます。例として挙げると、

１．column LIKE '%キーワード%'
２．column @@ 'キーワード'

という方法があります。１の方法は、これまで通りlikeやilikeを使ってPGroongaの全文検索が実行できるのがうれしいところです。既存のSQLを変更する必要がありません。ただ、この場合は通常のlike演算子よりも速いそうですが、２のやり方よりは遅くなるそうです。

もしlikeでスピードが出ないということであれば、@@演算子を使った方法に変えた方が良さそうです。結局私は2番目の方法に変更しました。

全文検索の方法はチュートリアルのページに詳しく記載されているので、参考にしてみてください。

参考：https://pgroonga.github.io/ja/tutorial/

関連記事　

１．PostgreSQLが使えるレンタルサーバー
２．CentOS 7でのPostgreSQLの自動起動スクリプト

▲ このページの上部へ戻る

PGroongaをインストールしてPostgreSQLの全文検索を高速に実行する

PostgreSQLをインストール

Groongaインストール

PGroongaのインストール

データベース作成

インデックス作成

全文検索

レンタルサーバー

資格

デジタル製品・ソフトウェア

失敗しない転職

エンジニアの思考

技術Tips

管理人

プライバシー・ポリシー