ANALYZEはデータベース内のテーブルの内容に関する統計情報を集計し、その結果をpg_statisticシステムテーブルに保存します。 問い合わせプランナが最も効率の良い問い合わせの実行計画を決定する際、この統計情報が使用されます。
パラメータがない場合、ANALYZEは現在のデータベース内の全てのテーブルを検査します。 パラメータがある場合、ANALYZEは指定されたテーブルのみを検査します。 さらに列名のリストを与え、その列の統計情報のみを更新することも可能です。
進行状況の表示を有効にします。
解析の対象とするテーブルの名前です(スキーマ修飾名も可)。 デフォルトは、現在のデータベース内の全テーブルです。
解析の対象とする列名です。 デフォルトは全ての列です。
デフォルトのPostgreSQLの設定では、自動バキュームデーモンがが、データが最初にロードされた時や通常の操作を通して変更された時にテーブルの自動解析まで面倒をみます。 もし自動バキュームが無効にしているならばANALYZEは定期的に、もしくは、テーブルの内容に大きな変更がある度に行うことを推奨します。 統計情報が正確であれば、プランナが最も適切な問い合わせ計画を選択できるようになります。 これによって、問い合わせ処理の速度が向上します。 VACUUMとANALYZEは、1日1回、データベースがあまり使用されていない時間帯に実行するのが一般的です。
ANALYZEは、対象とするテーブルの読み取りロックのみを必要とします。 したがって、そのテーブルに対する他の操作と並行して実行することができます。
通常、ANALYZEによって集計される統計情報には、各列の典型的な値と各列のデータ分布の概要を示す度数分布が含まれます。 ANALYZEによってあまり意味がないとみなされた場合(例えば、一意性制約が付加された列では、典型的な値というものは存在しません)や、列のデータ型が適切な演算子をサポートしていない場合は、片方もしくは両方の情報を省略することができます。 第23章に、統計情報についての詳細が記載されています。
巨大なテーブルでは、ANALYZEは、全ての行を検査するのではなく、テーブルの中からランダムにサンプルを取り出して使用します。 これによって、非常に巨大なテーブルであっても短時間で解析することが可能です。 しかし、このようにして得られた統計情報はおおよそのものでしかなく、テーブルの内容に変更がなくてもANALYZEを実行する度に変化することに注意してください。 これにより、EXPLAINが表示する、プランナの推定コストも多少変化する可能性があります。 稀に、このような不確定要素のせいで、問い合わせオプティマイザがANALYZEを実行する度に異なる問い合わせ計画を選択してしまうことがあります。 これを防止するには、以下に示すようにANALYZEで収集される統計情報の量を増やしてください。
default_statistics_target設定パラメータ変数を調整するか、もしくはALTER TABLE ... ALTER COLUMN ... SET STATISTICSを使用して統計対象を列単位に設定し、解析を列ベースにすることで、解析の範囲を制御することができます (詳しくはALTER TABLEを参照してください)。 対象値として設定するのは、典型的な値のリストにおけるエントリ数の最大値と度数分布のビンの最大数です。 デフォルトの対象値は10です。 しかし、この値は、プランナの推定精度とANALYZEの処理時間、pg_statisticの占める容量とのトレードオフによって変更可能です。 対象値を0に設定すると、その列に関する統計情報の集計は無効になります。 決してWHERE句、GROUP BY句、ORDER BY句に使用されない列に対しては、このような設定が有用です。 プランナにとってそのような列の統計情報は不要だからです。
解析する列の統計情報対象値の最大値によって、統計情報を作成するために抽出する行数が決定します。 対象値を大きくすると、比例して、ANALYZEに要する時間とディスク容量が増加します。