情報理論関連をぐだぐだと

情報理論関係を勉強中の筆者がそれっぽいことを書くブログ

不偏推定量について

今日は、推定理論にもどって、不偏推定量について書こうと思う。

設定

データ集合\mathcal{X}が与えられているとして、\mathcal{P(X)}を集合\mathcal{X}上の確率分布全体のなす集合とする。 また、モデルとして、M = \{ p(x|\theta) \in \mathcal{P(X)}| \theta \in \Theta \subset \mathbb{R}^k \} を仮定する。

同時独立分布

今回も、データが出てくる順番に関係なく毎回モデルM上の分布p^*\in Mにしたがって出てくるとする。 つまり、データ列が確率変数X^N = (X^{(1)}X^{(2)}\cdots X^{(N)})であり、各jについてX^{(j)}が確率分布p^*(x) \in M \subset \mathcal{P(X)}に従っているとする。 このとき、データ列の具体値x^N = (x^{(1)}x^{(2)}\cdots x^{(N)})が得られる確率は

{ \displaystyle
{\rm Pr} \{X^N = x^N\} = \prod_{j = 1}^N p^*(x^{(j)})
}

となっている。この性質を持つ確率分布を同時独立(independent and identically distributed; i.i.d.)分布とよぶ。

推定量(復習)

データ列 x^Nからパラメータ \thetaを導出する関数

{ \displaystyle
\hat{\theta} :  \mathcal{X}^N \to \Theta
}

を推定量と呼ぶのだった。

推定量はパラメータに値を持っていれば何でもいいから、ほとんど意味のない推定量もある。 ここで、意味のあるとは、「本当のパラメータを推定できる」と言う意味合い。

期待値(記号の導入)

では、意味のある推定量を導入する為に期待値と言うものを定義する。

関数f:\mathcal{X}\to\mathbb{R}^l\mathcal{X}上の確率分布pがあるときに、期待値

{ \displaystyle
E_p[f(X)] = \sum_{x \in \mathcal{X}}p(x)f(x)
}

と定義する。また、分布がp(x|\theta)であった場合に

{ \displaystyle
E_\theta[f(X)] = \sum_{x \in \mathcal{X}}p(x|\theta)f(x)
}

と書くこととする。また、データ列の確率分布がp(x|\theta)からなるi.i.d.分布だった場合、つまり、

{ \displaystyle
{\rm Pr} \{X^N = x^N\} = \prod_{j = 1}^N p(x^{(j)}|\theta)
}

だった場合、関数f:\mathcal{X}^N\to\mathbb{R}^lの期待値を

{ \displaystyle
E_\theta[f(X^N)] = \sum_{x^N \in \mathcal{X}^N} \prod_{j = 1}^N p(x^{(j)}|\theta)f(x^N)
}

と書くこととする。

不偏推定量

では、意味のある推定量(のクラス)を定義する。 意味のあるとは、「本当のパラメータを推定できる」という意味合いだったから、

{ \displaystyle
E_\theta[\hat{\theta}(X^N)] = \theta, \ \ \forall \theta
}

を満たす推定量なら、よさそう。意味合いとしては、どんなパラメータ\thetaが真のパラメータであっても、 期待値の意味できちんと\thetaを当てることができる推定量。このような推定量を(大域)不偏推定量とよぶ*1

ぱっと見たとこで分かるように、この不偏推定量はかなりきつい制限だ。 実際、モデルによっては、不偏推定量が存在しないこともある。

不偏推定量の中でも良いものを

ここでは、不偏推定量があることを前提に話をする。 このとき、推定量の誤差がもっとも小さくなるものが良い推定量と言えそう。

ここで、誤差として平均二乗誤差ををもってくると、

{ \displaystyle
E_\theta[(\hat{\theta}(X^N) - \theta)^2] =: Var_\theta(\hat{\theta}(X^N))
}

と分散と同じになっていることが分かる。(分散はVarで表すことにする。)

この分散をつかって、最も良い不偏推定量\hat{\theta}^*

{ \displaystyle
Var_\theta[\hat{\theta}^*(X^N)] \leq Var_\theta[\hat{\theta}(X^N)], \ \ \forall \theta
}

と定義できる。この最も良い不偏推定量\hat{\theta}^*一様最小分散不偏推定量(Uniformly Minimum Variance Unbiased estimator; UMVU)とよばれる。

本当にそんなものあるの?

不偏推定量でもきつい条件だったのに、UMVUにいたってはもっと厳しい条件になっている。 さすがにそんな都合の良いものは、なさそうという感じはするけれど、いくつかのモデルでは、その存在を示すことができる。

また、最尤推定量の時にも少し書いたけれど、最尤推定量はデータの量Nが十分に大きいときUMVUに相当する性質を満たすことが知られている。 この性質が漸近有効性とよばれる。

これらのことについて、後日書こうと思う。

*1:全部のパラメータに対してよいと言う条件をかなり緩めて、「あるパラメータ\thetaの近傍だけ不偏性をみたす」局所不偏推定量という概念もある。