情報理論関連をぐだぐだと

情報理論関係を勉強中の筆者がそれっぽいことを書くブログ

不偏推定量について

初歩からの検定・推定理論講座

今日は、推定理論にもどって、不偏推定量について書こうと思う。

設定

データ集合 $\mathcal{X}$ が与えられているとして、 $\mathcal{P(X)}$ を集合 $\mathcal{X}$ 上の確率分布全体のなす集合とする。また、モデルとして、 $M = \{ p(x|\theta) \in \mathcal{P(X)}| \theta \in \Theta \subset \mathbb{R}^k \}$ を仮定する。

同時独立分布

今回も、データが出てくる順番に関係なく毎回モデル $M$ 上の分布 $p^*\in M$ にしたがって出てくるとする。つまり、データ列が確率変数 $X^N = (X^{(1)}X^{(2)}\cdots X^{(N)})$ であり、各 $j$ について $X^{(j)}$ が確率分布 $p^*(x) \in M \subset \mathcal{P(X)}$ に従っているとする。このとき、データ列の具体値 $x^N = (x^{(1)}x^{(2)}\cdots x^{(N)})$ が得られる確率は

${ \displaystyle {\rm Pr} \{X^N = x^N\} = \prod_{j = 1}^N p^*(x^{(j)}) }$

となっている。この性質を持つ確率分布を同時独立(independent and identically distributed; i.i.d.)分布とよぶ。

推定量（復習）

データ列 $x^N$ からパラメータ $\theta$ を導出する関数

${ \displaystyle \hat{\theta} : \mathcal{X}^N \to \Theta }$

を推定量と呼ぶのだった。

推定量はパラメータに値を持っていれば何でもいいから、ほとんど意味のない推定量もある。ここで、意味のあるとは、「本当のパラメータを推定できる」と言う意味合い。

期待値（記号の導入）

では、意味のある推定量を導入する為に期待値と言うものを定義する。

関数 $f:\mathcal{X}\to\mathbb{R}^l$ と $\mathcal{X}$ 上の確率分布 $p$ があるときに、期待値を

${ \displaystyle E_p[f(X)] = \sum_{x \in \mathcal{X}}p(x)f(x) }$

と定義する。また、分布が $p(x|\theta)$ であった場合に

${ \displaystyle E_\theta[f(X)] = \sum_{x \in \mathcal{X}}p(x|\theta)f(x) }$

と書くこととする。また、データ列の確率分布が $p(x|\theta)$ からなるi.i.d.分布だった場合、つまり、

${ \displaystyle {\rm Pr} \{X^N = x^N\} = \prod_{j = 1}^N p(x^{(j)}|\theta) }$

だった場合、関数 $f:\mathcal{X}^N\to\mathbb{R}^l$ の期待値を

${ \displaystyle E_\theta[f(X^N)] = \sum_{x^N \in \mathcal{X}^N} \prod_{j = 1}^N p(x^{(j)}|\theta)f(x^N) }$

と書くこととする。

不偏推定量

では、意味のある推定量（のクラス）を定義する。意味のあるとは、「本当のパラメータを推定できる」という意味合いだったから、

${ \displaystyle E_\theta[\hat{\theta}(X^N)] = \theta, \ \ \forall \theta }$

を満たす推定量なら、よさそう。意味合いとしては、どんなパラメータ $\theta$ が真のパラメータであっても、期待値の意味できちんと $\theta$ を当てることができる推定量。このような推定量を（大域）不偏推定量とよぶ*1。

ぱっと見たとこで分かるように、この不偏推定量はかなりきつい制限だ。実際、モデルによっては、不偏推定量が存在しないこともある。

不偏推定量の中でも良いものを

ここでは、不偏推定量があることを前提に話をする。このとき、推定量の誤差がもっとも小さくなるものが良い推定量と言えそう。

ここで、誤差として平均二乗誤差ををもってくると、

${ \displaystyle E_\theta[(\hat{\theta}(X^N) - \theta)^2] =: Var_\theta(\hat{\theta}(X^N)) }$

と分散と同じになっていることが分かる。（分散は $Var$ で表すことにする。）

この分散をつかって、最も良い不偏推定量 $\hat{\theta}^*$ は

${ \displaystyle Var_\theta[\hat{\theta}^*(X^N)] \leq Var_\theta[\hat{\theta}(X^N)], \ \ \forall \theta }$

と定義できる。この最も良い不偏推定量 $\hat{\theta}^*$ は一様最小分散不偏推定量(Uniformly Minimum Variance Unbiased estimator; UMVU)とよばれる。

本当にそんなものあるの？

不偏推定量でもきつい条件だったのに、UMVUにいたってはもっと厳しい条件になっている。さすがにそんな都合の良いものは、なさそうという感じはするけれど、いくつかのモデルでは、その存在を示すことができる。

また、最尤推定量の時にも少し書いたけれど、最尤推定量はデータの量 $N$ が十分に大きいときUMVUに相当する性質を満たすことが知られている。この性質が漸近有効性とよばれる。

これらのことについて、後日書こうと思う。

*1:全部のパラメータに対してよいと言う条件をかなり緩めて、「あるパラメータ $\theta$ の近傍だけ不偏性をみたす」局所不偏推定量という概念もある。