不偏推定量について
今日は、推定理論にもどって、不偏推定量について書こうと思う。
設定
データ集合が与えられているとして、を集合上の確率分布全体のなす集合とする。 また、モデルとして、 を仮定する。
同時独立分布
今回も、データが出てくる順番に関係なく毎回モデル上の分布にしたがって出てくるとする。 つまり、データ列が確率変数であり、各についてが確率分布に従っているとする。 このとき、データ列の具体値が得られる確率は
となっている。この性質を持つ確率分布を同時独立(independent and identically distributed; i.i.d.)分布とよぶ。
推定量(復習)
データ列からパラメータを導出する関数
を推定量と呼ぶのだった。
推定量はパラメータに値を持っていれば何でもいいから、ほとんど意味のない推定量もある。 ここで、意味のあるとは、「本当のパラメータを推定できる」と言う意味合い。
期待値(記号の導入)
では、意味のある推定量を導入する為に期待値と言うものを定義する。
関数と上の確率分布があるときに、期待値を
と定義する。また、分布がであった場合に
と書くこととする。また、データ列の確率分布がからなるi.i.d.分布だった場合、つまり、
だった場合、関数の期待値を
と書くこととする。
不偏推定量
では、意味のある推定量(のクラス)を定義する。 意味のあるとは、「本当のパラメータを推定できる」という意味合いだったから、
を満たす推定量なら、よさそう。意味合いとしては、どんなパラメータが真のパラメータであっても、 期待値の意味できちんとを当てることができる推定量。このような推定量を(大域)不偏推定量とよぶ*1。
ぱっと見たとこで分かるように、この不偏推定量はかなりきつい制限だ。 実際、モデルによっては、不偏推定量が存在しないこともある。
不偏推定量の中でも良いものを
ここでは、不偏推定量があることを前提に話をする。 このとき、推定量の誤差がもっとも小さくなるものが良い推定量と言えそう。
ここで、誤差として平均二乗誤差ををもってくると、
と分散と同じになっていることが分かる。(分散はで表すことにする。)
この分散をつかって、最も良い不偏推定量は
と定義できる。この最も良い不偏推定量は一様最小分散不偏推定量(Uniformly Minimum Variance Unbiased estimator; UMVU)とよばれる。
本当にそんなものあるの?
不偏推定量でもきつい条件だったのに、UMVUにいたってはもっと厳しい条件になっている。 さすがにそんな都合の良いものは、なさそうという感じはするけれど、いくつかのモデルでは、その存在を示すことができる。
また、最尤推定量の時にも少し書いたけれど、最尤推定量はデータの量が十分に大きいときUMVUに相当する性質を満たすことが知られている。 この性質が漸近有効性とよばれる。
これらのことについて、後日書こうと思う。
*1:全部のパラメータに対してよいと言う条件をかなり緩めて、「あるパラメータの近傍だけ不偏性をみたす」局所不偏推定量という概念もある。