情報理論関連をぐだぐだと

情報理論関係を勉強中の筆者がそれっぽいことを書くブログ

最尤推定について

推定が難しいときにまずやろう

今回は最尤推定について話をする。 この推定は与えられたモデルが複雑だった場合に有効な(というか唯一使える)推定方法。 以下に理論的な話を書いていくけれども、ひょっとしたら、昨日の推定量の話は(最尤推定だけを語る上では)必要なかったのかも。

設定

データ集合\mathcal{X}が与えられているとして、\mathcal{P(X)}を集合\mathcal{X}上の確率分布全体のなす集合とする。 また、モデルとして、M = \{ p(x|\theta) \in \mathcal{P(X)}| \theta \in \Theta \subset \mathbb{R}^k \} を仮定する。

もっともらしさ

統計理論ではもっともらしさを表す関数があり、それを尤度関数とよぶ。 では、尤度関数を見てもらおう。

{ \displaystyle
p(x|\theta)
}

が尤度関数だ。

「それはパラメータつきの確率分布関数だろう!」というつっこみが聞こえてこなくはないけれど、 別に冗談を言っているわけじゃない。まじめに、 { \displaystyle
p(x|\theta)
} が尤度関数だ。

ここで大事なのは視点だ。

{ \displaystyle
p(x|\theta)
}\thetaが与えられていてxの関数と見るとき、確かにパラメータつきの確率分布関数だ。 しかし、立場が逆転している場合、データxが与えられていて\thetaの関数と見るとき、尤度関数と呼ばれる。 つまり、データxがパラメータ\thetaから出てきたもっともらしさが統計理論における尤度なのだ。

ここで、もうすでにデータxが与えられているので、尤度関数は

{ \displaystyle
L(\theta) = p(x|\theta)
}

と書かれることが多い。また、尤度関数の対数をとった対数尤度関数も理論解析には有用で、

{ \displaystyle
l(\theta) =\log p(x|\theta)
}

と書かれる。

もっとももっともらしい

与えられたデータxに対して最も尤もらしいパラメータを推定量とするのが最尤推定*1。 つまり、データxに対して最も尤度の大きなパラメータを推定量とする推定法だ。

{ \displaystyle
\hat{\theta}(x) = {\rm argmax}_\theta p(x|\theta)= {\rm argmax}_\theta L(\theta)
}

ここでargmaxは最大値をとる引数を返す関数。また、対数は単調増加関数*2だから、

{ \displaystyle
\hat{\theta}(x) =  {\rm argmax}_\theta l(\theta)
}

と見てもかまわない。

なお、データxは、データ列x^Nと見てもらうほうが、

bocchi-talks-information.hatenablog.com

に書いた推定量の定義と一致して分かりやすいかもしれない。

十分統計量との関係は?

ところで昨日、最尤推定を説明する為に統計量が必要だ。なんて書いたと思うが、その理由は、最尤推定量が十分統計量の関数になるからだ。

証明は簡単で、T(x^N)を十分統計量とすると、分解定理から、

{ \displaystyle
p(x^N|\theta) = g(T(x^N)|\theta)h(x^N)
}

が成り立つ。最尤推定\hat{\theta}(x^N)の定義から

{ \displaystyle
\hat{\theta}(x^N) = {\rm argmax}_\theta p(x^N|\theta) = {\rm argmax}_\theta g(T(x^N)|\theta)h(x^N)= {\rm argmax}_\theta g(T(x^N)|\theta)
}

が分かる。(QED)

つまり、実用的な最尤推定は、「十分統計量をデータから計算してその統計量に対する最尤推定を行えばよい」と言うことが分かる。

最尤推定量は良い推定量か

良い推定量と言うのを書いていないのであまり触れたくはないけれど、 最尤推定量はデータ列の量Nが十分に大きいときに良い推定量であると言うことが知られている*3

では、「良い推定量とは何なのか?」ということが、やはり気になると思う。 この話をするために微分とか述語論理とかがどうしても必要になってくるので後回しにしていたけれど、 フィッシャー情報量だとか、クラメル・ラオ不等式だとかの話を次から2,3回ぐらいかけて書こうと思う。

*1:この手法のことを最尤推定とよぶ。

*2:引数が大きくなれば、返す値も大きくなる関数

*3:この十分にデータ列の量が大きいときに良いという性質を漸近有効性と統計理論ではよぶ。