情報理論関連をぐだぐだと

情報理論関係を勉強中の筆者がそれっぽいことを書くブログ

指数型分布族の例(その1)

今日も昨日に引き続いてそんなに時間がないので、 指数型分布族の例について書きたいと思う。

設定と指数型分布族の復習

データ集合\mathcal{X}が与えられているとして、\mathcal{P(X)}を集合\mathcal{X}上の確率分布全体のなす集合とする。 また、モデルとして、M = \{ p(x|\theta) \in \mathcal{P(X)}| \theta \in \Theta \subset \mathbb{R}^k \} を仮定する。 ここで、\thetak次元ベクトルとみなせるので、

\theta = (\theta^1, \theta^2, \cdots, \theta^k)

と書くとする。 ここで、指数型分布族は、モデルの一種で、その要素p(x|\theta)

{ \displaystyle
\log p(x|\theta) = C(x) + \sum_{i = 1}^k \theta^i F_i(x) - \psi(\theta)
}

と書けるものだった。

正規分布は指数型分布族か?

まずは正規分布からなるモデルを考える。正規分布は、

{ \displaystyle
\mathcal{N}(x | \mu, \sigma) = \frac{1}{\sqrt{2 \pi} \sigma} {\rm exp} \left(- \frac{(x - \mu)^2}{2 \sigma^2}\right)
}

だったから、

{ \displaystyle
\log \mathcal{N}(x | \mu, \sigma) = -\log (\sqrt{2 \pi} \sigma) - \frac{(x - \mu)^2}{2 \sigma^2}
}

式変形して、

{ \displaystyle
\log \mathcal{N}(x | \mu, \sigma) = \frac{ \mu x}{ \sigma^2} -  \frac{ x^2}{2  \sigma^2} - \frac{\mu^2}{2 \sigma^2} - \log (\sqrt{2 \pi} \sigma)
}

となる。ここで、 F_1(x) = xF_2(x) = x^2として、

{ \displaystyle
\theta^1 = \frac{ \mu }{ \sigma^2}
}

{ \displaystyle
\theta^2 = -  \frac{ 1 }{2  \sigma^2}
}

とすれば、

{ \displaystyle
\psi(\theta) = - \frac{ (\theta^1)^2}{4 \theta^2} - \frac{1}{2} \log ( - \theta^2 ) + \frac{1}{2} \log (\pi)
}

を用いて、

{ \displaystyle
\log \mathcal{N}(x | \mu, \sigma) = \sum_{i = 1}^2 \theta^i F_i(x) - \psi(\theta)
}

と表せるので、指数型分布族となっている。

最尤推定の例

さて、ここで最尤推定をしてみよう。

今、データ列x^N = (x^{(1)}x^{(2)}\cdots x^{(N)})が与えられたとして、\etaを計算すると、

{ \displaystyle
\eta_1 = \frac{1}{N}\sum_{j = 1}^N x^{(j)}
}

{ \displaystyle
\eta_2 = \frac{1}{N}\sum_{j = 1}^N (x^{(j)})^2
}

となっている。つまり、\eta_1はデータの算術平均、\eta_1はデータの2乗の算術平均となっている。ここで、 最尤推定\hat{\theta}

{ \displaystyle
\hat{\theta}(\eta) = {\rm argmax}_\theta \left( \sum_{i = 1}^2 \theta^i \eta_i - \psi(\theta) \right)
}

だったから、少しの計算で、

{ \displaystyle
\hat{\theta^1}(\eta) = \frac{\eta_1}{\eta_2 - \eta_1^2}
}

{ \displaystyle
\hat{\theta^2}(\eta) = - \frac{ 1 }{2 (\eta_2 - \eta_1^2)}
}

が得られる。これを

{ \displaystyle
\theta^1 = \frac{ \mu }{ \sigma^2}
}

{ \displaystyle
\theta^2 = -  \frac{ 1 }{2  \sigma^2}
}

と見比べれば、納得できるものだろう。

明日は、有限集合上の分布全体について書きたいと思う。