情報理論関連をぐだぐだと

情報理論関係を勉強中の筆者がそれっぽいことを書くブログ

指数型分布族の例(その2)

今日は予告どおり、有限集合上の分布全体について書きたいと思う。

設定と指数型分布族の復習(昨日と同じもの)

データ集合\mathcal{X}が与えられているとして、\mathcal{P(X)}を集合\mathcal{X}上の確率分布全体のなす集合とする。 また、モデルとして、M = \{ p(x|\theta) \in \mathcal{P(X)}| \theta \in \Theta \subset \mathbb{R}^k \} を仮定する。 ここで、\thetak次元ベクトルとみなせるので、

\theta = (\theta^1, \theta^2, \cdots, \theta^k)

と書くとする。 ここで、指数型分布族は、モデルの一種で、その要素p(x|\theta)

{ \displaystyle
\log p(x|\theta) = C(x) + \sum_{i = 1}^k \theta^i F_i(x) - \psi(\theta)
}

と書けるものだった。

有限集合上の確率分布

今回はデータ集合を有限集合とする。つまり整数Mを用いて、

{ \displaystyle
\mathcal{X} = \{ 0, 1, \cdots, M\}
}

という、M + 1個の要素をもつ集合を考える。 この集合上の確率分布p

{ \displaystyle
(p(0), p(1), \cdots, p(M))
}

と表せる。ところで、確率は総和が1になるという条件があったので、この中で自由な変数はM個になる。

ここで、クロネッカーのデルタ\delta_{j}(i) = 1 \{ i = j\}を用いて、確率分布pを表してみよう。

すると、

{ \displaystyle
{\rm Pr}\{X = i\} = \sum_{j = 0}^M p(j) \delta_{j}(i)
}

もしくは、 i = 1, \cdots, Mを自由な変数にとって、

{ \displaystyle
{\rm Pr}\{X = i\} = \sum_{j = 1}^M p(j) \delta_{j}(i) + \left(1 - \sum_{j = 1}^M p(j)\right)\left(1 - \sum_{j = 1}^M \delta_{j}(i)\right)
}

とできる。ここでクロネッカーのデルタを考えて確率の対数を考えると、

{ \displaystyle
\log {\rm Pr}\{X = i\} = \sum_{j = 1}^M \delta_{j}(i) \log p(j)  +\left(1 - \sum_{j = 1}^M \delta_{j}(i)\right) \log \left(1 - \sum_{j = 1}^M p(j)\right)
}

となる。ここから、

{ \displaystyle
\log {\rm Pr}\{X = i\} = \sum_{j = 1}^M \delta_{j}(i) \log \frac{p(j)}{1 - \sum_{l = 1}^M p(l)}  + \log \left(1 - \sum_{j = 1}^M p(j)\right)
}

となる。ここで、

{ \displaystyle
\theta^j = \log \frac{p(j)}{1 - \sum_{l = 1}^M p(l)}  = \log \frac{p(j)}{p(0)}
}

{ \displaystyle
F_j(x) =\delta_{j}(x)
}

{ \displaystyle
\psi(\theta)  = - \log p(0) =  \log \left(1 + \sum_{j = 1}^M {\rm exp}(\theta^j) \right)
}

とすれば、

{ \displaystyle
\log {\rm Pr}\{X = x\} = \sum_{j = 1}^M \theta^jF_j(x) - \psi(\theta)
}

となっており、これは指数型分布族だ。

最尤推定の例

さて、ここでもまた最尤推定をしてみよう。

今、データ列x^N = (x^{(1)}x^{(2)}\cdots x^{(N)})が与えられたとして、\etaを計算すると、

{ \displaystyle
\eta_j = \frac{1}{N}\sum_{l = 1}^N \delta_{j}(x^{(l)}) = \frac{{\rm count}(j |x^N ) }{N}
}

となっている。つまり、\etaは経験分布(の点0での値がないもの)となっている。

ここで、 最尤推定\hat{\theta}

{ \displaystyle
\hat{\theta}(\eta) = {\rm argmax}_\theta \left( \sum_{i = 1}^M \theta^i \eta_i - \psi(\theta) \right)
}

だったから、少しの計算で、

{ \displaystyle
\hat{\theta^j}(\eta) =\log \frac{\eta_j}{ 1 -   \sum_{l = 1}^M \eta_l}
}

と求められる。これは、

{ \displaystyle
\theta^j = \log \frac{p(j)}{1 - \sum_{l = 1}^M p(l)}  = \log \frac{p(j)}{p(0)}
}

と比較すれば、経験分布そのものを推定していることがわかる。

このことは経験分布が重要な分布であることの一つの証拠となっている。