指数型分布族について - 情報理論関連をぐだぐだと

推定論について書こうと思っていたけれど、時間がなくなったので今日は指数型分布族の導入を

設定

データ集合 $\mathcal{X}$ が与えられているとして、 $\mathcal{P(X)}$ を集合 $\mathcal{X}$ 上の確率分布全体のなす集合とする。また、モデルとして、 $M = \{ p(x|\theta) \in \mathcal{P(X)}| \theta \in \Theta \subset \mathbb{R}^k \}$ を仮定する。ここで、 $\theta$ は $k$ 次元ベクトルとみなせるので、

$\theta = (\theta^1, \theta^2, \cdots, \theta^k)$

と書くとする*1。

指数型分布族

指数型分布族とは、モデルの一種で、その要素 $p(x|\theta)$ が常に下のように書くことができるもの*2。

${ \displaystyle \log p(x|\theta) = C(x) + \sum_{i = 1}^k \theta^i F_i(x) - \psi(\theta) }$

ここで、 $C(x)$ や $\{ F_i(x)\}$ は $\mathcal{X}$ 上の（ $x$ のみの）実数値関数、 $\psi(\theta)$ は $\theta$ のみの実数値関数なのに注意。

また、 $\psi(\theta)$ はその定義から、

${ \displaystyle \psi(\theta) = \log \left( \sum_{x \in \mathcal{X}}{\rm exp}\left(C(x) + \sum_{i = 1}^k \theta^i F_i(x) \right) \right) }$

と書ける。ちなみに指数型分布族のパラメータ $\theta$ は、自然パラメータとよばれる。

十分統計量や最尤推定量との関係

今回も、データが出てくる順番に関係なく毎回モデル $M$ 上のひとつの分布 $p(x|\theta)$ にしたがって出てくるとしよう。このとき、データ列の具体値 $x^N = (x^{(1)}x^{(2)}\cdots x^{(N)})$ が得られる確率は

${ \displaystyle {\rm Pr} \{X^N = x^N\} = \prod_{j = 1}^N p(x^{(j)}|\theta) }$

となっているから、モデルが指数型分布族だった場合、

${ \displaystyle \log {\rm Pr} \{X^N = x^N\} = \sum_{j = 1}^N C(x^{(j)}) + \sum_{i = 1}^k \theta^i \sum_{j = 1}^N F_i(x^{(j)}) - N \psi(\theta) }$

となっていて、これ自身なんらかの指数型分布族の元となっている。ここで、

${ \displaystyle {\rm Pr} \{X^N = x^N\} = {\rm exp}\left( \sum_{i = 1}^k \theta^i \sum_{j = 1}^N F_i(x^{(j)}) - N \psi(\theta) \right){\rm exp}\left(\sum_{j = 1}^N C(x^{(j)})\right) }$