情報理論関連をぐだぐだと

情報理論関係を勉強中の筆者がそれっぽいことを書くブログ

指数型分布族について

推定論について書こうと思っていたけれど、 時間がなくなったので 今日は指数型分布族の導入を

設定

データ集合\mathcal{X}が与えられているとして、\mathcal{P(X)}を集合\mathcal{X}上の確率分布全体のなす集合とする。 また、モデルとして、M = \{ p(x|\theta) \in \mathcal{P(X)}| \theta \in \Theta \subset \mathbb{R}^k \} を仮定する。 ここで、\thetak次元ベクトルとみなせるので、

\theta = (\theta^1, \theta^2, \cdots, \theta^k)

と書くとする*1

指数型分布族

指数型分布族とは、モデルの一種で、その要素p(x|\theta)が常に下のように書くことができるもの*2

{ \displaystyle
\log p(x|\theta) = C(x) + \sum_{i = 1}^k \theta^i F_i(x) - \psi(\theta)
}

ここで、C(x)\{ F_i(x)\}\mathcal{X}上の(xのみの)実数値関数、\psi(\theta)\thetaのみの実数値関数なのに注意。

また、\psi(\theta)はその定義から、

{ \displaystyle
\psi(\theta) = \log \left( \sum_{x \in \mathcal{X}}{\rm exp}\left(C(x) + \sum_{i = 1}^k \theta^i F_i(x) \right) \right)
}

と書ける。 ちなみに指数型分布族のパラメータ\thetaは、自然パラメータとよばれる。

十分統計量や最尤推定量との関係

今回も、データが出てくる順番に関係なく毎回モデルM上のひとつの分布p(x|\theta)にしたがって出てくるとしよう。 このとき、データ列の具体値x^N = (x^{(1)}x^{(2)}\cdots x^{(N)})が得られる確率は

{ \displaystyle
{\rm Pr} \{X^N = x^N\} = \prod_{j = 1}^N p(x^{(j)}|\theta)
}

となっているから、モデルが指数型分布族だった場合、

{ \displaystyle
\log {\rm Pr} \{X^N = x^N\} = \sum_{j = 1}^N C(x^{(j)}) + \sum_{i = 1}^k \theta^i \sum_{j = 1}^N F_i(x^{(j)}) - N \psi(\theta)
}

となっていて、これ自身なんらかの指数型分布族の元となっている。ここで、

{ \displaystyle
{\rm Pr} \{X^N = x^N\} =  {\rm exp}\left( \sum_{i = 1}^k \theta^i \sum_{j = 1}^N F_i(x^{(j)}) - N \psi(\theta) \right){\rm exp}\left(\sum_{j = 1}^N C(x^{(j)})\right)
}

と書けることに注意すると、分解定理から、k個の実数の組\left\{\sum_{j = 1}^N F_i(x^{(j)})\right\}は十分統計量だと言うことが分かる。また、これをNで割った、

{ \displaystyle
\left\{ \frac{1}{N}\sum_{j = 1}^N F_i(x^{(j)}) \right\}\ \ i= 1,\cdots,k
}

も十分統計量だ。ここで、実際にデータから計算された十分統計量を \eta = (\eta_1, \cdots, \eta_k)として、

{ \displaystyle
\eta_i = \frac{1}{N}\sum_{j = 1}^N F_i(x^{(j)}) \ \ i= 1,\cdots,k
}

とすると、最尤推定\hat{\theta}

{ \displaystyle
\hat{\theta}(\eta) = {\rm argmax}_\theta \left( \sum_{i = 1}^k \theta^i \eta_i - \psi(\theta) \right)
}

ルジャンドル変換の形で書けることが知られている。

指数型分布族になっているモデル例

これまでいろいろ書いてきたが、「こんな人工的に見えるモデル使えるのか?」と言う疑問が当然でてくると思う。

じつは、指数型分布族になっているモデルは手近なところにいろいろある*3。 例えば、正規分布で期待値や標準偏差をパラメータにしたモデルは指数型分布族だし、 有限の離散集合上の分布全体なんてのも指数型分布族になる。

このあたりのことは、日を改めて書きたいと思う。

*1:\theta^j\thetaj乗を表しているわけではなく、j番目のパラメータだと言うことを表す上付きの添字。

*2:指数型分布族の名前のとおり指数関数を使って書き下してもよかったけれど、文字が小さくなるので、こっちの表記にした。

*3:指数型分布族になっていないモデルもたくさんある。たとえば、混合正規分布からなるモデル(EMアルゴリズムでよく使われる)は指数型分布族ではない。