情報理論関連をぐだぐだと

情報理論関係を勉強中の筆者がそれっぽいことを書くブログ

統計量について

本の紹介

現代数理統計学 (創文社現代経済学選書)

現代数理統計学 (創文社現代経済学選書)

の統計量や十分統計量に関するところを荒く紹介*1

最も実用的な推定量を語るには

推定をするのに、おそらく実用上最も使われているだろう推定量は最尤推定と呼ばれる推定量*2。 今回、最尤推定を中心トピックとして書こうとしたら、どうしても統計量の説明が必要になった。 統計量から最尤推定までを一回で書くのは長すぎるので、今回は統計量と十分統計量について書こうと思う。

設定

データ集合\mathcal{X}が与えられているとして、\mathcal{P(X)}を集合\mathcal{X}上の確率分布全体のなす集合とする。 また、モデルとして、M = \{ p(x|\theta) \in \mathcal{P(X)}| \theta \in \Theta \subset \mathbb{R}^k \} を仮定する。

ここでデータがどのように出てくるかを考えてみる。 今回は、データが出てくる順番に関係なく毎回モデルM上の分布p^*\in Mにしたがって出てくるとしよう。 つまり、データ列が確率変数X^N = (X^{(1)}X^{(2)}\cdots X^{(N)})であり、各jについてX^{(j)}が確率分布p^*(x) \in M \subset \mathcal{P(X)}に従っているとする。 このとき、データ列の具体値x^N = (x^{(1)}x^{(2)}\cdots x^{(N)})が得られる確率は

{ \displaystyle
{\rm Pr} \{X^N = x^N\} = \prod_{j = 1}^N p^*(x^{(j)})
}

となっている。

また、p^*\in Mなのでp^*を表すパラメータ\theta^*があって、p^*(x) = p(x|\theta^*)となっている*3

統計量とは

普通データを用いて推定するとき、データそのものを使うことはそんなに多くないと思う。

例えば、町内の人の年齢みたいな調査を行ったとして、(伊藤 薫さん | 57歳)みたいな表を作っただけで終わることってそんなにないはず。 大抵は平均年齢は47.89歳のようなデータの数値を用いた計算を行うと思う。

この考え方をもう少し抽象的にすると、統計量と呼ばれるものになる。言ってしまえば、一次元統計量Tとは関数

{ \displaystyle
T :  \mathcal{X}^N \to \mathbb{R}
}

のこと*4。 また、l次元統計量Tも定義できて

{ \displaystyle
T :  \mathcal{X}^N \to \mathbb{R}^l
}

となる。

現実世界の問題では、たいていの場合、統計量のみを用いてパラメータ推定を行うことが多い(統計量が得られたらデータは捨ててしまうことが多い)。

十分統計量とは

さて、統計量とはデータ列から実数への関数と言うことが分かったけれども、 どんなに役に立たない関数でも統計量とよべることに注意が必要。 たとえば、どんなデータ列に対しても0を返すような関数も統計量になっている。

また、統計量のみを用いるとデータ列の情報が何らかの形で失われることにも注意が必要。 ここで、本来は推定に必要な情報を捨ててしまわないようにしたい。

この欲求を満たす統計量が十分統計量だ。 言い換えると、推定に必要な情報を全てもっている統計量のことを十分統計量とよぶ*5

もっと正確に定義すると次のようになる。

ある統計量Tがパラメータ\thetaに関する十分統計量であるとは、

Tの具体値を与えたときのデータ列の条件付分布がパラメータ\thetaに依存しないことである。

分解定理

十分統計量は定義するのに条件付確率が必要そうな感じを受けるけれど、実際には、次の分解定理で分かることが、分かっていれば良いことが知られている。

ある統計量Tがパラメータ\thetaに関する十分統計量であることの必要十分条件は、

{ \displaystyle
p(x^N|\theta) = g(T(x^N)|\theta)h(x^N)
}

の形に分解できることである。ここで、hはパラメータ\thetaによらない。
証明

データ集合\mathcal{X}が連続であった場合、測度論が必要で証明が面倒くさいため、データ集合\mathcal{X}を離散的なものに限る。

(必要性)

{ \displaystyle
p(x^N|\theta) = g(T(x^N)|\theta)h(x^N)
} と分解できたとすると、 1\{\ \}を指示関数として次が成り立つ。

{ \displaystyle
\begin{align}
{\rm Pr} \{ T = t\} &= \sum_{x^N \in \mathcal{X}^N} p(x^N|\theta) 1\{T(x^N) = t\}\\
&=\sum_{x^N \in \mathcal{X}^N} g(T(x^N)|\theta)h(x^N) 1\{T(x^N) = t\}\\
&=\sum_{x^N \in \mathcal{X}^N} g(t|\theta)h(x^N) 1\{T(x^N) = t\}\\
&=g(t|\theta)\sum_{x^N \in \mathcal{X}^N} h(x^N) 1\{T(x^N) = t\}
\end{align}
}

また、統計量Tはデータ列から実数への関数だったので、 { \displaystyle
 {\rm Pr} \{T = t | X^N = \xi^N \} = 1\{ T(\xi^N) = t\}
} であることに注意すると、

{ \displaystyle
\begin{align}
{\rm Pr} \{X^N = \xi^N | T = t\} &= \frac{{\rm Pr} \{X^N = \xi^N , T = t\}}{{\rm Pr} \{ T = t\}}\\
&=\frac{{\rm Pr} \{X^N = \xi^N \}{\rm Pr} \{T = t|X^N = \xi^N \}}{{\rm Pr} \{ T = t\}}\\
&=\frac{g(T(\xi^N)|\theta)h(\xi^N)1\{T(\xi^N) = t\}}{g(t|\theta)\sum_{x^N \in \mathcal{X}^N} h(x^N) 1\{T(x^N) = t\}}\\
&=\frac{g(t|\theta)h(\xi^N)1\{T(\xi^N) = t\}}{g(t|\theta)\sum_{x^N \in \mathcal{X}^N} h(x^N) 1\{T(x^N) = t\}}\\
&=\frac{h(\xi^N)1\{T(\xi^N) = t\}}{\sum_{x^N \in \mathcal{X}^N} h(x^N) 1\{T(x^N) = t\}}
\end{align}
}

となり、Tの具体値を与えたときのデータ列の条件付分布がパラメータ\thetaに依存しない。 なので、Tは十分統計量である。

(十分性)

Tを十分統計量とする。必要性の証明を見てみると、

{ \displaystyle
{\rm Pr} \{ T = t\} = g(t|\theta)\sum_{x^N \in \mathcal{X}^N} h(x^N) 1\{T(x^N) = t\}
}

として、{\rm Pr} \{X^N = \xi^N | T = t\}Tの具体値を与えたときのデータ列の条件付分布がパラメータ\thetaに依存しない

{ \displaystyle
{\rm Pr} \{X^N = \xi^N | T = t\} =\frac{h(\xi^N)1\{T(\xi^N) = t\}}{\sum_{x^N \in \mathcal{X}^N} h(x^N) 1\{T(x^N) = t\}}
}

とすると、

{ \displaystyle
\begin{align}
{\rm Pr} \{X^N = \xi^N \} &= \sum_{t \in T(\mathcal{X^N})}{\rm Pr} \{X^N = \xi^N, T = t\}\\
&= \sum_{t \in T(\mathcal{X^N})}{\rm Pr} \{X^N = \xi^N | T = t\}{\rm Pr} \{ T = t\}\\
&= \sum_{t \in T(\mathcal{X^N})}g(t|\theta)h(\xi^N)1\{T(\xi^N) = t\}\\
&=g(T(\xi^N)|\theta)h(\xi^N)
\end{align}
}

となり成り立つ。

次回は

今回は、すこし講座としては難しくなった。 これで最尤推定を説明するための用意が(多分)整ったので、次回はその説明をしようと思う。

*1:だいぶ抜けているところが多いので、本格的にはこの本や前回紹介した本を読んで勉強してください

*2:どうしようもないぐらい複雑なモデルになると、最尤推定以外、とてもじゃないけれど計算量が追いつかなくて、使えなかったりする。

*3:もちろん、現実の世界では具体的なデータ列x^N = (x^{(1)}x^{(2)}\cdots x^{(N)})から\theta^*を求めたいわけであって、データを集めている人は\theta^*を知らないことに注意。統計学情報理論の勉強をするときによく混乱する点ではあるのだけれど、理論を構築するときには背景まで全部分かっている神様視点が必要で、神様視点で得られた結果を使って現実問題に適用する(アルゴリズムを考える)ときにはデータを集めている人である人間視点が必要。この神様視点と人間視点をうまく切り替えていくことが大事。今回は、統計量という理論を語るので神様視点で話を進める。

*4:推定量と同じように、得られた実数のことも統計量とよぶ。

*5:ちなみに、十分統計量はどんなに次元lが大きくてもパラメータが推定できればよい。 そのため、例えば、実数値データ列x^Nがあったときに、それそのものx^Nを返す(恒等)関数も十分統計量とよべる。 それに対して、推定に必要な情報を必要最低限すべて持っている統計量にも名前が付いていて、最小十分統計量とよばれる。