情報理論関連をぐだぐだと

情報理論関係を勉強中の筆者がそれっぽいことを書くブログ

推定問題について(問題の背景を何も考えない場合)

本の紹介

今回参考にしているのは、コレ!と言うものはないのだけれど、 たぶん、今回の話を格式高くしたものが

情報幾何学の基礎 (数理情報科学シリーズ)

情報幾何学の基礎 (数理情報科学シリーズ)

に出ているだろうと期待して。

設定

データ集合\mathcal{X}が与えられているとして、\mathcal{P(X)}を集合\mathcal{X}上の確率分布全体のなす集合とする。

bocchi-talks-information.hatenablog.comの最後で書いたとおり、推定問題はデータ列から確率分布(仮説)を推定する問題。

N個の要素を持つデータ列 x^Nとは、\mathcal{X}^Nの元で、

{ \displaystyle
x^N = (x^{(1)}x^{(2)}\cdots x^{(N)})
}

であらわすとする。ここで、x^{(k)}\mathcal{X}の元でk番目のデータをあらわす。

つまり、この推定問題は、

「データ列 x^N \in \mathcal{X}^Nからそのデータが出てきたであろう分布p \in \mathcal{P(X)}を推定する規則や写像を求める」

という問題と読み直せる。

単純な答案

さて、まず個々の問題設定の背景を何も考えないで、単純にデータ列 x^N \in \mathcal{X}^Nから分布p \in \mathcal{P(X)}を推定してみる。

多分、小中学生のときだったと思うのだけれど、何かの授業でヒストグラムと言うものを習わなかっただろうか? なにやらデータの取りうる範囲を区切って、得られたデータをその区切りの中に何個入るか分けて数えて表にするあれ。 その何個入ると言うところをNで割って、合計が1になるように規格化したものは度数分布と呼ばれ、 単純な分布としては、まずまず納得のいくものだと思える。

経験分布

しかし、問題点もすぐに考え付く。それは

「範囲を区切って」というけれど、その範囲(幅や広さ)はどう決めればいいの?

と言うところが、作る人任せになるということだ。そこで、究極の度数分布を考えてみよう。 それは、範囲を極端に小さく、どの範囲にも1つの値しか入らないとしたものだ。 このようにしてできた分布は経験分布と呼ばれ*1、 データ集合\mathcal{X}が離散的である場合は、満足のいくものになる*2

経験分布は次のように書ける。

{ \displaystyle
p_{x^N}(a) = \frac{{\rm count}(a | x^N)}{N},\ \ \  a \in \mathcal{X}
}

ここで、{\rm count}(a | x^N)x^Nの中にaが何個あるかを数え上げる関数。

経験分布や度数分布でよいのか?

さて、これで十分良い分布が得られた。さぁ、実装しよう。とは普通ならない。 なぜなら、推定問題の問題設定として、分布の種類が指定されることがよくあるからだ。

具体的には、

「このデータはガウス分布から出てきているのは分かっているんだよね」

とか、

「このデータは幾何分布から出てきているのは分かっているんだよね」

他にも、

「このデータは、ガウス分布2つの凸結合で表される分布で(以下略」

というものだ。

もちろん、経験分布や度数分布は、ガウス分布や幾何分布、ガウス分布2つの凸結合で表される分布ではない*3。 これらの場合は、ガウス分布や幾何分布、ガウス分布2つの凸結合で表される分布の持つパラメータを推定すると言う問題になる。

このパラメータ推定問題は、問題の背景を考えているので、後日稿を改めて。

*1:度数分布も経験分布と呼ばれることがある。

*2:連続的な場合はほとんどいたるところ確率0の「すかすか」な分布になるので、直感的におかしなことになっているように思える。そこで、各点に小さな球状のふくらみを持たせて作るなんて事がよくやられる。この場合、「ふくらみ」の大きさを調整すると言う問題が出てくるので、なかなかすっきりとはいかない。

*3:Nが十分大きければ、それっぽい形になっているとは思うけれど。