推定問題について(問題の背景を何も考えない場合)
本の紹介
今回参考にしているのは、コレ!と言うものはないのだけれど、 たぶん、今回の話を格式高くしたものが
- 作者: 藤原彰夫
- 出版社/メーカー: 牧野書店
- 発売日: 2015/08/07
- メディア: 単行本
- この商品を含むブログを見る
に出ているだろうと期待して。
設定
データ集合が与えられているとして、を集合上の確率分布全体のなす集合とする。
bocchi-talks-information.hatenablog.comの最後で書いたとおり、推定問題はデータ列から確率分布(仮説)を推定する問題。
個の要素を持つデータ列とは、の元で、
であらわすとする。ここで、はの元で番目のデータをあらわす。
つまり、この推定問題は、
「データ列からそのデータが出てきたであろう分布を推定する規則や写像を求める」
という問題と読み直せる。
単純な答案
さて、まず個々の問題設定の背景を何も考えないで、単純にデータ列から分布を推定してみる。
多分、小中学生のときだったと思うのだけれど、何かの授業でヒストグラムと言うものを習わなかっただろうか? なにやらデータの取りうる範囲を区切って、得られたデータをその区切りの中に何個入るか分けて数えて表にするあれ。 その何個入ると言うところをで割って、合計が1になるように規格化したものは度数分布と呼ばれ、 単純な分布としては、まずまず納得のいくものだと思える。
経験分布
しかし、問題点もすぐに考え付く。それは
「範囲を区切って」というけれど、その範囲(幅や広さ)はどう決めればいいの?
と言うところが、作る人任せになるということだ。そこで、究極の度数分布を考えてみよう。 それは、範囲を極端に小さく、どの範囲にも1つの値しか入らないとしたものだ。 このようにしてできた分布は経験分布と呼ばれ*1、 データ集合が離散的である場合は、満足のいくものになる*2。
経験分布は次のように書ける。
ここで、はの中にが何個あるかを数え上げる関数。
経験分布や度数分布でよいのか?
さて、これで十分良い分布が得られた。さぁ、実装しよう。とは普通ならない。 なぜなら、推定問題の問題設定として、分布の種類が指定されることがよくあるからだ。
具体的には、
「このデータはガウス分布から出てきているのは分かっているんだよね」
とか、
「このデータは幾何分布から出てきているのは分かっているんだよね」
他にも、
「このデータは、ガウス分布2つの凸結合で表される分布で(以下略」
というものだ。
もちろん、経験分布や度数分布は、ガウス分布や幾何分布、ガウス分布2つの凸結合で表される分布ではない*3。 これらの場合は、ガウス分布や幾何分布、ガウス分布2つの凸結合で表される分布の持つパラメータを推定すると言う問題になる。
このパラメータ推定問題は、問題の背景を考えているので、後日稿を改めて。