情報理論関連をぐだぐだと

情報理論関係を勉強中の筆者がそれっぽいことを書くブログ

推定問題について(簡単なパラメータ推定の設定)

本の紹介

統計学関連での本は日本語の本よりも英語の本のほうが良いものが多い。 と言うわけで、今回は、次を紹介。

Asymptotic Statistics (Cambridge Series in Statistical and Probabilistic Mathematics)

Asymptotic Statistics (Cambridge Series in Statistical and Probabilistic Mathematics)

今回の内容に相当することも書いてある。

設定

データ集合\mathcal{X}が与えられているとして、\mathcal{P(X)}を集合\mathcal{X}上の確率分布全体のなす集合とする。

データ列 x^Nとは、\mathcal{X}^Nの元で、

{ \displaystyle
x^N = (x^{(1)}x^{(2)}\cdots x^{(N)})
}

であらわすとする。ここで、x^{(j)}\mathcal{X}の元でj番目のデータをあらわす。

パラメータ推定のパラメータとは?

前回

bocchi-talks-information.hatenablog.com

の最後で、問題の背景として推定する分布の形が指定されている場合、その分布の持つパラメータをデータ列 x^Nから推定する問題となるという話をした。

例えば、問題の背景として(一次元正規分布

{ \displaystyle
\mathcal{N}(x | \mu, \sigma) = \frac{1}{(\sqrt{2 \pi} \sigma)} {\rm exp} \left(- \frac{(x - \mu)^2}{2 \sigma^2}\right)
}

が仮定されている場合、2つの実数、期待値 \mu、分散 \sigmaが対象のパラメータとなる。 ここで、期待値 \muのとり得る値の範囲は実数全体 \mathbb{R}、分散 \sigmaについては非負の実数全体 \mathbb{R}_+となっている。

つまりこの場合のパラメータをデータ列 x^Nから推定する問題は、 データ列 x^Nから期待値 \mu標準偏差 \sigmaを導出する関数

{ \displaystyle
\hat{\mu} : \mathcal{X}^N \to  \mathbb{R}
}

{ \displaystyle
\hat{\sigma} : \mathcal{X}^N \to  \mathbb{R}_+
}

を考察する問題と、読み替えることができる。

もう少し抽象的に書くと

さて、パラメータ推定問題をもう少し抽象的に書いてみる。

まず推定する分布が p(x|\theta) \in \mathcal{P(X)}と表せるとする*1。 ここで、\thetaパラメータとよび、集合\Theta \subset \mathbb{R}^kに含まれるものとして、kをパラメータの自由度とよぶ。

一次元正規分布の場合、\theta = (\mu, \sigma)\Theta = \mathbb{R} \times \mathbb{R}_+k = 2となっている。

また、推定対象の分布全体の集合を

{ \displaystyle
M = \{ p(x|\theta) \in \mathcal{P(X)}| \theta \in \Theta \subset \mathbb{R}^k \} \subset \mathcal{P(X)}
}

と書いて、これをモデルと呼ぶこととする。 さらにデータ列 x^Nからパラメータ \thetaを導出する関数

{ \displaystyle
\hat{\theta} :  \mathcal{X}^N \to \Theta
}

推定量とよばれる*2

やっと出発点

(点)推定の理論体系にとって、この設定が一番のおおもとになっている。 ここから設定にいろいろ手を加えることによって、豊富な世界が広がってゆく。 有名なクラメル・ラオの不等式だとかもここから始まる。

後日、稿を改めて、そのあたりの話について触れていきたいと思う。

*1:もしくは、 p_\theta \in \mathcal{P(X)}と書く。

*2:普通の語感からは推定器のほうが良い感じがするけれど、推定器は具体的な実装を表している(estimating instrument)。また、推定量(estimator)から得られた値のことも同じく推定量(estimate)とよばれる。