指数型分布族の例(その2)
今日は予告どおり、有限集合上の分布全体について書きたいと思う。
設定と指数型分布族の復習(昨日と同じもの)
データ集合が与えられているとして、を集合上の確率分布全体のなす集合とする。 また、モデルとして、 を仮定する。 ここで、は次元ベクトルとみなせるので、
と書くとする。 ここで、指数型分布族は、モデルの一種で、その要素が
と書けるものだった。
有限集合上の確率分布
今回はデータ集合を有限集合とする。つまり整数を用いて、
という、個の要素をもつ集合を考える。 この集合上の確率分布は
と表せる。ところで、確率は総和が1になるという条件があったので、この中で自由な変数は個になる。
ここで、クロネッカーのデルタを用いて、確率分布を表してみよう。
すると、
もしくは、を自由な変数にとって、
とできる。ここでクロネッカーのデルタを考えて確率の対数を考えると、
となる。ここから、
となる。ここで、
とすれば、
となっており、これは指数型分布族だ。
最尤推定の例
さて、ここでもまた最尤推定をしてみよう。
今、データ列が与えられたとして、を計算すると、
となっている。つまり、は経験分布(の点0での値がないもの)となっている。
ここで、 最尤推定量は
だったから、少しの計算で、
と求められる。これは、
と比較すれば、経験分布そのものを推定していることがわかる。
このことは経験分布が重要な分布であることの一つの証拠となっている。
指数型分布族の例(その1)
今日も昨日に引き続いてそんなに時間がないので、 指数型分布族の例について書きたいと思う。
設定と指数型分布族の復習
データ集合が与えられているとして、を集合上の確率分布全体のなす集合とする。 また、モデルとして、 を仮定する。 ここで、は次元ベクトルとみなせるので、
と書くとする。 ここで、指数型分布族は、モデルの一種で、その要素が
と書けるものだった。
正規分布は指数型分布族か?
だったから、
式変形して、
となる。ここで、、として、
とすれば、
を用いて、
と表せるので、指数型分布族となっている。
最尤推定の例
さて、ここで最尤推定をしてみよう。
今、データ列が与えられたとして、を計算すると、
となっている。つまり、はデータの算術平均、はデータの2乗の算術平均となっている。ここで、 最尤推定量は
だったから、少しの計算で、
が得られる。これを
と見比べれば、納得できるものだろう。
明日は、有限集合上の分布全体について書きたいと思う。
指数型分布族について
推定論について書こうと思っていたけれど、 時間がなくなったので 今日は指数型分布族の導入を
設定
データ集合が与えられているとして、を集合上の確率分布全体のなす集合とする。 また、モデルとして、 を仮定する。 ここで、は次元ベクトルとみなせるので、
と書くとする*1。
指数型分布族
指数型分布族とは、モデルの一種で、その要素が常に下のように書くことができるもの*2。
ここで、やは上の(のみの)実数値関数、はのみの実数値関数なのに注意。
また、はその定義から、
と書ける。 ちなみに指数型分布族のパラメータは、自然パラメータとよばれる。
十分統計量や最尤推定量との関係
今回も、データが出てくる順番に関係なく毎回モデル上のひとつの分布にしたがって出てくるとしよう。 このとき、データ列の具体値が得られる確率は
となっているから、モデルが指数型分布族だった場合、
となっていて、これ自身なんらかの指数型分布族の元となっている。ここで、
と書けることに注意すると、分解定理から、個の実数の組は十分統計量だと言うことが分かる。また、これをで割った、
も十分統計量だ。ここで、実際にデータから計算された十分統計量をとして、
とすると、最尤推定量は
とルジャンドル変換の形で書けることが知られている。
指数型分布族になっているモデル例
これまでいろいろ書いてきたが、「こんな人工的に見えるモデル使えるのか?」と言う疑問が当然でてくると思う。
じつは、指数型分布族になっているモデルは手近なところにいろいろある*3。 例えば、正規分布で期待値や標準偏差をパラメータにしたモデルは指数型分布族だし、 有限の離散集合上の分布全体なんてのも指数型分布族になる。
このあたりのことは、日を改めて書きたいと思う。
最尤推定について
推定が難しいときにまずやろう
今回は最尤推定について話をする。 この推定は与えられたモデルが複雑だった場合に有効な(というか唯一使える)推定方法。 以下に理論的な話を書いていくけれども、ひょっとしたら、昨日の推定量の話は(最尤推定だけを語る上では)必要なかったのかも。
設定
データ集合が与えられているとして、を集合上の確率分布全体のなす集合とする。 また、モデルとして、 を仮定する。
もっともらしさ
統計理論ではもっともらしさを表す関数があり、それを尤度関数とよぶ。 では、尤度関数を見てもらおう。
が尤度関数だ。
「それはパラメータつきの確率分布関数だろう!」というつっこみが聞こえてこなくはないけれど、 別に冗談を言っているわけじゃない。まじめに、 が尤度関数だ。
ここで大事なのは視点だ。
はが与えられていての関数と見るとき、確かにパラメータつきの確率分布関数だ。 しかし、立場が逆転している場合、データが与えられていての関数と見るとき、尤度関数と呼ばれる。 つまり、データがパラメータから出てきたもっともらしさが統計理論における尤度なのだ。
ここで、もうすでにデータが与えられているので、尤度関数は
と書かれることが多い。また、尤度関数の対数をとった対数尤度関数も理論解析には有用で、
と書かれる。
もっとももっともらしい
与えられたデータに対して最も尤もらしいパラメータを推定量とするのが最尤推定量だ*1。 つまり、データに対して最も尤度の大きなパラメータを推定量とする推定法だ。
ここでargmaxは最大値をとる引数を返す関数。また、対数は単調増加関数*2だから、
と見てもかまわない。
なお、データは、データ列と見てもらうほうが、
bocchi-talks-information.hatenablog.com
に書いた推定量の定義と一致して分かりやすいかもしれない。
十分統計量との関係は?
ところで昨日、最尤推定を説明する為に統計量が必要だ。なんて書いたと思うが、その理由は、最尤推定量が十分統計量の関数になるからだ。
証明は簡単で、を十分統計量とすると、分解定理から、
が成り立つ。最尤推定量の定義から
が分かる。(QED)
つまり、実用的な最尤推定は、「十分統計量をデータから計算してその統計量に対する最尤推定を行えばよい」と言うことが分かる。
最尤推定量は良い推定量か
良い推定量と言うのを書いていないのであまり触れたくはないけれど、 最尤推定量はデータ列の量が十分に大きいときに良い推定量であると言うことが知られている*3。
では、「良い推定量とは何なのか?」ということが、やはり気になると思う。 この話をするために微分とか述語論理とかがどうしても必要になってくるので後回しにしていたけれど、 フィッシャー情報量だとか、クラメル・ラオ不等式だとかの話を次から2,3回ぐらいかけて書こうと思う。
統計量について
本の紹介
- 作者: 竹村彰通
- 出版社/メーカー: 創文社
- 発売日: 1991/12
- メディア: 単行本
- 購入: 2人 クリック: 26回
- この商品を含むブログ (21件) を見る
の統計量や十分統計量に関するところを荒く紹介*1。
最も実用的な推定量を語るには
推定をするのに、おそらく実用上最も使われているだろう推定量は最尤推定と呼ばれる推定量*2。 今回、最尤推定を中心トピックとして書こうとしたら、どうしても統計量の説明が必要になった。 統計量から最尤推定までを一回で書くのは長すぎるので、今回は統計量と十分統計量について書こうと思う。
設定
データ集合が与えられているとして、を集合上の確率分布全体のなす集合とする。 また、モデルとして、 を仮定する。
ここでデータがどのように出てくるかを考えてみる。 今回は、データが出てくる順番に関係なく毎回モデル上の分布にしたがって出てくるとしよう。 つまり、データ列が確率変数であり、各についてが確率分布に従っているとする。 このとき、データ列の具体値が得られる確率は
となっている。
また、なのでを表すパラメータがあって、となっている*3。
統計量とは
普通データを用いて推定するとき、データそのものを使うことはそんなに多くないと思う。
例えば、町内の人の年齢みたいな調査を行ったとして、(伊藤 薫さん | 57歳)みたいな表を作っただけで終わることってそんなにないはず。 大抵は平均年齢は47.89歳のようなデータの数値を用いた計算を行うと思う。
この考え方をもう少し抽象的にすると、統計量と呼ばれるものになる。言ってしまえば、一次元統計量とは関数
のこと*4。 また、次元統計量も定義できて
となる。
現実世界の問題では、たいていの場合、統計量のみを用いてパラメータ推定を行うことが多い(統計量が得られたらデータは捨ててしまうことが多い)。
十分統計量とは
さて、統計量とはデータ列から実数への関数と言うことが分かったけれども、 どんなに役に立たない関数でも統計量とよべることに注意が必要。 たとえば、どんなデータ列に対しても0を返すような関数も統計量になっている。
また、統計量のみを用いるとデータ列の情報が何らかの形で失われることにも注意が必要。 ここで、本来は推定に必要な情報を捨ててしまわないようにしたい。
この欲求を満たす統計量が十分統計量だ。 言い換えると、推定に必要な情報を全てもっている統計量のことを十分統計量とよぶ*5。
もっと正確に定義すると次のようになる。
ある統計量がパラメータに関する十分統計量であるとは、 の具体値を与えたときのデータ列の条件付分布がパラメータに依存しないことである。
分解定理
十分統計量は定義するのに条件付確率が必要そうな感じを受けるけれど、実際には、次の分解定理で分かることが、分かっていれば良いことが知られている。
ある統計量がパラメータに関する十分統計量であることの必要十分条件は、 の形に分解できることである。ここで、はパラメータによらない。
証明
データ集合が連続であった場合、測度論が必要で証明が面倒くさいため、データ集合を離散的なものに限る。
(必要性)
と分解できたとすると、を指示関数として次が成り立つ。
また、統計量はデータ列から実数への関数だったので、 であることに注意すると、
となり、の具体値を与えたときのデータ列の条件付分布がパラメータに依存しない。 なので、は十分統計量である。
(十分性)
を十分統計量とする。必要性の証明を見てみると、
として、をの具体値を与えたときのデータ列の条件付分布がパラメータに依存しない
とすると、
となり成り立つ。
次回は
今回は、すこし講座としては難しくなった。 これで最尤推定を説明するための用意が(多分)整ったので、次回はその説明をしようと思う。
*1:だいぶ抜けているところが多いので、本格的にはこの本や前回紹介した本を読んで勉強してください
*2:どうしようもないぐらい複雑なモデルになると、最尤推定以外、とてもじゃないけれど計算量が追いつかなくて、使えなかったりする。
*3:もちろん、現実の世界では具体的なデータ列からを求めたいわけであって、データを集めている人はを知らないことに注意。統計学や情報理論の勉強をするときによく混乱する点ではあるのだけれど、理論を構築するときには背景まで全部分かっている神様視点が必要で、神様視点で得られた結果を使って現実問題に適用する(アルゴリズムを考える)ときにはデータを集めている人である人間視点が必要。この神様視点と人間視点をうまく切り替えていくことが大事。今回は、統計量という理論を語るので神様視点で話を進める。
*4:推定量と同じように、得られた実数のことも統計量とよぶ。
*5:ちなみに、十分統計量はどんなに次元が大きくてもパラメータが推定できればよい。 そのため、例えば、実数値データ列があったときに、それそのものを返す(恒等)関数も十分統計量とよべる。 それに対して、推定に必要な情報を必要最低限すべて持っている統計量にも名前が付いていて、最小十分統計量とよばれる。
推定問題について(簡単なパラメータ推定の設定)
本の紹介
統計学関連での本は日本語の本よりも英語の本のほうが良いものが多い。 と言うわけで、今回は、次を紹介。
Asymptotic Statistics (Cambridge Series in Statistical and Probabilistic Mathematics)
- 作者: A. W. van der Vaart
- 出版社/メーカー: Cambridge University Press
- 発売日: 2000/09
- メディア: ペーパーバック
- この商品を含むブログ (1件) を見る
今回の内容に相当することも書いてある。
設定
データ集合が与えられているとして、を集合上の確率分布全体のなす集合とする。
データ列とは、の元で、
であらわすとする。ここで、はの元で番目のデータをあらわす。
パラメータ推定のパラメータとは?
前回
bocchi-talks-information.hatenablog.com
の最後で、問題の背景として推定する分布の形が指定されている場合、その分布の持つパラメータをデータ列から推定する問題となるという話をした。
が仮定されている場合、2つの実数、期待値、分散が対象のパラメータとなる。 ここで、期待値のとり得る値の範囲は実数全体、分散については非負の実数全体となっている。
つまりこの場合のパラメータをデータ列から推定する問題は、 データ列から期待値、標準偏差を導出する関数
を考察する問題と、読み替えることができる。
もう少し抽象的に書くと
さて、パラメータ推定問題をもう少し抽象的に書いてみる。
まず推定する分布がと表せるとする*1。 ここで、をパラメータとよび、集合に含まれるものとして、をパラメータの自由度とよぶ。
また、推定対象の分布全体の集合を
と書いて、これをモデルと呼ぶこととする。 さらにデータ列からパラメータを導出する関数
は推定量とよばれる*2。
やっと出発点
(点)推定の理論体系にとって、この設定が一番のおおもとになっている。 ここから設定にいろいろ手を加えることによって、豊富な世界が広がってゆく。 有名なクラメル・ラオの不等式だとかもここから始まる。
後日、稿を改めて、そのあたりの話について触れていきたいと思う。
推定問題について(問題の背景を何も考えない場合)
本の紹介
今回参考にしているのは、コレ!と言うものはないのだけれど、 たぶん、今回の話を格式高くしたものが
- 作者: 藤原彰夫
- 出版社/メーカー: 牧野書店
- 発売日: 2015/08/07
- メディア: 単行本
- この商品を含むブログを見る
に出ているだろうと期待して。
設定
データ集合が与えられているとして、を集合上の確率分布全体のなす集合とする。
bocchi-talks-information.hatenablog.comの最後で書いたとおり、推定問題はデータ列から確率分布(仮説)を推定する問題。
個の要素を持つデータ列とは、の元で、
であらわすとする。ここで、はの元で番目のデータをあらわす。
つまり、この推定問題は、
「データ列からそのデータが出てきたであろう分布を推定する規則や写像を求める」
という問題と読み直せる。
単純な答案
さて、まず個々の問題設定の背景を何も考えないで、単純にデータ列から分布を推定してみる。
多分、小中学生のときだったと思うのだけれど、何かの授業でヒストグラムと言うものを習わなかっただろうか? なにやらデータの取りうる範囲を区切って、得られたデータをその区切りの中に何個入るか分けて数えて表にするあれ。 その何個入ると言うところをで割って、合計が1になるように規格化したものは度数分布と呼ばれ、 単純な分布としては、まずまず納得のいくものだと思える。
経験分布
しかし、問題点もすぐに考え付く。それは
「範囲を区切って」というけれど、その範囲(幅や広さ)はどう決めればいいの?
と言うところが、作る人任せになるということだ。そこで、究極の度数分布を考えてみよう。 それは、範囲を極端に小さく、どの範囲にも1つの値しか入らないとしたものだ。 このようにしてできた分布は経験分布と呼ばれ*1、 データ集合が離散的である場合は、満足のいくものになる*2。
経験分布は次のように書ける。
ここで、はの中にが何個あるかを数え上げる関数。
経験分布や度数分布でよいのか?
さて、これで十分良い分布が得られた。さぁ、実装しよう。とは普通ならない。 なぜなら、推定問題の問題設定として、分布の種類が指定されることがよくあるからだ。
具体的には、
「このデータはガウス分布から出てきているのは分かっているんだよね」
とか、
「このデータは幾何分布から出てきているのは分かっているんだよね」
他にも、
「このデータは、ガウス分布2つの凸結合で表される分布で(以下略」
というものだ。
もちろん、経験分布や度数分布は、ガウス分布や幾何分布、ガウス分布2つの凸結合で表される分布ではない*3。 これらの場合は、ガウス分布や幾何分布、ガウス分布2つの凸結合で表される分布の持つパラメータを推定すると言う問題になる。
このパラメータ推定問題は、問題の背景を考えているので、後日稿を改めて。