情報理論関連をぐだぐだと

情報理論関係を勉強中の筆者がそれっぽいことを書くブログ

2章の補足で言いたかったこと(確率変数、分布での変数変換について)

本の紹介

異常検知と変化検知 (機械学習プロフェッショナルシリーズ)

異常検知と変化検知 (機械学習プロフェッショナルシリーズ)

の2章の補足のときに言いたかったことをつらつらと。

設定

 \mathcal{X,Y}を適当な集合として、与えられているものとする。 また、 \mathcal{P(X),P(Y)}をそれぞれ \mathcal{X,Y}上の確率分布全体の集合とする。確率分布の定義は

bocchi-talks-information.hatenablog.com

に書いたとおり。

条件付確率または、通信路

写像 W: \mathcal{X} \to \mathcal{P(Y)}(の xでの値 W(y|x))を xで条件付けられた \mathcal{Y}上の条件付分布と呼ぶ。 あるいは、写像 W \mathcal{X}から \mathcal{Y}への通信路*1と呼ぶ。

同時分布と周辺分布

通信路を用いて、以下の同時分布や周辺分布が定義できる。

 \mathcal{X}上の確率分布p \in \mathcal{P(X)}と通信路 W: \mathcal{X} \to \mathcal{P(Y)}が与えられているとき、 \mathcal{X}\times\mathcal{Y}上の同時分布p \in \mathcal{P(X}\times\mathcal{Y)}{ \displaystyle
 p(x,y) = p(x)W(y|x)
} で定義される。

また、同時分布p \in \mathcal{P(X}\times\mathcal{Y)}が与えられたとき、 { \displaystyle
 p(x) = \sum_{y \in \mathcal{Y}}p(x, y)
}{ \displaystyle
 p(y) = \sum_{x \in \mathcal{X}}p(x, y)
} を同時分布p(x,y) から得られた周辺分布と呼び、この同時分布から周辺分布を得る操作を周辺化と呼ぶ。

Markov morphism

通信路 W: \mathcal{X} \to \mathcal{P(Y)}が一つ与えられると、写像 \Gamma_W: \mathcal{P(X)} \to \mathcal{P(Y)}が次のように定義できる。

{ \displaystyle
 \Gamma_W: p(x) \mapsto \Gamma_W(p)(y) = \sum_{x \in \mathcal{X}} p(x) W(y|x)
}

この写像 \Gamma_WMarkov morphismと呼ばれ、\lambda[0,1]上の数として、p_1, p_2 \in \mathcal{P(X)}としたときに、

{ \displaystyle
 \Gamma_W( \lambda p_1 + (1 - \lambda) p_2) = \lambda \Gamma_W(p_1) + (1 - \lambda) \Gamma_W(p_2)
}

と凸結合に対して閉じているという性質を持っている*2

また、Markov morphismは \mathcal{X}から \mathcal{Y}への確率変数、分布の意味での変数変換となっている。

写像と通信路

ここでは、写像は通信路の特殊例だと言うことを説明する。

まず、一点分布と言う特殊な分布を考える。一点分布とは、ある一点に確率が集中していて、他のところの確率が0になるような確率分布のこと。 イメージとしては、1しかでないサイコロや表しかでないコイントスの持つ確率分布と思ってもらうといい。

さて、集合 \mathcal{Y}上の一点分布全体のなす集合 \mathcal{P_1(Y)} = \{ p \in \mathcal{P(Y)}| p {\rm \ is\ a\ one-point\ distribution}\}を考える。 まず、明らかに \mathcal{P_1(Y)} \subset \mathcal{P(Y)}。 次に、一点分布はある一点を選んでそこに確率を集中させるので、集合 \mathcal{Y}と集合 \mathcal{P_1(Y)}には自明な全単射(1対1対応)がある。 具体的には、

{ \displaystyle
y_0 \in \mathcal{Y} \mapsto p_{y_0}(y_0) = 1 \in  \mathcal{P_1(Y)}
}

というもの*3

ここで、写像 f: \mathcal{X} \to \mathcal{Y}を考える。集合 \mathcal{Y}と集合 \mathcal{P_1(Y)}には自明な全単射(1対1対応)があったから、写像 f: \mathcal{X} \to \mathcal{Y}写像 W_f: \mathcal{X} \to \mathcal{P_1(Y)}にも自明な全単射(1対1対応)がある。 また、 \mathcal{P_1(Y)} \subset \mathcal{P(Y)}なのだから、写像 W_fは通信路なのが分かる。

2章の補足は何だったのか?

一言で言ってしまえば、

写像に対応する通信路に関するMarkov morphismを用いた変数変換。」

当然、今まで説明してきたように通信路があれば、その通信路が写像に対応していなくても、通信路に関するMarkov morphismを用いた変数変換ができるので、 あの話はもう少し広いクラスに拡張することができる。

*1:確率変数 X,Yを考えて、 Xから Yへの通信路と呼ぶのが普通。ただし、見て分かるとおり通信路の定義には確率変数 Xはいらない( \mathcal{X}上の確率分布は必要ない)。

*2:この凸結合に対して閉じるという性質からMarkov morphismを定義することもできる。

*3: \mathcal{Y}が連続的な場合、デルタ関数を用いてあらわせる。