異常検知、あるいは二値仮説検定について - 情報理論関連をぐだぐだと

本の紹介

今日、夕方から

異常検知と変化検知 (機械学習プロフェッショナルシリーズ)

作者: 井手剛,杉山将
出版社/メーカー: 講談社
発売日: 2015/08/08
メディア: 単行本（ソフトカバー）
この商品を含むブログを見る

の勉強会があるので、予習もかねて。

異常検知とは？

タイトルにもあるとおり、言ってしまえば二値の仮説検定そのもの。

「異常」か、「正常」かということをデータから判断する。

仮説検定とは？

通常、帰無仮説がどうとか、対立仮説がどうとかいう話が出てくるけれど、ここではそう言った構成はせず、次のように考える。

$\mathcal{X}$ を適当な集合として、与えられているものとする。感覚的にはデータの取り得る値の集合なので、データ集合と呼ぶことにする。

$\mathcal{P(X)}$ をデータ集合 $\mathcal{X}$ 上の確率分布全体のなす集合とする。 $\mathcal{P(X)}$ の要素 $p \in \mathcal{P(X)}$ が $\mathcal{X}$ 上の確率分布。

確率分布 $p \in \mathcal{P(X)}$ とは $\mathcal{X}$ から非負の実数（0以上の実数） $\mathbb{R}_+$ への関数で、

${ \displaystyle \sum_{x \in \mathcal{X}} p(x) = 1 }$

あるいは、

${ \displaystyle \int_{\mathcal{X}} p(x) dx = 1 }$

を満たすものをさす。*1

ここで、 $\mathcal{P(X)}$ の要素 $p \in \mathcal{P(X)}$ を仮説と呼ぶことにする。

二値仮説検定とは、得られたデータ $x \in \mathcal{X}$ が与えられた2つの仮説 $p,q \in \mathcal{P(X)}$ のどちらから得られたか（実現したか）を推定する問題。

異常検知の観点から言えば、対象が正常なときにデータが従う分布 $p \in \mathcal{P(X)}$ と、対象が異常なときにデータが従う分布 $q \in \mathcal{P(X)}$ が与えられたときに、得られたデータ $x \in \mathcal{X}$ が正常か異常かを判断する問題。

決定的な解決策*2

基本的な考え方は、データ集合 $\mathcal{X}$ を与えられた2つの仮説 $p,q \in \mathcal{P(X)}$ を用いて2つに分けてしまうことにある。

具体的には、集合 $A_p = \{x \in \mathcal{X} | p(x) \geq q(x)\}$ と集合 $A_q = \{x \in \mathcal{X} | p(x) \lt q(x)\}$ に分けたり（ベイズ決定則）、ある非負の数 $c \in \mathbb{R}_+$ を用いて、集合 $A_p = \{x \in \mathcal{X} | p(x) \geq cq(x)\}$ と集合 $A_q = \{x \in \mathcal{X} | p(x) \lt cq(x)\}$ に分けたり（ネイマン-ピアソン決定則）する。