異常検知、あるいは二値仮説検定について
本の紹介
今日、夕方から
- 作者: 井手剛,杉山将
- 出版社/メーカー: 講談社
- 発売日: 2015/08/08
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
の勉強会があるので、予習もかねて。
異常検知とは?
タイトルにもあるとおり、言ってしまえば二値の仮説検定そのもの。
「異常」か、「正常」かということをデータから判断する。
仮説検定とは?
通常、帰無仮説がどうとか、対立仮説がどうとかいう話が出てくるけれど、ここではそう言った構成はせず、次のように考える。
を適当な集合として、与えられているものとする。感覚的にはデータの取り得る値の集合なので、データ集合と呼ぶことにする。
をデータ集合上の確率分布全体のなす集合とする。の要素が上の確率分布。
確率分布とはから非負の実数(0以上の実数)への関数で、
あるいは、
を満たすものをさす。*1
ここで、の要素を仮説と呼ぶことにする。
二値仮説検定とは、得られたデータが与えられた2つの仮説のどちらから得られたか(実現したか)を推定する問題。
異常検知の観点から言えば、対象が正常なときにデータが従う分布と、対象が異常なときにデータが従う分布が与えられたときに、 得られたデータが正常か異常かを判断する問題。
決定的な解決策*2
基本的な考え方は、データ集合を与えられた2つの仮説を用いて2つに分けてしまうことにある。
具体的には、集合と集合に分けたり(ベイズ決定則)、 ある非負の数を用いて、集合と集合に分けたり(ネイマン-ピアソン決定則)する。
ここで、得られたデータがに入っていれば、を支持(正常であると判断)し、逆にに入っていれば、を支持(異常であると判断)する。
大きな問題、それは…
実際に異常検知を行おうとするときには、このフレームワークでは大きな問題がある。 それは、通常2つの仮説は与えられないということ。
ではどうするかと言うと、これまで得られているデータ列から、2つの仮説、または、正常な方の仮説を推定することになる*3。
推定問題は検定問題とは似ているけれども全く別の問題。勉強会までの時間もないので後日書くことにする。