異常検出とは、特定の指標の時系列データの異常や、同時点でのセグメント内の異常を特定するために、アナリティクス インテリジェンスで使用される統計的な手法のことです。
指標の時系列データの異常を特定する
インテリジェンスでは、ベイズ統計の状態空間時系列モデルを過去データに適用し、時系列の最近のデータポイントの値を予測します。このモデルでは、予測値のほか、モニタリング対象となる指標の評価に使用する信用区間が生成されます。
アナリティクス インテリジェンスでは、過去のデータに基づいて現在の期間における指標の値が予測され、実際の値が信用区間外となった場合はデータポイントが異常として報告されます。時間単位で異常を検出する場合のトレーニング期間は 2 週間で、1 日単位で異常を検出する場合、トレーニング期間は 90 日です。週単位の場合は 32 週間になります。
同時点でのセグメント内の異常を特定する
時系列ベースの異常検出では、過去のデータに基づき、1 つのディメンション値について指標 1 つが報告されますが、複数の指標とディメンション値に関する異常検出も同時に行われます。
この方法では、指標の相関構造とクロス検証を活用した主成分分析(PCA)に基づいて、異常が報告されます。
まず、PCA を行うディメンションと指標のセットを特定します。対象となるすべてのディメンション値に基づいて、複数のセグメントを作成し、セグメントに含まれるユーザー数で各指標を正規化します。次に、これらのセグメントと正規化された指標について PCA を実施します。特定のセグメントが、いずれかの指標で異常な動きを示し、そのプロパティのユーザーの 0.05% 以上で構成されている場合は、それらのセグメントを異常として表示します。現在、この分析は毎週行われます。