La détection d'anomalies correspond à une méthode statistique qu'Alertes Analytics utilise pour identifier les anomalies au niveau d'une statistique dans les données de séries temporelles ainsi que celles dans un segment à un moment donné.
Identifier les anomalies dans les statistiques au fil du temps
Alertes Analytics applique aux données de l'historique un modèle spatio-temporel à base de réseaux bayésiens pour prévoir la valeur du point de données le plus récent observé dans les séries temporelles. Le modèle génère une prédiction et un intervalle crédible qui nous permettent d'évaluer la statistique observée.
À l'aide des données de l'historique, Alertes Analytics prévoit la valeur de la statistique à la période actuelle et signale le point de données comme étant une anomalie si la valeur réelle est en dehors de l'intervalle crédible. Pour la détection d'anomalies au niveau de données évaluées toutes les heures, la durée de l'apprentissage est de deux semaines. Dans le cas de données évaluées tous les jours, cette période est de 90 jours. Pour la détection des anomalies hebdomadaires, elle est de 32 semaines.
Identifier les anomalies dans un segment à un moment donné
La détection d'anomalies basée sur les séries temporelles fait appel aux données de l'historique pour signaler une seule statistique au sein d'une valeur de dimension unique. Toutefois, nous proposons aussi la détection d'anomalies concernant plusieurs statistiques et valeurs de dimension en même temps, à un moment donné.
Avec cette approche, nous exploitons la structure de corrélation entre les statistiques et la validation croisée à l'aide de l'analyse en composantes principales (ACP) afin de signaler des anomalies.
Tout d'abord, nous identifions l'ensemble des dimensions et des statistiques qui seront soumises à l'ACP. En fonction de toutes les valeurs de dimensions possibles, nous créons plusieurs segments, puis nous normalisons chaque statistique en fonction du nombre d'utilisateurs dans un segment. Ensuite, nous exécutons l'ACP pour ces segments et ces statistiques normalisées. Si un segment spécifique présente un comportement anormal pour n'importe quelle statistique et comprend au moins 0,05 % des utilisateurs de cette propriété, nous les signalons en tant qu'anomalies. À l'heure actuelle, nous effectuons cette analyse chaque semaine.