A Detecção de anomalias é uma técnica estatística usada pelo Analytics Intelligence para identificar falhas nos dados de série temporal de uma determinada métrica e dentro de um segmento no mesmo período de tempo.
Como identificar anomalias nas métricas ao longo do tempo
O Intelligence aplica um modelo de série temporal bayesiano de espaço de estado aos dados históricos para prever o valor do ponto de dados mais recente na série. O modelo gera uma previsão e um intervalo de credibilidade que usamos para avaliar a métrica observada.
Com base nos dados históricos, o Analytics Intelligence prevê o valor da métrica no período atual e sinaliza o ponto de dados como uma anomalia caso o valor real esteja fora do intervalo de credibilidade. Para a detecção de anomalias por hora, o período de treinamento é de duas semanas. Para a detecção diária, 90 dias. Para a detecção semanal, 32 semanas.
Como identificar anomalias dentro de um segmento no mesmo período de tempo
Embora a Detecção de anomalias com base em séries temporais use os dados históricos para sinalizar uma única métrica em um valor de dimensão, também é possível analisar simultaneamente diversos valores de métricas e dimensões em um período de tempo.
Nessa abordagem, usamos a análise de componentes principais (PCA, na sigla em inglês) para aproveitar a estrutura de correlação das métricas com a validação cruzada para sinalizar anomalias.
Primeiro, identificamos o conjunto de dimensões e métricas que será submetido à PCA. Com base em todos os valores de dimensão possíveis, criamos vários segmentos e normalizamos cada métrica pelo número de usuários em cada segmento. Em seguida, realizamos a PCA para esses segmentos e métricas normalizadas. Se um segmento específico apresentar comportamentos anômalos em qualquer métrica e incluir pelo menos 0,05% dos usuários da propriedade, ele será exibido como uma anomalia. No momento, essa análise é feita semanalmente.