如何检测时间序列数据中的异常(特别是其中存在趋势和季节性)?

时间:2019-07-17 06:39:53

标签: python machine-learning time-series anomaly-detection

我想在包含趋势和季节性成分的“时间序列数据”中检测异常值。我想忽略季节性的峰,仅考虑其他峰并将其标记为离群值。由于我是时间序列分析的新手,请协助我解决这个时间序列问题。

正在使用的编码平台是Python。

尝试1:使用ARIMA模型

我已经训练好模型并预测了测试数据。然后能够用我的测试数据的实际值计算出预测结果之间的差异,然后能够基于观察到的差异找出异常值。

汽车Arima的实现

!pip install pyramid-arima
from pyramid.arima import auto_arima
stepwise_model = auto_arima(train_log, start_p=1, start_q=1,max_p=3, max_q=3,m=7,start_P=0, seasonal=True,d=1, D=1, trace=True,error_action='ignore', suppress_warnings=True,stepwise=True)

import math
import statsmodels.api as sm
import statsmodels.tsa.api as smt
from sklearn.metrics import mean_squared_error

将数据拆分为训练集和测试集

train, test = actual_vals[0:-70], actual_vals[-70:]

日志转换

train_log, test_log = np.log10(train), np.log10(test)

转换为列表

history = [x for x in train_log]
predictions = list()
predict_log=list()

拟合逐步ARIMA模型

for t in range(len(test_log)):
stepwise_model.fit(history)
    output = stepwise_model.predict(n_periods=1)
    predict_log.append(output[0])
    yhat = 10**output[0]
    predictions.append(yhat)
    obs = test_log[t]
    history.append(obs)

绘图

figsize=(12, 7)
plt.figure(figsize=figsize)
pyplot.plot(test,label='Actuals')
pyplot.plot(predictions, color='red',label='Predicted')
pyplot.legend(loc='upper right')
pyplot.show()

但是我只能在测试数据中检测到异常值。实际上,我必须检测整个时间序列数据(包括我拥有的火车数据)的异常值。

尝试2:使用季节性分解

我已经使用下面的代码将原始数据分为季节性,趋势和残差,并且可以在下图中看到。

from statsmodels.tsa.seasonal import seasonal_decompose

decomposed = seasonal_decompose()

enter image description here

然后使用残差数据通过箱线图找出离群值,因为季节和趋势成分均已删除。这有道理吗?

或者还有其他简单或更好的方法吗?

1 个答案:

答案 0 :(得分:0)

您可以:

  • 在{em> "Attempt 2 : Using Seasonal Decomposition" 的第4个图形(残差图)中尝试检查极端点,这可能会导致您出现季节性序列中的某些异常情况。
  • 受监督(如果您有一些标签数据):进行一些分类。
  • 无监督:尝试预测下一个值并创建一个置信区间,以检查预测是否位于其内部。
  • 您可以尝试计算数据的相对极值。例如,如下所示使用argrelextrema:
from scipy.signal import argrelextrema
x = np.array([2, 1, 2, 3, 2, 0, 1, 0]) 
argrelextrema(x, np.greater)

输出:

  

(array([3,6]),)

一些随机数据(我对上述argrelextrema的实现): enter image description here