哪种方法最适合在动态环境中管理,预测和标记数据?系统数据分布发生变化,并且它不是静态的。系统可以具有不同的常规设置,并且在不同的设置下,我们具有不同的常规数据分布。考虑我们有两个类。正常和异常。怎么了?我们不能说我们可以依靠历史数据并训练一种简单的分类方法来预测未来的观测值,因为训练该模型的一天后,数据分布可能会发生变化,并且旧观测值将与新观测值无关。考虑下图:
蓝色分布和红色分布是正常数据,但是在不同的设置下,在训练时间内,我们只有一个设置。此数据用于一个传感器。因此,假设我们用蓝色模型训练了一个模型,并且也有一些异常样本。试想一下,异常样本就像正常样本一样,有一点点噪音或测量错误。然后,我们要测试模型但要设置更改,现在我们将红色分布作为我们的测试观察值。因此,该模型对样本进行了错误分类。
在这种情况下最好的方法是什么?请注意,我已经尝试了几种聚类算法,但是它们无法管理和区分正常样本和异常样本。
任何建议和帮助都将受到欢迎。谢谢
答案 0 :(得分:0)
关于时间序列数据的书籍很多。
尤其是在更改检测上。可以将您的示例视为均值的变化。有 个统计模型可以检测到这一点。
Basseville,Michèle和Igor V. Nikiforov。 突变的检测:理论和应用。 104.恩格尔伍德悬崖:普伦蒂斯·霍尔(Prentice Hall),1993年。