具有一个标签数据(大数据)的动态环境的模型选择

时间:2016-08-20 07:12:59

标签: machine-learning outliers supervised-learning unsupervised-learning bigdata

我想知道如何使用无监督/半监督/监督方法实时处理这种情况(对于每个在线记录):

我有一年公司的正常数据。这是大数据(我提到这是因为它可能有助于提出解决方案 - 我将开始使用Spark)。数据仅标记为正常。但是有一些问题:

1)具有正常类别的数据分布可能会有所不同。这意味着在构建模型后,由于动态环境和添加/删除某些传感器(从传感器接收数据并添加传感器会影响其他传感器值),其特征值可能会有所不同。

2)我想找到一个解决方案(构建模型),用于将正常数据与将来可能存在的异常数据分开。考虑到对系统的影响,异常数据类型(类)可能会有所不同。

现在,我如何构建模型(找到解决方案)来处理这种情况?我认为,由于我拥有大量数据,因此有一种方法可以将正常数据与异常数据区分开来。我希望这是真的! 提前谢谢。

0 个答案:

没有答案