Azure Machin Learing - 如何使用非常有限的数据集进行训练

时间:2017-10-10 16:49:31

标签: azure-machine-learning-studio anomaly-detection

我是初学者,我需要一些关于如何建模以下场景的建议

我每天平均从外部系统消耗大约5000行数据。传入的行数介于4950到5050之间。我想构建一个警报机制,告诉我传入的行数是否正常。也就是说,我想要一个解决方案,让我知道,如果我说,在给定的一天2500行,减少50%或说15000行比平均值更多。

示例数据如下:
|一天|传入数据的大小(以MB为单位)|行数|标签|
|平日| 3.44 | 5000 | Y |
|平日| 3.3 | 4999 | Y |
|平日| 3.1 | 4955 | Y |
|平日| 3.44 | 5000 | Y |
|周末| 4.1 | 5050 | N |

我最初的想法是使用一些异常检测算法。我尝试使用主成分分析算法来检测异常。我收集了每天收到的总行数,并用它来训练模型。但是,在对我所拥有的数据进行训练后,这是非常有限的(少于500次观察),我发现准确性非常差。 One-Class SVM也没有给我带来好结果。 我用了#34;行数"作为分类特征,标签为..标签并忽略其余参数,因为在这种情况下我不感兴趣。无论传入数据的日期和大小如何,我的逻辑仅围绕行数。 此外,到目前为止,我没有任何负面情况,这意味着,我从来没有收到过多或太多的记录。所以我标记了我收到5050行异常的所有日子。其余我标记为正常。

我确实意识到我在这里做了一些根本错误的事情。问题是,我的方案是否有资格在机器学习中使用? (我相信它确实如此,但想要你的意见) 如果是,如何处理这些有限的训练数据集,您几乎没有任何样本异常。它真的是一个异常问题,还是我可以使用一些分类算法来获得更好的结果?

感谢

1 个答案:

答案 0 :(得分:0)

请参阅时间序列异常检测模块。它应该做你需要的:

https://msdn.microsoft.com/library/azure/96b98cc0-50df-46ff-bc18-c0665d69f3e3?f=255&MSPPError=-2147217396