对不起,我没有关于交叉验证的答案
我刚开始从事数据科学。我有来自传感器(20)的数据,几乎所有时候我都有“好”值。有时,我会发现有些问题。现在我有500,000行,每行包含20列,大约300列用于“坏”行。这些“不良”行可能代表不同类型的错误,有时没有值。我不知道会有多少种错误。
由于我没有足够的“坏”数据,因此无法直接使用神经网络。
我的目的是使用异常值/异常检测算法,使用这些异常进行聚类,并为每个聚类手动分配错误。
您可以推荐哪些算法和python库?任何帮助将不胜感激。
答案 0 :(得分:0)
这是异常值和异常检测中的一个常见问题,为此分析建立了几种策略。
自动编码器:查看有关使用自动编码器进行欺诈检测的帖子https://medium.com/@curiousily/credit-card-fraud-detection-using-autoencoders-in-keras-tensorflow-for-hackers-part-vii-20e0c85301bd
这个仓库:https://github.com/chen0040/keras-anomaly-detection
我最能解释这种方法的工作方式:将输入分解开来,仅与基本要素放回去,寻找与正常情况根本不同的输入。
这是一种专注于利用LTSM的方法,LTSM是卷积神经网络中一种流行的“记忆”细胞:https://developer.ibm.com/tutorials/iot-deep-learning-anomaly-detection-5/
您可能还会探索GAN,因为它们从根本上依赖于鉴别器。在此处查看它们:https://skymind.ai/wiki/generative-adversarial-network-gan
Python中有很多NN / ML库。 Keras,tf,scikit-learn,pytorch和nltk,spacy都很受欢迎。