应用错误收集

时间：2019-02-06 16:32:14

标签： machine-learning keras deep-learning classification unsupervised-learning

我必须参与有关深度学习分类应用的研究项目。我有一个庞大的数据集，其中包含超过35000个功能-这些都是从实验室获得的好值。

我的想法是，我应该创建一个分类器，该分类器必须在给定新输入的情况下告诉您数据似乎是好还是不好。我必须对keras和张量流使用深度学习。

问题是数据未分类。我将输入一个新列，其中1表示好，0表示不好。问题是，考虑到整个训练集都是好的，我如何才能确定一项输入是否正确？

我曾考虑过生成一些垃圾数据，但是我不知道这是否是一个好主意-我什至不知道如何生成它。你有什么建议吗？

答案 0 :(得分：2)

我将从异常检测开始。您可以先通过f.e （堆叠的）自动编码器，然后使用sklearn中的局部离群因子：https://scikit-learn.org/stable/modules/outlier_detection.html

首先需要减少功能的原因是，您的LOF会更加稳定。