我必须参与有关深度学习分类应用的研究项目。我有一个庞大的数据集,其中包含超过35000个功能-这些都是从实验室获得的好值。
我的想法是,我应该创建一个分类器,该分类器必须在给定新输入的情况下告诉您数据似乎是好还是不好。我必须对keras和张量流使用深度学习。
问题是数据未分类。我将输入一个新列,其中1表示好,0表示不好。问题是,考虑到整个训练集都是好的,我如何才能确定一项输入是否正确?
我曾考虑过生成一些垃圾数据,但是我不知道这是否是一个好主意-我什至不知道如何生成它。你有什么建议吗?
答案 0 :(得分:2)
我将从异常检测开始。您可以先通过f.e (堆叠的)自动编码器,然后使用sklearn中的局部离群因子:https://scikit-learn.org/stable/modules/outlier_detection.html
首先需要减少功能的原因是,您的LOF会更加稳定。