使用R /机器学习算法查找特殊特征吗?

时间:2019-05-20 11:34:05

标签: r machine-learning data-science

我的一位同事让我遇到了一个问题,我很难找到可能的解决方案。问题是: 我有一个数据集,其中每一行代表我们在此制造的一件产品,而各列则代表在生产过程中发生的许多不同因素(例如长度,重量,温度等)的值。现在,有时会出现某种严重缺陷的产品,无法将其出售给客户。由于我们不知道为什么会出现这些缺陷,因此我们想看一下该数据集,并在R中使用机器学习算法来找出具有缺陷的产品是否存在任何不同或异常(例如,温度高于平均水平等等)。上)。

我想我要问的是,如果有人可以向我指出某种类型的方法,算法或研究,以便我可以获取更多有关此的信息。 非常感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

有很多方法可以满足您的需求。例如,如果您有相应的缺陷示例标签,则可以尝试使用标准的机器学习算法(SVM,朴素贝叶斯,随机森林等)进行简单的二进制分类。

尽管在您的情况下,异常检测算法似乎更被人们所模仿。这里的思想是训练一个分类器来检测一类示例(“正常”类),而它无法检测到的所有内容可能都是异常或您所用产品的缺陷。您可以使用在caret中实现的SVM来查看一类分类(请查看类似的问题,例如One-class classification with SVM in R )。您可以尝试的另一种算法是用于异常检测的自动编码器(如Predicting Fraud with Autoencoders and Keras中所述)。这是假设缺陷实例在自动编码器中的重构误差将高于非缺陷实例。

如果我愿意帮忙,请尝试一下这些异常检测算法,因为它们似乎符合您对问题的描述。

干杯:)