应用错误收集

时间：2019-01-18 17:53:56

标签： algorithm machine-learning scikit-learn artificial-intelligence

我有一个关于机器学习的关于预测的问题。

因此，通常情况下，我会使用一个x和y的数据集来训练我的算法。但是，如果我仅具有仅输入变量（x）而没有实际预测（y's）的数据集怎么办？

例如，即时通讯正在寻找伙伴交易。

在数据集A中，我有一堆输入变量，例如金额，邮政编码，商人等，并且我有一个欺诈状态变量，其中1表示可能的欺诈，0表示安全交易。在这里，我可以进行模型训练的已知欺诈/已知非欺诈。

但是，如果我有没有欺诈变量的数据集怎么办。我所拥有的只是我的输入变量，没有任何变量表明是否欺诈。 ML算法如何才能预测此特定数据集被欺诈交易的可能性？

答案 0 :(得分：2)

我认为您正在寻找的是异常检测。在异常检测中，您将尝试查找与其余数据点不同的数据点，以防您是欺诈性交易。

sklearn中有很多算法可用，请看here。我建议从您的问题开始使用IsolationForest模型。

来自文档。