机器学习和实际预测

时间:2019-01-18 17:53:56

标签: algorithm machine-learning scikit-learn artificial-intelligence

我有一个关于机器学习的关于预测的问题。

因此,通常情况下,我会使用一个x和y的数据集来训练我的算法。但是,如果我仅具有仅输入变量(x)而没有实际预测(y's)的数据集怎么办?

例如,即时通讯正在寻找伙伴交易。

在数据集A中,我有一堆输入变量,例如金额,邮政编码,商人等,并且我有一个欺诈状态变量,其中1表示可能的欺诈,0表示安全交易。在这里,我可以进行模型训练的已知欺诈/已知非欺诈。

但是,如果我有没有欺诈变量的数据集怎么办。我所拥有的只是我的输入变量,没有任何变量表明是否欺诈。 ML算法如何才能预测此特定数据集被欺诈交易的可能性?

1 个答案:

答案 0 :(得分:2)

我认为您正在寻找的是异常检测。在异常检测中,您将尝试查找与其余数据点不同的数据点,以防您是欺诈性交易。

sklearn中有很多算法可用,请看here。我建议从您的问题开始使用IsolationForest模型。

来自文档。

enter image description here