我有一个关于机器学习的关于预测的问题。
因此,通常情况下,我会使用一个x和y的数据集来训练我的算法。但是,如果我仅具有仅输入变量(x)而没有实际预测(y's)的数据集怎么办?
例如,即时通讯正在寻找伙伴交易。
在数据集A中,我有一堆输入变量,例如金额,邮政编码,商人等,并且我有一个欺诈状态变量,其中1表示可能的欺诈,0表示安全交易。在这里,我可以进行模型训练的已知欺诈/已知非欺诈。
但是,如果我有没有欺诈变量的数据集怎么办。我所拥有的只是我的输入变量,没有任何变量表明是否欺诈。 ML算法如何才能预测此特定数据集被欺诈交易的可能性?
答案 0 :(得分:2)
我认为您正在寻找的是异常检测。在异常检测中,您将尝试查找与其余数据点不同的数据点,以防您是欺诈性交易。
sklearn中有很多算法可用,请看here。我建议从您的问题开始使用IsolationForest模型。
来自文档。