Python欺诈检测分类算法

时间:2020-04-06 02:54:50

标签: python machine-learning classification data-science fraud-prevention

我正在研究信用卡欺诈检测模型,并为包含在线商店订单的标签数据做标签。我正在使用的列是:客户全名,送货地址和账单地址(城市,州,邮编,街道),订单 数量,总成本,以及有关是否发现订单欺诈的指示符。

问题在于98%以上的交易不是欺诈性的事实-数据集高度不平衡。我知道这是一个分类问题,但是我不确定从哪里开始我要处理的列以及数据的不平衡性。

对于该用例以及如何处理不平衡数据的任何适当分类算法的建议,我将不胜感激。我在搜索如何解决此问题时发现了几篇文章,但是大多数文章都是使用Kaggle数据集处理的,这些数据集具有非常不同的列(由于出于安全原因,不允许公开信息)。

谢谢!

1 个答案:

答案 0 :(得分:1)