欺诈检测的特征工程

时间:2018-05-14 12:50:07

标签: machine-learning feature-selection fraud-prevention feature-engineering

我正在为学术目的进行欺诈检测方面的研究。 我想具体了解从事务数据集中进行特征选择和生成的技术。 更详细地说,给定交易数据集(例如信用卡),选择在模型上使用哪种特征以及如何设计它们?

我所遇到的所有论文都集中在模型本身(SVM,NN,......)并没有真正触及这个主题。

此外,如果有人知道没有匿名的公共数据集 - 这也会有所帮助。

由于

1 个答案:

答案 0 :(得分:1)

对特征选择/排名有一个很好的理解对于数据科学家或机器学习从业者来说是一个很好的资产。很好地掌握这些方法可以获得更好的模型,更好地理解数据的底层结构和特征,并且可以更好地直观了解许多机器学习模型的算法。

使用特征选择通常有两个原因: 1.减少特征数量,减少过度拟合并改进模型的推广。 2.更好地理解特征及其与响应变量的关系。

可能的方法:

单变量要素选择:

  • Pearson Correlation
  • 相互信息和最大信息系数(MIC)
  • 距离相关
  • 基于模型的排名

基于树的方法:

  • 随机森林特征重要性(平均减少杂质,平均减少精度)

<强>其他

  • 稳定性选择
  • RFE