我正在尝试在2D中可视化我的数据以检测欺诈(异常值),我的所有功能都可能在欺诈的情况下采取更大的值。但我小心不要包含多余的功能,
例如功能: 活动(对于每天使用该服务的活跃用户而言得分较高)和赚钱都会在欺诈的情况下采用更高的值,但不能从另一个推断出。
我认为以这种方式选择特征将转换为2D表示中更大的坐标,并且会使欺诈点远离其他数据。
我也觉得相关功能会使自动编码器更容易重建数据。但我多次读到,相关功能在机器学习中效率不高。
我应该努力使我的功能相关性降低吗?例如,将活动分数(活跃用户更高)替换为两次使用之间的时间(活跃用户更低)?
或许这对自动编码器来说并不重要?
答案 0 :(得分:0)
您的理解是正确的,即“具有相关功能将使自动编码器更容易重建数据”。
例如,如果您所有的数据点都是i.i.d。高斯的,这将使自动编码器的数据压缩非常困难,因为它们将无法学习数据的低维表示。
有关详细信息,请参阅此斯坦福大学UFLDL教程link。