使用大量零数据点击欺诈检测

时间:2017-12-30 11:20:07

标签: python machine-learning dataset data-science anomaly-detection

我有一些广告发布商的数据集。出版商每次点击广告都可以赚钱。数据集由发布者列表以及相应的点击次数和他们造成的交易次数组成。问题在于出版商是否作弊并点击它自己的广告以获得更多的钱。但是这些发布商中的一些总点击次数非常小(低于10),因此交易次数为0.

我的问题是我应该如何处理这些零数据?它们实际上破坏了我的高斯数据分布。我该怎么办?从我的数据集中删除它们?有没有统计方法来做这件事?

顺便说一句,我对数据分析很陌生,如果答案很明显,请原谅我,但我无法在网上找到答案。

1 个答案:

答案 0 :(得分:0)

删除零

>>> x = [0,2,0,5,0,6,77,8,9]
>>> list(filter((0).__ne__, x))
[2, 5, 6, 77, 8, 9]

高斯分布的形状会发生变化。