我应该从输入要素中剔除离群值

时间:2019-01-24 07:33:58

标签: tensorflow keras

我的输入要素列中几乎有一半具有“异常值”,例如平均值为 19.6 时最大值为 2908.0 。是可以的,还是应该将它们修剪为mean + std

              msg_cnt_in_x  msg_cnt_in_other         msg_cnt_in_y \
count             330096.0           330096.0            330096.0   
mean                  19.6                2.6                38.3   
std                   41.1                8.2                70.7   
min                    0.0                0.0                 0.0   
25%                    0.0                0.0                 0.0   
50%                    3.0                1.0                 8.0   
75%                   21.0                2.0                48.0   
max                 2908.0             1296.0              4271.0

1 个答案:

答案 0 :(得分:2)

对此没有普遍的答案。这很大程度上取决于您的探针和数据集。

您应该查看数据集,并检查这些异常数据点是否真正有效和重要。如果它们是由于数据收集过程中的某些错误引起的,则应将其删除。如果它们有效,则可以在测试数据中获得相似的值,因此数据点应保留在数据集中。

如果不确定,请同时进行测试并选择效果更好的一种。