我的输入要素列中几乎有一半具有“异常值”,例如平均值为 19.6 时最大值为 2908.0 。是可以的,还是应该将它们修剪为mean + std
?
msg_cnt_in_x msg_cnt_in_other msg_cnt_in_y \
count 330096.0 330096.0 330096.0
mean 19.6 2.6 38.3
std 41.1 8.2 70.7
min 0.0 0.0 0.0
25% 0.0 0.0 0.0
50% 3.0 1.0 8.0
75% 21.0 2.0 48.0
max 2908.0 1296.0 4271.0
答案 0 :(得分:2)
对此没有普遍的答案。这很大程度上取决于您的探针和数据集。
您应该查看数据集,并检查这些异常数据点是否真正有效和重要。如果它们是由于数据收集过程中的某些错误引起的,则应将其删除。如果它们有效,则可以在测试数据中获得相似的值,因此数据点应保留在数据集中。
如果不确定,请同时进行测试并选择效果更好的一种。