标签: apache-spark outliers
我有一个大约10个整数要素的数据集,我希望从每个要素中删除数据集中的异常值。 我过去所做的是每个要素的计算平均值和标准差,并对数据集进行传递,同时丢弃符合异常值的行。在每个列/功能上执行此操作,可帮助我摆脱具有至少一个异常值功能的行。
由于多次解析数据集不是最佳方式,因此我一直在寻找以有效计算方式执行此操作的方法。有人可以提出一个更好的方法,以便可以解析一次数据集,并且可以摆脱所有异常值行吗?