我正在从数据框(组合)中删除异常值。
我如何a)确认已从原始数据帧(combi)中删除了数据点,而不仅仅是临时数据帧(numeric_train),并且b)了解有多少个数据点被删除1b。总计2b。每个变量?
我首先过滤了数字变量。
numeric_train <- Filter(is.numeric, subset(combi, dataset == "train"))
(未发布:Extreme.threshold.upper和extreme.threshold.lower的代码,但基本上是3 * IQR范围+/-上下四分位数)
极端离群值:
extreme_outliers <- which(numeric_train > extreme.threshold.upper |
numeric_train < extreme.threshold.lower)
str(extreme_outliers)
删除极端离群值:
numeric_train <- numeric_train[-extreme_outliers]
现在,我想确定是否正确地从组合中删除了异常值,以及异常值有多少(总计和每个变量)。我该怎么办?