我的目标是使用图函数和点函数进行单变量方法进行离群值检测。正在使用DMwR软件包。
作业中给出的示例代码为:
x <- data.frame(1:100, x)
plot(x, main = "x outlier", col = "darkgreen")
points(x[outlier.x, ], col= 'red', pch = 'x', cex = 1.5)
地址缺失值:
clean.qs <- na.omit(sales$quantitySold)
汇总数据:
summary(clean.qs)
#Min. 1st Qu. Median Mean 3rd Qu. Max.
#1005 1345 2675 14617 8680 4642955
对于QuantitySold变量
plot(clean.qs, main='Quantity Sold', col='darkgreen')
qs.out <- boxplot.stats(clean.qs)$out
找到异常值的索引:
outlier.qs <- which(clean.qs %in% qs.out)
尝试1:
plot(clean.qs, main='Quantity Sold', col='darkgreen')
points(clean.qs[outlier.qs, ], col='red', pch='x', cex=1.5)
尝试2:
set.seed(3147)
x <- data.frame(1:387304, clean.qs)
plot(clean.qs, main='Quantity Sold', col='darkgreen')
points(clean.qs[outlier.qs, ], col='red', pch='x', cex=1.5)
此代码应为非离群值生成带有深绿色圆圈的图,并在离群值绿色圆圈上方添加红色x。
plot函数成功运行,但是在点函数期间会出现此错误:“ clean.qs [outlier.qs,]中的错误:维数不正确”。