我有一个包含多个组合的大型数据集。我创建了一个函数,返回没有任何异常值的数据。因此,如果您有100个观察值,它将用NA来填充异常值,并返回100个观测结果)
我有一个包含两列的数据框,其中包含分组变量(例如男性/女性就业/失业)。第三列将包含需要删除异常值的实际数据(示例薪水)。
我可以使用哪些函数返回一个数据帧或矩阵,每个分组变量都删除了异常值。
类似的东西:
data.without.outlier <- function.unknown(data, by=list(data[,"employment"],data[,"sex"]), FUN = (my outlier function))
欢迎所有建议!
答案 0 :(得分:0)
假设你的&#34; myoutlierfunction&#34;返回一个数据框,你可以像这样使用dplyr:
library(dplyr)
data.without.outlier = data %>%
group_by(employment, sex) %>%
do(myoutlierfunction)