如何将自定义函数应用于嵌套数据框?

时间:2020-06-01 14:53:18

标签: r dplyr purrr broom

我正在尝试将自定义函数应用于嵌套数据框

我想应用机器学习算法来预测NA值

在进行一些在线阅读后,似乎map函数将在此处最适用

我有一段代码嵌套数据框,然后将数据拆分为测试(data3)和训练(data2)集-测试数据集包含要预测的列的所有空值,以及训练包含所有非空值以用于训练ML模型

dmaExtendedDataNA2 <- dmaExtendedDataNA %>%
                  group_by(dma) %>%
                  nest() %>%
                  mutate(data2 = map(data, ~filter(., !(is.na(mean_night_flow)))),
                         data3 = map(data, ~filter(., is.na(mean_night_flow))))

这是我打算使用的功能:

    my_function (test,train) {
             et  <- extraTrees(x = train, y = train[, "mean_night_flow"], na.action = "fuse", ntree = 1000, nodesize = 2, mtry = ncol(train) * 0.9 )
             test1 <- test
             test1[ , "mean_night_flow"] <- 0
             pred  <- predict(et, newdata = test1[, "mean_night_flow"])
             test1[ , "mean_night_flow"] <- pred
             return(test1)

我尝试了以下代码,但是不起作用:

dmaExtendedDataNA2 <- dmaExtendedDataNA %>%
                      group_by(dma) %>%
                      nest() %>%
                      mutate(data2 = map(data, ~filter(., !(is.na(mean_night_flow)))),
                             data3 = map(data, ~filter(., is.na(mean_night_flow))),
                             data4 = map(data3, data2, ~my_function(.x,.y)))

它出现以下错误:

Error: Index 1 must have length 1, not 33

这表明它期望的是列而不是整个数据框。我怎样才能使它正常工作?

非常感谢

1 个答案:

答案 0 :(得分:1)

如果不对数据进行测试,我认为您使用的是错误的map函数。 purrr::map处理一个 one 参数(一个列表,一个向量,无论如何)并返回一个列表。您正在向它传递两个值(data3data2),因此我们需要使用:

dmaExtendedDataNA2 <- dmaExtendedDataNA %>%
                      group_by(dma) %>%
                      nest() %>%
                      mutate(data2 = map(data, ~filter(., !(is.na(mean_night_flow)))),
                             data3 = map(data, ~filter(., is.na(mean_night_flow))),
                             data4 = map2(data3, data2, ~my_function(.x,.y)))

如果发现自己需要两个以上,则需要pmap。您可以将pmap用于1或2个参数,实际上是相同的。从map迁移到pmap时,最大的两个区别是:

  • 您的参数需要包含在列表中,所以

    map2(data3, data12, ...)
    

    成为

    pmap(list(data3, data12), ...)
    
  • 您用双点号位置..1..2..3等来引用它们,所以

    ~ my_function(.x, .y)
    

    成为

    ~ my_function(..1, ..2)
    

另一种方法可以稍微简化您的整体流程。

my_function (test, train = NULL, fld = "mean_night_flow") {
  if (is.null(train)) {
    train <- test[ !is.na(test[[fld]]),, drop = FALSE ]
    test <- test[ is.na(test[[fld]]),, drop = FALSE ]
  }
  et  <- extraTrees(x = train, y = train[, fld], na.action = "fuse", ntree = 1000, nodesize = 2, mtry = ncol(train) * 0.9 )
  test1 <- test
  test1[ , fld] <- 0
  pred  <- predict(et, newdata = test1[, fld])
  test1[ , fld] <- pred
  return(test1)
}

,它会根据您字段的缺失自动填充train。 (如果您需要在其他领域进行训练/测试,我也会对其进行参数化。)这会将您的用法更改为

dmaExtendedDataNA2 <- dmaExtendedDataNA %>%
                      group_by(dma) %>%
                      nest() %>%
                      mutate(data4 = map(data, ~ my_function(.x, fld = "mean_night_flow")))

(命名fld=很重要,因为否则它将与train混淆。)

如果您打算稍后在管道或分析中重用data2和/或data3,那么此步骤不一定是您需要的。

注意:我怀疑您的功能测试不足或不完整。您将所有0分配给test1[,"mean_night_flow"],然后在对predict的调用中使用这些零的事实似乎令人怀疑。我可能会想念一些东西,但我也许会希望

  test1 <- test
  pred  <- predict(et, newdata = test1)
  test1[ , fld] <- pred
  return(test1)

(尽管使用test1tibble复制到data.frame基本上是不必要的,因为它是就地复制的,并且原始框架没有被触及;如果您使用使用类data.table)。