如何使用lapply删除R中列表中缺少值太多的列?

时间:2016-11-21 11:08:30

标签: r list indexing lapply sapply

我有一个名为ls.df.val.dcas的数据框列表。每个数据帧都有各种列,其中一些缺失值为NA。我想在列表中使用lappy(),这样我就可以删除那些超过X%(例如40%)值的列。为了让您了解列表中的数据帧如何显示我正在展示的示例:

 $ SK_VALUES_IMV_EU28_INTRA  :'data.frame': 74 obs. of  65 variables:
  ..$ PERIOD  : Date[1:74], format: "2010-01-01" "2010-02-01" "2010-03-01" "2010-04-01" ...
  ..$ 2207    : num [1:74] 1078759 1850083 1872924 1038070 626471 ...
  ..$ 2208    : num [1:74] 3329179 7061890 1351550 1371469 1557605 ...
  ..$ 220710  : num [1:74] 1030704 1804495 1831958 972263 574855 ...
  ..$ 220720  : num [1:74] 48055 45588 40966 65807 51616 ...
  ..$ 220820  : num [1:74] 380843 1014933 71804 126348 138138 ...
  ..$ 220830  : num [1:74] 380007 459653 155033 205879 297446 ...
  ..$ 220840  : num [1:74] 41561 88449 31549 60768 117534 ...
  ..$ 220850  : num [1:74] 94483 340439 44949 32949 37550 ...
  ..$ 220860  : num [1:74] 371217 728521 143974 179311 254546 ...
  ..$ 220870  : num [1:74] 731231 1374532 228087 227772 230129 ...
  ..$ 22082014: num [1:74] NA 2531 1776 NA NA ...
$ RO_VALUES_IMV_EU28_EXTRA  :'data.frame':  74 obs. of  44 variables:
  ..$ PERIOD  : Date[1:74], format: "2010-01-01" "2010-02-01" "2010-03-01" "2010-04-01" ...
  ..$ 2207    : num [1:74] NA NA NA NA NA 5 NA NA NA NA ...
  ..$ 2208    : num [1:74] 312035 840540 315008 884357 100836 ...
  ..$ 220710  : num [1:74] NA NA NA NA NA 5 NA NA NA NA ...
  ..$ 220720  : num [1:74] NA NA NA NA NA NA NA NA NA NA ...
  ..$ 220820  : num [1:74] 3570 698 483 1087 1802 ...

我的不完整解决方案是基于计算每个数据帧的每列中的NA数并计算NA的百分比。然后删除百分比大于X%的列。

# Counting the number of NA
ls.Nan <- lapply(ls.df.val.dcas, function(x) colSums(!is.na(x)))
# Calculating the lengths of all column
ls.size <- lapply(ls.df.val.dcas, function(x) dim(x))

# we want the first element of size which shows the number of rows.
ls.percen <- mapply(function(x,y) x/y[1] , x=ls.Nan, y=ls.size)
# keeping those columns that have more than half of the data on that category

mis.list <- sapply(ls.df.val.dcas, "]]" sapply(ls.percen, function(x) x >= NPI))

运行最后一行时出现以下错误。

Error: unexpected symbol in "mis.list <- sapply(ls.df.val.dcas, "]]" sapply"

最终我还想将所有这些函数合并到一个函数中,然后使用lapply一次。但是现在,我正在努力理解应用于数据帧列表的lapply索引系统。如果任何人可以通过示例演示如何使用不同粒度列表的lapply,那么这将是很好的。例如,当您想要更改列表中的元素或列表中的数据帧或列表的数据框中的列时,应如何编写函数。

  

EDIT   鉴于以下关于忘记在“]]之后输入逗号的评论。我更正了代码,但仍然收到错误

> mis.list <- sapply(ls.df.val.dcas, "]]", sapply(ls.percen, function(x) x >= NPI))
Error in get(as.character(FUN), mode = "function", envir = envir) : 
  object ']]' of mode 'function' was not found

顺便说一句,NPI只是该列中NAs的百分比阈值。例如,我已将其设置为NPI = 0.35

由于我怀疑错误与我的数据结构有关,因此我在ls.percen的结构上添加了更多信息。

> str(ls.percen)
    List of 69
     $ AT_VALUES_IMV_EU28_EXTRA  : Named num [1:59] 1 0.635 1 0.378 0.338 ...
      ..- attr(*, "names")= chr [1:59] "PERIOD" "2207" "2208" "220710" ...
     $ AT_VALUES_IMV_EU28_INTRA  : Named num [1:67] 1 0.986 0.986 0.986 0.986 ...
      ..- attr(*, "names")= chr [1:67] "PERIOD" "2207" "2208" "220710" ...
     $ BE_VALUES_IMV_EU28_EXTRA  : Named num [1:57] 1 1 1 1 0.365 ...
      ..- attr(*, "names")= chr [1:57] "PERIOD" "2207" "2208" "220710" ...
     $ BE_VALUES_IMV_EU28_INTRA  : Named num [1:69] 1 0.986 0.986 0.986 0.986 ...
      ..- attr(*, "names")= chr [1:69] "PERIOD" "2207" "2208" "220710" ...

1 个答案:

答案 0 :(得分:0)

可能是一个简单的拼写错误(而不是索引的问题):该消息表示您缺少逗号,它应该是:

mis.list <- sapply( ls.df.val.dcas, "]]", sapply(ls.percen, function(x) x >= NPI))

我们没有看到NPI&#39;的定义。可能更容易合并前两个&#39; lapply&#39;通过以下方式调用(并返回所需的短路df列表)

mis.lst <- lapply( ls.df.val.dcas, 
                  function(x) x[ , colSums(!is.na(x))/nrow(x) > .40 ] )

您可以在&#34; j&#34;中使用逻辑索引。 &#34; [&#34;。

的两个论证版本的位置