从列表中提取一定长度的数字

时间:2016-04-13 11:37:01

标签: r list extract

我有一个包含数千个元素的列表 - 一些元素包含多年 - 这是4个数字的字符串 - 其他包含我需要删除的随机数字。

我需要从列表中仅提取长度为4的数字,并删除所有其他数字。最后,我需要一个20行的数据框 - 以及包含嵌套在列表中的年份的列。例如,在下面的示例中,我需要一个看起来像这样的表。

> sample_years
   element year year.1 year.2 year.3
1        1   NA     NA     NA     NA
2        2   NA   1918     NA     NA
3        3   NA     NA     NA     NA
4        4   NA     NA     NA     NA
5        5   NA   1912   1913     NA
6        6   NA   1893   1898   1925
7        7   NA   1820   1830   1899
8        8   NA     NA     NA     NA
9        9   NA   1808   1810   1854
10      10   NA     NA     NA     NA
11      11   NA     NA     NA     NA
12      12   NA   1885     NA     NA
13      13   NA   1900     NA     NA
14      14   NA   1926   1933     NA
15      15   NA     NA     NA     NA
16      16   NA     NA     NA     NA
17      17   NA   1870     NA     NA
18      18   NA     NA   1923     NA
19      19   NA     NA     NA     NA
20      20   NA     NA     NA     NA


> dput(sample)
list(c("", "2"), c("", "1918"), "", "", c("", "1912", "1913"), 
    c("", "1893", "1898", "1925", "1993"), c("", "1820", "1830", 
    "1899", "1900"), "", c("", "1808", "1810", "1854", "1905", 
    "1907"), "", "", c("", "1885"), c("", "1900"), c("", "1926", 
    "1933"), "", "", c("", "1870"), c("", "1", "1923"), "", "")

2 个答案:

答案 0 :(得分:2)

我们可以使用rbind.fill包中的plyr绑定列表,然后使用grepl来处理您的情况,

df <- rbind.fill(lapply(lst1,function(i)as.data.frame(t(i))))
df[!apply(df, 1:2, function(i) grepl('[0-9]{4}', i))] <- NA
head(df)
#    V1   V2   V3   V4   V5   V6
#1 <NA> <NA> <NA> <NA> <NA> <NA>
#2 <NA> 1918 <NA> <NA> <NA> <NA>
#3 <NA> <NA> <NA> <NA> <NA> <NA>
#4 <NA> <NA> <NA> <NA> <NA> <NA>
#5 <NA> 1912 1913 <NA> <NA> <NA>
#6 <NA> 1893 1898 1925 1993 <NA>

答案 1 :(得分:1)

我认为sapply正是您所寻找的。对于名为sample的列表:

sapply(sample, function(i) sum(i != ""))

然后,您可以按如下方式提取符合您标准的列表元素:

myNewSample <- sample[which(sapply(sample, function(i) sum(i != ""))) == 4]

在旁注中,不建议使用&#34; sample&#34;作为列表对象的名称,因为它在R中是一个相当重要的函数。请参阅?sample