我有一个包含数千个元素的列表 - 一些元素包含多年 - 这是4个数字的字符串 - 其他包含我需要删除的随机数字。
我需要从列表中仅提取长度为4的数字,并删除所有其他数字。最后,我需要一个20行的数据框 - 以及包含嵌套在列表中的年份的列。例如,在下面的示例中,我需要一个看起来像这样的表。
> sample_years
element year year.1 year.2 year.3
1 1 NA NA NA NA
2 2 NA 1918 NA NA
3 3 NA NA NA NA
4 4 NA NA NA NA
5 5 NA 1912 1913 NA
6 6 NA 1893 1898 1925
7 7 NA 1820 1830 1899
8 8 NA NA NA NA
9 9 NA 1808 1810 1854
10 10 NA NA NA NA
11 11 NA NA NA NA
12 12 NA 1885 NA NA
13 13 NA 1900 NA NA
14 14 NA 1926 1933 NA
15 15 NA NA NA NA
16 16 NA NA NA NA
17 17 NA 1870 NA NA
18 18 NA NA 1923 NA
19 19 NA NA NA NA
20 20 NA NA NA NA
> dput(sample)
list(c("", "2"), c("", "1918"), "", "", c("", "1912", "1913"),
c("", "1893", "1898", "1925", "1993"), c("", "1820", "1830",
"1899", "1900"), "", c("", "1808", "1810", "1854", "1905",
"1907"), "", "", c("", "1885"), c("", "1900"), c("", "1926",
"1933"), "", "", c("", "1870"), c("", "1", "1923"), "", "")
答案 0 :(得分:2)
我们可以使用rbind.fill
包中的plyr
绑定列表,然后使用grepl
来处理您的情况,
df <- rbind.fill(lapply(lst1,function(i)as.data.frame(t(i))))
df[!apply(df, 1:2, function(i) grepl('[0-9]{4}', i))] <- NA
head(df)
# V1 V2 V3 V4 V5 V6
#1 <NA> <NA> <NA> <NA> <NA> <NA>
#2 <NA> 1918 <NA> <NA> <NA> <NA>
#3 <NA> <NA> <NA> <NA> <NA> <NA>
#4 <NA> <NA> <NA> <NA> <NA> <NA>
#5 <NA> 1912 1913 <NA> <NA> <NA>
#6 <NA> 1893 1898 1925 1993 <NA>
答案 1 :(得分:1)
我认为sapply
正是您所寻找的。对于名为sample的列表:
sapply(sample, function(i) sum(i != ""))
然后,您可以按如下方式提取符合您标准的列表元素:
myNewSample <- sample[which(sapply(sample, function(i) sum(i != ""))) == 4]
在旁注中,不建议使用&#34; sample&#34;作为列表对象的名称,因为它在R中是一个相当重要的函数。请参阅?sample
。