我想知道是否可以使用工作目录中每个文件中的某些单元格创建新的数据框。例如说如果我有这样的2个数据帧(请忽略数字,因为它们是随机的):
在每个数据集中说,第4行是我的值的总和,第5行是缺失值的数量。如果我将缺失值的数量表示为“M”并将coloumns的总和表示为“N”,那么我想要实现的是下表:
因此每个文件'N'和'M'都在1行中。
我在目录中有很多文件,所以我已在列表中读取它们,但不确定在文件列表上执行此类任务的最佳方法是什么。
这是我展示的表格的示例代码以及我如何在列表中阅读它们:
##Create sample data
df = data.frame(Type = 'wind', v1=c(1,2,3,100,50), v2=c(4,5,6,200,60), v3=c(6,7,8,300,70))
df2 =data.frame(Type = 'test', v1=c(3,2,1,400,40), v2=c(2,3,4,500,30), v3=c(6,7,8,600,20))
# write to directory
write.csv(df, file = "sample1.csv", row.names = F)
write.csv(df2, file = "sample2.csv", row.names = F)
# read to list
mycsv = dir(pattern=".csv")
n <- length(mycsv)
mylist <- vector("list", n)
for(i in 1:n) mylist[[i]] <- read.csv(mycsv[i],header = TRUE)
如果你能给我一些关于这是否可能以及我应该怎么做的建议,我会非常感激的?
非常感谢,
阿燕
答案 0 :(得分:1)
这应该有效:
processFile <- function(File) {
d <- read.csv(File, skip = 4, nrows = 2, header = FALSE,
stringsAsFactors = FALSE)
dd <- data.frame(d[1,1], t(unlist(d[-1])))
names(dd) <- c("ID", "v1N", "V1M", "v2N", "V2M", "v3N", "V3M")
return(dd)
}
ll <- lapply(mycsv, processFile)
do.call(rbind, ll)
# ID v1N V1M v2N V2M v3N V3M
# 1 wind 100 50 200 60 300 70
# 2 test 400 40 500 30 600 20
(一个稍微棘手/不寻常的位在processFile()
的第三行。这是一段代码片段,可以帮助您了解它如何完成它的工作。)
(d <- data.frame(a="wind", b=1:2, c=3:4))
# a b c
# 1 wind 1 3
# 2 wind 2 4
t(unlist(d[-1]))
# b1 b2 c1 c2
# [1,] 1 2 3 4
答案 1 :(得分:1)
CAVEAT:我不确定我完全明白你想要什么。我认为您正在读取列表并希望从该列表中选择具有该列表中相同行的某些数据帧。然后,您要创建这些行的数据框,并从长格式转换为宽格式。
LIST <- lapply(2:3, function(i) {
x <- mylist[[i]][4:5, ]
x <- data.frame(x, row = factor(rownames(x)))
return(x)
}
)
DF <- do.call("rbind", LIST) #lets you bind an unknown number of rows from a list
levels(DF$row) <- list(M =4, N = 5) #recodes rows 4 and 5 with M and N
wide <- reshape(DF, v.names=c("v1", "v2", "v3"), idvar=c("Type"),
timevar="row", direction="wide") #reshape from long to wide
rownames(wide) <- 1:nrow(wide) #give proper row names
wide
这会产生:
Type v1.M v2.M v3.M v1.N v2.N v3.N
1 wind 100 200 300 50 60 70
2 test 400 500 600 40 30 20