我有一个包含列名的大型数据集:ID和Property。可能有多个行共享相同的ID,这意味着一个ID具有许多不同的属性(分类变量)。我想为属性添加虚拟变量,最后在每一行中获取一个具有不同ID的数据帧,并使用1/0指示它是否具有该属性。原始数据有200万行和10000个不同的属性。因此,理想情况下,我将通过组合相同的ID并添加虚拟变量列来缩小行大小(每个属性有1列)。
当我使用以下代码时R崩溃:
for(t in unique(df$property)){
df3[paste("property",t,sep="")] <- ifelse(df$property==t,1,0)
}
所以我想知道在R中为大数据集添加虚拟变量列的最有效方法是什么?
答案 0 :(得分:0)
我们可以使用table
as.data.frame.matrix(table(df1))
# A B C D
#1 1 1 0 0
#3 0 0 1 0
#4 0 0 0 1
#5 0 0 0 2
或者dcast
data.table
library(data.table)
dcast(setDT(df1), a~b, value.var = "a", length)
df1 <- structure(list(a = c(1L, 1L, 3L, 4L, 5L, 5L), b = c("A", "B",
"C", "D", "D", "D")), .Names = c("a", "b"), row.names = c("1",
"2", "3", "4", "5", "6"), class = "data.frame")