我在rstudio中使用公共交通信息的数据集。这个庞大的数据框中的一列是Origin Station。我希望能够计算每个特定工作站作为原始工作站出现的次数,然后创建一个具有该值的新列。我在excel中这样做,但数据文件太大了。 IE,对于“14 Street-Union Sq”是Origin Station值的每条记录,都会有一个新列,计算14 St-Union Sq是Origin Station的总次数。
感谢。
答案 0 :(得分:0)
听起来像dplyr
包和n()
函数以及group_by
变量。尝试这样的事情:
df <- data.frame(origin = sample(letters[1:5], 1000, replace = TRUE),
other_column = rnorm(1000))
library(dplyr)
df %>% group_by(origin) %>% mutate(n_appearances = n())
答案 1 :(得分:0)
您可以使用ave
功能
test['count']=with(test,ave(variable, variable, FUN=function(x) length(x)))