根据直方图的区间标记数据集

时间:2015-06-08 22:48:23

标签: r

我有一个超过40k行的数据帧。此数据集包含2列AccountNumberNumberOfContacts。我使用以下代码创建了直方图:

p <- ggplot() + aes(contactsInfo$NumberOfContacts) + geom_histogram(binwidth=10) + xlim(10,300)+
  xlab("Number of contacts") + ylab("Number of accounts")
p

我现在想根据容器创建一个名为'Bin'的附加列到我的原始数据帧。

例如:

如果AccountNumber在0-10个联系人中,则BinAccountNumber应该等于1。

同样,如果AccountNumber有50-60个联系人,那么Bin应该等于5,依此类推......

我可以想到一个荒谬的ifelse声明组合,这对于完成这项任务非常漫长。我希望是否有更简单的方法来实现这一点。

非常感谢任何帮助。

2 个答案:

答案 0 :(得分:3)

我不知道您的数据集的所有细节,但在mutate包中使用dplyr

mutate(contactsInfo, bin = floor(NumberOfContacts / 10))

答案 1 :(得分:0)

您可以使用类似

的内容
process.StartInfo.CreateNoWindow = true;