我有一个包含10列的大型数据集(> 100万行)。我想通过第一列聚合数据集,并添加一个带有count的新列。我尝试使用聚合,但它花了太多时间。经过一些研究后,似乎data.table会让事情变得更快。这就是我现在所拥有的:
person <- person[, .(count= .N), by=ID]
我想我可能在这里错过了一个论点。 ID是我的人员数据表中的第一列。目前它只输出2列,一列用于ID,一列用于计数,但我想包括所有其他列。
编辑: 还试过这个:
person2 <- person[person[, .(count= .N), by=ID]$ID]
我的所有数据都变为&#34; NA&#34;。
数据:
ID Age Air Test Class Condition Result Inq Manu Trans
234551 25 1 02 C 2 1 2 1
234551 26 - - C 2 1 1 5
421331 45 1 - C 1 0 1 4