以R-NOT DUPLICATE(NEED TIMESTAMP)对组内的数据进行汇总和排名

时间:2019-09-25 13:42:56

标签: r aggregation

我在R中有这种格式的数据集:

+----------+-------+-----------+
|  Person  | Group | Timestamp |
+----------+-------+-----------+
| Person A | X     | 12:22 PM  |
| Person A | X     | 12:21 PM  |
| Person A | X     | 12:20 PM  |
| Person A | Y     | 12:12 PM  |
| Person A | Y     | 12:11 PM  |
| Person A | Y     | 12:10 PM  |
| Person A | X     | 12:03 PM  |
| Person A | X     | 12:01 PM  |
| Person A | X     | 12:00 PM  |
| …        |       |           |
+----------+-------+-----------+

我需要将其转换为以下格式:

+----------+-------+---------+-----------------------+
|  Person  | Group | Ranking | Most Recent Timestamp |
+----------+-------+---------+-----------------------+
| Person A | X     |       1 | 12:22 PM              |
| Person A | Y     |       2 | 12:12 PM              |
| Person A | X     |       3 | 12:03 PM              |
| …        |       |         |                       |
+----------+-------+---------+-----------------------+

(将所有相似的条目归为1-同一组可以在另一个组之后重复,如上例所示-这些组为X> Y> X-并且这些组的最新时间戳显示为另一列)

我有数百个人,大约有2000万条记录。我尝试运行for循环,但这只花了太多时间。

请告诉我是否有更简单的方法来实现这一目标。

感谢您的帮助。预先感谢。

此外,我更喜欢TIDYVERSE解决方案。

0 个答案:

没有答案