我正在尝试组织带有随机重复“块”的患者数据电子表格。 不幸的是,数据行是随机重复的,给了我重复的“块”。我需要在保留原始顺序的同时删除重复的块。
以下是示例:
+---------+-----+----------+
| patient | age | children |
+---------+-----+----------+
| x | 30 | g |
| x | 30 | b |
| x | 30 | g |
| x | 30 | b |
| x | 30 | g |
| x | 30 | b |
| y | 25 | g |
| y | 25 | b |
| y | 25 | b |
| y | 25 | g |
| y | 25 | b |
| y | 25 | b |
+---------+-----+----------+
您可以看到,患者“ x”块(有2个孩子)被重复了3次,而患者“ y”块(有3个孩子)被重复了两次。重复块的数量是随机的。
这是我的目标: 保持孩子的秩序很重要
+---------+-----+----------+
| patient | age | children |
+---------+-----+----------+
| x | 30 | g |
| x | 30 | b |
| y | 25 | g |
| y | 25 | b |
| y | 25 | b |
+---------+-----+----------+
我首先在excel中尝试过: 步骤1:为所有行赋予唯一标识符,以保留子级的顺序 第2步:尝试删除重复项,但这对拥有2个女孩的患者“ y”来说是个问题,决赛桌删除了其中一个...
我通常在R中进行分析,因此如果有人可以提出建议,那么dplyr解决方案将是一个很好的选择
除了以下内容,我迷路了。有没有办法识别独特的群体?
dat %>% group_by(patient)
答案 0 :(得分:1)