我在R中有一个数据框,该数据框包含大约100个数字列,一个字符串类型标识符列(SSN)和一个数字目标值。许多行具有重复的SSN标识符。我想对该数据帧进行子集设置,以便每个SSN仅保留一行,仅保留目标值列最高的行。
现在,我正在使用下面的代码行来完成我想要的大部分操作,但是问题是这段代码将正确地为每个SSN仅选择一行具有最大目标列值的行,但是它丢弃了我所有的行大约此过程中还有100个其他变量列。
df2 <-df1 [,max(target_variable),by = ssn]
理想情况下,在新数据框中,每个ssn仅包含一行,所有变量加上目标列值最高的原始行的目标变量。