我的数据框有11个变量的+/- 300000个观测值。给出了我想要使用的快照。
Location.type Package.ID Version WeekID Name
Office 301502 3.0 201542 William
Office 301502 2.7 201542 Claire
Production 9764933 1.6 201214 John
Home 298793 2.6 201746 Bill
Home 298793 2.5 201738 William
Production 2803789 4.2 201605 Brad
Production 2803789 4.19 201605 Richard
Production 2803789 4.18 201605 Vanessa
我想省略具有重复的Package.ID和WeekID的行,并保留版本中具有最高值的行,但保留所有其他信息。我想要的输出是:
Location.type Package.ID Version WeekID Name
Office 301502 3.0 201542 William
Production 9764933 1.6 201214 John
Home 298793 2.6 201746 Bill
Home 298793 2.5 201738 William
Production 2803789 4.2 201605 Brad
我的问题类似于Remove duplicates with largest absolute value。但是,在这种情况下,选择最高值取决于一列,在我的情况下取决于两列。也许这是一个简单的调整,但我自己无法弄清楚。