我正在寻找一种分组数据框行的好方法 - 组,而不是组合或融合它们 - 根据多少值相同或具有一定范围的相似性。
例如,如果我有一个像
df <- data.frame(A = c("a", "a", "b", "c"), B = c(1, 6, 1, 7), C = c(1000, 20, 900, 50))
df
# A B C
# 1 a 1 1000
# 2 a 6 20
# 3 b 1 900
# 4 c 7 50
我希望将第1行和第3行分组,因为它们在B中都具有较低的值,而在C中较高的值与其他两个相比较。我的实际数据框有12个左右的列,包含字符串和数值。我想将那些对一些键字符串列具有完美匹配的行进行分组,并且在至少四个数字列中具有接近的值。
我很擅长R但是很新的python或其他语言,但如果你有任何语言的解决方案,我会开始学习它。
非常感谢任何建议,功能,包裹或图书馆名称甚至整个解决方案!我原谅我的英语,它在过去几年里生锈了。