按类似值组合

时间:2016-04-12 23:06:37

标签: python r algorithm sorting data-analysis


我正在寻找一种分组数据框行的好方法 - 组,而不是组合或融合它们 - 根据多少值相同或具有一定范围的相似性。
例如,如果我有一个像

这样的数据框
df <- data.frame(A = c("a", "a", "b", "c"), B = c(1, 6, 1, 7), C = c(1000, 20, 900, 50))
df
#   A B    C
# 1 a 1 1000
# 2 a 6   20
# 3 b 1  900
# 4 c 7   50

我希望将第1行和第3行分组,因为它们在B中都具有较低的值,而在C中较高的值与其他两个相比较。我的实际数据框有12个左右的列,包含字符串和数值。我想将那些对一些键字符串列具有完美匹配的行进行分组,并且在至少四个数字列中具有接近的值。
我很擅长R但是很新的python或其他语言,但如果你有任何语言的解决方案,我会开始学习它。

非常感谢任何建议,功能,包裹或图书馆名称甚至整个解决方案!我原谅我的英语,它在过去几年里生锈了。

0 个答案:

没有答案