我有2个大型数据框,其中类似的变量代表2个单独的调查。每个数据框中的某些行(参与者)对应于另一个,我想将这两个链接在一起。
两个数据框中都有一个索引,尽管该索引表示调查的位置(即区域)而不是单个ID。 合并是不可能的,因为在大多数情况下,不同参与者的索引值相同。
鉴于不可能合并来自2个数据帧的索引值,我希望比较来自两个数据帧的相似变量(二进制)(除了两个数据帧共有的索引值)以便给出我是匹配的最高可能性。然后我可以(有一些误差)匹配类似变量的最相似值的行并将它们合并在一起。
您认为这样做的适当方法是什么?聚类?
最佳, 詹姆斯
答案 0 :(得分:0)
这显然不是聚类。你不想要大量的记录。
您想要做的是近似加入。