找到R数据帧的相似性

时间:2015-03-12 07:31:33

标签: r dataframe similarity

我有两组数据框(A和B)。 A组的示例数据帧为data1,B组的示例数据帧为data2

数据框看起来像:

data1

                              data
1                             apple
2            orange | apple | mango
3                             apple
4                            banana
5                            grapes
6                            papaya
7                            durian
8 tomato | orange | papaya | durian

data2

                                data
1  papaya | durian | orange | grapes
2                             orange
3                             grapes
4                    banana | durian
5                             tomato
6                     apple | tomato
7                              apple
8                        mangostine 
9                         strawberry
10                strawberry | mango

注释:

  1. 两个数据框都有一列,此列的名称为data
  2. 第一个数据帧和第二个数据帧有不同的行。
  3. 我尝试过两排Levenshtein距离。

    library(RecordLinkage)
    > levenshteinSim("apple", "apple")
    [1] 1
    > levenshteinSim("apple", "aaple")
    [1] 0.8
    > levenshteinSim("apple", "appled")
    [1] 0.8333333
    > levenshteinSim("appl", "apple")
    [1] 0.8
    

    我的问题是:我想测量两个数据框的相似度得分,例如data1data2的相似度得分。

    是否有人可以为我阐明这一点?

0 个答案:

没有答案