我有两组数据框(A和B)。 A组的示例数据帧为data1
,B组的示例数据帧为data2
数据框看起来像:
data1
data
1 apple
2 orange | apple | mango
3 apple
4 banana
5 grapes
6 papaya
7 durian
8 tomato | orange | papaya | durian
data2
data
1 papaya | durian | orange | grapes
2 orange
3 grapes
4 banana | durian
5 tomato
6 apple | tomato
7 apple
8 mangostine
9 strawberry
10 strawberry | mango
注释:
data
。我尝试过两排Levenshtein距离。
library(RecordLinkage)
> levenshteinSim("apple", "apple")
[1] 1
> levenshteinSim("apple", "aaple")
[1] 0.8
> levenshteinSim("apple", "appled")
[1] 0.8333333
> levenshteinSim("appl", "apple")
[1] 0.8
我的问题是:我想测量两个数据框的相似度得分,例如data1
和data2
的相似度得分。
是否有人可以为我阐明这一点?