R代码levenshteinSim函数:比较数据中的两列

时间:2017-11-03 19:20:09

标签: r

我试图获得R数据框中两列的比较分数。 我使用库RecordLinkage并尝试应用levenshteinSim函数。 想法是得到类似的结果

levenshteinSim(" GR 7G SOLID LEGGING"," GEORGE OPP SOLID LEGGING")

[1] 0.7083333,

但比较列与列。 试图按如下方式使用它:

gw $ test< -levenshteinSim(gw $ ITEM_DESCRIPTION,gw $ ITEM_SIGNING_DESCRIPTION)

其中gw是我的数据框。 但是我得到了错误:

nchar(str1)中的错误:' nchar()'需要一个字符向量

有没有办法将此函数应用于两列而不是两个实际向量? 我将不胜感激任何帮助。

1 个答案:

答案 0 :(得分:0)

请检查两列的类。它应该是“字符”。如果不是,则对两者都使用as.character()。例如:

gw$ITEM_DESCRIPTION<- as.character(gw$ITEM_DESCRIPTION)