我试图获得R数据框中两列的比较分数。 我使用库RecordLinkage并尝试应用levenshteinSim函数。 想法是得到类似的结果
levenshteinSim(" GR 7G SOLID LEGGING"," GEORGE OPP SOLID LEGGING")
[1] 0.7083333,
但比较列与列。 试图按如下方式使用它:
gw $ test< -levenshteinSim(gw $ ITEM_DESCRIPTION,gw $ ITEM_SIGNING_DESCRIPTION)
其中gw是我的数据框。 但是我得到了错误:
nchar(str1)中的错误:' nchar()'需要一个字符向量
有没有办法将此函数应用于两列而不是两个实际向量? 我将不胜感激任何帮助。
答案 0 :(得分:0)
请检查两列的类。它应该是“字符”。如果不是,则对两者都使用as.character()
。例如:
gw$ITEM_DESCRIPTION<- as.character(gw$ITEM_DESCRIPTION)