标签: r data-mining text-mining
在试图找到像学校这样的一个地方(军事高中)与另一个地方(军事H学校或军事高中S)相似时,我使用LV算法找到字符串距离,然后将它们转换为百分比在校准的规模。
stringdist(data[i,1],data[i,2],method = "lv")
虽然这是可以接受的,但我仍然需要一种更精确的方法来确定阈值。有什么建议。