文本挖掘 - 确定阈值的单词之间的相似性

时间:2016-07-10 06:02:08

标签: r data-mining text-mining

在试图找到像学校这样的一个地方(军事高中)与另一个地方(军事H学校或军事高中S)相似时,我使用LV算法找到字符串距离,然后将它们转换为百分比在校准的规模。

stringdist(data[i,1],data[i,2],method = "lv")

虽然这是可以接受的,但我仍然需要一种更精确的方法来确定阈值。有什么建议。

0 个答案:

没有答案