应用错误收集

文本挖掘 - 确定阈值的单词之间的相似性

时间：2016-07-10 06:02:08

标签： r data-mining text-mining

在试图找到像学校这样的一个地方（军事高中）与另一个地方（军事H学校或军事高中S）相似时，我使用LV算法找到字符串距离，然后将它们转换为百分比在校准的规模。

stringdist(data[i,1],data[i,2],method = "lv")

虽然这是可以接受的，但我仍然需要一种更精确的方法来确定阈值。有什么建议。

0 个答案:

没有答案