如何将TF-IDF与编辑距离或Jaro-winkler距离相结合

时间:2013-04-12 17:41:51

标签: edit classification similarity tf-idf

我正在寻找提高字符串匹配(相似性)中TF-IDF称重方案准确性的方法。主要问题是TF-IDF对蜇伤中的印刷错误很敏感,而大多数大型数据集往往都有拼写错误。 我意识到编辑距离的变体(基于字符的相似性度量--- levienshtein,仿射气体,Jaro和Jaro-winkler)适用于计算存在印刷错误的字符串之间的相似性,但是当字样乱序时不适用字符串。

因此我想使用编辑距离校正能力来提高TF-IDF的准确性。

如何应对这一挑战的任何想法都将受到高度赞赏。

提前致谢。

1 个答案:

答案 0 :(得分:0)

2003年,CMU研究人员发表了一篇论文,他们解释了如何将TFIDF与Jaro-Winkler结合起来: https://www.cs.cmu.edu/~pradeepr/papers/ijcai03.pdf

他们的Java代码也可以在sourceforge上作为secondString项目使用: https://sourceforge.net/projects/secondstring/

以下是Javadocs的链接: http://secondstring.sourceforge.net/javadoc/

secondString项目页面: http://secondstring.sourceforge.net/