应用错误收集

如何将TF-IDF与编辑距离或Jaro-winkler距离相结合

时间：2013-04-12 17:41:51

标签： edit classification similarity tf-idf

我正在寻找提高字符串匹配（相似性）中TF-IDF称重方案准确性的方法。主要问题是TF-IDF对蜇伤中的印刷错误很敏感，而大多数大型数据集往往都有拼写错误。我意识到编辑距离的变体（基于字符的相似性度量--- levienshtein，仿射气体，Jaro和Jaro-winkler）适用于计算存在印刷错误的字符串之间的相似性，但是当字样乱序时不适用字符串。

因此我想使用编辑距离校正能力来提高TF-IDF的准确性。

如何应对这一挑战的任何想法都将受到高度赞赏。

提前致谢。

1 个答案:

答案 0 :(得分：0)

2003年，CMU研究人员发表了一篇论文，他们解释了如何将TFIDF与Jaro-Winkler结合起来： https://www.cs.cmu.edu/~pradeepr/papers/ijcai03.pdf

他们的Java代码也可以在sourceforge上作为secondString项目使用： https://sourceforge.net/projects/secondstring/

以下是Javadocs的链接： http://secondstring.sourceforge.net/javadoc/

secondString项目页面： http://secondstring.sourceforge.net/