我正在寻找提高字符串匹配(相似性)中TF-IDF称重方案准确性的方法。主要问题是TF-IDF对蜇伤中的印刷错误很敏感,而大多数大型数据集往往都有拼写错误。 我意识到编辑距离的变体(基于字符的相似性度量--- levienshtein,仿射气体,Jaro和Jaro-winkler)适用于计算存在印刷错误的字符串之间的相似性,但是当字样乱序时不适用字符串。
因此我想使用编辑距离校正能力来提高TF-IDF的准确性。
如何应对这一挑战的任何想法都将受到高度赞赏。
提前致谢。
答案 0 :(得分:0)
2003年,CMU研究人员发表了一篇论文,他们解释了如何将TFIDF与Jaro-Winkler结合起来: https://www.cs.cmu.edu/~pradeepr/papers/ijcai03.pdf
他们的Java代码也可以在sourceforge上作为secondString项目使用: https://sourceforge.net/projects/secondstring/
以下是Javadocs的链接: http://secondstring.sourceforge.net/javadoc/
secondString项目页面: http://secondstring.sourceforge.net/