应用错误收集

相似度

时间：2012-01-04 02:55:43

标签： text similarity text-mining

我必须比较两个文件并找出相似程度。

我需要做的就是比较两个文档并给出一个数字作为结果。该数字应描述相似程度（类似文件将有更大的数字）

我想要一种有效的方法来执行此过程。（相似性不是仅根据相似词的基础来衡量，但也必须考虑上下文。）

任何人都可以为此过程提出有效的算法

2 个答案:

答案 0 :(得分：0)

查看LSA（潜在的语义分析）。该算法只检查两个文档的相似性。

在这里，您必须了解名为SVD（奇异值分解）的技术

如果要实现文档聚类技术，可以尝试使用Matlab并安装Matlab-TMG工具。

答案 1 :(得分：0)

如果您只想要一个快速的非数学描述和一个实现（在Java中），这里有一个指向n-gram based solution的链接。

提示：对于自由文本，使用长度为4或5的木瓦（这是签名生成算法的参数）