相似度

时间:2012-01-04 02:55:43

标签: text similarity text-mining

我必须比较两个文件并找出相似程度。

我需要做的就是比较两个文档并给出一个数字作为结果。该数字应描述相似程度(类似文件将有更大的数字)

我想要一种有效的方法来执行此过程。 (相似性不是仅根据相似词的基础来衡量,但也必须考虑上下文。)

任何人都可以为此过程提出有效的算法

2 个答案:

答案 0 :(得分:0)

查看LSA(潜在的语义分析)。该算法只检查两个文档的相似性。

在这里,您必须了解名为SVD(奇异值分解)的技术

如果要实现文档聚类技术,可以尝试使用Matlab并安装Matlab-TMG工具。

答案 1 :(得分:0)

如果您只想要一个快速的非数学描述和一个实现(在Java中),这里有一个指向n-gram based solution的链接。

提示:对于自由文本,使用长度为4或5的木瓦(这是签名生成算法的参数)