我必须比较两个文件并找出相似程度。
我需要做的就是比较两个文档并给出一个数字作为结果。该数字应描述相似程度(类似文件将有更大的数字)
我想要一种有效的方法来执行此过程。 (相似性不是仅根据相似词的基础来衡量,但也必须考虑上下文。)
任何人都可以为此过程提出有效的算法
答案 0 :(得分:0)
答案 1 :(得分:0)
如果您只想要一个快速的非数学描述和一个实现(在Java中),这里有一个指向n-gram based solution的链接。
提示:对于自由文本,使用长度为4或5的木瓦(这是签名生成算法的参数)