我正在寻找关于如何检查两个正在运行的文本之间相似性的一般建议。
我需要的是一个算法的想法/草案,它将两个运行的文本相互比较,并输出两者的相似程度,最好是运行良好。
例如,文本A与文本B的90%相似。
标准检查文本A是否包含关键字,文本B的段落对我的案例来说还不够。
我google了很多,我偶然发现的最好的是文本挖掘,但那并不是我所寻找的。 p>
是否存在针对此类问题的常见解决方案,还是我需要更个性化的解决方案?
更新: 一个例子: 正如我所说,它是一个正在运行的文本,因此文本可以包含多于一个或两个句子。更可能的是,文本将包含20-50个句子,但这是一个简短的例子。
文字A:" Lorem ipsum dolor sit amet,consectetuer adipiscing elit。" 文字B:" Lorem ipsum dolor sit amet,consectetuer adipiscing elit。 Aenean commodo ligula eget dolor。 Aenean massa。"
我会将文本评分为40-50%相似,因为文本B包含文本A已满。
这部分应该由算法完成 - 偏差低于10%即可! ;)
但这只是一个简单的例子来理解。我将使用的文本有时根本不相似!