查找相关文本(两个文本之间的相关性)

时间:2011-04-07 04:25:46

标签: text similarity correlation pearson related-content

我试图通过相关性在数据库中找到类似的文章。

所以我在文字数组中分割文字,然后删除经常使用的单词(文章,代词等),然后将两个文本与皮尔逊系数函数进行比较。对于某些文本它是有效的,但对于其他文本它不太好(具有大文本的文本具有更高的系数)。

有人可以建议找到相关文本的好方法吗?

2 个答案:

答案 0 :(得分:0)

您提到的一些问题可归结为文档长度和整体字频率的标准化。试试tf-idf

答案 1 :(得分:0)

首先,您需要指定相似性以及两个文档(或多或少)相似时的精确含义。

如果您要查找的相似度是文字,那么我将使用术语频率对文档进行矢量化处理,并考虑文本本身就是定向数据,使用余弦相似度将它们彼此比喻。 tf-idf log-entropy 加权方案可能会根据您的用例进行测试。长文本时,编辑距离效率很低。

如果您更关心语义,那么单词嵌入就是您的盟友。