应用错误收集

时间：2011-04-07 04:25:46

标签： text similarity correlation pearson related-content

我试图通过相关性在数据库中找到类似的文章。

所以我在文字数组中分割文字，然后删除经常使用的单词（文章，代词等），然后将两个文本与皮尔逊系数函数进行比较。对于某些文本它是有效的，但对于其他文本它不太好（具有大文本的文本具有更高的系数）。

有人可以建议找到相关文本的好方法吗？

答案 0 :(得分：0)

您提到的一些问题可归结为文档长度和整体字频率的标准化。试试tf-idf。

答案 1 :(得分：0)

首先，您需要指定相似性以及两个文档（或多或少）相似时的精确含义。

如果您要查找的相似度是文字，那么我将使用术语频率对文档进行矢量化处理，并考虑文本本身就是定向数据，使用余弦相似度将它们彼此比喻。 tf-idf 和 log-entropy 加权方案可能会根据您的用例进行测试。长文本时，编辑距离效率很低。

如果您更关心语义，那么单词嵌入就是您的盟友。