我试图通过相关性在数据库中找到类似的文章。
所以我在文字数组中分割文字,然后删除经常使用的单词(文章,代词等),然后将两个文本与皮尔逊系数函数进行比较。对于某些文本它是有效的,但对于其他文本它不太好(具有大文本的文本具有更高的系数)。
有人可以建议找到相关文本的好方法吗?
答案 0 :(得分:0)
您提到的一些问题可归结为文档长度和整体字频率的标准化。试试tf-idf。
答案 1 :(得分:0)
首先,您需要指定相似性以及两个文档(或多或少)相似时的精确含义。
如果您要查找的相似度是文字,那么我将使用术语频率对文档进行矢量化处理,并考虑文本本身就是定向数据,使用余弦相似度将它们彼此比喻。 tf-idf 和 log-entropy 加权方案可能会根据您的用例进行测试。长文本时,编辑距离效率很低。
如果您更关心语义,那么单词嵌入就是您的盟友。