一组文本文档的相似性

时间:2017-05-16 15:30:03

标签: data-mining text-mining sentence-similarity

我正在寻找一种试图检查的算法

1)文档中句子(约5000)之间的相似性

2)多个文件(约5000个)相互之间的相似性

我需要相同的,因为我正在尝试评估属于特定类别的文本文档/句子是否以任何相似的方式相似。有没有现成的方法来做同样的事情。

1 个答案:

答案 0 :(得分:1)

标准方法是使用余弦相似性,TF-IDF归一化。

这有很多变种,你需要试验最适合你的方法。