标签: data-mining text-mining sentence-similarity
我正在寻找一种试图检查的算法
1)文档中句子(约5000)之间的相似性
2)多个文件(约5000个)相互之间的相似性
我需要相同的,因为我正在尝试评估属于特定类别的文本文档/句子是否以任何相似的方式相似。有没有现成的方法来做同样的事情。
答案 0 :(得分:1)
标准方法是使用余弦相似性,TF-IDF归一化。
这有很多变种,你需要试验最适合你的方法。