应用错误收集

找到文件的新颖性

时间：2016-03-07 16:48:28

标签： nlp k-means similarity cosine-similarity

我有一组在不同时间创建的文档。我需要知道每个新传入的文档，它与已添加的文档集有多相似。新文档可以添加新术语，因此在这些文档中，我希望“新颖性”很高。我需要了解这种新奇感（或者距离）

例如，假设已经有d0，d1，d2，d3，我有一个新文件d4

我想了解d4与d0，d1，d2和d3的不同之处。

我想到了一些方法，但有一些限制：

a）（d0，d4），（d1，d4），（d2，d4），（d3，d4）各自之间的计算余弦相似度

找到平均余弦相似度。

OR

找到新文档d4和每个先前看到的文档之间余弦角的负最小值，即d0，d1，d2，d4

这个想法是最小的将给出d4的新颖感。

b）将d0，d1，d2，d3组合并将其与d4进行比较然后找出余弦相似度

这些方法看起来不错吗？此外，是否有更合适的方式来获得新奇感，或许还有K-means聚类？

2 个答案:

答案 0 :(得分：1)

计算集合中单词的Multionomial Distribution估算值，以及新单据中单词的单独分布。计算KL-divergence以了解这些分布的距离。

答案 1 :(得分：1)

如果d0，d1，d2和d3不相同怎么办？并且d4与d0非常相似，与d3完全不同，因为d0和d3非常不同。

组合d0-N可能不是一个好主意，因为较大的N d（n + 1）将成为d（0-N）的子集的可能性更大。

事实上，文档级新颖性检测被认为很少有用，因为几乎每个文档都会有新的东西。为了解决这个问题，您可以使用hPAM测量主题新颖性，而不是测量文档的新颖性，以检索主题和余弦相似性以检测差异。您还可以使用NOVELTY DETECTION VIA TOPIC MODELING IN RESEARCH ARTICLES by Sendhilkumar中提出的新颖分数，这显示为更好。