我有一组在不同时间创建的文档。我需要知道每个新传入的文档,它与已添加的文档集有多相似。新文档可以添加新术语,因此在这些文档中,我希望“新颖性”很高。我需要了解这种新奇感(或者距离)
例如,假设已经有d0,d1,d2,d3,我有一个新文件d4
我想了解d4与d0,d1,d2和d3的不同之处。
我想到了一些方法,但有一些限制:
a)(d0,d4),(d1,d4),(d2,d4),(d3,d4)各自之间的计算余弦相似度
OR
找到新文档d4和每个先前看到的文档之间余弦角的负最小值,即d0,d1,d2,d4
这个想法是最小的将给出d4的新颖感。
b)将d0,d1,d2,d3组合并将其与d4进行比较 然后找出余弦相似度
这些方法看起来不错吗?此外,是否有更合适的方式来获得新奇感,或许还有K-means聚类?
答案 0 :(得分:1)
计算集合中单词的Multionomial Distribution估算值,以及新单据中单词的单独分布。计算KL-divergence以了解这些分布的距离。
答案 1 :(得分:1)
如果d0,d1,d2和d3不相同怎么办?并且d4与d0非常相似,与d3完全不同,因为d0和d3非常不同。
组合d0-N可能不是一个好主意,因为较大的N d(n + 1)将成为d(0-N)的子集的可能性更大。
事实上,文档级新颖性检测被认为很少有用,因为几乎每个文档都会有新的东西。为了解决这个问题,您可以使用hPAM测量主题新颖性,而不是测量文档的新颖性,以检索主题和余弦相似性以检测差异。您还可以使用NOVELTY DETECTION VIA TOPIC MODELING IN RESEARCH ARTICLES by Sendhilkumar中提出的新颖分数,这显示为更好。