成对余弦相似度

时间:2013-10-29 03:58:01

标签: cosine-similarity

当我阅读本文时,我有点困惑:使用MapReduce在大型集合中成对文档相似性 http://www.umiacs.umd.edu/~jimmylin/publications/Elsayed_etal_ACL2008_short.pdf 在本文中,作者似乎没有考虑单词只出现在一个文档中,但根据余弦相似度的定义,我们需要考虑这种情况吧?

我使用的材料是:https://www.dropbox.com/s/nctb66hh84ab32c/postings-Reuters-data

我使用的java代码是:https://www.dropbox.com/s/aklviixup4uulmu/CosineSimilarity.java

我生成的结果是:https://www.dropbox.com/s/ea6ov7l7yut7yfj/part-00000

在结果中,我看到很多1和偶数大于1.我认为这有点奇怪,有人可以帮我找出原因吗?感谢。

0 个答案:

没有答案