当我阅读本文时,我有点困惑:使用MapReduce在大型集合中成对文档相似性 http://www.umiacs.umd.edu/~jimmylin/publications/Elsayed_etal_ACL2008_short.pdf 在本文中,作者似乎没有考虑单词只出现在一个文档中,但根据余弦相似度的定义,我们需要考虑这种情况吧?
我使用的材料是:https://www.dropbox.com/s/nctb66hh84ab32c/postings-Reuters-data
我使用的java代码是:https://www.dropbox.com/s/aklviixup4uulmu/CosineSimilarity.java
我生成的结果是:https://www.dropbox.com/s/ea6ov7l7yut7yfj/part-00000
在结果中,我看到很多1和偶数大于1.我认为这有点奇怪,有人可以帮我找出原因吗?感谢。