我必须找到参考文档与存储库中的文档集之间的相似性。
Method :
1. I find the term document matrix for all the documents including the reference document
2. The svd is calculated for this matrix
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document .
5. The first row represents the reference document .
6. I find the cosine similarity beween this row and the rest of the rows
我的怀疑:
由于我的数据库中有大约7个文档,因此我只得到8 * 8 varray(文档矩阵)。如果我单独找到这8个值的余弦相似度,那么我会得到正确的结果吗?
一般采用这种方法吗?
我使用java来编写代码。我利用jama包找到了svd。
答案 0 :(得分:0)
您可以阅读LSA Here
的示例