在java中为LSI实现创建术语文档矩阵

时间:2012-04-08 18:02:05

标签: java search-engine svd

我正在使用向量空间模型进行搜索引擎项目,我需要创建一个Term-Document Matrix,然后在其上应用SVD。

我应该将术语作为行和文档作为列吗?

我在java中这样做,所以应该是这样的:

  

count [keywordList.size()] [listOfFilesinCorpus.length];

还是应该反过来呢?我需要将这个2D数组传递给apache commons math's:

  

RealMatrix A = Array2DRowRealMatrix(TDM);

其中TDM是术语文档矩阵。

我需要将这些术语作为维度,然后我将比较向量空间中的文档。请帮忙,谢谢。

1 个答案:

答案 0 :(得分:2)

这并不重要,你可以随时通过换位在两者之间切换!

但通常,行是术语,列是文档