我正在使用向量空间模型进行搜索引擎项目,我需要创建一个Term-Document Matrix,然后在其上应用SVD。
我应该将术语作为行和文档作为列吗?
我在java中这样做,所以应该是这样的:
count [keywordList.size()] [listOfFilesinCorpus.length];
还是应该反过来呢?我需要将这个2D数组传递给apache commons math's:
RealMatrix A = Array2DRowRealMatrix(TDM);
其中TDM是术语文档矩阵。
我需要将这些术语作为维度,然后我将比较向量空间中的文档。请帮忙,谢谢。
答案 0 :(得分:2)
这并不重要,你可以随时通过换位在两者之间切换!
但通常,行是术语,列是文档