我经历过jama和colt(我在java中编写代码)。他们俩都希望我使用数组,使得行数大于coloumns的数量。
但是在Latent语义分析(LSA)的情况下,我有5本书,总共有1000多个单词。当我使用术语文档矩阵时,我得到一个5 * 1000矩阵。
由于这不起作用,我被迫转置矩阵。在转置我使用1000 * 5。当我执行一个svd时1000 * 5我得到一个5 * 5的S矩阵。为了执行降维,这个5 * 5矩阵看起来很小。
可以做些什么?
答案 0 :(得分:0)
您使用的文字段尺寸太大。文档(列)应代表一页或几页文本,也许是最大的一章。我也看过段落大小。