我计算TFIdf(术语频率,逆文档频率),我已经看到在这一步之后,有必要使用像LSI,chi -square test ...,
我不知道如何在java中实现卡方检验以减少矩阵TFIDF的维数,如果有一些库可以做到这一点或者教程中他们解释我怎么做,请告诉我
答案 0 :(得分:3)
为LSA,LDA使用gensims库。 它实际上可以为任何大型数据集执行LSA。它不会立即将整个语料库加载到内存中,但会进行惰性读取。
答案 1 :(得分:0)
我认为你不想做卡方;这不是减少尺寸的技术。
您要做的是SVD或奇异值分解。这是LSI / LSA中用于降维的技术。
维基百科建议在Java中使用名为“S-Space Pacakage”的库来实现LSA。我自己没有用过它,但你可能想看看它。