如何对非常大的数据集进行潜在语义分析

时间:2012-08-30 10:19:41

标签: matlab nlp pca dimensionality-reduction latent-semantic-analysis

我正在尝试对一个非常大的数据集,大约50,000个文档和超过300,000个单词/术语运行LSA或主成分分析,以减少维数,以便我可以在2-d中绘制文档。

我在Python和MATLAB中尝试过但由于数据集的体积,我的系统在任一实例中都会耗尽内存并崩溃。有谁知道我如何减少负荷,或做一些可以更快,更有效地运行的近似LSA / PCA?我的总体目标是减少超过30万字的维数。

1 个答案:

答案 0 :(得分:0)

您可以查看Oja's rule。它定义了学习PCA的迭代过程。现在您只需要实现不从磁盘一次加载整个数据集以防止内存过载。