matlab - 如何对非常大的数据集进行潜在语义分析 - Thinbug

如何对非常大的数据集进行潜在语义分析

时间：2012-08-30 10:19:41

标签： matlab nlp pca dimensionality-reduction latent-semantic-analysis

我正在尝试对一个非常大的数据集，大约50,000个文档和超过300,000个单词/术语运行LSA或主成分分析，以减少维数，以便我可以在2-d中绘制文档。

我在Python和MATLAB中尝试过但由于数据集的体积，我的系统在任一实例中都会耗尽内存并崩溃。有谁知道我如何减少负荷，或做一些可以更快，更有效地运行的近似LSA / PCA？我的总体目标是减少超过30万字的维数。

1 个答案:

答案 0 :(得分：0)

您可以查看Oja's rule。它定义了学习PCA的迭代过程。现在您只需要实现不从磁盘一次加载整个数据集以防止内存过载。