标签: matlab nlp pca dimensionality-reduction latent-semantic-analysis
我正在尝试对一个非常大的数据集,大约50,000个文档和超过300,000个单词/术语运行LSA或主成分分析,以减少维数,以便我可以在2-d中绘制文档。
我在Python和MATLAB中尝试过但由于数据集的体积,我的系统在任一实例中都会耗尽内存并崩溃。有谁知道我如何减少负荷,或做一些可以更快,更有效地运行的近似LSA / PCA?我的总体目标是减少超过30万字的维数。
答案 0 :(得分:0)
您可以查看Oja's rule。它定义了学习PCA的迭代过程。现在您只需要实现不从磁盘一次加载整个数据集以防止内存过载。