应用错误收集

我遍历了其他线程，这些线程在LDA中指定内存与 numberOfTerms * numberOfTopics 成比例。就我而言，我有两个数据集。在数据集A中，我有25万个文档，大约有500K个术语，在这里我可以轻松运行约500个主题。但是在数据集B中，我大约有200万个文档和500K项（经过一些过滤后得出），但是在这里我只能运行50个以上的主题，否则会引发内存异常。

所以只是想了解如果仅术语和主题对内存很重要，为什么文档数量会导致此问题，并且有任何快速的解决方法可以避免这种情况。

注意：：我知道可以按memory-efficient-lda-training-using-gensim-library中的说明将语料库作为可迭代对象进行包装，但是假设由于已经存在一些其他限制，我已经将语料库加载到内存中了数据的格式不同，因此可以在不同的平台上针对不同的算法运行。关键是在将整个语料库加载到内存中后，我能够针对较少的主题数运行它。因此，有没有什么变通办法可以帮助它解决更多主题。例如，我当时想调整块大小可能会有所帮助，但这没用。

LDA Gensim OOM由于语料库大而异常

0 个答案: