我遍历了其他线程,这些线程在LDA中指定内存与 numberOfTerms * numberOfTopics 成比例。就我而言,我有两个数据集。 在数据集A中,我有25万个文档,大约有500K个术语,在这里我可以轻松运行约500个主题。但是在数据集B中,我大约有200万个文档和500K项(经过一些过滤后得出),但是在这里我只能运行50个以上的主题,否则会引发内存异常。
所以只是想了解如果仅术语和主题对内存很重要,为什么文档数量会导致此问题,并且有任何快速的解决方法可以避免这种情况。
注意::我知道可以按memory-efficient-lda-training-using-gensim-library中的说明将语料库作为可迭代对象进行包装,但是假设由于已经存在一些其他限制,我已经将语料库加载到内存中了数据的格式不同,因此可以在不同的平台上针对不同的算法运行。关键是在将整个语料库加载到内存中后,我能够针对较少的主题数运行它。因此,有没有什么变通办法可以帮助它解决更多主题。例如,我当时想调整块大小可能会有所帮助,但这没用。