标签: machine-learning configuration lda topic-modeling
我在旧维基百科数据集(~1GB)上训练我的LDA模型。
我使用Kiwix下载并清理它。
但是当我在拥有4核(i5)和8GB RAM的笔记本电脑上运行它时,它占用了所有内存,但CPU仅使用了25%(可能是因为我的培训师仅在一个核心上运行)。
当我为300个主题进行培训时,我的笔记本电脑崩溃了。我知道我需要一个集群来进行培训,所以我想了解以下内容:
如果不是主题应该是什么 我想用12GB维基百科数据训练1000多个主题。
任何链接,参考,提示可能会有所帮助。谢谢!