准备维基百科数据LDA上的主题建模

时间:2017-03-06 10:33:59

标签: machine-learning configuration lda topic-modeling

我在旧维基百科数据集(~1GB)上训练我的LDA模型。

我使用Kiwix下载并清理它。

但是当我在拥有4核(i5)和8GB RAM的笔记本电脑上运行它时,它占用了所有内存,但CPU仅使用了25%(可能是因为我的培训师仅在一个核心上运行)。

当我为300个主题进行培训时,我的笔记本电脑崩溃了。我知道我需要一个集群来进行培训,所以我想了解以下内容:

  1. 群集配置应该是什么?
  2. 如果不是主题应该是什么 我想用12GB维基百科数据训练1000多个主题。

    任何链接,参考,提示可能会有所帮助。谢谢!

0 个答案:

没有答案