设置动态主题建模的数据

时间:2017-12-02 18:13:02

标签: python text-mining gensim topic-modeling pubmed

我正在尝试从PUBMED报废的数据中学习动态主题建模(以捕获单词中的语义变化)。我能够以xml的形式获取数据,并能够从中提取“抽象”文本和日期信息,并以csv格式保存。 (但这只是数据的一部分。)

获得格式

年|月|日| abstractText

我打算将gensim lda用于我的模型

我以前从未真正完成主题建模,需要您的帮助,一步一步指导我完成此过程。

问题:

  1. csv是输入gensim lda的首选格式吗?
  2. 对于动态建模,如何在模型中捕获和使用数据的时间方面?
  3. 有没有比csv文件更好的组织数据的方法?
  4. 我应该使用bodytext而不是摘要吗?
  5. 希望我从中学到很多东西。提前谢谢。

0 个答案:

没有答案