标签: python text-mining gensim topic-modeling pubmed
我正在尝试从PUBMED报废的数据中学习动态主题建模(以捕获单词中的语义变化)。我能够以xml的形式获取数据,并能够从中提取“抽象”文本和日期信息,并以csv格式保存。 (但这只是数据的一部分。)
获得格式
年|月|日| abstractText
我打算将gensim lda用于我的模型
我以前从未真正完成主题建模,需要您的帮助,一步一步指导我完成此过程。
问题:
希望我从中学到很多东西。提前谢谢。