具有预处理文本文件的Gensim Mallet LDA

时间:2019-03-19 20:07:02

标签: gensim lda mallet

我正在尝试应用以下教程中给出的步骤:

https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/

尽管这是一个循序渐进的教程,但是我在满足自己的需求时遇到了问题:

  • 首先,我在文件夹中有txt文件,而不是从Internet获取新闻组数据。

  • 我的txt文件已经过预处理,因此无需应用任何预处理步骤,例如停用词,词法修饰等。

  • 应该通过考虑每个文件来应用主题建模。我的意思是;假设第一个文件中存在3次xyz术语,第二个文件中存在5次。 “ xyz”的向量应类似于(“ xyz”,3).....(“ xyz”,5),而不仅仅是(“ xyz”,8)。

请您帮我准备以下代码:

# Create Dictionary
id2word = corpora.Dictionary(data_lemmatized)

# Create Corpus
texts = data_lemmatized

# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]

# View
print(corpus[:1])

最诚挚的问候,

0 个答案:

没有答案