我正在尝试应用以下教程中给出的步骤:
https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/
尽管这是一个循序渐进的教程,但是我在满足自己的需求时遇到了问题:
首先,我在文件夹中有txt文件,而不是从Internet获取新闻组数据。
我的txt文件已经过预处理,因此无需应用任何预处理步骤,例如停用词,词法修饰等。
应该通过考虑每个文件来应用主题建模。我的意思是;假设第一个文件中存在3次xyz术语,第二个文件中存在5次。 “ xyz”的向量应类似于(“ xyz”,3).....(“ xyz”,5),而不仅仅是(“ xyz”,8)。
请您帮我准备以下代码:
# Create Dictionary
id2word = corpora.Dictionary(data_lemmatized)
# Create Corpus
texts = data_lemmatized
# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]
# View
print(corpus[:1])
最诚挚的问候,