我有一大堆文本,表示为文本列表:
[text1,text2,...,textn]
我还有一份这些文字的名单:
[text1_name,text2_name,...,textn_name]
如何将此类数据转换为Mallet Corpus? 那么可以使用gensim的LDA吗?
from gensim.models.ldamulticore import LdaMulticore
corpus = gensim.corpora.MalletCorpus( **what_should_stay_here??** )
lda = LdaMulticore(corpus, workers = -1)