Python标记的LDA输入格式(Github:TaskeHAMANO / LLDA)

时间:2018-10-15 16:18:34

标签: python lda

我正在尝试使用this代码创建带有多个标签文本的主题模型。 但是我不确定输入格式应该是什么样。

我正在尝试的是:

from LLDA.llda import LLDAClassifier
import numpy

X_train = numpy.array([[1,2], [3,4]]) # 2 documents - with 4 unique words in total
y_train = numpy.array([[0,1], [1,0]]) # two classes
llda = LLDAClassifier(alpha = 0.5/y_train.shape[1], threshold=0.10)
llda.fit(X_train, y_train)

控制台输出说“单词数2”,我希望是4。(单词1,2,3,4) 另外,我查看了phi值,因为我想知道主题词的分布:

phi = numpy.loadtxt(os.path.join(llda.tmp, "fit.phi"))
phi

我希望看到一个2x4矩阵(topicsxwords),但实际上是2x2 ...

任何人都有使用此LLDA的经验,可以告诉我我做错了什么吗?

谢谢您,并致以诚挚的问候!

0 个答案:

没有答案