python - Python标记的LDA输入格式（Github：TaskeHAMANO / LLDA）

我正在尝试使用this代码创建带有多个标签文本的主题模型。但是我不确定输入格式应该是什么样。

我正在尝试的是：

from LLDA.llda import LLDAClassifier
import numpy

X_train = numpy.array([[1,2], [3,4]]) # 2 documents - with 4 unique words in total
y_train = numpy.array([[0,1], [1,0]]) # two classes
llda = LLDAClassifier(alpha = 0.5/y_train.shape[1], threshold=0.10)
llda.fit(X_train, y_train)

控制台输出说“单词数2”，我希望是4。（单词1,2,3,4）另外，我查看了phi值，因为我想知道主题词的分布：

phi = numpy.loadtxt(os.path.join(llda.tmp, "fit.phi"))
phi

我希望看到一个2x4矩阵（topicsxwords），但实际上是2x2 ...

任何人都有使用此LLDA的经验，可以告诉我我做错了什么吗？

谢谢您，并致以诚挚的问候！

Python标记的LDA输入格式（Github：TaskeHAMANO / LLDA）

0 个答案: