我正在尝试使用this代码创建带有多个标签文本的主题模型。 但是我不确定输入格式应该是什么样。
我正在尝试的是:
from LLDA.llda import LLDAClassifier
import numpy
X_train = numpy.array([[1,2], [3,4]]) # 2 documents - with 4 unique words in total
y_train = numpy.array([[0,1], [1,0]]) # two classes
llda = LLDAClassifier(alpha = 0.5/y_train.shape[1], threshold=0.10)
llda.fit(X_train, y_train)
控制台输出说“单词数2”,我希望是4。(单词1,2,3,4) 另外,我查看了phi值,因为我想知道主题词的分布:
phi = numpy.loadtxt(os.path.join(llda.tmp, "fit.phi"))
phi
我希望看到一个2x4矩阵(topicsxwords),但实际上是2x2 ...
任何人都有使用此LLDA的经验,可以告诉我我做错了什么吗?
谢谢您,并致以诚挚的问候!