LingPipe LDA矩阵表示

时间:2013-05-26 10:25:27

标签: sparse-matrix lda

我正在尝试从推文列表中提取可能的主题,而LingPipe LDA似乎很容易理解,并且有很好的代码示例文档。

我的挑战是使用推文数据生成矩阵表示。例如,

static String [] WORDS = new String [] {     “河流”,“溪流”,“银行”,“钱”,“贷款” };

static final int [] [] DOC_WORDS = new int [] [] {

{ 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 0, 0, 0 },
{ 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 0, 0 },
{ 0, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 0 },
{ 0, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4 }

}

上述矩阵末尾的零应该表示在内容中找不到WORDS数组中的单词。然而,在这种表示中,它被假定为零指数或找到“河流”这个词。

由于推文很短,我不确定如何表示矩阵,以便它也可以显示该词的“缺席”。

任何有关其他方法的建议或建议都很受欢迎。

0 个答案:

没有答案