我正在尝试从推文列表中提取可能的主题,而LingPipe LDA似乎很容易理解,并且有很好的代码示例文档。
我的挑战是使用推文数据生成矩阵表示。例如,
static String [] WORDS = new String [] { “河流”,“溪流”,“银行”,“钱”,“贷款” };
static final int [] [] DOC_WORDS = new int [] [] {
{ 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 0, 0, 0 },
{ 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 0, 0 },
{ 0, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 0 },
{ 0, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4 }
}
上述矩阵末尾的零应该表示在内容中找不到WORDS数组中的单词。然而,在这种表示中,它被假定为零指数或找到“河流”这个词。
由于推文很短,我不确定如何表示矩阵,以便它也可以显示该词的“缺席”。
任何有关其他方法的建议或建议都很受欢迎。