如何直接从术语列表/向量创建DocumentTermMatrix?

时间:2017-04-27 17:34:51

标签: r tm lda

如何直接从术语列表/向量创建DocumentTermMatrix

我想用bigrams而不是单词计算我的语料库的LDA。因此我遵循:

  1. 通过json.dumps()
  2. 将每个文档转换为字词
  3. 通过txt.to.words
  4. 使用stylo包创建双字母组合
  5. 删除至少有一个单词来自我的停止列表的双字母组合
  6. 但这是问题所在。 LDA希望make.ngrams(res, ngram.size = 2)作为参数。如何用bigrams而不是原始文本创建一个?

    常见问题解答中的example解释了如何DocumentTermMatrix,但它会产生use bigrams instead of single tokens in a term-document matrix TermDocumentMatrix不接受的LDA

0 个答案:

没有答案