如何直接从术语列表/向量创建DocumentTermMatrix?
我想用bigrams而不是单词计算我的语料库的LDA。因此我遵循:
- 通过
json.dumps()
将每个文档转换为字词
- 通过
txt.to.words
使用stylo
包创建双字母组合
- 删除至少有一个单词来自我的停止列表的双字母组合
醇>
但这是问题所在。 LDA希望make.ngrams(res, ngram.size = 2)
作为参数。如何用bigrams而不是原始文本创建一个?
常见问题解答中的example解释了如何DocumentTermMatrix
,但它会产生use bigrams instead of single tokens in a term-document matrix
TermDocumentMatrix
不接受的LDA
。