R中的Quanteda问题

时间:2018-05-30 14:20:38

标签: r text-mining quanteda

我在R中使用Quanteda并创建了语料库和dfm。但是,我注意到dfm和语料库包含的文档少于原始文件。我很感激,如果有人可以请让我知道为什么会发生这种情况以及如何解决?感谢

1 个答案:

答案 0 :(得分:0)

您可以尝试明确提及docid_fieldtext_field,如下所示:

data_corpus = corpus(x = data,docid_field = "doc_id", text_field = "text")

其中doc_idtext是数据帧data中的列。

然后使用dfm包的qunateda函数计算文档特征矩阵

data_dfm = dfm(data_corpus)