Question

我在R中使用Quanteda并创建了语料库和dfm。但是，我注意到dfm和语料库包含的文档少于原始文件。我很感激，如果有人可以请让我知道为什么会发生这种情况以及如何解决？感谢

Answer 1

您可以尝试明确提及docid_field和text_field，如下所示：

data_corpus = corpus(x = data,docid_field = "doc_id", text_field = "text")

其中doc_id和text是数据帧data中的列。

然后使用dfm包的qunateda函数计算文档特征矩阵

data_dfm = dfm(data_corpus)