我在R中使用Quanteda并创建了语料库和dfm。但是,我注意到dfm和语料库包含的文档少于原始文件。我很感激,如果有人可以请让我知道为什么会发生这种情况以及如何解决?感谢
答案 0 :(得分:0)
您可以尝试明确提及docid_field
和text_field
,如下所示:
data_corpus = corpus(x = data,docid_field = "doc_id", text_field = "text")
其中doc_id
和text
是数据帧data
中的列。
然后使用dfm
包的qunateda
函数计算文档特征矩阵
data_dfm = dfm(data_corpus)