Question

我正在与quanteda.corpora的SOTU语料库一起工作，需要对其进行子集化以大致了解SOTU演讲的上个世纪。我来自tm，所以我对管理dfm对象不是很熟悉。

我已经学习了dfm格式时如何预处理语料库，但是我不确定下一步该怎么做。这就是我现在所拥有的。据我了解，此代码应将我的语料库子集化，以仅包括1913年以后提供的文档。

library(quanteda)
library(quanteda.corpora)
dfmat_sotu <- dfm(data_corpus_sotu, tolower = TRUE, remove = stopwords("english"), remove_numbers = TRUE, remove_punct = TRUE)
dfmat_sotu <- dfm_wordstem(dfmat_sotu, language = quanteda_options("language_stemmer"))
dfmat_sotu <- dfm_subset(dfmat_sotu, Date > 1913-12-02)
wf_sotu <- textmodel_wordfish(dfmat_sotu)

textplot_scale1d(wf_sotu)

问题是，当我同时运行此代码以及wordfish时，很明显我没有按预期方式对主体进行子集化-它似乎仅包括1978年及以后的演讲。我需要做些什么？

如何将我的SOTU dfm分配给Wilson总统，然后再分配给Quanteda？

0 个答案: