我正在与quanteda.corpora的SOTU语料库一起工作,需要对其进行子集化以大致了解SOTU演讲的上个世纪。我来自tm,所以我对管理dfm对象不是很熟悉。
我已经学习了dfm格式时如何预处理语料库,但是我不确定下一步该怎么做。这就是我现在所拥有的。据我了解,此代码应将我的语料库子集化,以仅包括1913年以后提供的文档。
library(quanteda)
library(quanteda.corpora)
dfmat_sotu <- dfm(data_corpus_sotu, tolower = TRUE, remove = stopwords("english"), remove_numbers = TRUE, remove_punct = TRUE)
dfmat_sotu <- dfm_wordstem(dfmat_sotu, language = quanteda_options("language_stemmer"))
dfmat_sotu <- dfm_subset(dfmat_sotu, Date > 1913-12-02)
wf_sotu <- textmodel_wordfish(dfmat_sotu)
textplot_scale1d(wf_sotu)
问题是,当我同时运行此代码以及wordfish时,很明显我没有按预期方式对主体进行子集化-它似乎仅包括1978年及以后的演讲。我需要做些什么?