我创建了一个包含233行和3列(日期,标题,文章)的语料库,其中最后一列 Article 是文本(因此,我有233文本)。最终目的是应用主题模型,为此,我需要将我的语料库转换为 dfm 。但是,我想首先将单词组合成双字母组和三字母组,以使分析更加严格。
问题是,当我使用 textstat_collocation 或 tokens_compound 时,我被强制标记语料库,这样做,我失去了应用主题模型至关重要的结构(233 x 4)。实际上,一旦应用了这些功能,我只会得到一行对我没用的二元组和三元组。
所以我的问题是:您是否知道以其他方式在dfm中查找双字母组和三字母组而不必标记语料库?
或者,换句话说,您通常会如何在dfm中查找多字?
非常感谢您的时间!