应用错误收集

我创建了一个包含233行和3列（日期，标题，文章）的语料库，其中最后一列 Article 是文本（因此，我有233文本）。最终目的是应用主题模型，为此，我需要将我的语料库转换为 dfm 。但是，我想首先将单词组合成双字母组和三字母组，以使分析更加严格。

问题是，当我使用 textstat_collocation 或 tokens_compound 时，我被强制标记语料库，这样做，我失去了应用主题模型至关重要的结构（233 x 4）。实际上，一旦应用了这些功能，我只会得到一行对我没用的二元组和三元组。

所以我的问题是：您是否知道以其他方式在dfm中查找双字母组和三字母组而不必标记语料库？

或者，换句话说，您通常会如何在dfm中查找多字？

非常感谢您的时间！