Question

我有一个大文本，想要用一些标记替换所有低频率的单词，例如＆＃34; ^ rare ^＆＃34;。我的文件是170万行，清理后它有482,932个独特单词，其中超过40万个不到6个，这些是我想要替换的。

我认识的方式比实际需要更长的时间。例如，我刚刚从mgsub包中尝试qdap。

test <- mgsub(rare, "<UNK>", smtxt$text)

其中rare是所有罕见单词的向量，smtxt$text是包含所有文本的向量，每行一个句子。

R仍在处理它。

我认为，因为每个单词都是针对每个句子开始检查的，所以这是预期的。现在我不得不忘记做这样的事情。如果有另一种方式，我想听听别人的意见。因为除了我所知道的之外，我还没有考虑过很多选项：gsub和mgsub，并且还尝试将文本转换为语料库以确定它是否会更快地处理。

由于