我有一个大文本,想要用一些标记替换所有低频率的单词,例如" ^ rare ^"。我的文件是170万行,清理后它有482,932个独特单词,其中超过40万个不到6个,这些是我想要替换的。
我认识的方式比实际需要更长的时间。例如,我刚刚从mgsub
包中尝试qdap
。
test <- mgsub(rare, "<UNK>", smtxt$text)
其中rare
是所有罕见单词的向量,smtxt$text
是包含所有文本的向量,每行一个句子。
R仍在处理它。
我认为,因为每个单词都是针对每个句子开始检查的,所以这是预期的。现在我不得不忘记做这样的事情。如果有另一种方式,我想听听别人的意见。因为除了我所知道的之外,我还没有考虑过很多选项:gsub
和mgsub
,并且还尝试将文本转换为语料库以确定它是否会更快地处理。
由于