Question

给出一个简单的字符串：

t <- "hello world ww ff a wr gj dkjffdkn kuku"

VCorpus(VectorSource(t))

我想过滤掉所有2个和较短长度的子字符串。如何使用qdap或tm软件包来做到这一点？我知道我可以为此使用regex，但是有功能吗？

Answer 1

使用软件包qdapRegex，您可以执行以下操作：

rm_nchar_words(t, "1,2")

[1] "hello world dkjffdkn kuku"