给出一个简单的字符串:
t <- "hello world ww ff a wr gj dkjffdkn kuku"
VCorpus(VectorSource(t))
我想过滤掉所有2个和较短长度的子字符串。
如何使用qdap
或tm
软件包来做到这一点?
我知道我可以为此使用regex
,但是有功能吗?
答案 0 :(得分:2)
使用软件包qdapRegex
,您可以执行以下操作:
rm_nchar_words(t, "1,2")
[1] "hello world dkjffdkn kuku"