如何过滤语料库中的所有短字符串(2个及以下字符)?

时间:2019-06-10 12:31:43

标签: r nlp tm corpus qdap

给出一个简单的字符串:

t <- "hello world ww ff a wr gj dkjffdkn kuku"

VCorpus(VectorSource(t))

我想过滤掉所有2个和较短长度的子字符串。 如何使用qdaptm软件包来做到这一点? 我知道我可以为此使用regex,但是有功能吗?

1 个答案:

答案 0 :(得分:2)

使用软件包qdapRegex,您可以执行以下操作:

rm_nchar_words(t, "1,2")

[1] "hello world dkjffdkn kuku"