要排除所有不包含至少4个单词的推文,我想通过mutate功能创建一个新变量。 “mysontweets”仅包含数据框“tweets_son.df”的文本变量 我尝试了很多,但我没有工作。有人帮忙吗?显然,倒置逗号存在问题。
new_tweets_son.df <- tweets_son.df %>% (mutate(tweets_son.df = str_detect(mysontweets, "([[:alpha:]]+[[:punct:]]*[[:space:]]+){4,}[[:alpha:]]+)"))
答案 0 :(得分:0)
您可以使用stringr::str_count
来计算字符串中的字数;所以应该有所作为:
library(tidyverse);
df %>%
filter(str_count(mysontweets, pattern = " ") >= 4)
如果您提供样本数据,则更容易举例。
使用我生成的一些样本数据的示例:
# Sample data
df <- cbind.data.frame(
mysontweets = c("One two three", "a b c d e", "Start End")
);
df %>%
filter(str_count(mysontweets, pattern = " ") >= 4)
# mysontweets
#1 a b c d e