使用mutate函数在Dataframe中创建新变量的问题

时间:2018-04-05 13:00:30

标签: r twitter tidyverse mutate

要排除所有不包含至少4个单词的推文,我想通过mutate功能创建一个新变量。 “mysontweets”仅包含数据框“tweets_son.df”的文本变量 我尝试了很多,但我没有工作。有人帮忙吗?显然,倒置逗号存在问题。

new_tweets_son.df <- tweets_son.df %>%  (mutate(tweets_son.df = str_detect(mysontweets, "([[:alpha:]]+[[:punct:]]*[[:space:]]+){4,}[[:alpha:]]+)"))

1 个答案:

答案 0 :(得分:0)

您可以使用stringr::str_count来计算字符串中的字数;所以应该有所作为:

library(tidyverse);
df %>%
    filter(str_count(mysontweets, pattern = " ") >= 4)

如果您提供样本数据,则更容易举例。

更新

使用我生成的一些样本数据的示例:

# Sample data
df <- cbind.data.frame(
    mysontweets = c("One two three", "a b c d e", "Start End")
);


df %>%
    filter(str_count(mysontweets, pattern = " ") >= 4)
#  mysontweets
#1   a b c d e