tidytext示例过滤器错误与管道

时间:2016-11-16 15:08:31

标签: r dplyr stringr tidytext

尝试重现http://tidytextmining.com/twitter.html中的示例时,会出现问题。

基本上我想调整这部分代码

library(tidytext)
library(stringr)

reg <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"

tidy_tweets <- tweets %>% 
    mutate(text = str_replace_all(text, "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&amp;|&lt;|&gt;|RT", "")) %>%
    unnest_tokens(word, text, token = "regex", pattern = reg) %>%
    filter(!word %in% stop_words$word,
        str_detect(word, "[a-z]"))

为了保持stop_Word包含推文的数据帧。

所以我试过这个:

tidy_tweets <- tweets %>% 
    mutate(text = str_replace_all(text, "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&amp;|&lt;|&gt;|RT", "")) %>%
    unnest_tokens(word, text, token = "regex", pattern = reg) 

tidy_tweets_sw <- filter(!word %in% stop_words$word, str_detect(tidy_tweets, "[a-z]"))

但是这没有用,因为我收到以下错误消息:

Error in match(x, table, nomatch = 0L) :  
'match' requires vector arguments

我试图传递两个输入的矢量版本来匹配,但无济于事。 有没有人有更好的主意?

2 个答案:

答案 0 :(得分:1)

您需要将foldr consCase nilCase 语句中的数据作为第一个参数。

filter

答案 1 :(得分:1)

不确定,但我认为您的问题在这里:

tidy_tweets_sw <- filter(!word %in% stop_words$word, str_detect(tidy_tweets, "[a-z]"))

filter根本不知道你要过滤的内容,这应该有效:

tidy_tweets_sw <- tidy_tweets %>% filter(!word %in% stop_words$word, str_detect(tidy_tweets, "[a-z]"))