通过正则表达式标记后尝试拆分成双字

时间:2019-07-08 11:36:48

标签: r regex

我正在尝试分析Twitter上的一些文本。我使用管道删除URL并将文本标记为单个单词。现在,我要排列inBigrams中的文本。但是我对于是在同一管道中执行此操作还是在该管道的输出中单独执行操作感到困惑。

这是我标记文本的代码。

reg_words <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"
tidy_tweets <- all_tweet_text_for_corpus %>%
  filter(!str_detect(text, "^RT")) %>%
  mutate(text = str_replace_all(text, "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&amp;|&lt;|&gt;|RT|https", "")) %>%
  unnest_tokens(word, text, token = "regex", pattern = reg_words) %>%
  filter(!word %in% stop_words$word,
         str_detect(word, "[a-z]"))

现在,我想使用unnest_tokens制作二元组。但是我可以将其集成到同一管道中还是必须分开进行?如果是后者,正确的输入应该是什么?

到目前为止,我有这个:

unnest_tokens(word, text, token = "ngrams", n=2)

第一个参数应该是“ tidy_tweets”(已经被标记化的数据框)吗?

0 个答案:

没有答案