文本化 - 查找以前缀开头的单词

时间:2018-05-19 23:27:39

标签: r rvest

我有一个包含5万个"细胞的柱子"其中包含段落。我想搜索每个" cell"如果存在任何以"幸存"开头的单词(比如生存,幸存者,......)如果存在,给我一个值= 1,如果不存在,给我一个值= 0.

1 个答案:

答案 0 :(得分:4)

您可以使用grepl和正则表达式

执行此操作
column = c("I survived the storm", "I surfed", 
    "Follow the curve", "The survival of the fittest")

as.numeric(grepl("\\bsurv", column)) 
[1] 1 0 0 1

如果您还想捕捉“幸存者”,可以添加ignore.case = TRUE