使用gsub

时间:2017-11-21 23:46:13

标签: r web-scraping gsub

我目前正在开展网络抓取项目。我目前的问题是从我的数据中删除CSS标记。以下是我的代码的基础知识:

library(Rcrawler)
setwd("C:myfile")
Rcrawler(Website = "http://www.soyaquaalliance.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c("div"))
test1<-gsub("[\\t\\n]"," ",DATA) print(test1)

如果您检查控制台,您会注意到gsub会替换CSS标记,但它也会替换我的代码正在抓取的文本中的所有ts和ns。如何在不影响其他文本的情况下有效删除CSS标记?

1 个答案:

答案 0 :(得分:-1)

使用双反斜杠。你需要逃避第一个反斜杠。