我目前正在开展网络抓取项目。我目前的问题是从我的数据中删除CSS标记。以下是我的代码的基础知识:
library(Rcrawler)
setwd("C:myfile")
Rcrawler(Website = "http://www.soyaquaalliance.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c("div"))
test1<-gsub("[\\t\\n]"," ",DATA) print(test1)
如果您检查控制台,您会注意到gsub会替换CSS标记,但它也会替换我的代码正在抓取的文本中的所有ts和ns。如何在不影响其他文本的情况下有效删除CSS标记?
答案 0 :(得分:-1)
使用双反斜杠。你需要逃避第一个反斜杠。