R中的网页抓取:模式问题,无法获得所需的输出

时间:2018-07-13 23:06:32

标签: r web-scraping

我正在尝试使用R提取网站上的可用表数据。网站上仅存在一个表。

下面是我要用来提取表数据的代码。

thepage = readLines('Link')
data4 <- gsub("&nbsp;", "",thepage)
mypattern ='<td class="first">([^<]*)</td>'
datalines = grep(mypattern,data4[67:length(data4)],value=TRUE)
datalines

但是,上面提到的代码无法与下面提到的html代码匹配模式。

关于如何设置模式以获得所需输出的任何建议。

HTML:

<td class="first">
     &nbsp;&nbsp;&nbsp;&nbsp;
  &nbsp;AAAF
</td>

所需输出:AAAF

0 个答案:

没有答案