应用错误收集

我正在尝试使用R提取网站上的可用表数据。网站上仅存在一个表。

下面是我要用来提取表数据的代码。

thepage = readLines('Link')
data4 <- gsub("&nbsp;", "",thepage)
mypattern ='<td class="first">([^<]*)</td>'
datalines = grep(mypattern,data4[67:length(data4)],value=TRUE)
datalines

但是，上面提到的代码无法与下面提到的html代码匹配模式。

关于如何设置模式以获得所需输出的任何建议。

HTML：

<td class="first">
     &nbsp;&nbsp;&nbsp;&nbsp;
  &nbsp;AAAF
</td>

所需输出：AAAF

R中的网页抓取：模式问题，无法获得所需的输出

0 个答案: