我正在尝试使用R提取网站上的可用表数据。网站上仅存在一个表。
下面是我要用来提取表数据的代码。
thepage = readLines('Link')
data4 <- gsub(" ", "",thepage)
mypattern ='<td class="first">([^<]*)</td>'
datalines = grep(mypattern,data4[67:length(data4)],value=TRUE)
datalines
但是,上面提到的代码无法与下面提到的html代码匹配模式。
关于如何设置模式以获得所需输出的任何建议。
HTML:
<td class="first">
AAAF
</td>
所需输出:AAAF