我正在尝试阅读网站“http://www.lassen.co.nz/s14tab.php#hrh”的所有表格。我这样做的代码如下:
library(XML)
library(RCurl)
url<-"http://www.lassen.co.nz/s14tab.php#hrh"
data<-getURL(url)
data<-htmlParse(data)
tables<-readHTMLTable(data)
表示“Team Ranking Points”的表似乎无法正确解析,因此显示为NULL。我尝试过使用scrapeR包但结果相同。任何帮助将不胜感激。
答案 0 :(得分:1)
这个白痴(我通常不那么苛刻,但那个页面属于myspace或geocities&amp;并且是一个伟大的&#34;起诉展览A&#34;因为需要获得许可证才能放入HTML制作该页面的互联网决定了他可以“弥补”#34;用于评论HTML部分的新规则。
这个宝石:
<TABLE border=0 cellspacing=2 cellpadding=3 /*style="border: 1px solid #000;"*/>
出现两次。虽然xml2
C库擅长处理可怕的HTML,但这会让它有点循环。因此,我们必须首先处理创意评论:
library(rvest)
pg <- readLines("http://www.lassen.co.nz/s14tab.php")
pg <- gsub("/*style", "style", pg)
pg <- gsub("*/>", ">", pg)
pg <- read_html(paste0(pg, sep="", collapse=""))
html_table(html_nodes(pg, "h2 + table"), fill=TRUE)
无法遵循正确的HTML编码指南的同一个人似乎也从未听说过<div>
标记,因此您必须对表格2&amp ;;进行清理。 3。
如果他们改变格式(不太可能在古代过程中建立这个东西),h2 + table
将需要更新以更好地定位这三个表。