我想搜索,例如,"人口阿波罗海滩,佛罗里达州"并提取谷歌返回的人口数字。在此示例中,Google甚至会显示"快速查看"在顶部,包括统计年份。
我如何刮取这个结果和一年?
我目前正在尝试使用RCurl
和XML
软件包,但我没有运气提取正确的HTML节点。我检查了chrome中的元素并复制了xpath:
library(XML)
library(RCurl)
search.term="population Apollo Beach"
site <- getForm("http://www.google.com/search",hl="en",lr="",q=search.term,btnG="Search")
text <- htmlParse(site)
xpathApply(text,'//*[@id="rso"]/div[1]/div/div[1]/div/div[1]/div[2]/div[2]/div/div[1]/div/div/div[1]')
1)这是否合法基于谷歌的TOS?
2)如何提取正确的xpath节点?