我正在尝试从交互式aspx网页进行webscrape表。我已经阅读了所有关于堆栈的R网页搜索问题,我想我已经接近了,但我似乎无法得到它。
我想从生成的here表中提取数据。最终我想循环遍历每个日期和状态选项,但我的挑战实际上只是到R来提交我的参数并为任何特定查询提取结果表。
根据我收集的内容,答案可能涉及RCurl和XML包,使用我的参数发布“表单”,然后读取结果页面的html。
我最近的努力看起来像这样:
library(RCurl)
library(XML)
curl = getCurlHandle()
link = "http://indiawater.gov.in/IMISReports/Reports/WaterQuality/rpt_WQM_HabitationWiseLabTesting_S.aspx"
html = getURL(link, curl = curl)
params = list('ctl00$ContentPlaceHolder$ddFinYear' = '2005-2006',
'ctl00$ContentPlaceHolder$ddState' = 'BIHAR')
html2 = postForm(link, .params = params, curl = curl)
table = readHTMLTable(html2 )
我很难确切地告诉我在什么时候遇到了问题。一方面html == html2产生错误,所以我认为html2在提交表单后已经进展到某个点,但是如果表单提交不正确或者如果有效并且它的读数是那张桌子没用。
任何建议和帮助表示赞赏。谢谢!