其他任何webscraping解决方案似乎都不适用于我从Drupal视图生成的表中抓取数据的任务。虽然显示的页面源肯定有一个表显示我正在尝试使用的当前代码只返回一个空表而不是15行显示的表格信息的列表。
我显然做错了什么,并且是R的编码技巧的中级新手。任何帮助都将非常感谢!
我的R代码:
library("RCurl")
library("XML")
projects <- getURL("http://www.mysite.com/projects", userpwd ="username:password")
# parse the document for R representation:
projects.doc <- htmlParse(projects)
# get the table
projects.tabs <- readHTMLTable(projects.doc, stringsAsFactors = FALSE)