R中的WebCrawler(用于aspx格式)

时间:2018-08-04 14:32:30

标签: web-scraping web-crawler

我刚刚开始在R中使用Web爬虫程序包。但是,我很难在循环中提交表单并存储值。

我尝试将rvest软件包应用于URL

https://www.bwt.de/de/Kundenservice/Wasserhaertesuche/Seiten/default.aspx

我想输入邮政编码(例如50667),提交表单并存储DH值结果。 应用SelectorGadget,我确定邮政编码输入的XPath

//*[contains(concat( " ", @class, " " ), concat( " ", "bwtg-select-box-text", " " ))] | //input

但是,我不知道如何使用rvest提交表单,因为结果URL是相同的(不是带有某些参数的.aspx)。

非常感谢您的帮助!

编辑:我成功提交了表单,但无法存储结果

    library(rvest)

# Store web url
url<- "https://www.bwt.de/de/Kundenservice/Wasserhaertesuche/Seiten/default.aspx"

data <- html_session(url)

form.unfilled <- data %>% html_node("form") %>% html_form()
form.filled <- form.unfilled %>% set_values("installerPostalCode" = "50667")        

# submit the form and save as a new session
session <- submit_form(data, form.filled) 

# look for a table in the nodes 
table <- session %>% html_nodes("count bwtg-text-ht")

table

0 个答案:

没有答案