确定rvest的正确CSS选择器以刮取realtor.com

时间:2016-06-20 18:21:08

标签: css web-scraping rvest

我正试图从以下地址的realtor.com获取信息,以获取位于爱荷华州得梅因市的示例住宅。

http://www.realtor.com/realestateandhomes-detail/2419-Hart-Ave_Des-Moines_IA_50320_M85646-67738

我特别感兴趣的信息是"支付选项",特别是在"轮图"校长和校长列出并以图形方式显示利息,财产税和家庭保险价值。我已经检查了这个页面的元素,在我看来,我需要的CSS选择器是:

span #principle_interest .float-right

我不确定在上面是否适合使用空格,但是我已经尝试过两种方式。以下是我的R代码:

## Load rvest package
library(rvest)
## Parse realtor.com page html
siteHTML <- read_html("http://www.realtor.com/realestateandhomes-detail/2419-Hart-Ave_Des-Moines_IA_50320_M85646-67738")
## Attempt to extract principle interest value
PBI <- siteHTML %>% html_nodes("span#principle_interest.float-right")

在此尝试之后,PBI等于&#34; {xml_nodeset(0)}&#34;

我尝试提取地址,包括城市和邮政编码,以及总价,浴室数,床位,平方英尺和平方英尺都是成功的,但我无法让这部分工作。这里有人有任何见解吗?如果这是一个双重帖子,我真诚地道歉,在环顾四周时,我找不到类似的东西。我可能会过度简化CSS吗?

非常感谢你!

0 个答案:

没有答案