发布抓取页面的ul部分

时间:2017-06-10 10:59:47

标签: python scrapy html-lists screen-scraping

设置向上

我正在用scrapy抓住住房广告。

我成功收集了每个广告的大部分住房特征,随后用熊猫分析它们。

问题

我似乎无法在广告页面上抓取某个ul。该问题涉及任何住房广告页面上的“主要功能”和“其他内容”部分:例如: this one

当我试图刮掉元素时,我收到一个空白的回报。

<小时/> 的尝试

我已尝试以下方法获取'Extras'

response.css("section.divFeatures") # empty 

response.css("div.detail-section-content::text", # gives me the property location (strange)
          ).extract() 

response.css("#divFeatures").extract() # empty

列表继续。

我做错了什么,如何成功获取元素?

1 个答案:

答案 0 :(得分:0)

您可以直接查询@Casper提到的页面...或者您可以使用运行javascript的引擎并像常规Web浏览器一样为您编辑DOM,并在编辑后获取html。

Selenium + ChromeDriver(+ XVFB,如果你想运行无头)或phantomjs等。这些将运行网页上的所有JavaScript,并具有与您在chrome中打开检查面板时看到的完全相同的结构。