scrapy scrape html源代码

时间:2015-02-09 05:31:37

标签: python html python-2.7 scrapy

我使用scrapy抓取并抓取网站。我需要整个html而不是组件。我们可以使用xpath选择器轻松提取组件,但是有任何方法可以提取给定类的整个html块。例如在下面的html代码中,我需要整个div块prod-basic-info的确切html源代码。无论如何我能做到吗?

<div class="block prod-basic-info">
 <h2>Product information</h2>
 <p class="product-info-label">Category</p>
  <p>
   <a href="xyz.html"</a>
 </p>
</div>

1 个答案:

答案 0 :(得分:1)

只需将您的xpath表达式或CSS选择器指向该元素,然后extract()将其指向:

response.xpath('//div[contains(@class, "prod-basic-info")]').extract()[0]
response.css('div.prod-basic-info').extract()[0]