我正在抓取一些网页以获取一些信息。我正在使用Scrapy和XPath语言。
这是我将获得的页面示例。在页面中有许多这个li元素
<li ckIgnore="false" codmod="3857" ccar="A" area="NEW" versArea="NEW" shorturl="1" modurl="/auto">
<article>
<a href=""><img width="210" height="158" src="" alt="" modello=></a>
<img src="" alt="logo" class="logo-listing" width="38">
<div class="hgroup">
<a href="">
<h5>ABARTH</h5>
<h3>500 cabrio</h3>
</a>
</div>
</article>
</li>
我正在使用这种语法来获取所有具有hgroup类的div。不幸的是,当我尝试打印出模型变量时,这是空的。
def parse(self, response):
sel = Selector(response)
models = sel.xpath("//div[@class='hgroup']/a")
答案 0 :(得分:0)
scrapy“看到”的可能性与您在浏览器中看到的有所不同。尝试使用scrapy shell "http://example.com"
并查看response.body
是否有您要找的内容。