Question

我正在抓取一些网页以获取一些信息。我正在使用Scrapy和XPath语言。

这是我将获得的页面示例。在页面中有许多这个li元素

<li ckIgnore="false"   codmod="3857" ccar="A" area="NEW" versArea="NEW" shorturl="1" modurl="/auto">
<article>
    <a href=""><img width="210" height="158" src="" alt="" modello=></a>

    <img src="" alt="logo" class="logo-listing" width="38">

    <div class="hgroup">
        <a href="">
            <h5>ABARTH</h5>
            <h3>500 cabrio</h3> 

        </a>
    </div>
</article>
</li>

我正在使用这种语法来获取所有具有hgroup类的div。不幸的是，当我尝试打印出模型变量时，这是空的。

def parse(self, response):

    sel = Selector(response)
    models = sel.xpath("//div[@class='hgroup']/a")

Answer 1

scrapy“看到”的可能性与您在浏览器中看到的有所不同。尝试使用scrapy shell "http://example.com"并查看response.body是否有您要找的内容。

使用XPath刮取网页

1 个答案: