Question

我正在使用scrapy来解析网站。其HTML代码为：

<li class="listclass">
    <div class="divclass"> Some text </div>
    <div> "Some text" </div>
</li>

我希望第二个div中出现文字。

如何解析它以获取所需的文本？

目前我所拥有的是：

response.xpath('//li[@class="listclass"]/div/text()').extract()

问题在于，此处正在选择与divs对应的文本。我只需要第二个div的内容。

Answer 1

试试这个：

//li[@class="listclass"]/div[2]/text()

Answer 2

如果你有很多div并且你需要避免使用特定div意味着你可以使用它。

response.xpath('//li[@class=listclass"]/div[not(contains(@class,"divclass"))]/text()').extract()