使用css选择器在scrapy爬网中提取span之外的文本

时间:2018-04-20 07:17:22

标签: python html scrapy css-selectors scrapy-spider

我有以下HTML代码:

    <h1>
        <a href="https://www.google.com">
            <span>448587: </span>Brian McMills
        </a>
    </h1>

我只对Brian McMills感兴趣。我想使用scrapy css selector函数来选择文本。

当我使用h1 a ::text时,它只选择448587:部分,我尝试了:not(span)的某些组合,但它不起作用。

注意 :我对Xpathscripting解决方案不感兴趣,只对css感兴趣。

1 个答案:

答案 0 :(得分:1)

唯一有用的是h1 a:not(span)::text

感谢。