Question

我正在使用Scrapy抓取内容，如下所示：

>>> response.css(".mt-0.mb-2").extract()

['<h4 class="mt-0 mb-2">\n\t\t\t\t\t\t<a href="https://www.example.com/results/item1/">THIS IS WHAT I WANT TO SCRAPE</a>                    </h4>', '<h4 class="mt-0 mb-2">\n\t\t\t\t\t\t<a href=…

问题是，当我尝试仅获取文本时，我没有得到“这就是我想刮擦的”字符串，而是选项卡：

>>> response.css(".mt-0.mb-2::text").extract()

['\n\t\t\t\t\t\t', '                    ', '\n\t\t\t\t\t\t', '                    ', '\n\t\t\t\t\t\t', '                    ', '\n\t\t\t\t\t\t',

在处理这些类型的选择器时，XPath是提取它们的唯一方法吗？

Answer 1

那response.css(".mt-0.mb-2 a::text").extract()呢？还是我误解了这个问题？

Scrapy：刮除href内嵌的文本

1 个答案: