我正在使用Scrapy抓取内容,如下所示:
>>> response.css(".mt-0.mb-2").extract()
['<h4 class="mt-0 mb-2">\n\t\t\t\t\t\t<a href="https://www.example.com/results/item1/">THIS IS WHAT I WANT TO SCRAPE</a> </h4>', '<h4 class="mt-0 mb-2">\n\t\t\t\t\t\t<a href=…
问题是,当我尝试仅获取文本时,我没有得到“这就是我想刮擦的”字符串,而是选项卡:
>>> response.css(".mt-0.mb-2::text").extract()
['\n\t\t\t\t\t\t', ' ', '\n\t\t\t\t\t\t', ' ', '\n\t\t\t\t\t\t', ' ', '\n\t\t\t\t\t\t',
在处理这些类型的选择器时,XPath是提取它们的唯一方法吗?
答案 0 :(得分:1)
那response.css(".mt-0.mb-2 a::text").extract()
呢?还是我误解了这个问题?