Scrapy在提取

时间:2017-11-09 16:11:44

标签: python scrapy

在抓取过程中,我通常以这种方式捕获链接:

response.xpath("//a[contains(@class, something)/@href").extract()

但由于某种原因,该特定页面无效。我在数组中收到的是这样的:

['details?lm==true=1=A43', (...)]

正确的输出应该是:

['details?lm=&printerView=true&accessType=1&id=A43', (...)]

1 个答案:

答案 0 :(得分:1)

过了一段时间,我发现firefox上的同一页面变得很奇怪......我的问题一直在发生,因为被抓取的页面的内容类型为" text / xml"而不是HTML。

要修复我的代码,我做了其他选择器:

sel = scrapy.Selector(text=response.body)
sel.xpath("//a[contains(@class, something)/@href").extract()

现在我得到了正确的结果!

['details?lm=&printerView=true&accessType=1&id=A43', (...)]