Xpath开始在Scrapy上重新调整None

时间:2018-09-09 14:14:26

标签: dom xpath scrapy web-crawler scrapy-spider

我正在尝试爬网,为此,我正在使用Scrapy。因此,在对嵌套页面进行请求时,该过程通常在第一次尝试时正确获取信息,但是在以后的请求中,节点开始返回None。我正在使用xpath的功能。下面,我粘贴了parse函数的一些行:

(我通过显式比较类值的方法尝试了这一点)

title = response.xpath('//span[@class="inlineFree"]/text()').extract_first()

(为此,我使用了contains函数)

view = response.xpath('//span[contains(@class,"count")]/text()').extract_first()

(当我发现更合适时,我也使用了此)

comments = response.css('div.commentMessage > span::text').extract()

我在路径上做错了吗? 搜寻器是否有任何理由停止正确读取节点?

1 个答案:

答案 0 :(得分:0)

如果没有日志消息或蜘蛛码,就不能说问题出在哪里。 大多数情况下,网站不遵循严格的html结构。对于某些属性,“标题”可能在范围内 但对于下一次迭代,可能是 span [@ class =“ inlineFree”] / h1 / text()或

或任何其他标签 所以您应该检查html中是否返回None