我正在尝试爬网,为此,我正在使用Scrapy。因此,在对嵌套页面进行请求时,该过程通常在第一次尝试时正确获取信息,但是在以后的请求中,节点开始返回None。我正在使用xpath的功能。下面,我粘贴了parse函数的一些行:
(我通过显式比较类值的方法尝试了这一点)
title = response.xpath('//span[@class="inlineFree"]/text()').extract_first()
(为此,我使用了contains函数)
view = response.xpath('//span[contains(@class,"count")]/text()').extract_first()
(当我发现更合适时,我也使用了此)
comments = response.css('div.commentMessage > span::text').extract()
我在路径上做错了吗? 搜寻器是否有任何理由停止正确读取节点?
答案 0 :(得分:0)
如果没有日志消息或蜘蛛码,就不能说问题出在哪里。 大多数情况下,网站不遵循严格的html结构。对于某些属性,“标题”可能在范围内 但对于下一次迭代,可能是 span [@ class =“ inlineFree”] / h1 / text()或
或任何其他标签 所以您应该检查html中是否返回None