Question

我正在尝试爬网，为此，我正在使用Scrapy。因此，在对嵌套页面进行请求时，该过程通常在第一次尝试时正确获取信息，但是在以后的请求中，节点开始返回None。我正在使用xpath的功能。下面，我粘贴了parse函数的一些行：

（我通过显式比较类值的方法尝试了这一点）

title = response.xpath('//span[@class="inlineFree"]/text()').extract_first()

（为此，我使用了contains函数）

view = response.xpath('//span[contains(@class,"count")]/text()').extract_first()

（当我发现更合适时，我也使用了此）

comments = response.css('div.commentMessage > span::text').extract()

我在路径上做错了吗？搜寻器是否有任何理由停止正确读取节点？

Answer 1

如果没有日志消息或蜘蛛码，就不能说问题出在哪里。大多数情况下，网站不遵循严格的html结构。对于某些属性，“标题”可能在范围内但对于下一次迭代，可能是 span [@ class =“ inlineFree”] / h1 / text（）或

或任何其他标签所以您应该检查html中是否返回None