应用错误收集

我正在尝试将论坛刮到某个日期，例如2018年1月1日。

问题：

比方说，论坛页面是一个包含没有日期的帖子列表的页面。问题在于每个帖子的日期信息仅存在于帖子页面（显示该帖子的实际内容）中。因此，在实际将帖子列表中的每个帖子抓取之前，我无法知道日期。我必须发出另一个请求来刮除帖子页面，以便首先获取日期信息，然后决定是否继续关注论坛页面的分页。

我希望蜘蛛会一直跟踪论坛页面的分页，直到日期为2018-01-01的帖子被废弃为止。

当前方法：

要在观察到2018年1月1日之后停止，我创建了一个类属性post_cont_dict来确定Spider是否应继续遵循论坛页面的分页。从帖子页面获取2018年1月1日之前的日期时，将显示蜘蛛网will pop the key out。在发布帖子页面请求之前，蜘蛛会先check whether post_cont_dict has the key（also here）进入论坛页面。

我还赋予了帖子页面优先于论坛页面的优先级，以避免在帖子页面之后发出的论坛页面请求>。但是，它并没有停止使用我的方法。

这是我的代码https://github.com/spacegoing/sentiment_mqd/blob/test/guba_spiders/guba_spiders/spiders/guba_spider.py

scrapy：在特定日期之前停止抓取

1 个答案: