我正在评估scrapy是否适合我。我想要的是每天为几个体育新闻网站搜索最新的头条新闻,并提取标题,日期和文章正文。我不关心文章正文中的链接,我只想要身体。
据我所知,抓取是一次性工作,根据其找到的链接抓取整个网站。 我不想锤击网站,我也不想抓住整个网站;只是体育部分,只是头条新闻。
总而言之,我想要scrapy
是否可以这样做,如果是这样,我将如何实现这一目标。我已经阅读了教程,但似乎他们描述的过程会将整个网站作为一次性工作进行搜索。
答案 0 :(得分:9)
查看deltafetch中间件,该中间件是scrapy library of addons发布的scrapinghub的一部分。它存储在磁盘上生成Items的页面的URL,并且不会再次访问它们。它仍然允许scrapy访问其他页面(通常需要查找项目页面)。这是一个非常简单的示例,可以根据您的特定需求进行定制。
您需要在启用此中间件的情况下每天运行爬网(例如,使用cron)。