Scrapy - 如何每天刮取新页面

时间:2012-11-06 06:54:39

标签: html-parsing web-scraping scrapy

我正在评估scrapy是否适合我。我想要的是每天为几个体育新闻网站搜索最新的头条新闻,并提取标题,日期和文章正文。我不关心文章正文中的链接,我只想要身体。

据我所知,抓取是一次性工作,根据其找到的链接抓取整个网站。 我不想锤击网站,我也不想抓住整个网站;只是体育部分,只是头条新闻。

总而言之,我想要scrapy

  1. 每天一次找到与昨天不同的新闻文章 来自指定的域
  2. 提取新文章的日期,时间和正文
  3. 将结果保存到数据库
  4. 是否可以这样做,如果是这样,我将如何实现这一目标。我已经阅读了教程,但似乎他们描述的过程会将整个网站作为一次性工作进行搜索。

1 个答案:

答案 0 :(得分:9)

查看deltafetch中间件,该中间件是scrapy library of addons发布的scrapinghub的一部分。它存储在磁盘上生成Items的页面的URL,并且不会再次访问它们。它仍然允许scrapy访问其他页面(通常需要查找项目页面)。这是一个非常简单的示例,可以根据您的特定需求进行定制。

您需要在启用此中间件的情况下每天运行爬网(例如,使用cron)。