应用错误收集

Scrapy - 如何每天刮取新页面

时间：2012-11-06 06:54:39

标签： html-parsing web-scraping scrapy

我正在评估scrapy是否适合我。我想要的是每天为几个体育新闻网站搜索最新的头条新闻，并提取标题，日期和文章正文。我不关心文章正文中的链接，我只想要身体。

据我所知，抓取是一次性工作，根据其找到的链接抓取整个网站。我不想锤击网站，我也不想抓住整个网站;只是体育部分，只是头条新闻。

总而言之，我想要scrapy

每天一次找到与昨天不同的新闻文章来自指定的域
提取新文章的日期，时间和正文
将结果保存到数据库

是否可以这样做，如果是这样，我将如何实现这一目标。我已经阅读了教程，但似乎他们描述的过程会将整个网站作为一次性工作进行搜索。

1 个答案:

答案 0 :(得分：9)

查看deltafetch中间件，该中间件是scrapy library of addons发布的scrapinghub的一部分。它存储在磁盘上生成Items的页面的URL，并且不会再次访问它们。它仍然允许scrapy访问其他页面（通常需要查找项目页面）。这是一个非常简单的示例，可以根据您的特定需求进行定制。

您需要在启用此中间件的情况下每天运行爬网（例如，使用cron）。