应用错误收集

时间：2016-05-17 21:24:40

标签： scrapy web-crawler

我是抓狂的新手，想知道是否可以使用Scrapy逐步抓取网站，例如CNBC.com？例如，如果今天我从网站抓取所有网页，那么从明天开始我只想收集新发布到此网站的网页，以避免抓取所有旧网页。

感谢您提供任何信息。或输入。

答案 0 :(得分：1)

是的，你可以而且它实际上很容易。每个新闻网站都有一些非常重要的索引页面，如主页和类别（例如政治，娱乐等）。没有文章至少在几分钟内没有通过这些页面。每分钟左右扫描一次这些页面并保存链接。然后使用您在数据库中已有的内容进行差异，并且每天发送几次爬行以清除所有丢失的链接。非常标准的做法。

答案 1 :(得分：1)

请尝试scrapy插件scrapy-deltafetch，这会让您的生活更轻松。

答案 2 :(得分：0)

简答：不。

更长的答案：您可以做的是将文章ID或文章网址写入文件，在抓取过程中，您可以将ID或网址与文件中的记录进行匹配。

请记住只加载一次文件并将其分配给变量。在抓取过程中不要在迭代过程中加载它。