使用Scrapy逐步抓取网站

时间:2016-05-17 21:24:40

标签: scrapy web-crawler

我是抓狂的新手,想知道是否可以使用Scrapy逐步抓取网站,例如CNBC.com?例如,如果今天我从网站抓取所有网页,那么从明天开始我只想收集新发布到此网站的网页,以避免抓取所有旧网页。

感谢您提供任何信息。或输入。

3 个答案:

答案 0 :(得分:1)

是的,你可以而且它实际上很容易。每个新闻网站都有一些非常重要的索引页面,如主页和类别(例如政治,娱乐等)。没有文章至少在几分钟内没有通过这些页面。每分钟左右扫描一次这些页面并保存链接。然后使用您在数据库中已有的内容进行差异,并且每天发送几次爬行以清除所有丢失的链接。非常标准的做法。

答案 1 :(得分:1)

请尝试scrapy插件scrapy-deltafetch,这会让您的生活更轻松。

答案 2 :(得分:0)

简答:不。

更长的答案:您可以做的是将文章ID或文章网址写入文件,在抓取过程中,您可以将ID或网址与文件中的记录进行匹配。

请记住只加载一次文件并将其分配给变量。在抓取过程中不要在迭代过程中加载它。