如何通过scrapy抓取更新的网页?

时间:2016-05-13 07:56:54

标签: scrapy web-crawler

我使用scrapy从网站上获取数据。The website但是有一个问题,我不知道如何在服务器上更新网站后获取增量数据或如何知道网站已更新? 网页中的表格是我要抓取的内容,如下所示: enter image description here 正如您所看到的,有一个名为" Add Date"的列。因此,当数据更新后,我只想获取最近添加的数据。并且有一个问题,更新后网站的网址没有任何变化。它仍然是https://gold.jgi.doe.gov/projects

我已经阅读了这个Q& A Strategy for how to crawl/index frequently updated webpages?。我理解了一点理论。但是我在使用scrapy时仍然不知道如何实现这一点,任何人都可以举例或详细信息吗?

0 个答案:

没有答案