爬行大量的动态数据

时间:2014-02-16 14:40:14

标签: web-crawler

我正在抓取像imdb这样的动态网站。在这里,我有兴趣抓取某些元素,如电影的评级和投票的用户数量。但是imdb是一个动态站点。这个消息每隔几分钟就会改变。我对浏览所有数据不感兴趣。在我最初的抓取中,我刮掉了整个网站。现在我对几个div元素如何变化感兴趣。比如考虑评级。我是否需要每次都抓取整个网站并在我的数据库中查询它以检查元素是否已更改? rss / atom feed没有空间。如何在不爬过整个站点并重新构建数据库的情况下解决此问题。

0 个答案:

没有答案