在没有API的情况下高效的网页抓取网站?

时间:2012-10-08 03:04:28

标签: web-scraping

考虑到大多数语言都具有内置或由其他人制作的网页抓取功能,这更像是一个普遍的网络抓取问题。

我有一个网站,我想从大约6个不同的页面中提取信息。这通常不会那么糟糕;不幸的是,这些页面上的信息大约每十秒钟改变一次,这可能意味着每小时超过2000个查询(这根本就不合适)。我想到的网站也没有api。是否有任何可能有效的方法来获取我需要的信息量而不会充满请求,或者我运气不好?

1 个答案:

答案 0 :(得分:0)

充其量,当您提出请求时,网站可能会在其标题中返回HTTP 304 Not Modified - 表示您无需下载页面,因为没有任何更改。如果站点设置为这样做,这可能有助于减少带宽,但仍然需要相同数量的请求。

如果有一致的更新时间表,那么至少您知道何时发出请求 - 但您仍然必须询问(即:发出请求)以找出哪些信息已更改