使刮刀机器人更像人类的方法

时间:2015-11-15 05:20:37

标签: proxy web-scraping vpn

由于我用于搜索某些产品的网站的API有限,我必须使用html抓取其产品页面。没有别的办法,因为它只提供免费的API和限制。我只需要其API返回10或100倍的项目,这意味着即使我将其调用5次,它也将返回相同的产品集,就好像它是1次调用一样。

我不需要在短时间内刮掉大量的页面。通常,scrape bot会在几分钟内刮掉所有数据。对我来说几个小时是可以接受的,所以我的刮刀可能更像人类。

问题是:有什么方法可以让我的刮刀看起来像普通用户?

  
      
  1. 首先,在短时间内拨打少量电话。
  2.   
  3. 也许使用无头浏览器?
  4.   
  5. 使用vpn?或代理?或两者兼而有之?
  6.   

还有什么其他指示?

注意:在我的情况下,抓取是实现我想要的唯一方法,因为API不起作用。所以毫无疑问我应该使用API​​还是抓取。我只能使用刮擦。

1 个答案:

答案 0 :(得分:1)

你基本上正朝着正确的方向前进。

然而,如果if call it 5 times, it'll return the same set of the products as if it were 1 call. API应该能够让用户访问所有可能的数据(尽管有频率限制),我怀疑你并不真正掌握API(或者它是一个奇怪的API)。

您询问的项目:

  1. 在短时间内拨打少量电话。 - 有点真实,但你应该清楚某个网站可以接受哪些请求频率(未被检测到,也没有带宽限制)。
  2. 使用无头浏览器。 - 是的放弃cookie,匿名。
  3. 使用vpn?或代理? - 代理是,使用适当的代理服务,为您提供足够的灵活性,使其不被检测到。 VPN没有帮助,因为网络节点(你从中获取)的数量有限,并且具有静态IP(基本上)。
  4. 我认为this post可能对您有帮助。