由于我用于搜索某些产品的网站的API有限,我必须使用html抓取其产品页面。没有别的办法,因为它只提供免费的API和限制。我只需要其API返回10或100倍的项目,这意味着即使我将其调用5次,它也将返回相同的产品集,就好像它是1次调用一样。
我不需要在短时间内刮掉大量的页面。通常,scrape bot会在几分钟内刮掉所有数据。对我来说几个小时是可以接受的,所以我的刮刀可能更像人类。
问题是:有什么方法可以让我的刮刀看起来像普通用户?
- 首先,在短时间内拨打少量电话。
- 也许使用无头浏览器?
- 使用vpn?或代理?或两者兼而有之?
醇>
还有什么其他指示?
注意:在我的情况下,抓取是实现我想要的唯一方法,因为API不起作用。所以毫无疑问我应该使用API还是抓取。我只能使用刮擦。
答案 0 :(得分:1)
你基本上正朝着正确的方向前进。
然而,如果if call it 5 times, it'll return the same set of the products as if it were 1 call.
API应该能够让用户访问所有可能的数据(尽管有频率限制),我怀疑你并不真正掌握API(或者它是一个奇怪的API)。
您询问的项目:
我认为this post可能对您有帮助。