如果我创建一个获取网页的功能。它是否会在每次执行的不同IP上执行它,以便我的抓取请求不被阻止?
答案 0 :(得分:0)
将文件放入S3或将数据添加到Kinesis或DynamoDB时会触发Lambda。这通常是Web刮刀需要的倒退,尽管S3之类的东西当然可以作为队列/工作跑步者。
刮刮不同的IP?当然lambda部署在许多机器上,但实际上并没有帮助你,因为你无法控制机器或它们的IP。
答案 1 :(得分:0)
在左侧的源处,您将拥有一个带有JAUNT的EC2实例,然后将URL或HTML页面提供给Kinesis Stream。 Lambda将进行HTML解析,并通过Firehose将所有内容整合到S3或Redshift中。 JAUNT可以通过带有旋转IP的标准WebProxy服务运行。