亚马逊lambda适合网刮吗?

时间:2015-03-03 06:32:41

标签: amazon-web-services web-scraping cloud aws-lambda

如果我创建一个获取网页的功能。它是否会在每次执行的不同IP上执行它,以便我的抓取请求不被阻止?

2 个答案:

答案 0 :(得分:0)

将文件放入S3或将数据添加到Kinesis或DynamoDB时会触发Lambda。这通常是Web刮刀需要的倒退,尽管S3之类的东西当然可以作为队列/工作跑步者。

刮刮不同的IP?当然lambda部署在许多机器上,但实际上并没有帮助你,因为你无法控制机器或它们的IP。

答案 1 :(得分:0)

我会使用此AWS管道: enter image description here

在左侧的源处,您将拥有一个带有JAUNT的EC2实例,然后将URL或HTML页面提供给Kinesis Stream。 Lambda将进行HTML解析,并通过Firehose将所有内容整合到S3或Redshift中。 JAUNT可以通过带有旋转IP的标准WebProxy服务运行。