AWS EMR存在一些问题。我们正在尝试创建一个非常简单的数据管道。 我们的过程通常是进行一些API调用,解析这些API调用的响应(json模式),并确定是否需要其他调用。数据将保存到S3存储桶,我们可以运行PySpark作业来操纵从多个API提取的各种数据,以创建一个最终的联接/清除视图。
我们面临的AWS EMR挑战: 1)是否可以安排笔记本定期运行或每天运行一次?我们设想将启动EMR集群,并介绍如何运行Python作业和PySpark作业。完成后,终止集群 2)我们面临无法安装pip的问题,如果尝试使用请求库(在python笔记本而不是pyspark笔记本上)执行http get请求,则不会返回任何内容。好像笔记本没有互联网连接,或者尝试发出请求时遇到问题。
import requests
r = request.get('http://www.google.com')