我正在尝试创建一个工作流,其中AWS Glue ETL作业将从外部REST API而不是S3或任何其他AWS内部源中提取JSON数据。 那有可能吗?有人吗 请帮忙!
答案 0 :(得分:2)
是的,我确实从REST API(例如Twitter,FullStory,Elasticsearch等)中提取数据。通常,我确实使用Python Shell作业进行提取,因为它们的速度更快(冷启动相对较小)。完成后,它会触发一个Spark类型的作业,该作业仅读取我需要的json项目。 我使用请求pyhton库。
为了将数据保存到S3中,您可以执行以下操作
import boto3
import json
# Initializes S3 client
s3 = boto3.resource('s3')
tweets = []
//Code that extracts tweets from API
tweets_json = json.dumps(tweets)
obj = s3.Object("my-tweets", "tweets.json")
obj.put(Body=data)
答案 1 :(得分:1)