使用AWS Glue时是否可以访问临时文件夹?

时间:2018-01-12 18:29:17

标签: amazon-web-services pyspark aws-glue

在AWS胶水中运行流程时,是否有临时文件夹可以临时保存文件?例如,在Lambda中,只要进程正在执行,我们就可以访问/ tmp目录。我们在AWS Glue中有类似的东西,我们可以在作业执行时存储文件吗?

2 个答案:

答案 0 :(得分:1)

你问这个吗? AWS Glue可识别和使用许多参数名称,您可以使用这些参数名称为Jobs和JobRuns设置脚本环境:

  • - TempDir - 指定可用作作业临时目录的存储桶的S3路径。

这是link,您可以参考。

希望,这有帮助。

答案 1 :(得分:0)

是的,有一个tmp目录,可用于在s3之间来回移动文件。

s3 = boto3.resource('s3')

-将文件下载到本地Spark目录tmp

s3.Bucket(bucket_name).download_file(DATA_DIR+file,'tmp/'+file)

您还可以将文件从'tmp /'上传到s3。