如何在胶水作业中使用Awswrangler?

时间:2020-08-29 05:02:29

标签: python amazon-web-services aws-glue

由于某些原因,我想在Python 3 Glue Job中使用python软件包awswrangler。我考虑过两种主要的安装awswrangler的方法:

  • 为粘贴作业指定其他库。通过考虑.whl文件,然后通过--extra-py-files

    将其传递到胶水作业
  • 使用subprocessos 安装在python脚本中。例如,以下带有os的代码示例

import os
os.system('python -m pip install --user awswrangler==0.0.b0')

在最后一种情况下,请注意,我已经拒绝使用awswrangler的第一个预发行版本。版本的完整列表可在here中找到。但是,即使有了第一个prelease,我也无法在Glue脚本上使用awswrangler。有没有办法做到这一点?

2 个答案:

答案 0 :(得分:2)

下面我可以安装和使用 awswrangler。在 Glue Job 参数中添加键/值。

键:--additional-python-modules

值:pyarrow==2,awswrangler==2.4.0

答案 1 :(得分:0)

事实证明,官方的Awswrangler Documentation为您提供了一个.whl文件,其中包含所需的软件包版本,以在胶水作业的Python library path field上指定。根据文档,要执行的步骤是:

  1. here下载与您要安装的.whl版本有关的awswrangler文件。

  2. .whl文件上传到s3存储桶,请注意,您分配给胶粘作业的角色应该有权读取此存储桶。

  3. Python库路径字段中,指定wheel文件的位置。例如,对于当前的1.9.3版本,它是s3://your-bucket/glue_wheels/awswrangler-1.9.3-py3-none-any.whl