AWS Glue - 在插入之前截断目标postgres表

时间:2017-11-02 17:16:43

标签: python postgresql pyspark aws-glue

我试图在插入之前截断postgres目标表,并且通常尝试使用已在GLUE中创建的连接来触发外部函数。

有没有人能够这样做?

3 个答案:

答案 0 :(得分:11)

我已经尝试过DROP/ TRUNCATE场景,但是无法使用已经在Glue中创建的连接来实现,而只能使用纯Python PostgreSQL驱动程序pg8000来实现。

  1. 下载pg8000 from pypi的tar文件
  2. 在根文件夹中创建一个空的__init__.py
  3. 压缩内容并上传到S3
  4. 引用作业Python lib path中的zip文件
  5. 将数据库连接详细信息设置为作业参数(确保在所有键名前加上--)。勾选“服务器端加密”框。

然后,您可以简单地创建连接并执行SQL。

import sys
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.dynamicframe import DynamicFrame
from awsglue.job import Job

import pg8000

args = getResolvedOptions(sys.argv, [
    'JOB_NAME',
    'PW',
    'HOST',
    'USER',
    'DB'
])
# ...
# Create Spark & Glue context

job = Job(glueContext)
job.init(args['JOB_NAME'], args)

# ...
config_port = 5432
conn = pg8000.connect(
    database=args['DB'], 
    user=args['USER'], 
    password=args['PW'],
    host=args['HOST'],
    port=config_port
)
query = "TRUNCATE TABLE {0};".format(".".join([schema, table]))
cur = conn.cursor()
cur.execute(query)
conn.commit()
cur.close()
conn.close()

答案 1 :(得分:0)

在@thenaturalist的响应的步骤(4)之后,

sc.addPyFile("/home/glue/downloads/python/pg8000.zip")

import pg8000

在开发端点(齐柏林飞艇笔记本)上为我工作

更多信息:https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-libraries.html

答案 2 :(得分:0)

要澄清@thenaturalist的zip指令,因为我仍然为此感到困惑


pg8000下载pypi.org的tar.gz并解压缩。
压缩内容,使您具有以下结构

pg8000-1.15.3.zip
|
| -- pg8000 <dir>
    | -- __init__.py
    | -- _version.py <optional>
    | -- core.py

上传到s3,然后您应该只需做一个简单的import pg8000

注意:目前还需要scramp,因此请按照与上述相同的步骤包括scramp模块。但是您不需要导入它。