胶工作来使用pyspark合并数据框?

时间:2019-10-31 12:19:48

标签: python amazon-web-services dataframe pyspark aws-glue

我基本上是在尝试将行从一个DF更新/添加到另一个。 这是我的代码:

# S3
import boto3

# SOURCE
source_table = "someDynamoDbtable"
source_s3 = "s://mybucket/folder/"

# DESTINATION
destination_bucket = "s3://destination-bucket"

#Select which attributes to update/add
params = ['attributeD', 'attributeF', 'AttributeG']

#spark wrapper
glueContext = GlueContext(SparkContext.getOrCreate())

newData = glueContext.create_dynamic_frame.from_options(connection_type = "dynamodb", connection_options = {"tableName": source_table})
newValues = newData.select_fields(params)
newDF = newValues.toDF()

oldData = glueContext.create_dynamic_frame.from_options(connection_type="s3", connection_options={"paths": [source_s3]}, format="orc", format_options={}, transformation_ctx="dynamic_frame")
oldDataValues = oldData.drop_fields(params)
oldDF = oldDataValues.toDF()

#makes a union of the dataframes
rebuildData = oldDF.union(newDF)
#error happens here
readyData = DynamicFrame.fromDF(rebuildData, glueContext, "readyData")

#writes new data to s3 destination, into orc files, while partitioning
glueContext.write_dynamic_frame.from_options(frame = readyData, connection_type = "s3", connection_options = {"path": destination_bucket}, format = "orc", partitionBy=['partition_year', 'partition_month', 'partition_day'])

我得到的错误是 SyntaxError:语法无效在行 readyData = ... 到目前为止,我仍然不知道出什么问题了,从空白代码开始,我的头就痛了。 如果您已经看到类似的东西,请给我扔骨头。

2 个答案:

答案 0 :(得分:0)

您正在执行数据框和动态框之间的联合操作。

这将创建一个名为 newData 的动态框架和一个名为 newDF 的数据框架:

newData = glueContext.create_dynamic_frame.from_options(connection_type = "dynamodb", connection_options = {"tableName": source_table})
newValues = newData.select_fields(params)
newDF = newValues.toDF()

这将创建一个名为 oldData 的动态框架和一个名为 oldDF 的数据框架:

oldData = glueContext.create_dynamic_frame.from_options(connection_type="s3", connection_options={"paths": [source_s3]}, format="orc", format_options={}, transformation_ctx="dynamic_frame")
oldDataValues = oldData.drop_fields(params)
oldDF = oldDataValues.toDF()

您正在对以下两个实体执行联合操作:

rebuildData = oldDF.union(newData)

应为:

rebuildData = oldDF.union(newDF)

答案 1 :(得分:0)

是的,所以我认为对于我需要做的事情,最好使用外部联接。 让我解释一下:

  • 我加载两个数据帧,其中一个删除我们要更新的字段。
  • 第二个字段仅选择那些字段,因此两个字段都不会重复行/列。
  • 我们使用外部(或完整)联接代替仅添加行的联合。这将添加我的数据框中的所有数据而没有重复项。

现在我的逻辑可能有缺陷,但到目前为止对我来说还可以。如果有人正在寻找类似的解决方案,欢迎您使用它。 我更改的代码:

rebuildData = oldDF.join(newData, 'id', 'outer')