从动态框架转到Spark数据框架然后返回AWS Glue时丢失列数据

时间:2020-04-18 20:29:52

标签: python dataframe pyspark aws-glue

我正在将胶水动态框架转换为spark数据框架以进行其他操作。当运行toDF命令时,动态框架具有所有数据。 etl运行成功,但是当我使用fromDF进行转换时,我发现我的两个列都丢失了所有数据。这两个列是我通过连接几个步骤之前添加的。任何想法可能是什么原因造成的?

这是我丢失数据的部分-

prep_for_df = applymapping4.coalesce(1)

df = prep_for_df.toDF()

mean_age = df.select(mean(df['age'])).collect()

null_age = mean_age[0][0]

df2 = df.na.fill(null_age,['age'])

dyframe = DynamicFrame.fromDF(df2, glueContext, "dyframe")

更新-正是我为这两列设置的数据类型导致了问题。更改它们后,一切都会按预期进行。

0 个答案:

没有答案