我正在将胶水动态框架转换为spark数据框架以进行其他操作。当运行toDF命令时,动态框架具有所有数据。 etl运行成功,但是当我使用fromDF进行转换时,我发现我的两个列都丢失了所有数据。这两个列是我通过连接几个步骤之前添加的。任何想法可能是什么原因造成的?
这是我丢失数据的部分-
prep_for_df = applymapping4.coalesce(1)
df = prep_for_df.toDF()
mean_age = df.select(mean(df['age'])).collect()
null_age = mean_age[0][0]
df2 = df.na.fill(null_age,['age'])
dyframe = DynamicFrame.fromDF(df2, glueContext, "dyframe")
更新-正是我为这两列设置的数据类型导致了问题。更改它们后,一切都会按预期进行。