使用带有4名工人和1名主人的EMR
我能够处理我的数据并在pyspark中创建正确的数据框。但是,当我将df写(拼写)到S3时,文件确实确实放在S3中的正确位置,但是7列中的3列突然丢失了数据。
任何人都可以解释我需要解决的问题吗?这是相关的代码和结果屏幕截图。为了保护隐私,我将屏幕截图中的某些列重命名了。
我的代码:
# For multi tables
df_multi.show(5)
df_multi.printSchema()
print("\n At line 578, after show(), writing to EDL\n")
df_multi.write.mode("append").parquet(multi_s3_bucket_dir)
print("\n SCRIPT COMPLETED \n")
答案 0 :(得分:0)
Mea culpa。问题解决了。我在df中的列名与Athena DDL中的列名不完全匹配。由于镶木地板是“读取模式”,因此系统创建了一个与df相匹配的架构,但是它只能导入那些名称与DID匹配的列,其余的保留为空。
经验教训。