格式化 AWS 胶水火花数据帧输出

时间:2021-05-03 15:15:32

标签: python amazon-web-services apache-spark pyspark aws-glue

我正在尝试在日志上打印我的 DataFrame:

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "dev", table_name = "sellout_data_cw01_15_csv", transformation_ctx = "datasource0")
....
dataframe = datasource0.toDF()
dataframe.show(10)

但是输出全乱了。我怎样才能像普通python中的熊猫表一样正确地格式化它?

1 个答案:

答案 0 :(得分:1)

这是一个胶水问题。您需要进入您的作业运行的 CloudWatch 日志,以查看它的格式。

enter image description here