AWS Glue PySpark无法统计记录

时间:2018-05-05 20:20:10

标签: amazon-web-services apache-spark pyspark aws-glue

我正在使用AWS Glue从EC2(Postgre)中提取数据进行转换,并在我尝试提取1个表时将其放在S3上。我得到一个错误,如下所示:

enter image description here

我能做些什么吗?我试图删除空字段或fillna,但这些都不起作用。

更新:我甚至选择了一个字符串类型的列但仍然遇到了同样的错误: enter image description here

1 个答案:

答案 0 :(得分:0)

您可以尝试,df.isnull().any()df.isnull().sum()。这应该可以帮助我们查看包含无效NaN数据的列。另请尝试使用df.count(dropna = False) / df.na.drop()获取记录数。请参考here,其中详细解释了处理空列数据。

希望这有帮助。