我正在使用以下命令将Spark的数据帧写入到AWS存储中:
df.write.mode(Overwrite).parquet(filepath)
由于某种原因,我看到它失败了(它一直在尝试)并且我不确定为什么。 查看打印输出,我看到以下可疑行:
InternalParquetRecordWriter-刷新mem列存储到文件。分配的内存:0
我正在使用2.9.1版本的hadoop和2.1.1版的spark版本。
模式:
root
|-- userID: long (nullable = true)
|-- x1c9da6bb3d7d71: string (nullable = true)