写入火花后数据丢失

时间:2016-12-15 07:35:25

标签: scala apache-spark

在对其执行一些计算之后,我获得了结果数据帧。数据帧是结果。当我将其写入Amazon S3时,会显示空白的特定单元格。结果数据框的前5位是:

 This is a S
 

此外,每次运行时,空白都显示在相同的单元格中。

2 个答案:

答案 0 :(得分:0)

使用此功能将数据保存到s3       DataFrame.repartition(1).write.format("com.databricks.spark.csv").option("header", "true").save("s3n://Yourpath")

答案 1 :(得分:0)

对于可能遇到此问题的任何人,我都能说出对我有用的方法。 我基于某种逻辑将1个数据帧(例如inputDF)与另一个df(delta DF)连接起来并存储在输出数据帧(outDF)中。我遇到了同样的错误,我可以在outDF.show()中看到一条记录,但是在将此dataFrame写入配置单元表或保留outDF时(使用outDF.persist(StorageLevel.MEMORY_AND_DISC)),我看不到该错误特定记录。

解决方案:-在与deltaDF联接之前,我将inputDF(inputDF.persist(StorageLevel.MEMORY_AND_DISC))保持不变。之后,outDF.show()的输出与写入outDF的配置单元表一致。

P.S:-我不确定这如何解决问题。如果有人可以解释这一点,那将是很棒的,但是以上对我有用。