刷新通过在附加模式下写入Parquet文件创建的Dataframe

时间:2017-12-22 09:08:28

标签: apache-spark pyspark

有没有办法可以通过附加到pyspark中的parquets来刷新正在创建的数据框?

基本上我在追加模式下写parquet,这是我每天得到的数据。 如果我想检查创建的parquet文件,请在pyspark中加载它并对数据进行计数。但是,如果将新数据附加到镶木地板上并且我再次尝试对数据帧进行计数而不重新加载数据帧,则不会获得更新的计数。基本上,每当我的镶木地板文件发生任何变化时,我都必须创建一个新的数据框。 Spark中是否有一种方法,一旦我的镶木地板更新后,更改会自动加载?

0 个答案:

没有答案