标签: scala apache-spark spark-dataframe
我正在尝试将Dataframe写入文件。由于数据框非常大,我想知道写操作的状态是什么进度百分比,因为它会持续执行很长时间。
myDataFrame .filter(myFilter) .write .json(ExportPath)
有没有办法知道写入文件的数据百分比? 或者至少获得单独完成的分区数量?
答案 0 :(得分:1)
要进行快速手动检查,您可以检查Spark UI中已处理的数据量。要以更自动的方式访问数据,REST API或Metrics library都会有所帮助。