如何仅在Spark中读取新文件

时间:2019-04-04 15:35:45

标签: scala apache-spark

我正在使用spark和scala读取csv文件,这些文件来自另一个spark流工作。
我只需要阅读新文件?

val df= spark  
.read // 
.schema(test_raw)
.option("header", "true")    
.option("sep", ",")   
.csv(path).toDF().cache() 
event3.registerTempTable("test")

1 个答案:

答案 0 :(得分:0)

我通过在这样的数据帧上添加检查点解决了该问题

val df= spark  
.read // 
.schema(test_raw)
.option("header", "true")    
.option("sep", ",")   
.csv(path).toDF().checkpoint().cache()