我想检查.csv是否为null
。如果不是null
并且包含记录,则处理该文件,否则退出。如果文件为空,有没有办法检查Spark Scala代码?
答案 0 :(得分:3)
据我了解,您想检查csv文件是否存在。
如果它在本地系统上,你只需使用java库:
import java.nio.file.{Paths, Files}
Files.exists(Paths.get("yourPath/file.csv"))
如果CSV在HDFS上,则:
val conf = sc.hadoopConfiguration
val fs = org.apache.hadoop.fs.FileSystem.get(conf)
val exists = fs.exists(new org.apache.hadoop.fs.Path("/path/on/hdfs/to/your.csv"))
答案 1 :(得分:1)
将该文件读入数据框
Val df = spark.read.csv("filename")
df.rdd.isEmpty