检查csv文件在spark scala中是否为null

时间:2018-04-27 08:40:14

标签: scala apache-spark

我想检查.csv是否为null。如果不是null并且包含记录,则处理该文件,否则退出。如果文件为空,有没有办法检查Spark Scala代码?

2 个答案:

答案 0 :(得分:3)

据我了解,您想检查csv文件是否存在。

如果它在本地系统上,你只需使用java库:

import java.nio.file.{Paths, Files}
Files.exists(Paths.get("yourPath/file.csv"))

如果CSV在HDFS上,则:

val conf = sc.hadoopConfiguration
val fs = org.apache.hadoop.fs.FileSystem.get(conf)
val exists = fs.exists(new org.apache.hadoop.fs.Path("/path/on/hdfs/to/your.csv"))

答案 1 :(得分:1)

将该文件读入数据框

Val df = spark.read.csv("filename") df.rdd.isEmpty