dfInput = spark.read
.option("sep", props.inputSeperator)
.option("header", hasHeader)
.option("badRecordsPath", badRecordLoc)
.schema(schema)
.csv(inputLoc)
此输入数据有3条记录,2条良好记录,1条不良记录。不良记录已正确记录到badRecordsPath
如果我显示数据框,它将正确显示2条记录。但是,dfInput.count
显示3条记录。
然后,如果我将该数据帧写入文件,然后将该文件读回数据帧,它将正确显示2条记录。 (因为按预期,因为在写入文件中只有2个文件)。我正在尝试获取不包括不良记录的记录数,并且我不想写入/读取文件来执行此操作。这似乎是一个错误。