错误记录元数据将与表一起存储并包含在计数中

时间:2018-08-28 16:41:33

标签: scala apache-spark databricks

dfInput = spark.read
          .option("sep", props.inputSeperator)
          .option("header", hasHeader)
          .option("badRecordsPath", badRecordLoc)
          .schema(schema)
          .csv(inputLoc)

此输入数据有3条记录,2条良好记录,1条不良记录。不良记录已正确记录到badRecordsPath

如果我显示数据框,它将正确显示2条记录。但是,dfInput.count显示3条记录。

然后,如果我将该数据帧写入文件,然后将该文件读回数据帧,它将正确显示2条记录。 (因为按预期,因为在写入文件中只有2个文件)。我正在尝试获取不包括不良记录的记录数,并且我不想写入/读取文件来执行此操作。这似乎是一个错误。

0 个答案:

没有答案