如何避免spark NumberFormatException:null

时间:2016-03-17 10:05:25

标签: scala apache-spark apache-spark-sql spark-csv

我有一个从我遇到的特定例外中得出的一般性问题。

我正在使用spark 1.6使用dataproc查询数据。我需要从2个日志中获取1天的数据(~10000个文件),然后进行一些转换。

但是,我的数据可能(或可能没有)有一些不良数据 在一整天的查询中没有成功之后,我尝试了00-09小时并且没有错误。尝试了10-19小时并获得了例外。小时尝试,发现坏数据是以小时为单位:10。小时11和12很好

基本上我的代码是:

(controlDict["amountNum" + i.ToString()] as NumericUpDown).Maximum = new decimal(new int[] {
        -1,
        -1,
        -1,
        0});

{over-simplified}

我得到的错误是:

val imps = sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("gs://logs.xxxx.com/2016/03/14/xxxxx/imps/2016-03-14-10*").select("C0","C18","C7","C9","C33","C29","C63").registerTempTable("imps")

val conv = sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("gs://logs.xxxx.com/2016/03/14/xxxxx/conv/2016-03-14-10*").select("C0","C18","C7","C9","C33","C29","C65").registerTempTable("conversions")

val ff = sqlContext.sql("select * from (select * from imps) A inner join (select * from conversions) B on A.C0=B.C0 and A.C7=B.C7 and A.C18=B.C18 ").coalesce(16).write.format("com.databricks.spark.csv").save("gs://xxxx-spark-results/newSparkResults/Plara2.6Mar14_10_1/")

所以我的问题是 - 如何使用spark-csv实现异常处理? 我可以将数据帧转换为RDD并在那里进行处理,但似乎必须有更好的方法.....

是谁解决了类似的问题?

1 个答案:

答案 0 :(得分:0)

这是因为自动推断架构对输入文件中的无效数据是不安全的。

使用不同的输入文件时,这可能会导致数据帧架构不同。

假设我们有一个带浮动的csv文件,被字符串污染:

0.018
0.095
0.000
'hoi'
0.000
0.093
0.012

当我们使用 inferSchema 将其读入数据框时,如下所示:

>>> df = spark.read.format('csv').option('inferSchema', True).load('./test_csv.dat')
>>> df.show()
+-----+
|  _c0|
+-----+
|0.018|
|0.095|
|0.000|
|'hoi'|
|0.000|
|0.093|
|0.012|
+-----+

然后没有正确推断出类型:

>>> df.schema
StructType(List(StructField(_c0,StringType,true)))

您可以通过手动转换列来解决此问题,如下所示:

>>> df = df.withColumn('val_float', df_tmp._c0.cast(FloatType())).select('val_float')
>>> df.show()
+---------+
|val_float|
+---------+
|    0.018|
|    0.095|
|      0.0|
|     null|
|      0.0|
|    0.093|
|    0.012|
+---------+

>>> df.schema
StructType(List(StructField(val_float,FloatType,true)))