我有一个从我遇到的特定例外中得出的一般性问题。
我正在使用spark 1.6使用dataproc查询数据。我需要从2个日志中获取1天的数据(~10000个文件),然后进行一些转换。
但是,我的数据可能(或可能没有)有一些不良数据 在一整天的查询中没有成功之后,我尝试了00-09小时并且没有错误。尝试了10-19小时并获得了例外。小时尝试,发现坏数据是以小时为单位:10。小时11和12很好
基本上我的代码是:
(controlDict["amountNum" + i.ToString()] as NumericUpDown).Maximum = new decimal(new int[] {
-1,
-1,
-1,
0});
{over-simplified}
我得到的错误是:
val imps = sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("gs://logs.xxxx.com/2016/03/14/xxxxx/imps/2016-03-14-10*").select("C0","C18","C7","C9","C33","C29","C63").registerTempTable("imps")
val conv = sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("gs://logs.xxxx.com/2016/03/14/xxxxx/conv/2016-03-14-10*").select("C0","C18","C7","C9","C33","C29","C65").registerTempTable("conversions")
val ff = sqlContext.sql("select * from (select * from imps) A inner join (select * from conversions) B on A.C0=B.C0 and A.C7=B.C7 and A.C18=B.C18 ").coalesce(16).write.format("com.databricks.spark.csv").save("gs://xxxx-spark-results/newSparkResults/Plara2.6Mar14_10_1/")
所以我的问题是 - 如何使用spark-csv实现异常处理? 我可以将数据帧转换为RDD并在那里进行处理,但似乎必须有更好的方法.....
是谁解决了类似的问题?答案 0 :(得分:0)
这是因为自动推断架构对输入文件中的无效数据是不安全的。
使用不同的输入文件时,这可能会导致数据帧架构不同。
假设我们有一个带浮动的csv文件,被字符串污染:
0.018
0.095
0.000
'hoi'
0.000
0.093
0.012
当我们使用 inferSchema 将其读入数据框时,如下所示:
>>> df = spark.read.format('csv').option('inferSchema', True).load('./test_csv.dat')
>>> df.show()
+-----+
| _c0|
+-----+
|0.018|
|0.095|
|0.000|
|'hoi'|
|0.000|
|0.093|
|0.012|
+-----+
然后没有正确推断出类型:
>>> df.schema
StructType(List(StructField(_c0,StringType,true)))
您可以通过手动转换列来解决此问题,如下所示:
>>> df = df.withColumn('val_float', df_tmp._c0.cast(FloatType())).select('val_float')
>>> df.show()
+---------+
|val_float|
+---------+
| 0.018|
| 0.095|
| 0.0|
| null|
| 0.0|
| 0.093|
| 0.012|
+---------+
>>> df.schema
StructType(List(StructField(val_float,FloatType,true)))