如何为spark-csv一起提供parserLib和inferSchema选项

时间:2016-10-20 06:36:04

标签: scala spark-dataframe spark-csv

sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema","true").option("parserLib", "UNIVOCITY").option("escape","\"").load("file.csv")

当我使用上面的代码创建数据框时,我收到以下错误:

  

ERROR执行程序:阶段1.0(TID 1)中任务0.0中的异常   java.lang.AbstractMethodError:   com.databricks.spark.csv.readers.BulkCsvReader.aggregate(Ljava /郎/对象; Lscala /功能2; Lscala /功能2)Ljava /郎/对象;

如果我避免使用parseLib选项它运行正常。 我想将spark-csv解析器设置为Univocity,同时应使用inferSchema通过spark csv识别数据类型。

注意:我使用的是spark-csv 1.3(它不适用于任何版本) Spark:1.6.2 斯卡拉:2.10.5

感谢。

1 个答案:

答案 0 :(得分:1)

我无法解决问题。 但是我找到了在外部定义模式并使用' univocity'读取csv的解决方法。解析器。