使用Spark-Java写入Avro表

时间:2018-07-16 14:20:56

标签: apache-spark spark-avro

我正在尝试使用Spark-Java以avro格式写入文件。

我的代码如下:

Dataset<Row> df = sparkSession.read().json(jsonSet);
Dataset<Row> dfSelect = df.select(cols);//Where cols is Column[]
dfSelect.write().format("com.databricks.spark.avro").mode("append").save(path);

我正在按照以下步骤运行我的jar:

spark2-submit -class MyClass --packages com.databricks:spark-avro_2.11:4.0.0 -name "Name" --jars myjar.jar

当我运行时,遇到一个错误,找不到“ com.databricks:spark-avro_2.11:4.0.0”,我尝试使用不同版本的spark-avro_2.11:4.0.0。

那么我该如何运行呢? 从cdh_version.properties文件中,我看到我的cloudera版本是version=6.0.53-cdh5.13.2

从avro工具中,我看到的版本是Version 1.7.6-cdh5.13.2 of Apache Avro

Spark版本为2.2.0cloudera2,scala版本为2.11.8

0 个答案:

没有答案