我正在尝试使用Spark-Java以avro格式写入文件。
我的代码如下:
Dataset<Row> df = sparkSession.read().json(jsonSet);
Dataset<Row> dfSelect = df.select(cols);//Where cols is Column[]
dfSelect.write().format("com.databricks.spark.avro").mode("append").save(path);
我正在按照以下步骤运行我的jar:
spark2-submit -class MyClass --packages com.databricks:spark-avro_2.11:4.0.0 -name "Name" --jars myjar.jar
当我运行时,遇到一个错误,找不到“ com.databricks:spark-avro_2.11:4.0.0”,我尝试使用不同版本的spark-avro_2.11:4.0.0。
那么我该如何运行呢?
从cdh_version.properties文件中,我看到我的cloudera版本是version=6.0.53-cdh5.13.2
从avro工具中,我看到的版本是Version 1.7.6-cdh5.13.2 of Apache Avro
Spark版本为2.2.0cloudera2
,scala版本为2.11.8