如何阅读大型avro文件

时间:2016-12-29 00:11:42

标签: scala hadoop apache-spark avro spark-avro

我正在尝试使用spark-shell读取大型avro文件(2GB),但我收到了stackoverflow错误。

val newDataDF = spark.read.format("com.databricks.spark.avro").load("abc.avro")
java.lang.StackOverflowError
  at com.databricks.spark.avro.SchemaConverters$.toSqlType(SchemaConverters.scala:71)
  at com.databricks.spark.avro.SchemaConverters$.toSqlType(SchemaConverters.scala:81)

我试图增加驱动程序内存和执行程序内存,但我仍然 得到同样的错误。

./bin/spark-shell --packages com.databricks:spark-avro_2.11:3.1.0 --driver-memory 8G --executor-memory 8G

我该如何阅读此文件?这是分区这个文件的方法吗?

0 个答案:

没有答案