Spark in docker parquet error找不到预定义的模式

时间:2016-03-29 12:01:03

标签: apache-spark docker parquet sparkr

我有一个基于https://github.com/gettyimages/docker-spark的本地火花测试群集,包括R.特别是,使用此图像:https://hub.docker.com/r/possibly/spark/

尝试使用 sparkR 读取镶木地板文件时会发生此异常。阅读镶木地板文件在本地火花安装上没有任何问题。

     myData.parquet <- read.parquet(sqlContext, "/mappedFolder/myFile.parquet")
16/03/29 20:36:02 ERROR RBackendHandler: parquet on 4 failed
Fehler in invokeJava(isStatic = FALSE, objId$id, methodName, ...) : 
  java.lang.AssertionError: assertion failed: No predefined schema found, and no Parquet data files or summary files found under file:/mappedFolder/myFile.parquet.
    at scala.Predef$.assert(Predef.scala:179)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetRelation$MetadataCache.org$apache$spark$sql$execution$datasources$parquet$ParquetRelation$MetadataCache$$readSchema(ParquetRelation.scala:512)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetRelation$MetadataCache$$anonfun$12.apply(ParquetRelation.scala:421)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetRelation$MetadataCache$$anonfun$12.apply(ParquetRelation.scala:421)
    at scala.Option.orElse(Option.scala:257)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetRelation$MetadataCache.refresh(ParquetRelation.scala:421)
    at org.apache.spark.sql.execution.datasources.parquet.ParquetRelation.org$apache$spark$sql$execution$datasources$parquet$ParquetRelation$$metadataCac

奇怪的是,同样的错误是相同的 - 即使对于不存在的文件也是如此。

但是在终端我可以看到文件在那里:

    /mappedFolder/myFile.parquet
    root@worker:/mappedFolder/myFile.parquet# ls
    _common_metadata                                              part-r-00097-e5221f6f-e125-4f52-9f6d-4f38485787b3.gz.parquet  part-r-00196-e5221f6f-e125-4f52-9f6d-4f38485787b3.gz.parquet
....

1 个答案:

答案 0 :(得分:0)

我最初的镶木地板文件似乎在我对dockerized spark的测试运行中已经损坏。

要解决:从原始来源重新创建镶木地板文件