Spark:使用spark-excel跳过顶行

时间:2018-05-05 16:02:13

标签: excel apache-spark spark-dataframe

我有一个excel文件,顶部有损坏的行(第3行)需要跳过,我使用spark-excel库来读取excel文件,在他们的github上没有这样的功能,有没有办法实现这个目标?

这是我的代码:

Dataset<Row> ds = session.read().format("com.crealytics.spark.excel")
                                .option("location", filePath)
                                .option("sheetName", "Feuil1")
                                .option("useHeader", "true")
                                .option("delimiter", "|")
                                .option("treatEmptyValuesAsNulls", "true")
                                .option("inferSchema", "true")
                                .option("addColorColumns", "false")
                                .load(filePath);

更新

我也很感激,如果有人可以推荐另一种依赖,那就是同样的事情。

3 个答案:

答案 0 :(得分:2)

HadoopOffice库(https://github.com/ZuInnoTe/hadoopoffice/wiki)也在其Spark数据源(以及Hive,Flink,MR)中支持这一点:https://github.com/ZuInnoTe/spark-hadoopoffice-ds

答案 1 :(得分:1)

我查看了源代码,并且没有相同的选项

https://github.com/crealytics/spark-excel/blob/master/src/main/scala/com/crealytics/spark/excel/DefaultSource.scala

您应修复excel文件并删除前3行。否则,您需要创建代码的修补版本以允许您相同。这将是更多的努力,然后有一个正确的excel表

答案 2 :(得分:0)

此问题已通过spark excel 0.9.16解决,问题链接位于github