Question

我有一个excel文件，顶部有损坏的行（第3行）需要跳过，我使用spark-excel库来读取excel文件，在他们的github上没有这样的功能，有没有办法实现这个目标？

这是我的代码：

Dataset<Row> ds = session.read().format("com.crealytics.spark.excel")
                                .option("location", filePath)
                                .option("sheetName", "Feuil1")
                                .option("useHeader", "true")
                                .option("delimiter", "|")
                                .option("treatEmptyValuesAsNulls", "true")
                                .option("inferSchema", "true")
                                .option("addColorColumns", "false")
                                .load(filePath);

更新

我也很感激，如果有人可以推荐另一种依赖，那就是同样的事情。

Answer 1

HadoopOffice库（https://github.com/ZuInnoTe/hadoopoffice/wiki）也在其Spark数据源（以及Hive，Flink，MR）中支持这一点：https://github.com/ZuInnoTe/spark-hadoopoffice-ds

Answer 2

我查看了源代码，并且没有相同的选项

https://github.com/crealytics/spark-excel/blob/master/src/main/scala/com/crealytics/spark/excel/DefaultSource.scala

您应修复excel文件并删除前3行。否则，您需要创建代码的修补版本以允许您相同。这将是更多的努力，然后有一个正确的excel表

Answer 3

此问题已通过spark excel 0.9.16解决，问题链接位于github

Spark：使用spark-excel跳过顶行

3 个答案: