我有一个excel文件,顶部有损坏的行(第3行)需要跳过,我使用spark-excel库来读取excel文件,在他们的github上没有这样的功能,有没有办法实现这个目标?
这是我的代码:
Dataset<Row> ds = session.read().format("com.crealytics.spark.excel")
.option("location", filePath)
.option("sheetName", "Feuil1")
.option("useHeader", "true")
.option("delimiter", "|")
.option("treatEmptyValuesAsNulls", "true")
.option("inferSchema", "true")
.option("addColorColumns", "false")
.load(filePath);
更新
我也很感激,如果有人可以推荐另一种依赖,那就是同样的事情。
答案 0 :(得分:2)
HadoopOffice库(https://github.com/ZuInnoTe/hadoopoffice/wiki)也在其Spark数据源(以及Hive,Flink,MR)中支持这一点:https://github.com/ZuInnoTe/spark-hadoopoffice-ds
答案 1 :(得分:1)
我查看了源代码,并且没有相同的选项
您应修复excel文件并删除前3行。否则,您需要创建代码的修补版本以允许您相同。这将是更多的努力,然后有一个正确的excel表
答案 2 :(得分:0)
此问题已通过spark excel 0.9.16
解决,问题链接位于github