Question

我正在使用spark-excel包来处理使用spark 2.2的ms excel文件。某些文件无法作为火花数据框加载，但异常如下。如果有人遇到此问题，请帮助解决此类数据类型问题吗？

分析后我发现如果列名不是字符串，它最终会给出以下异常，如果我手动将列名改为整数字符串，它可以正常工作。

代码：

  val excelDF = spark.read.
    format("com.crealytics.spark.excel").
    option("useHeader", "true").
    option("treatEmptyValuesAsNulls", "true").
    option("inferSchema", "true").
    option("addColorColumns", "False").
    option("sheetName", sheetName).
    load(filePath)

例外：

java.lang.IllegalStateException: Cannot get a STRING value from a NUMERIC cell
    at org.apache.poi.xssf.usermodel.XSSFCell.typeMismatch(XSSFCell.java:1077)
    at org.apache.poi.xssf.usermodel.XSSFCell.getRichStringCellValue(XSSFCell.java:395)
    at org.apache.poi.xssf.usermodel.XSSFCell.getStringCellValue(XSSFCell.java:347)
    at com.crealytics.spark.excel.ExcelRelation$$anonfun$inferSchema$1$$anonfun$10.apply(ExcelRelation.scala:206)
    at com.crealytics.spark.excel.ExcelRelation$$anonfun$inferSchema$1$$anonfun$10.apply(ExcelRelation.scala:205)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.Iterator$class.foreach(Iterator.scala:893)
    at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)
    at scala.collection.IterableLike$class.foreach(IterableLike.scala:72)
    at scala.collection.AbstractIterable.foreach(Iterable.scala:54)
    at scala.collection.TraversableLike$class.map(TraversableLike.scala:234)
    at scala.collection.AbstractTraversable.map(Traversable.scala:104)
    at com.crealytics.spark.excel.ExcelRelation$$anonfun$inferSchema$1.apply(ExcelRelation.scala:205)
    at com.crealytics.spark.excel.ExcelRelation$$anonfun$inferSchema$1.apply(ExcelRelation.scala:204)
    at scala.Option.getOrElse(Option.scala:121)
    at com.crealytics.spark.excel.ExcelRelation.inferSchema(ExcelRelation.scala:204)
    at com.crealytics.spark.excel.ExcelRelation.<init>(ExcelRelation.scala:91)
    at com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:37)
    at com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:14)
    at com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:8)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:306)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:156)

Answer 1

com.crealytics:spark-excel_2.11:0.12.5库的新版本也适用于非字符串列/标题名称。

Answer 2

对此我可能会有一个更优雅的答案，我会将其作为评论发布，但没有所需的声誉。

我总是尽力确保我的列标题是字符串。

同样作为一项规则，我在列标题中没有数字字符，我们有一个简单的脚本，用字母字符替换数字（即逐个字符）。

spark-excel dataype问题

2 个答案: