如何在使用databrick spark-xml库读取xml文件时禁用科学记数法。 这是一个场景,我的XML文件包含带有这个空格的数值
<V1>42451267 </V1>
以及我得到的是4.2451267E7而不是42451267
我该如何解决?
我的代码和xml文件位于
之下val xmlLocation = "sampleFile/xml/sample.xml"
val rootTag = "RTS"
val rowTag = "COLUMNTYPE"
val sqlContext = MySparkDriver.getSqlContext().
read.format("com.databricks.spark.xml")
if (rootTag != null && rootTag.size == 0)
sqlContext.option("rootTag", rootTag)
sqlContext.option("rowTag", rowTag)
val xmlDF = sqlContext.load(xmlLocation)
xmlDF.show(false)
输出
[WrappedArray(4232323.0, 4.2451267E7),21-11-2000 01:04:34,NTS,212212112,100.0,100.0]
预期
[WrappedArray(4232323, 42451267),21-11-2000 01:04:34,NTS,212212112,100.0000,100.0000]
XML文件
<RTS>
<COLUMNTYPE>
<D1>
<V1>4232323</V1>
<V1>42451267 </V1>
<V2>21-11-2000 01:04:34</V2>
<V3>NTS</V3>
<V4>212212112</V4>
<V7>100.0000</V7>
<V8>100.0000 </V8>
</D1>
</COLUMNTYPE>
</RTS>
非常感谢任何帮助。
答案 0 :(得分:3)
我不确定这一切的重点是什么,但我基本上看到两个选择:
如果所有字段都可以解释为大整数,或者您的目标是将这些字段作为整数使用类型转换,那么应该提供更多或更少的内容而不会显着损失功能:
case class D1(
v1: Seq[Double], v2: String, v3: String, v4: Long, v7: Double, v8: Double
)
case class ColumnType(d1: D1)
val df = Seq(ColumnType(D1(
Seq(4232323, 42451267),
"21-11-2000 01:04:34",
"NTS",
212212112,
100.0000,
100.0000
))).toDF()
df.select(struct(
$"d1.v1".cast("array<bigint>").alias("v1"),
$"d1.v2", $"d1.v3", $"d1.v4", $"d1.v7", $"d1.v8"
).alias("d1"))
如果出于演示原因需要特定的数字格式,可以将数据转换为格式化字符串数组:
val toFormatted = udf((xs: Seq[Double]) => xs.map(x => f"$x%4.0f"))
df.select(struct(
toFormatted($"d1.v1").alias("v1"),
$"d1.v2", $"d1.v3", $"d1.v4", $"d1.v7", $"d1.v8"
).alias("d1"))
答案 1 :(得分:2)
is TypeCast类的long函数无法预测数据类型,因为你的值&#34; 42451267&#34;包含空格
但是,如果要将长值视为自定义架构,其中&#34; V1&#34;列数据类型是StringType
val xmlLocation = "sampleFile/xml/sample.xml"
val rootTag = "RTS"
val rowTag = "COLUMNTYPE"
val sqlContext = MySparkDriver.getSqlContext().
read.format("com.databricks.spark.xml")
if (rootTag != null && rootTag.size == 0)
sqlContext.option("rootTag", rootTag)
sqlContext.option("rowTag", rowTag)
自定义架构
val customSchema = StructType(Array(
StructField("D1", StructType(
Seq(StructField("V1", ArrayType(StringType, true), true),
StructField("V2", StringType, true),
StructField("V3", StringType, true),
StructField("V4", LongType, true),
StructField("V7", DoubleType, true),
StructField("V8", DoubleType, true))), true)))
sqlContext.schema(customSchema)
为修剪值创建udf
import org.apache.spark.sql.functions._
val toTrim = udf((xs: Seq[String]) => xs.map(_.trim()))
应用udf并输入强制转换
val xmlDF = sqlContext.load(xmlLocation).select(struct(
toTrim(col("D1.V1")).cast("array<long>").alias("V1"),
col("D1.V2"), col("D1.V3"), col("D1.V4"), col("D1.V7"), col("D1.V8"))
.alias("D1"))
xmlDF.printSchema
xmlDF.show(false)