我正在尝试在进入循环之前验证DataFrame的数据类型,其中我正在尝试进行SQL计算,但是数据类型验证没有经历并且它没有进入循环。该操作只需要在数字列上执行。
如何解决这个问题?这是处理数据类型验证的正确方法吗?
//get datatype of dataframe fields
val datatypes = parquetRDD_subset.schema.fields
//check if datatype of column is String and enter the loop for calculations.
for (val_datatype <- datatypes if val_datatype.dataType =="StringType")
{
val dfs = x.map(field => spark.sql(s"select * from table"))
val withSum = dfs.reduce((x, y) => x.union(y)).distinct()
}
答案 0 :(得分:0)
您正在将dataType与永远不会为真的字符串进行比较(对我而言,编译器抱怨它们是不相关的)。 dataType是一个对象,它是org.apache.spark.sql.types.DataType的子类型。
尝试用
替换你的for (val_datatype <- datatypes if val_datatype.dataType.isInstanceOf[StringType])
在任何情况下,你的for循环除了声明val之外什么也不做,它不会对它们做任何事情。