for循环中Spark列的数据类型验证 - Spark DataFrame

时间:2017-07-21 02:58:30

标签: scala apache-spark apache-spark-sql spark-streaming spark-dataframe

我正在尝试在进入循环之前验证DataFrame的数据类型,其中我正在尝试进行SQL计算,但是数据类型验证没有经历并且它没有进入循环。该操作只需要在数字列上执行。

如何解决这个问题?这是处理数据类型验证的正确方法吗?

//get datatype of dataframe fields
val datatypes =  parquetRDD_subset.schema.fields

//check if datatype of column is String and enter the loop for calculations.

for (val_datatype <- datatypes if val_datatype.dataType =="StringType") 
{
    val dfs = x.map(field => spark.sql(s"select * from table"))
    val withSum = dfs.reduce((x, y) => x.union(y)).distinct()
}

1 个答案:

答案 0 :(得分:0)

您正在将dataType与永远不会为真的字符串进行比较(对我而言,编译器抱怨它们是不相关的)。 dataType是一个对象,它是org.apache.spark.sql.types.DataType的子类型。

尝试用

替换你的
for (val_datatype <- datatypes if val_datatype.dataType.isInstanceOf[StringType]) 

在任何情况下,你的for循环除了声明val之外什么也不做,它不会对它们做任何事情。