pyspark值缺失

时间:2018-01-31 05:56:53

标签: python pyspark pyspark-sql

spark_df = sqlContext.read
                     .format("com.databricks.spark.csv")
                     .option("header", "true")
                     .option("inferSchema", "true")
                     .load(storage_location + filename)

我有一个普通的csv文件,其中包含多个包含空格的列。 将其转换为pyspark数据帧时,缺失值被视为空字符串。并将其转换为字符串列而不是int列,因为age是int column.I想要NA,null,空格作为缺失值并且不转换为字符串列

1 个答案:

答案 0 :(得分:0)

您可以简单地转换这些整数列,以便将所有空字符串转换为空值。

from pyspark.sql.types import IntegerType
spark_df =spark_df.withColumn("age", spark_df ["age"].cast(IntegerType()))

或试试这个

spark_df = sqlContext.read.format("com.databricks.spark.csv").options(header='true', inferschema='true').load(storage_location + filename)