Question

spark_df = sqlContext.read
                     .format("com.databricks.spark.csv")
                     .option("header", "true")
                     .option("inferSchema", "true")
                     .load(storage_location + filename)

我有一个普通的csv文件，其中包含多个包含空格的列。将其转换为pyspark数据帧时，缺失值被视为空字符串。并将其转换为字符串列而不是int列，因为age是int column.I想要NA，null，空格作为缺失值并且不转换为字符串列

Answer 1

您可以简单地转换这些整数列，以便将所有空字符串转换为空值。

from pyspark.sql.types import IntegerType
spark_df =spark_df.withColumn("age", spark_df ["age"].cast(IntegerType()))

或试试这个

spark_df = sqlContext.read.format("com.databricks.spark.csv").options(header='true', inferschema='true').load(storage_location + filename)

pyspark值缺失

1 个答案: