spark_df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", "true")
.option("inferSchema", "true")
.load(storage_location + filename)
我有一个普通的csv文件,其中包含多个包含空格的列。 将其转换为pyspark数据帧时,缺失值被视为空字符串。并将其转换为字符串列而不是int列,因为age是int column.I想要NA,null,空格作为缺失值并且不转换为字符串列
答案 0 :(得分:0)
您可以简单地转换这些整数列,以便将所有空字符串转换为空值。
from pyspark.sql.types import IntegerType
spark_df =spark_df.withColumn("age", spark_df ["age"].cast(IntegerType()))
或试试这个
spark_df = sqlContext.read.format("com.databricks.spark.csv").options(header='true', inferschema='true').load(storage_location + filename)