我是PySpark的新手,面临着一个奇怪的问题。我正在尝试在加载CSV数据集时将某些列设置为不可为空。我可以使用非常小的数据集(test.csv
)重现我的案例:
col1,col2,col3
11,12,13
21,22,23
31,32,33
41,42,43
51,,53
第5行第2列有一个空值,我不希望在我的DF中获得该行。我将所有字段设置为不可为空(nullable=false
),但我得到的模式包含nullable=true
的所有三列。即使我将所有三列都设置为不可为空,也会发生这种情况!我正在运行最新版本的Spark 2.0.1。
以下是代码:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
spark = SparkSession \
.builder \
.appName("Python Spark SQL basic example") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()
struct = StructType([ StructField("col1", StringType(), False), \
StructField("col2", StringType(), False), \
StructField("col3", StringType(), False) \
])
df = spark.read.load("test.csv", schema=struct, format="csv", header="true")
df.printSchema()
返回:
root
|-- col1: string (nullable = true)
|-- col2: string (nullable = true)
|-- col3: string (nullable = true)
和df.show()
返回:
+----+----+----+
|col1|col2|col3|
+----+----+----+
| 11| 12| 13|
| 21| 22| 23|
| 31| 32| 33|
| 41| 42| 43|
| 51|null| 53|
+----+----+----+
虽然我期待这个:
root
|-- col1: string (nullable = false)
|-- col2: string (nullable = false)
|-- col3: string (nullable = false)
+----+----+----+
|col1|col2|col3|
+----+----+----+
| 11| 12| 13|
| 21| 22| 23|
| 31| 32| 33|
| 41| 42| 43|
+----+----+----+
答案 0 :(得分:7)
虽然Spark行为(从False
切换到True
这里令人困惑,但这里没有任何根本错误。nullable
参数不是约束,而是源和类型的反映能够实现某些类型优化的语义
您声明要避免数据中的空值。为此,您应该使用na.drop
方法。
df.na.drop()
有关处理空值的其他方法,请查看DataFrameNaFunctions
(使用DataFrame.na
属性公开)文档。
CSV格式没有提供任何允许您指定数据约束的工具,因此定义读者不能假定输入不为空且您的数据确实包含空值。