在DataFrame中用空/空值替换空字符串

时间:2015-10-22 18:14:53

标签: python apache-spark dataframe apache-spark-sql pyspark

我有Spark 1.5.0 DataFrame混合了null和同一列中的空字符串。我想将所有列中的所有空字符串转换为nullNone,在Python中)。 DataFrame可能有数百列,所以我试图避免对每列进行硬编码操作。

请参阅下面的我的尝试,这会导致错误。

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

## Create a test DataFrame
testDF = sqlContext.createDataFrame([Row(col1='foo', col2=1), Row(col1='', col2=2), Row(col1=None, col2='')])
testDF.show()
## +----+----+
## |col1|col2|
## +----+----+
## | foo|   1|
## |    |   2|
## |null|null|
## +----+----+

## Try to replace an empty string with None/null
testDF.replace('', None).show()
## ValueError: value should be a float, int, long, string, list, or tuple

## A string value of null (obviously) doesn't work...
testDF.replace('', 'null').na.drop(subset='col1').show()
## +----+----+
## |col1|col2|
## +----+----+
## | foo|   1|
## |null|   2|
## +----+----+

6 个答案:

答案 0 :(得分:25)

就这么简单:

from pyspark.sql.functions import col, when

def blank_as_null(x):
    return when(col(x) != "", col(x)).otherwise(None)

dfWithEmptyReplaced = testDF.withColumn("col1", blank_as_null("col1"))

dfWithEmptyReplaced.show()
## +----+----+
## |col1|col2|
## +----+----+
## | foo|   1|
## |null|   2|
## |null|null|
## +----+----+

dfWithEmptyReplaced.na.drop().show()
## +----+----+
## |col1|col2|
## +----+----+
## | foo|   1|
## +----+----+

如果要填充多个列,可以减少:

to_convert = set([...]) # Some set of columns

reduce(lambda df, x: df.withColumn(x, blank_as_null(x)), to_convert, testDF)

或使用理解:

exprs = [
    blank_as_null(x).alias(x) if x in to_convert else x for x in testDF.columns]

testDF.select(*exprs)

如果您想专门操作字符串字段,请the answer查看robin-loxley

答案 1 :(得分:10)

我的解决方案比我到目前为止看到的所有解决方案要好得多,它可以处理你想要的多个字段,请参阅以下小函数:

  // Replace empty Strings with null values
  private def setEmptyToNull(df: DataFrame): DataFrame = {
    val exprs = df.schema.map { f =>
      f.dataType match {
        case StringType => when(length(col(f.name)) === 0, lit(null: String).cast(StringType)).otherwise(col(f.name)).as(f.name)
        case _ => col(f.name)
      }
    }

    df.select(exprs: _*)
  }

您可以轻松地在Python中重写上述功能。

我从@liancheng

学到了这个技巧

答案 2 :(得分:7)

只需添加zero323和soulmachine的答案。转换所有StringType字段。

from pyspark.sql.types import StringType
string_fields = []
for i, f in enumerate(test_df.schema.fields):
    if isinstance(f.dataType, StringType):
        string_fields.append(f.name)

答案 3 :(得分:3)

UDF效率不高。使用内置方法执行此操作的正确方法是:

SELECT  mtrh.request_number             MO_num
,       mfl.meaning                     MO_type
,       mtrl.creation_date              MO_Creation_Date
,       mmt.transaction_date           txn_date
,      round(((mmt.transaction_date - mtrl.creation_date)*24),1) move_time_hrs )
,       msi.segment1                   item_num
,       msi.description
,       mpa.organization_code          org_code
,       mmt.subinventory_code          from_subinv
,       milk.concatenated_segments     from_loc
,       mmt.transaction_quantity       txn_qty
,       mtt.transaction_type_name      txn_type
,       mmt.transfer_subinventory      to_subinv
FROM    mtl_item_locations_kfv         milk
,       mfg_lookups                    mfl
,       mtl_parameters                 mpa

答案 4 :(得分:0)

如果您使用的是 python,您可以检查以下内容。


+----+-----+----+
|  id| name| age|
+----+-----+----+
|null|name1|  50|
|   2|     |    |
|    |name3|null|
+----+-----+----+

def convertToNull(dfa):
   for i in dfa.columns:
    dfa = dfa.withColumn(i , when(col(i) == '', None ).otherwise(col(i)))
  return dfa

convertToNull(dfa).show()

+----+-----+----+
|  id| name| age|
+----+-----+----+
|null|name1|  50|
|   2| null|null|
|null|name3|null|
+----+-----+----+

答案 5 :(得分:-1)

这是soulmachine解决方案的另一种版本,但我认为您不能轻易将其转换为Python:

def emptyStringsToNone(df: DataFrame): DataFrame = {
  df.schema.foldLeft(df)(
    (current, field) =>
      field.dataType match {
        case DataTypes.StringType =>
          current.withColumn(
            field.name,
            when(length(col(field.name)) === 0, lit(null: String)).otherwise(col(field.name))
          )
        case _ => current
      }
  )
}