“'DataFrame'对象在尝试应用lambda创建新列时没有属性'apply'”

时间:2018-06-04 18:22:45

标签: python pyspark apache-spark-sql pyspark-sql

我的目标是在Pandas DataFrame中添加一个新列,但我面临一个奇怪的错误。

新列应该是现有列的转换,可以在字典/ hashmap中进行查找。

# Loading data
df = sqlContext.read.format(...).load(train_df_path)

# Instanciating the map
some_map = {
    'a': 0, 
    'b': 1,
    'c': 1,
}

# Creating a new column using the map
df['new_column'] = df.apply(lambda row: some_map(row.some_column_name), axis=1)

导致以下错误:

AttributeErrorTraceback (most recent call last)
<ipython-input-12-aeee412b10bf> in <module>()
     25 df= train_df
     26 
---> 27 df['new_column'] = df.apply(lambda row: some_map(row.some_column_name), axis=1)

/usr/lib/spark/python/pyspark/sql/dataframe.py in __getattr__(self, name)
    962         if name not in self.columns:
    963             raise AttributeError(
--> 964                 "'%s' object has no attribute '%s'" % (self.__class__.__name__, name))
    965         jc = self._jdf.apply(name)
    966         return Column(jc)

AttributeError: 'DataFrame' object has no attribute 'apply'

其他可能有用的信息:  *我使用Spark和Python 2。

2 个答案:

答案 0 :(得分:2)

您使用的语法是pandas DataFrame。要为spark DataFrame实现此目的,您应该使用withColumn()方法。这适用于广泛定义良好的DataFrame functions,但对于用户定义的映射函数来说,这有点复杂。

一般案例

要定义udf,您需要指定输出数据类型。例如,如果您要应用返回my_func的函数string,则可以按如下方式创建udf

import pyspark.sql.functions as f
my_udf = f.udf(my_func, StringType())

然后,您可以使用my_udf创建一个新列,如:

df = df.withColumn('new_column', my_udf(f.col("some_column_name")))

另一种选择是使用select

df = df.select("*", my_udf(f.col("some_column_name")).alias("new_column"))

具体问题

使用udf

在您的特定情况下,您希望使用字典来翻译DataFrame的值。

以下是为此目的定义udf的方法:

some_map_udf = f.udf(lambda x: some_map.get(x, None), IntegerType())

请注意,我使用了dict.get(),因为您希望udf对不良输入具有鲁棒性。

df = df.withColumn('new_column', some_map_udf(f.col("some_column_name")))

使用DataFrame功能

有时使用udf是不可避免的,但只要有可能,通常首选使用DataFrame函数。

这是在不使用udf的情况下执行相同操作的一个选项。

诀窍是迭代some_map中的项目以创建pyspark.sql.functions.when()函数列表。

some_map_func = [f.when(f.col("some_column_name") == k, v) for k, v in some_map.items()]
print(some_map_func)
#[Column<CASE WHEN (some_column_name = a) THEN 0 END>,
# Column<CASE WHEN (some_column_name = c) THEN 1 END>,
# Column<CASE WHEN (some_column_name = b) THEN 1 END>]

现在您可以在select:

中使用pyspark.sql.functions.coalesce()
df = df.select("*", f.coalesce(*some_map_func).alias("some_column_name"))

这是有效的,因为如果条件不满足,when()默认返回nullcoalesce()将选择遇到的第一个非空值。由于地图的键是唯一的,因此最多只有一列不为空。

答案 1 :(得分:1)

你有一个火花数据帧,而不是一个pandas数据帧。要向spark数据框添加新列:

import pyspark.sql.functions as F
from pyspark.sql.types import IntegerType
df = df.withColumn('new_column', F.udf(some_map.get, IntegerType())(some_column_name))
df.show()