在pyspark中,如何通过一列数据框循环过滤功能?

时间:2017-05-02 00:19:02

标签: python pyspark udf

这是我的数据:

**name** **movie**
jason        a
jason        b
jason        c
mike         a
mike         b
bruce        a
bruce        c
ryan         b

我的目标是制作这个

**name** **# of moive**
jason       a,b,c
mike         a,b
bruce        a,c
ryan          b

我正在使用pyspark并尝试使用UDF来完成此工作。我定义了这个函数并且spark给了我一个错误,因为它调用了基本函数' filter',这使得启动一个新工作者出现问题(如果没有,请纠正我)。

我的逻辑首先使用过滤器来制作子集,然后行数就是电影的数量。在此之后,我使用此UDF创建了一个新列。

def udf(user_name):
    return df.filter(df['name'] == user_name).select('movie').dropDuplictes()\
                                    .toPandas['movie'].tolist()

df.withColumn('movie_number', udf(df['name']))

但它没有用。有没有办法用基本的火花函数制作UDF?

所以我将名称列放入列表并循环遍历列表,但它超级慢我相信这样我没有进行分布式计算。

1)我的首要任务是弄清楚如何使用spark_df.filter等基本功能在pyspark数据帧的一列中循环信息。

2)我们可以先将名称列放入RDD,然后使用我的UDF循环遍历该RDD,那么可以利用分布式计算吗?

3)如果我有2个具有相同结构(名称/电影)的表,但是对于不同的年份,如2005年和2007年,我们可以有效地制作第三个表格,其结构如下:

**name** **movie** **in_2005** **in_2007** 
jason        a          1           0
jason        b          0           1
jason        c          1           1
mike         a          0           1
mike         b          1           0
bruce        a          0           0
bruce        c          1           1
ryan         b          1           0

1和0表示这个人是否在2005/2007年对该电影发表评论。在这种情况下,原始表格将是:

2005:

**name** **movie**
jason        a
jason        c
mike         b
bruce        c
ryan         b

2007

**name** **movie**
jason        b
jason        c
mike         a
bruce        c

我的想法是将这两张桌子和一年一起连成一起。列,并使用数据透视表来获得所需的结构。

1 个答案:

答案 0 :(得分:0)

我建议使用groupby跟随collect_list,而不是将整个数据框转换为RDD。您可以在之后应用UDF。

import pyspark.sql.functions as func

# toy example dataframe
ls = [
    ['jason', 'movie_1'],
    ['jason', 'movie_2'],
    ['jason', 'movie_3'],
    ['mike', 'movie_1'],
    ['mike', 'movie_2'],
    ['bruce', 'movie_1'],
    ['bruce', 'movie_3'],
    ['ryan', 'movie_2']
]
df = spark.createDataFrame(pd.DataFrame(ls, columns=['name', 'movie']))

df_movie = df.groupby('name').agg(func.collect_list(func.col('movie')))

现在,这是创建udf来处理新列movies的示例。我只是举例说明如何计算每一行的长度。

def movie_len(movies):
    return len(movies)
udf_movie_len = func.udf(movie_len, returnType=StringType())

df_movie.select('name', 'movies', udf_movie_len(func.col('movies')).alias('n_movies')).show()

这将给出:

+-----+--------------------+--------+
| name|              movies|n_movies|
+-----+--------------------+--------+
|jason|[movie_1, movie_2...|       3|
| ryan|           [movie_2]|       1|
|bruce|  [movie_1, movie_3]|       2|
| mike|  [movie_1, movie_2]|       2|
+-----+--------------------+--------+