鉴于以下代码,我试图每月计算浮点列的平均值。
rdd = sc.parallelize(
[['JAN', 'NY', 3.0],
['JAN', 'PA', 1.0],
['JAN', 'NJ', 2.0],
['JAN', 'CT', 4.0],
['FEB', 'PA', 1.0],
['FEB', 'NJ', 1.0],
['FEB', 'NY', 2.0],
['FEB', 'VT', 1.0],
['MAR', 'NJ', 2.0],
['MAR', 'NY', 1.0],
['MAR', 'VT', 2.0],
['MAR', 'PA', 3.0]])
def avg_map(row):
return (row[0], (row[2], 1))
def avg_reduce_func(value1, value2):
return (value1[0], (value1[1][0] + value2[1][0], value1[1][1] + value2[1][1]))
dataset_rdd.map(avg_map_func).reduceByKey(avg_reduce_func).collect()
从较高的角度来看,我试图首先使用map创建以下形式的RDD:
[('JAN', (3.0, 1)),
('JAN', (1.0, 1)),
('JAN', (2.0, 1)),
('JAN', (4.0, 1)),
('FEB', (1.0, 1)),
('FEB', (1.0, 1)),
('FEB', (2.0, 1)),
('FEB', (1.0, 1)),
('MAR', (2.0, 1)),
('MAR', (1.0, 1)),
('MAR', (2.0, 1)),
('MAR', (3.0, 1))]
然后,我想使用reduceByKey函数将它们和浮点数加起来,以创建一个新的RDD,该新RDD每月包含一行,其中一个元组表示浮点数的总数,而一个整数则表示行数。例如,Jan行如下所示:
('Jan',(10.0,4))
但是,我似乎无法正确地索引到元组中,并在reduceByKey函数中遇到运行时错误。
问题1:为什么我无法在avg_reduce_func的元组中建立索引? 问题2:如何重写此代码以计算每月浮点数列的平均值?
答案 0 :(得分:0)
我发现了这一点,当只传递值时,我试图访问avg_reduce_func中的键。我得到以下结果:
def avg_map_func(row):
return (row[0], (row[2], 1))
def avg_reduce_func(value1, value2):
return ((value1[0] + value2[0], value1[1] + value2[1]))
dataset_rdd.map(avg_map_func).reduceByKey(avg_reduce_func).mapValues(lambda x: x[0]/x[1]).collect()
答案 1 :(得分:0)
您是否有使用RDD的特殊原因?
这是直接处理数据帧的方法,并且效率更高:
from pyspark.sql import SparkSession
from pyspark.sql.functions import sum, count
d = [['JAN', 'NY', 3.0],
['JAN', 'PA', 1.0],
['JAN', 'NJ', 2.0],
['JAN', 'CT', 4.0],
['FEB', 'PA', 1.0],
['FEB', 'NJ', 1.0],
['FEB', 'NY', 2.0],
['FEB', 'VT', 1.0],
['MAR', 'NJ', 2.0],
['MAR', 'NY', 1.0],
['MAR', 'VT', 2.0],
['MAR', 'PA', 3.0]]
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame(d).selectExpr(
"_1 as month", "_2 as state", "_3 as float_col")
df.show()
'''
+-----+-----+---------+
|month|state|float_col|
+-----+-----+---------+
| JAN| NY| 3.0|
| JAN| PA| 1.0|
| JAN| NJ| 2.0|
| JAN| CT| 4.0|
| FEB| PA| 1.0|
| FEB| NJ| 1.0|
| FEB| NY| 2.0|
| FEB| VT| 1.0|
| MAR| NJ| 2.0|
| MAR| NY| 1.0|
| MAR| VT| 2.0|
| MAR| PA| 3.0|
+-----+-----+---------+
'''
agg_df = df.groupBy("month").agg(
sum('float_col').alias('float_sum'),
count('month').alias('month_count')
)
agg_df.show()
'''
+-----+---------+-----------+
|month|float_sum|month_count|
+-----+---------+-----------+
| FEB| 5.0| 4|
| JAN| 10.0| 4|
| MAR| 8.0| 4|
+-----+---------+-----------+
'''