Python / Pyspark - 如何用平均值替换一些单元格?

时间:2018-01-09 21:24:06

标签: python pyspark spark-dataframe pyspark-sql

我有一个很大的问题,我希望有人可以帮助我。 我想用另一个值替换列中的单元格。

数据框如下所示:

----------------------------------------
|Timestamp           | Item_ID | Price |
----------------------------------------
|2017-05-01 11:05:00 | 12345   | 70    |
|2017-05-01 17:20:00 | 98765   | 10    |
|2017-05-01 11:50:00 | 12345   | 20    |
|2017-05-01 19:50:00 | 12345   | 0     |
|2017-05-01 20:17:00 | 12345   | 0     |
|2017-05-01 22:01:00 | 98765   | 0     |
----------------------------------------

正如您所看到的,随着时间的推移,相同商品的价格会有所不同。 例如,项目“12345”有三个价格:70,20和0 现在我想用其他价格的平均值替换所有“0”。 这样的事情可能吗?

结果应该是: 对于项目12345:(70 + 20)/ 2 = 45 对于项目98765:只有一个价格,所以采取这个。

----------------------------------------
|Timestamp           | Item_ID | Price |
----------------------------------------
|2017-05-01 11:05:00 | 12345   | 70    |
|2017-05-01 17:20:00 | 98765   | 10    |
|2017-05-01 11:50:00 | 12345   | 20    |
|2017-05-01 19:50:00 | 12345   | 45    |
|2017-05-01 20:17:00 | 12345   | 45    |
|2017-05-01 22:01:00 | 98765   | 10    |
----------------------------------------

非常感谢你,祝你有愉快的一天! QWERTZ

1 个答案:

答案 0 :(得分:1)

以下是使用sparkSQL

执行此操作的方法
from StringIO import StringIO
import pandas as pd

# create dummy data
df = pd.DataFrame.from_csv(StringIO("""Timestamp|Item_ID|Price
2017-05-01 11:05:00|12345|70    
2017-05-01 17:20:00|98765|10    
2017-05-01 11:50:00|12345|20    
2017-05-01 19:50:00|12345|0     
2017-05-01 20:17:00|12345|0     
2017-05-01 22:01:00|98765|0""".replace("\s+", '')), sep="|").reset_index()

df['Timestamp'] = df['Timestamp'].astype(str)
spark_df = sqlCtx.createDataFrame(df)

spark_df.registerTempTable('table')
sqlCtx.sql("""SELECT Timestamp,
    l.Item_ID,
    CASE WHEN l.Price > 0 THEN l.Price ELSE r.Price END AS Price
    FROM table l 
    LEFT JOIN (
        SELECT Item_ID,
        AVG(Price) AS Price
        FROM table
        WHERE Price > 0
        GROUP BY Item_ID
    ) r ON l.Item_ID = r.Item_ID""".replace("\n", ' ')
).show()

输出:

+-------------------+-------+-----+
|Timestamp          |Item_ID|Price|
+-------------------+-------+-----+
|2017-05-01 19:50:00|12345  |45.0 |
|2017-05-01 20:17:00|12345  |45.0 |
|2017-05-01 11:05:00|12345  |70.0 |
|2017-05-01 11:50:00|12345  |20.0 |
|2017-05-01 17:20:00|98765  |10.0 |
|2017-05-01 22:01:00|98765  |10.0 |
+-------------------+-------+-----+

<强>解释

通过调用spark_df.registerTempTable('table'),我将spark DataFrame注册为SQLContext(我将其命名为table)中的临时表。我正在运行的查询是使用tableItem_ID加入到自身,但是一方会有聚合(平均)值。然后,我使用CASE语句选择给定值,或者Price0时的汇总值。

我致电.replace("\n", " "),因为不支持换行符(我相信它们会被视为EOF)。这是一种编写可读查询的简便方法,无需将其全部放在一行上。

备注

您所描述的技术是意味着估算。由于这在该领域非常普遍,我不得不相信还有另一种(可能更好的)方法,只使用spark DataFrame函数(避免SQL)。