数据框中的pyspark数学计算

时间:2016-11-10 05:48:42

标签: python-2.7 apache-spark pyspark pyspark-sql bigdata

我从更大的Dataframe中提取了一个Dataframe,现在我需要在数据帧中进行简单的计算,如加法和除法。 示例数据框就像。

项目计数

z 23156

x 15462

我需要做的是将x除以x和z之和

例如

value = x / x + z

谢谢。

1 个答案:

答案 0 :(得分:2)

您必须计算x的总和,然后将x除以sum(x)+ sum(y)

例如:

表1(原始表):

  

x z

     

1 2

     

3 4

表2(汇总表):

table2 = sqlCtx.sql("select sum(x) + sum(z) as sum_xz")
table2.registerTempTable("table2")
  

sum_xz

     

10

然后加入两个表并划分

table3 = sqlCtx.sql("select a.x / bs.um_xz from table1 a join table2 b")

供您参考。