在spark数据框pyspark中选择并计算新列

时间:2019-06-27 12:58:08

标签: pyspark

我有一个具有以下格式的spark数据框:

div tag

我想提取 opp_id__reference|oplin_status| stage| std_amount| std_line_amount| +-----------------+------------+--------------------+----------------+----------------+ |OP-171102-67318| Won|7 - Deliver & Val...|6243.316662349|6243.31666234948| |OP-180910-77114| Won|7 - Deliver & Val...|5014.57880858921|5014.57880858921| |OP-180910-76544| Pending|7 - Deliver & Val...|5014.57880858921|5014.57880858921| |OP-180910-76544| Pending|7 - Deliver & Val...|5014.57880858921|5614.57880858921| |OP-180910-76544| Won|7 - Deliver & Val...|5014.57880858921|5994.57880858921| 的列表,该列表具有 oplin_status = “待处理” 的记录的总和大于 std_amount < / strong>

我做过的这件事:

opp_id__reference

我的问题是:我做的正确吗?还有其他更简单的方法吗?

谢谢

0 个答案:

没有答案