应用错误收集

在spark数据框pyspark中选择并计算新列

时间：2019-06-27 12:58:08

标签： pyspark

我有一个具有以下格式的spark数据框：

div tag

我想提取opp_id__reference|oplin_status| stage| std_amount| std_line_amount| +-----------------+------------+--------------------+----------------+----------------+ |OP-171102-67318| Won|7 - Deliver & Val...|6243.316662349|6243.31666234948| |OP-180910-77114| Won|7 - Deliver & Val...|5014.57880858921|5014.57880858921| |OP-180910-76544| Pending|7 - Deliver & Val...|5014.57880858921|5014.57880858921| |OP-180910-76544| Pending|7 - Deliver & Val...|5014.57880858921|5614.57880858921| |OP-180910-76544| Won|7 - Deliver & Val...|5014.57880858921|5994.57880858921|的列表，该列表具有 oplin_status = “待处理” 的记录的总和大于 std_amount < / strong>

我做过的这件事：

opp_id__reference

我的问题是：我做的正确吗？还有其他更简单的方法吗？

谢谢

0 个答案:

没有答案

相关问题

在PySpark数据帧中将列和添加为新列

计算每行并在DataFrame PySpark中添加新列 - 更好的解决方案？

从数据框中的日期时差中导出列值，并将其输入另一列

Pyspark Dataframe取列中的列表的平均值并创建具有1＆amp;的新列。 0取决于条件

拆分pyspark数据帧列的内容并将它们聚合到新列中

使用Pyspark将Arraylist值添加到Spark Dataframe中的新列

PYSPARK创建新专栏

转换列并更新DataFrame

通过基于条件连接另一列的值来创建新的pyspark DataFrame列

在spark数据框pyspark中选择并计算新列

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？