我有订单
我有OrderLine:
我想显示哪种产品销售最多。
我想对订单行中状态为“完成”的每个数量进行求和
查看数据,我们仅看到orderID = 3
具有orderstatus = Completed
,因此我们只希望OrderLine
的{{1}}-OrderID = 3
和{{1 }}。
因此我们的预期结果将是OrderLineID = 6
和OrderLineID = 7
,如下所示:
ProductID | OrderLineQuantity
------- 1 ----- | ---------- 11 -----------
到目前为止,我的代码产生一个错误:
选择列表中的'OrderLine.ProductID'列无效,因为它既不包含在聚合函数中也不在GROUP BY子句中。
我的代码:
ProductID 1
答案 0 :(得分:3)
您需要先df = df
doubledDF = df
for col in df.columns:
doubledDF = doubledDF.withColumn(col+"1dup", df[col])
来解决语法问题,然后再进行其他操作以获得最佳产品:
GROUP BY