Question

我有订单

我有OrderLine：

我想显示哪种产品销售最多。

我想对订单行中状态为“完成”的每个数量进行求和

查看数据，我们仅看到orderID = 3具有orderstatus = Completed，因此我们只希望OrderLine的{{1}}-OrderID = 3和{{1 }}。

因此我们的预期结果将是OrderLineID = 6和OrderLineID = 7，如下所示：

ProductID | OrderLineQuantity

------- 1 ----- | ---------- 11 -----------

到目前为止，我的代码产生一个错误：

选择列表中的'OrderLine.ProductID'列无效，因为它既不包含在聚合函数中也不在GROUP BY子句中。

我的代码：

ProductID 1

Answer 1

您需要先df = df doubledDF = df for col in df.columns: doubledDF = doubledDF.withColumn(col+"1dup", df[col])来解决语法问题，然后再进行其他操作以获得最佳产品：

GROUP BY