我想用汽车的模型及其相对价格来检测数据集中的异常值。
lower_bound=0.01
upper_bound=0.99
for i in df.MODEL_DESCRIPTION:
res=df.where(df.MODEL_DESCRIPTION==i).\
DOCUMENT_AMOUNT_TOTAL.quantile([lower_bound, upper_bound])
print(i, res)
通过这种方式,我为每个模型设置了整个数据帧的间隔,但是我想针对每个模型执行此distinct()。我尝试使用pandas的窗口(pySpark)或过滤功能,但没有成功。预先感谢您的帮助!
数据集示例:
MODEL 7 78176,6
MODEL 7 92830,86
MODEL 7 67974,44
MODEL 3 29951,43
MODEL 7 71384,22
MODEL 11 30137,76
MODEL 2 37135,35
MODEL 11 40526,74