使用python按组查找置信区间

时间:2018-11-19 13:18:44

标签: python pandas

我想用汽车的模型及其相对价格来检测数据集中的异常值。

lower_bound=0.01
upper_bound=0.99
for i in df.MODEL_DESCRIPTION:
   res=df.where(df.MODEL_DESCRIPTION==i).\
   DOCUMENT_AMOUNT_TOTAL.quantile([lower_bound, upper_bound])
   print(i, res)

通过这种方式,我为每个模型设置了整个数据帧的间隔,但是我想针对每个模型执行此distinct()。我尝试使用pandas的窗口(pySpark)或过滤功能,但没有成功。预先感谢您的帮助!

数据集示例:

  MODEL 7   78176,6
  MODEL 7   92830,86
  MODEL 7   67974,44
  MODEL 3   29951,43
  MODEL 7   71384,22
  MODEL 11  30137,76
  MODEL 2   37135,35
  MODEL 11  40526,74

0 个答案:

没有答案