复杂的数据框按五分位数选择和排序

时间:2018-01-06 18:43:11

标签: r sorting dataframe

我有一个复杂的数据帧(orig_df)。在25列中,5列是我希望用作分组标准的描述和特征。其余的是时间序列。有成千上万的行。

我在初步分析和数字总结中指出,在一些特定的分组标准中存在与异常值观察有关的重大问题。我使用" group by"并观察这些群体中的五分位数结果。我想消除相对于(基于分组的五分位数)的低和高(个体观察)异常值,以改进决策树和聚类分析。我还想保留异常值以分别分析根本原因。

如何操作数据框,以便将单个观察结果与基于组的五分位结果进行比较,并保存解析(orig_df变为ideal_df和outlier_df)?

1 个答案:

答案 0 :(得分:0)

使用上面的链接Nikos Tavoularis识别异常值后,您可以使用ifelse创建一个新变量,并确定哪些记录是异常值,哪些记录不是异常值。通过这种方式,您可以将数据保存在那里,但是您可以使用此新变量在需要时对其进行排序