如何仅对那些显示正斜率的数据进行子集化

时间:2013-04-16 17:36:00

标签: subset

我正在尝试评估两个变量之间的相关性,但我的原始数据有很多背景噪音,我需要摆脱它。特别是,我只想保留显示正斜率的数据部分。我如何摆脱其他一切?

1 个答案:

答案 0 :(得分:0)

我假设您的数据包含一些异常值,这些异常值与您感兴趣的数据点的数量非常不同,这些就是您所指的" noise"。记住这个假设我会:

a)完全从我的数据中删除它们,注意原因(这可能需要一些调查)。

b)添加一个名为soemthing的变量,如" Outlier"并为异常值赋值1,其他值为0.然后,您可以对分析进行分层或根据此变量过滤数据。同样,您需要注意为什么您认为标记为异常值的那些不是主要数据点的一部分。