我想知道如何使用R生成OUTLIER-FREE数据。 我使用RNORM生成数据。
说我有一个线性方程式
Y = B0 + B1*X + E, where X~N(5,9) and E~N(0,1).
我将在生成X和E时使用RNORM。 以下是使用的代码:
X <- rnorm(50,5,3) #I'm generating 50 Xi's w/ mean=5 & var=9
E <- rnorm(50,0,1) #I'm generating 50 residuals w/ mean=0 & var=1
现在,我将通过在X&amp; amp;上插入生成的数据来生成Y. E在线性方程中如上所述。
如果我上面生成的数据没有离群值(没有影响的观察),那么Cook的观察距离不应超过4 / n,这是检测有影响的/通常的截止值。外围观察。
但到目前为止我还没有能够得到这个。一旦我按照这个程序生成数据,我仍然会得到异常值。
你可以帮我解决这个问题吗?您知道如何生成无OUTLIER的数据吗?非常感谢!
答案 0 :(得分:0)
嗯,一种方法是通过查找超过某个截止值的生成点来检测和删除这些异常值。当然这会伤害&#34;随机性&#34;在您生成的数据中,但您对无异常值数据的请求意味着根据定义。可能,减少X的方差也会有所帮助。