假设我们有来自正态分布的大样本,其中未知均值和方差。假设我们从未知分布中随机“注入”此样本噪声数据点。
我如何健壮符合此样本的Normal分布并使用它来检测这些异常值?
E.g。
# 1000 N(0,1) points
mu, sigma = 0, 1
sample = np.random.normal(mu, sigma, 1000)
# Random contamination every 10 points:
mu, sigma = 100, 1
sample[::10] = np.random.normal(mu, sigma, 100)
# Robust estimation (?)
mu_estimate, sigma_estimate = robust_estimation(sample)
scipy
或statsmodels
是否有任何方法可以帮助解决此问题?