评估基于标准偏差产生噪声的想法

时间:2019-01-27 14:25:07

标签: statistics data-science noise

我使用这种方法生成综合数据集:

import numpy as np
import random

def generate_dataset(size, dim):

    dataset = [random.randint(0, 2 ** dim) for _ in range(size)]

    # Removes duplicates
    dataset = list(set(dataset))

    return dataset

如您所见,数据点是根据[0 - 2^dim]随机生成的。对于此方法生成的任何数据集,我都想添加噪声。现在,我正在考虑一种简单的方法,但是我不确定它在逻辑上是否正确,所以这里是:

  1. 从生成的数据集中找到数据点的标准偏差。
  2. 生成不在此标准偏差范围内的新数据点。
  3. 将它们添加到原始数据集中,然后随机播放。

这种产生声音的方式吗?

谢谢。

1 个答案:

答案 0 :(得分:0)

似乎您正在创建异常值。对我来说,噪声更像是向数据点添加一个小数字(+/-数字)。例如,您今天走了几步?可能是100,但某些跟踪设备的读数可能是95或110。两者之间的差异就是噪音。

不确定这是否有帮助。