如何从平均数据集中删除错误数据(过冲或下冲)?

时间:2019-05-17 04:43:22

标签: dataframe machine-learning filtering

我从实验中获得了5000 x 25矩阵数据集,但是由于多种实验条件,可能会有一些错误。因此,我将for循环用于与平均数据集相比的错误数据过滤。

我做了一个for循环

def error_data_1(y_data1):
    error_data = pd.DataFrame()
    for j in (1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25):
        for i in y_data1.index:
              if y_data1.index[i, j] < 2:
                   c = pd.DataFrame(y_data1.index[i]).T
                   y_data1 = y_data1.drop(i, 0)
   return y_data1, error_data

以便我可以手动将控制点设置为设置1或2。 但这比每个数据点的平均值要好得多。

因此,我已通过将所有列组件的总和除以行数来创建一个平均矩阵。我想删除错误数据,该数据不在平均数据的+-95%范围内。

有什么方法可以比较两个不同的数据帧以按比例消除错误?

谢谢

0 个答案:

没有答案